Ingestão de Baixa Latência com Datastream
Criação de um pipeline de replicação de dados near real-time com redução de 98% em custos.
Contexto
Desenvolvimento de uma arquitetura de ingestão de dados via Change Data Capture (CDC) para replicar dados de um banco transacional (MySQL) para um ambiente analítico (BigQuery) de forma confiável, rápida e econômica.
Problema
A metodologia anterior gerava alto consumo de recursos do banco de dados transacional, além de custos elevados no processamento.
Havia perda de dados durante o processo, comprometendo a confiabilidade da informação.
O tempo de replicação era alto para tabelas volumosas, inviabilizando análises com dados recentes.
Solução e Contribuição
- Projetei e implementei uma solução nativa na Google Cloud, utilizando Datastream, Cloud Storage, Composer (Airflow) e BigQuery.
- Configurei a captura de logs binários via CDC, exportando os dados em formato Avro para o Cloud Storage.
- Desenhei uma arquitetura em camadas — External Tables, Streaming Views e Raw Tables — garantindo acesso aos dados em tempo real e lotes otimizados para análises.
Diagrama de alto nível da arquitetura da solução do Ingestão de Baixa Latência com Datastream
Resultados e Impactos
- Redução de 98% nos custos de replicação de dados.
- Disponibilização dos dados para análise em minutos (near real-time), em vez de horas.
- Criação de uma arquitetura de ingestão modular, escalável e replicável para múltiplos clientes SaaS.
Tecnologias utilizadas
Detalhes técnicos
Arquitetura de Tabelas Externas e Views
O Datastream grava os arquivos Avro diretamente no Cloud Storage. O BigQuery referencia esses arquivos por meio de Tabelas Externas (de D-2 até o dia corrente), sobre as quais é construída uma View que captura os registros mais recentes. Essa abordagem permite consultar dados atualizados em até 2 minutos, sem custo de processamento até o momento da leitura real. Por fim, um merge select transfere os dados para Raw Tables particionadas e clusterizadas, otimizando custos e desempenho de consultas. Toda a orquestração do pipeline é realizada via DAG no Cloud Composer (Airflow).