Modernização de Data Lake: Migração de Azure Databricks para AWS Glue e S3

Desafio

O cliente enfrentava desafios com uma plataforma de dados legada implementada em Azure Databricks que carecia de documentação técnica efetiva e processos claros. A falta de visibilidade sobre a implementação dificultava a manutenção e a escalabilidade. O objetivo central era migrar toda a carga de trabalho e processos para uma arquitetura moderna e documentada na AWS.

Solução

A solução proposta baseou-se em uma arquitetura de Data Lake serverless centrada no Amazon S3 e AWS Glue:

Storage (S3): Estruturação de buckets em camadas: Stage (dados brutos do SharePoint), Raw (dados em formato Parquet) e Processed (dados prontos para consumo).

Compute & ETL (AWS Glue): Utilização de Glue ETL Jobs e Notebooks PySpark para processamento de dados e automação de 30 workflows de extração.

Analytics (AWS Athena): Criação de um catálogo de dados com 100 tabelas para permitir consultas SQL rápidas pelas áreas de negócio.

Resultados

Migração bem-sucedida de 14 GB de dados processados.

Implementação de 30 jobs automatizados para coleta de dados do SharePoint.

Entrega de 100 tabelas de negócio no AWS Athena, prontas para consumo.

Documentação técnica completa de todos os novos fluxos de dados e topologia.

Describe TCO Analysis Performed: A migração visou a redução do Custo Total de Propriedade (TCO) ao substituir uma infraestrutura de clusters do Databricks por serviços serverless (Glue e Athena). Isso permite que a Iguá pague apenas pelo processamento utilizado nas janelas de ETL e pelo volume de dados consultados, eliminando custos de ociosidade de hardware.

Lições Aprendidas

Documentação é Ativo Estratégico: A ausência de documentação no ambiente legado foi o maior obstáculo inicial, reforçando a necessidade de registros técnicos detalhados desde o dia 1.

Padronização: O alinhamento precoce sobre nomenclaturas e estruturas de buckets S3 facilitou a organização das camadas do Data Lake.

Dependências de Terceiros: A integração com fontes externas (SharePoint) exige validação constante de credenciais e permissões para evitar interrupções nos jobs de ETL.

Modernização de Data Lake: Migração de Azure Databricks para AWS Glue e S3

A modernização do Data Lake da Iguá por meio da migração de Azure Databricks para AWS Glue e S3 permitiu a redução de custos de ociosidade de hardware à empresa.

Desafio

Solução

Resultados

Lições Aprendidas

Veja mais cases

Com Agentic AI Dedalus promove agilidade operacional no agronegócio

Dedalus potencializa o atendimento ao cliente com solução de IA Agentic

Arquitetura Multi-Account na AWS garante segurança e escalabilidade

Assine nossa Newsletter