Modernização de Data Lake: Migração de Azure Databricks para AWS Glue e S3

A modernização do Data Lake da Iguá por meio da migração de Azure Databricks para AWS Glue e S3 permitiu a redução de custos de ociosidade de hardware à empresa.

Fine-tuning de LLMs para personalizar modelos de IA

Desafio

O cliente enfrentava desafios com uma plataforma de dados legada implementada em Azure Databricks que carecia de documentação técnica efetiva e processos claros. A falta de visibilidade sobre a implementação dificultava a manutenção e a escalabilidade. O objetivo central era migrar toda a carga de trabalho e processos para uma arquitetura moderna e documentada na AWS.

Solução

A solução proposta baseou-se em uma arquitetura de Data Lake serverless centrada no Amazon S3 e AWS Glue:

  • Storage (S3): Estruturação de buckets em camadas: Stage (dados brutos do SharePoint), Raw (dados em formato Parquet) e Processed (dados prontos para consumo).
  • Compute & ETL (AWS Glue): Utilização de Glue ETL Jobs e Notebooks PySpark para processamento de dados e automação de 30 workflows de extração.
  • Analytics (AWS Athena): Criação de um catálogo de dados com 100 tabelas para permitir consultas SQL rápidas pelas áreas de negócio.

Resultados

  • Migração bem-sucedida de 14 GB de dados processados.
  • Implementação de 30 jobs automatizados para coleta de dados do SharePoint.
  • Entrega de 100 tabelas de negócio no AWS Athena, prontas para consumo.
  • Documentação técnica completa de todos os novos fluxos de dados e topologia.

Describe TCO Analysis Performed: A migração visou a redução do Custo Total de Propriedade (TCO) ao substituir uma infraestrutura de clusters do Databricks por serviços serverless (Glue e Athena). Isso permite que a Iguá pague apenas pelo processamento utilizado nas janelas de ETL e pelo volume de dados consultados, eliminando custos de ociosidade de hardware.

 

Lições Aprendidas

  1. Documentação é Ativo Estratégico: A ausência de documentação no ambiente legado foi o maior obstáculo inicial, reforçando a necessidade de registros técnicos detalhados desde o dia 1.
  2. Padronização: O alinhamento precoce sobre nomenclaturas e estruturas de buckets S3 facilitou a organização das camadas do Data Lake.
  3. Dependências de Terceiros: A integração com fontes externas (SharePoint) exige validação constante de credenciais e permissões para evitar interrupções nos jobs de ETL.

Veja mais cases