Sobre o Desafio
Sua missão será garantir a disponibilidade, qualidade e performance dos dados que alimentam a maior plataforma reputacional do mundo. Você será um pilar técnico na migração e evolução da nossa plataforma de dados, construindo pipelines escaláveis utilizando PySpark no GKE (Kubernetes) e assegurando que nossa Arquitetura Medalhão seja eficiente, confiável e pronta para suportar o crescimento do negócio.
Responsabilidades e Atribuições
- Desenvolvimento de Pipelines: Escrever código PySpark limpo e pronto para produção, garantindo que os fluxos de dados sejam estáveis, testáveis e de fácil manutenção.
- Arquitetura Medalhão: Operar, manter e otimizar as camadas de dados (Bronze, Silver e Gold), garantindo a integridade desde a ingestão bruta até o consumo final no BigQuery.
- Modernização & Cloud: Atuar ativamente na migração de legados e na evolução da infraestrutura para soluções nativas em Google Cloud (GCP).
- Orquestração: Gerenciar e monitorar fluxos de trabalho no Cloud Composer (Airflow), assegurando a pontualidade e a resiliência das cargas.
- Qualidade de Dados: Implementar validações e práticas de governança para garantir que o dado entregue seja o "único ponto da verdade".
- Escalabilidade: Trabalhar com workloads conteinerizados no Kubernetes (GKE), focando em eficiência computacional e performance.
Requisitos
- Domínio de Python & PySpark: Experiência no desenvolvimento de processos de ETL/ELT distribuídos e processamento de grandes volumes de dados.
- Ecossistema GCP: Conhecimento prático em BigQuery, Cloud Storage e Cloud Composer.
- Containers & Kubernetes: Experiência prática com Docker e GKE para execução de jobs de dados.
- SQL Avançado: Capacidade de realizar transformações complexas, análise de planos de execução e otimização de consultas.
- Modelagem de Dados: Entendimento de conceitos de Data Lake e Data Warehouse.
Diferenciais
- Conhecimento em ferramentas de Infrastructure as Code (Terraform).
- Experiência com ferramentas de Data Quality (Great Expectations, Soda, etc.).
- Familiaridade com práticas de CI/CD para engenharia de dados.