Reclame AQUI logo

Data Engineer Pleno

Reclame AQUI
4 days ago
Remote
Brazil
Web Development

Sobre o Desafio
Sua missão será garantir a disponibilidade, qualidade e performance dos dados que alimentam a maior plataforma reputacional do mundo. Você será um pilar técnico na migração e evolução da nossa plataforma de dados, construindo pipelines escaláveis utilizando PySpark no GKE (Kubernetes) e assegurando que nossa Arquitetura Medalhão seja eficiente, confiável e pronta para suportar o crescimento do negócio.

Responsabilidades e Atribuições

  • Desenvolvimento de Pipelines: Escrever código PySpark limpo e pronto para produção, garantindo que os fluxos de dados sejam estáveis, testáveis e de fácil manutenção.
  • Arquitetura Medalhão: Operar, manter e otimizar as camadas de dados (Bronze, Silver e Gold), garantindo a integridade desde a ingestão bruta até o consumo final no BigQuery.
  • Modernização & Cloud: Atuar ativamente na migração de legados e na evolução da infraestrutura para soluções nativas em Google Cloud (GCP).
  • Orquestração: Gerenciar e monitorar fluxos de trabalho no Cloud Composer (Airflow), assegurando a pontualidade e a resiliência das cargas.
  • Qualidade de Dados: Implementar validações e práticas de governança para garantir que o dado entregue seja o "único ponto da verdade".
  • Escalabilidade: Trabalhar com workloads conteinerizados no Kubernetes (GKE), focando em eficiência computacional e performance.

Requisitos

  • Domínio de Python & PySpark: Experiência no desenvolvimento de processos de ETL/ELT distribuídos e processamento de grandes volumes de dados.
  • Ecossistema GCP: Conhecimento prático em BigQueryCloud Storage e Cloud Composer.
  • Containers & Kubernetes: Experiência prática com Docker e GKE para execução de jobs de dados.
  • SQL Avançado: Capacidade de realizar transformações complexas, análise de planos de execução e otimização de consultas.
  • Modelagem de Dados: Entendimento de conceitos de Data Lake e Data Warehouse.

Diferenciais

  • Conhecimento em ferramentas de Infrastructure as Code (Terraform).
  • Experiência com ferramentas de Data Quality (Great Expectations, Soda, etc.).
  • Familiaridade com práticas de CI/CD para engenharia de dados.