Jeitto logo

Site Reliability Engineer Pleno

Jeitto
2 days ago
Remote
Brazil
Automation

Há mais de 11 anos, desafiamos o mercado financeiro com soluções acessíveis e inovadoras. Aprovamos até 2x mais que outros players, com tecnologia que combina mais de 400 fatores para oferecer crédito rápido e sem complicação, usando só CPF e celular.
No Jeitto, dar um jeito é pra hoje. Temos urgência porque nosso cliente tem urgência. É por isso que buscamos, todo dia, dar um jeito pra que quem faz muito com pouco continue fazendo mais e melhor sempre.

A área de SRE é responsável por garantir a confiabilidade, disponibilidade e resiliência dos sistemas do Jeitto, atuando de forma proativa na prevenção de incidentes e na rápida recuperação de falhas.

Essa posição oferece a oportunidade de atuar diretamente na confiabilidade e evolução das plataformas de engenharia, com autonomia para implementar melhorias e contribuir ativamente para a estabilidade dos sistemas. É um papel que combina operação e evolução contínua, permitindo ao profissional desenvolver práticas modernas de SRE enquanto gera impacto direto na experiência dos usuários e na eficiência dos times.

Os principais desafios envolvem atuar em ambientes distribuídos e de alta criticidade, participar da resolução de incidentes complexos, contribuir para a automação de processos e ajudar na construção de uma cultura sólida de confiabilidade e boas práticas de engenharia.

O que você vai fazer por aqui:

  • Implementar e evoluir práticas de confiabilidade baseadas em SLIs, SLOs e SLAs, contribuindo para o alinhamento entre qualidade de serviço e velocidade de entrega;
  • Atuar na implementação e evolução de práticas de observabilidade (métricas, logs e traces distribuídos), seguindo padrões e boas práticas da organização;
  • Contribuir para a automação de infraestrutura e pipelines (CI/CD), promovendo o uso de infraestrutura como código (IaC) e reduzindo esforço operacional manual;
  • Atuar no diagnóstico e resolução de incidentes, participando de análises de causa raiz (RCA) e propondo melhorias para evitar recorrência;
  • Apoiar a evolução de arquiteturas resilientes e escaláveis em ambientes cloud (AWS, GCP ou Azure), considerando boas práticas de disponibilidade e custo;
  • Colaborar com times de engenharia em decisões técnicas relacionadas à arquitetura, performance e confiabilidade de sistemas distribuídos;
  • Implementar práticas de engenharia de resiliência, incluindo testes de carga e validação de falhas controladas;
  • Acompanhar e analisar métricas de engenharia (como disponibilidade, latência e erro), contribuindo para direcionar melhorias contínuas;
  • Atuar de forma colaborativa com times de Engenharia, Produto, Segurança e Arquitetura, garantindo integração entre soluções;
  • Contribuir para a disseminação de boas práticas de SRE e cultura de confiabilidade no time;
  • Identificar e implementar melhorias para redução de toil (trabalho operacional repetitivo), aumentando a eficiência do time.

O que buscamos em você:

  • Experiência atuando como SRE, DevOps ou Software Engineer em ambientes de alta escala e criticidade;
  • Conhecimento em pelo menos uma linguagem de programação (Python, Go, Java ou similares) aplicada à automação ou desenvolvimento de ferramentas;
  • Experiência prática na definição e gestão de SLIs, SLOs, SLAs e error budgets orientando decisões de engenharia;
  • Experiência com cloud computing (AWS, GCP ou Azure) em ambientes produtivos complexos;
  • Experiência com Kubernetes em produção, incluindo troubleshooting, scaling e operação de workloads críticos;
  • Domínio de observabilidade (métricas, logs e traces distribuídos) com ferramentas como Datadog, Prometheus, Grafana, ELK, ou OpenTelemetry;
  • Experiência com infraestrutura como código (Terraform, Ansible ou similares) e automação de ambientes;
  • Experiência com construção e evolução de pipelines CI/CD e práticas de engenharia de entrega contínua;
  • Experiência com práticas de resiliência, gestão de incidentes e análise de causa raiz (RCA);
  • Forte capacidade analítica e orientação a dados para tomada de decisão baseada em métricas de confiabilidade;
  • Experiência atuando de forma colaborativa com múltiplos times (engenharia, segurança, arquitetura);
  • Boa comunicação e habilidade de influenciar decisões técnica;
  • Ensino Superior em Tecnologia.

Vai ser um diferencial se você tiver:

  • Experiência com Datadog;
  • Inglês Intermediário;
  • Certificações de Cloud ou Kubernetes;
  • Já ter atuado como desenvolvedor.

Aviso de PrivacidadeO Jeitto trata os dados pessoais enviados nesta candidatura exclusivamente para fins de recrutamento e seleção, conforme a LGPD. Ao se candidatar, você concorda com o processamento dos seus dados para análise de perfil e comunicações pertinentes ao processo. Dúvidas? Você pode contatar o canal oficial de privacidade do Jeitto:  privacidade@jeitto.com.br