Jeitto logo

Site Reliability Engineer Pleno - Foco em Observabilidade

Jeitto
2 days ago
Remote
Brazil
Automation

Há mais de 11 anos, desafiamos o mercado financeiro com soluções acessíveis e inovadoras. Aprovamos até 2x mais que outros players, com tecnologia que combina mais de 400 fatores para oferecer crédito rápido e sem complicação, usando só CPF e celular.
No Jeitto, dar um jeito é pra hoje. Temos urgência porque nosso cliente tem urgência. É por isso que buscamos, todo dia, dar um jeito pra que quem faz muito com pouco continue fazendo mais e melhor sempre.

A área de SRE é responsável por garantir a confiabilidade, disponibilidade e resiliência dos sistemas do Jeitto, atuando de forma proativa na prevenção de incidentes e na rápida recuperação de falhas.

A posição de SRE (foco em Observabilidade) é responsável por garantir a visibilidade, monitoramento e análise do comportamento dos sistemas em produção, trazendo maior confiabilidade, redução de incidentes e melhoria contínua da experiência do usuário, com impactos diretos para o negócio.

Essa posição oferece a oportunidade de atuar de forma estratégica na evolução da observabilidade e confiabilidade das plataformas de engenharia, com alto nível de autonomia e influência sobre decisões técnicas. É um papel voltado não só à operação, mas principalmente à construção e evolução de práticas modernas de SRE, com impacto direto na experiência dos usuários e na eficiência dos times.

O que você vai fazer por aqui:

  • Implementar e evoluir soluções de observabilidade (métricas, logs e traces distribuídos), garantindo visibilidade ponta a ponta dos sistemas em produção;
  • Definir, implementar e manter SLIs e SLOs, assegurando a mensuração adequada da saúde e desempenho dos serviços;
  • Desenvolver e aprimorar dashboards, alertas e painéis operacionais, garantindo monitoramento eficaz e redução de alertas ruidosos;
  • Atuar na instrumentação de aplicações e serviços, apoiando times de engenharia na adoção de boas práticas de observabilidade (ex: tracing distribuído, logs estruturados e métricas de negócio);
  • Contribuir para a padronização de ferramentas, bibliotecas e práticas de observabilidade, promovendo consistência entre sistemas;
  • Atuar na detecção, análise e resposta a incidentes, utilizando dados de observabilidade para diagnóstico rápido e preciso;
  • Participar de análises de causa raiz (RCA), propondo melhorias baseadas em dados para prevenir recorrência de incidentes;
  • Coletar, analisar e correlacionar dados de telemetria (métricas, logs e traces), gerando insights acionáveis para melhoria de performance e confiabilidade;
  • Apoiar a implementação de testes de carga e resiliência, utilizando observabilidade para avaliar comportamento e identificar gargalos;
  • Trabalhar de forma colaborativa com times de Engenharia, Produto e Arquitetura, garantindo que novas soluções já nasçam com padrões adequados de observabilidade;
  • Identificar e implementar melhorias para redução de toil relacionado a monitoramento e operação de sistemas;
  • Contribuir para a disseminação da cultura de observabilidade, apoiando outros engenheiros na adoção de boas práticas e ferramentas.

O que buscamos em você:

  • Experiência prática atuando como SRE, DevOps ou Software Engineer em ambientes distribuídos e com requisitos de confiabilidade;
  • Experiência com definição e acompanhamento de SLIs e SLOs, contribuindo para a melhoria da confiabilidade dos sistemas;
  • Experiência com cloud computing (AWS, GCP ou Azure), atuando em ambientes produtivos;
  • Experiência com Kubernetes em produção, incluindo monitoramento, troubleshooting e operação de workloads;
  • Domínio de observabilidade (métricas, logs e traces distribuídos), com experiência em ferramentas como Datadog, Prometheus, Grafana, ELK ou OpenTelemetry;
  • Experiência com instrumentação de aplicações e coleta de telemetria, garantindo visibilidade adequada dos sistemas;
  • Experiência com infraestrutura como código (Terraform, Ansible ou similares) e automação de ambientes;
  • Experiência com pipelines CI/CD e práticas de entrega contínua;
  • Experiência com análise de incidentes e participação em processos de RCA (análise de causa raiz);
  • Capacidade analítica e orientação a dados para suporte à tomada de decisão com base em métricas;
  • Experiência em trabalho colaborativo com times de engenharia, produto e arquitetura;
  • Boa comunicação e capacidade de colaborar em decisões técnicas;
  • Cursando ensino superior em Tecnologia.

Vai ser um diferencial se você tiver:

  • Experiência com Datadog;
  • Inglês Avançado;
  • Certificações de Datadog ou ferramentas similares.

Aviso de PrivacidadeO Jeitto trata os dados pessoais enviados nesta candidatura exclusivamente para fins de recrutamento e seleção, conforme a LGPD. Ao se candidatar, você concorda com o processamento dos seus dados para análise de perfil e comunicações pertinentes ao processo. Dúvidas? Você pode contatar o canal oficial de privacidade do Jeitto:  privacidade@jeitto.com.br