Site Reliability Engineer Pleno - Foco em Observabilidade

Jeitto

2 days ago

Remote

Brazil

Automation

Há mais de 11 anos, desafiamos o mercado financeiro com soluções acessíveis e inovadoras. Aprovamos até 2x mais que outros players, com tecnologia que combina mais de 400 fatores para oferecer crédito rápido e sem complicação, usando só CPF e celular.
No Jeitto, dar um jeito é pra hoje. Temos urgência porque nosso cliente tem urgência. É por isso que buscamos, todo dia, dar um jeito pra que quem faz muito com pouco continue fazendo mais e melhor sempre.

A área de SRE é responsável por garantir a confiabilidade, disponibilidade e resiliência dos sistemas do Jeitto, atuando de forma proativa na prevenção de incidentes e na rápida recuperação de falhas.

A posição de SRE (foco em Observabilidade) é responsável por garantir a visibilidade, monitoramento e análise do comportamento dos sistemas em produção, trazendo maior confiabilidade, redução de incidentes e melhoria contínua da experiência do usuário, com impactos diretos para o negócio.

Essa posição oferece a oportunidade de atuar de forma estratégica na evolução da observabilidade e confiabilidade das plataformas de engenharia, com alto nível de autonomia e influência sobre decisões técnicas. É um papel voltado não só à operação, mas principalmente à construção e evolução de práticas modernas de SRE, com impacto direto na experiência dos usuários e na eficiência dos times.

O que você vai fazer por aqui:

Implementar e evoluir soluções de observabilidade (métricas, logs e traces distribuídos), garantindo visibilidade ponta a ponta dos sistemas em produção;
Definir, implementar e manter SLIs e SLOs, assegurando a mensuração adequada da saúde e desempenho dos serviços;
Desenvolver e aprimorar dashboards, alertas e painéis operacionais, garantindo monitoramento eficaz e redução de alertas ruidosos;
Atuar na instrumentação de aplicações e serviços, apoiando times de engenharia na adoção de boas práticas de observabilidade (ex: tracing distribuído, logs estruturados e métricas de negócio);
Contribuir para a padronização de ferramentas, bibliotecas e práticas de observabilidade, promovendo consistência entre sistemas;
Atuar na detecção, análise e resposta a incidentes, utilizando dados de observabilidade para diagnóstico rápido e preciso;
Participar de análises de causa raiz (RCA), propondo melhorias baseadas em dados para prevenir recorrência de incidentes;
Coletar, analisar e correlacionar dados de telemetria (métricas, logs e traces), gerando insights acionáveis para melhoria de performance e confiabilidade;
Apoiar a implementação de testes de carga e resiliência, utilizando observabilidade para avaliar comportamento e identificar gargalos;
Trabalhar de forma colaborativa com times de Engenharia, Produto e Arquitetura, garantindo que novas soluções já nasçam com padrões adequados de observabilidade;
Identificar e implementar melhorias para redução de toil relacionado a monitoramento e operação de sistemas;
Contribuir para a disseminação da cultura de observabilidade, apoiando outros engenheiros na adoção de boas práticas e ferramentas.

O que buscamos em você:

Experiência prática atuando como SRE, DevOps ou Software Engineer em ambientes distribuídos e com requisitos de confiabilidade;
Experiência com definição e acompanhamento de SLIs e SLOs, contribuindo para a melhoria da confiabilidade dos sistemas;
Experiência com cloud computing (AWS, GCP ou Azure), atuando em ambientes produtivos;
Experiência com Kubernetes em produção, incluindo monitoramento, troubleshooting e operação de workloads;
Domínio de observabilidade (métricas, logs e traces distribuídos), com experiência em ferramentas como Datadog, Prometheus, Grafana, ELK ou OpenTelemetry;
Experiência com instrumentação de aplicações e coleta de telemetria, garantindo visibilidade adequada dos sistemas;
Experiência com infraestrutura como código (Terraform, Ansible ou similares) e automação de ambientes;
Experiência com pipelines CI/CD e práticas de entrega contínua;
Experiência com análise de incidentes e participação em processos de RCA (análise de causa raiz);
Capacidade analítica e orientação a dados para suporte à tomada de decisão com base em métricas;
Experiência em trabalho colaborativo com times de engenharia, produto e arquitetura;
Boa comunicação e capacidade de colaborar em decisões técnicas;
Cursando ensino superior em Tecnologia.

Vai ser um diferencial se você tiver:

Experiência com Datadog;
Inglês Avançado;
Certificações de Datadog ou ferramentas similares.

Aviso de PrivacidadeO Jeitto trata os dados pessoais enviados nesta candidatura exclusivamente para fins de recrutamento e seleção, conforme a LGPD. Ao se candidatar, você concorda com o processamento dos seus dados para análise de perfil e comunicações pertinentes ao processo. Dúvidas? Você pode contatar o canal oficial de privacidade do Jeitto: privacidade@jeitto.com.br

Apply now

Site Reliability Engineer Pleno - Foco em Observabilidade

More jobs

Remote Director of Engineering

Jobgether

Vice President, Software Engineering & Applications

Careers Mutual Of Omaha