[Job - 29704] Senior SRE, Brazil
HomeofficeJob Overview
Estamos em busca de um profissional talentoso para integrar o nosso time e garantir alta confiabilidade das aplicações através de práticas avançadas de SRE, resiliência, observabilidade e automação em cloud.
Responsabilidades:
Implementar e evoluir estratégia completa de observabilidade
Definir e operar com SLIs, SLOs e Error Budgets
Garantir resiliência e escalabilidade
Reduzir incidentes e prevenir reincidência
Evoluir arquitetura operacional na AWS
Criar automações e mecanismos de auto-recuperação
Atuar como facilitador técnico para squads
Requisitos Técnicos:
SRE e Confiabilidade
Resiliência de sistemas distribuídos
Self-healing (auto recuperação)
Escalabilidade baseada em eventos
Gestão de incidentes e pós-mortem
Observabilidade Completa:
Logs, Traces e Métricas
Custom Metrics
APM
Ferramentas: Datadog (ou similares)
Construção de:
Dashboards e painéis
Monitoramento e alertas inteligentes
Alarmes em tempo real (incidentes, budgets → comunicação com times)
Testes sintéticos
Gestão de Confiabilidade
Definição e acompanhamento de:
SLI / SLO / Error Budget
RTO / RPO
Visão orientada a disponibilidade e experiência
Infraestrutura e Plataforma:
AWS (CloudWatch, X-Ray, ECS/EKS, Lambda)
Docker / Containers
Arquitetura distribuída
Infraestrutura como código e automação
Diferenciais:
Experiência em ambientes críticos (alta disponibilidade)
Chaos Engineering
Uso de IA para análise preditiva de incidentes
Otimização de custos em cloud (FinOps)
Estamos em busca de um profissional talentoso para integrar o nosso time e garantir alta confiabilidade das aplicações através de práticas avançadas de SRE, resiliência, observabilidade e automação em cloud.
Responsabilidades:
Implementar e evoluir estratégia completa de observabilidade
Definir e operar com SLIs, SLOs e Error Budgets
Garantir resiliência e escalabilidade
Reduzir incidentes e prevenir reincidência
Evoluir arquitetura operacional na AWS
Criar automações e mecanismos de auto-recuperação
Atuar como facilitador técnico para squads
Requisitos Técnicos:
SRE e Confiabilidade
Resiliência de sistemas distribuídos
Self-healing (auto recuperação)
Escalabilidade baseada em eventos
Gestão de incidentes e pós-mortem
Observabilidade Completa:
Logs, Traces e Métricas
Custom Metrics
APM
Ferramentas: Datadog (ou similares)
Construção de:
Dashboards e painéis
Monitoramento e alertas inteligentes
Alarmes em tempo real (incidentes, budgets → comunicação com times)
Testes sintéticos
Gestão de Confiabilidade
Definição e acompanhamento de:
SLI / SLO / Error Budget
RTO / RPO
Visão orientada a disponibilidade e experiência
Infraestrutura e Plataforma:
AWS (CloudWatch, X-Ray, ECS/EKS, Lambda)
Docker / Containers
Arquitetura distribuída
Infraestrutura como código e automação
Diferenciais:
Experiência em ambientes críticos (alta disponibilidade)
Chaos Engineering
Uso de IA para análise preditiva de incidentes
Otimização de custos em cloud (FinOps)
Make Your Resume Now