SRE -Híbrido - CL
Full TimeJob Overview
Buscamos un Senior Site Reliability Engineer (SRE) con especialización técnica profunda en Apache Airflow y Google Kubernetes Engine (GKE) para asumir la responsabilidad del soporte especializado en entornos productivos críticos (PRD) y Consultoría.
El objetivo principal del rol es garantizar la estabilidad, rendimiento y observabilidad de la plataforma de orquestación, liderando el análisis de causa raíz (RCA) ante incidentes complejos, diseñando mejoras continuas en la infraestructura y transfiriendo conocimiento técnico a los equipos operativos.
Es una posición estratégica que combina la resolución avanzada de problemas de infraestructura en la nube con la definición de estándares operacionales para optimizar el procesamiento batch de la compañía.
Modalidad: Híbrido, 1 vez a la semana presencial.
Contrato indefinido desde el inicio.
Deseable inglés intermedio
El objetivo principal del rol es garantizar la estabilidad, rendimiento y observabilidad de la plataforma de orquestación, liderando el análisis de causa raíz (RCA) ante incidentes complejos, diseñando mejoras continuas en la infraestructura y transfiriendo conocimiento técnico a los equipos operativos.
Es una posición estratégica que combina la resolución avanzada de problemas de infraestructura en la nube con la definición de estándares operacionales para optimizar el procesamiento batch de la compañía.
Modalidad: Híbrido, 1 vez a la semana presencial.
Contrato indefinido desde el inicio.
Deseable inglés intermedio
Key Responsibilities
- Soporte Especializado: Atender escalaciones complejas del ambiente productivo, diagnosticando y resolviendo fallas críticas en el scheduler de Airflow (heartbeats, deadlocks en metadatos, degradación de ejecutores) e infraestructura de Kubernetes (CrashLoopBackOff, saturación de recursos CPU/memoria y fallas de red).
- Gestión de Incidentes y RCA: Realizar análisis profundo de causa raíz frente a comportamientos anómalos en DAGs (concurrencia, tareas colgadas, reintentos infinitos) y producir documentación técnica post-mortem para mitigar riesgos futuros.
- Evolución y Mejora de la Plataforma: Diseñar y ejecutar propuestas de optimización para la estabilidad y performance, planificando upgrades de versiones de Airflow y componentes GKE con el mínimo impacto en el negocio.
- Observabilidad Proactiva: Implementar estrategias de monitoreo avanzado a través de la definición de métricas clave, configuración de alertas tempranas y construcción de dashboards operacionales.
- Gobernanza y Transferencia de Conocimiento: Definir estándares operacionales y buenas prácticas para la gestión de DAGs, manteniendo actualizados los runbooks técnicos y capacitando activamente a los equipos de soporte de Nivel 1 y Nivel 2.
Skills, Knowledge and Expertise
Must to have:
Experiencia como SRE / Plataformas: Dominio profundo de la arquitectura e infraestructura de Apache Airflow (Open Source) y desarrollo sobre la plataforma.
Experiencia como SRE / Plataformas: Dominio profundo de la arquitectura e infraestructura de Apache Airflow (Open Source) y desarrollo sobre la plataforma.
Contenedores y Orquestación: Experiencia sólida operando clusters, pods y despliegues en Kubernetes mediante Docker y Helm.
Nice to Have:
Cloud Computing: Experiencia en la consola de Google Cloud Platform (GCP) y sus herramientas nativas (Cloud Logging, Monitoring, Artifact Registry, IAM, Cloud SQL).
Ecosistema Tecnológico: Conocimiento en arquitectura de microservicios, bases de datos (PostgreSQL), lenguajes de scripting (Python, Bash) y herramientas de observabilidad (Prometheus, Grafana, Stackdriver).
Make Your Resume Now