Senior Site Reliability Engineer (SRE) (m/w/d)
fulltime_permanent experiencedJob Overview
Als Senior Site Reliability Engineer übernimmst du die Verantwortung für den stabilen, sicheren und skalierbaren Betrieb unserer Kubernetes- und Cloud-Infrastruktur – hands-on, eigenständig und mit echtem Ownership.
Deine Aufgaben:
Betrieb und Optimierung von Kubernetes-Clustern (EKS) und AWS-Infrastruktur
Debugging komplexer Probleme (Performance, Scheduling, OOM, CrashLoops)
Aufbau und Betrieb von Self-Hosted Services (z. B. Istio, OpenSearch, RabbitMQ)
Umsetzung von GitOps (ArgoCD/Flux) und Observability (Logging, Metrics, Tracing)
Definition von SLIs/SLOs sowie Alerting-Strategien
Entwicklung von Backup- und Disaster-Recovery-Konzepten (inkl. RTO/RPO)
Analyse und Verbesserung von Systemarchitekturen (Skalierung, Sicherheit, SPOFs)
Make Your Resume Now