Senior Site Reliability Engineer (SRE) (m/w/d)

Natuvion

Germany

Posted April 02, 2026

fulltime_permanent experienced

Job Overview

Als Senior Site Reliability Engineer übernimmst du die Verantwortung für den stabilen, sicheren und skalierbaren Betrieb unserer Kubernetes- und Cloud-Infrastruktur – hands-on, eigenständig und mit echtem Ownership.

Deine Aufgaben:

Betrieb und Optimierung von Kubernetes-Clustern (EKS) und AWS-Infrastruktur
Debugging komplexer Probleme (Performance, Scheduling, OOM, CrashLoops)
Aufbau und Betrieb von Self-Hosted Services (z. B. Istio, OpenSearch, RabbitMQ)
Umsetzung von GitOps (ArgoCD/Flux) und Observability (Logging, Metrics, Tracing)
Definition von SLIs/SLOs sowie Alerting-Strategien
Entwicklung von Backup- und Disaster-Recovery-Konzepten (inkl. RTO/RPO)
Analyse und Verbesserung von Systemarchitekturen (Skalierung, Sicherheit, SPOFs)

Senior Site Reliability Engineer (SRE) (m/w/d)

Job Overview

Ready to Apply?