Make Your Resume Now

ML Ops Engineer H/F

Posted June 02, 2026
Full-time Mid-Senior Level

Job Overview

Mission principale

Garantir que les solutions d'IA produites par Brain soient déployées, exploitées et supervisées de manière fiable, performante et reproductible, en cohérence avec les standards de la DSI et les exigences métier.

Industrialisation des APIs Brain : 

• Concevoir, maintenir et faire évoluer les chaînes CI/CD (Azure DevOps) pour les APIs développées par Brain (.NET sur Linux notamment).

• Packager les applications via Helm, gérer les charts, les valeurs par environnement (dev / staging / prod) et les hooks de déploiement.

• Définir les bonnes pratiques de configuration Kubernetes : requests / limits, sondes liveness / readiness, autoscaling, gestion des secrets, observabilité.

• Diagnostiquer et résoudre les incidents de plateforme (OOMKilled, hooks Helm en échec, problèmes RBAC, certificats, etc.) en collaboration avec la DSI.

Déploiement et exploitation des LLMs

• Mettre en place les pipelines de déploiement de modèles (LLMs auto-hébergés ou via API externes) : versionning, gestion du cycle de vie, rollback, A/B testing.

• Optimiser l'inférence : choix du runtime (vLLM, TGI, Triton, ONNX Runtime ou équivalent), gestion GPU / CPU, mise en cache, batching, quantification.

• Intégrer les briques d'écosystème LLM (vector stores, orchestrateurs type LangChain / Semantic Kernel, passerelles type LiteLLM) dans des architectures industrielles.

• Mettre en place le monitoring spécifique aux LLMs : latence, coûts par requête, qualité des réponses, dérive, télémétrie applicative.

Interface avec la DSI groupe : 

• Être l'interlocuteur·rice technique privilégié·e entre Brain et la DSI sur les sujets infrastructure, sécurité, conformité et déploiement.

• Aligner les pratiques de Brain avec les standards groupe (gestion des clusters Kubernetes, politiques RBAC, gestion des secrets, conformité réseau).

• Co-construire les processus de mise en production : revues d'architecture, critères de Go Live, gestion des changements, astreintes éventuelles.

• Documenter et transmettre la connaissance : runbooks, schémas d'architecture, post-mortems.

Observabilité, fiabilité et sécurité : 

• Mettre en place et faire vivre la stack d'observabilité (logs, métriques, traces) pour les APIs et les modèles.

• Définir et suivre les indicateurs SRE pertinents (SLO, SLI, error budgets) sur les services Brain.

• Intégrer la sécurité dès la conception : gestion des secrets, scans de vulnérabilités, signature d'images, supply chain.

• Optimiser les coûts d'infrastructure et d'inférence (FinOps appliqué à l'IA).

Stack Technique : 

  • Frameworks ML/DL : PyTorch et/ou TensorFlow, scikit-learn ; compréhension du cycle entraînement → checkpoint → export (ONNX, SafeTensors).
  • Serving de modèles : Triton Inference Server, TorchServe, BentoML, KServe/Seldon Core sur Kubernetes. Expérience sur clusters on-premise appréciée.
  • CI/CD : Azure DevOps (pipelines YAML), GitOps (ArgoCD ou Flux), pratiques de déploiement progressif.
  • Conteneurisation : Docker, optimisation d'images, multi-stage builds, sécurité.
  • Infrastructure as Code : Terraform, Ansible ou équivalent.
  • Observabilité : Prometheus, Grafana, OpenTelemetry, ELK ou stack équivalente.

Ready to Apply?

Take the next step in your career journey

Stand out with a professional resume tailored for this role

Build Your Resume – It’s Free!