Chargé(e) d’Exploitation Data/IA
fulltime_permanent experiencedJob Overview
RAISON D’ÊTRE
Assurer l’exploitation, la maintenance, l’optimisation et l’évolution des solutions data et IA mises en production (models ML, services de scoring, assistants/agents GenAI, pipelines data).
Garantir la performance, la disponibilité, la sécurité et la conformité des services tout en capitalisant sur les retours d’expérience pour améliorer continuellement les processus d’exploitation (DataOps / MLOps / IAOps / GenIAOps).
MISSIONS PRINCIPALES
Assurer le monitoring, la maintenance et l’optimisation des cas d’usage data/IA en production.
Gérer les incidents, les demandes d’évolution et le support utilisateur pour les services IA et data.
Garantir la performance (latence, throughput), la disponibilité (SLA) et la sécurité des solutions déployées.
Détecter et traiter la dérive (data & model drift), déclencher les workflows de ré‑entrainement ou rollback.
Optimiser les coûts d’inférence et d’infrastructure (quantization, batching, scaling).
Capitaliser sur les retours d’expérience et automatiser les bonnes pratiques (playbooks, runbooks, pipelines).
Assurer la conformité (RGPD, logs, traçabilité) et la traçabilité des décisions modèles (explainability).
Collaborer étroitement avec les équipes Data Engineering, DevOps, Sécurité, ML/GenAI, RPA et les métiers.
PRINCIPALES OBLIGATIONS ET RESPONSABILITES
Développer et maintenir les pipelines CI/CD pour modèles (build, tests, validation, déploiement).
Mettre en place et exploiter les outils de monitoring et observabilité : métriques (performance, latence), logs, traces, alerting (Prometheus, Grafana, ELK, Datadog…).
Surveiller la qualité des données en production (profiling, anomalies) et déclencher actions automatisées / manuelles.
Définir et opérer les process de détection de dérive et déclenchement de ré‑entrainement ou rollbacks.
Gérer incidents (analyse RCA, mitigation, communication, post‑mortem) et garantir SLA.
Optimiser les services d’inférence : mise en place de quantization, batching, autoscaling, adaptations pour edge/serveurs GPU/CPU.
Administrer et superviser les modèles LLM/assistants via le portail Dinootoo (suivi prompts, logs conversationnels, politiques d’accès) et intégrations n8n pour orchestration.
Maintenir registry modèles, artefacts, datasets (versionning) et pipelines reproductibles (MLflow, DVC, etc.).
Rédiger et maintenir runbooks, playbooks d’exploitation, procédures de sécurité et documentation technique.
Assurer le support utilisateur N2/N3, formation des opérateurs et handover pour le support métier.
Capitaliser les retours (KPI, incidents, retours utilisateurs) et proposer améliorations continues
Make Your Resume Now