Stage - Ingénieur/Ingénieure en Data Engineering ou Data Science
Intern InternshipJob Overview
Le stage s’intègre dans un travail d’équipe pour :
- Centraliser, structurer (mapping) et sécuriser les bases de données existantes.
- Faciliter l’analyse grâce à un outil d’interrogation de la base de données
- Prise en main de l’outil Integrated Publishing Toolkit (IPT).
- Permettre leur partage en OpenSource via la plateforme GBIF.
Le Global Biodiversity Information Facility (GBIF) est la plus grande initiative internationale visant à offrir un accès libre et gratuit aux données sur la biodiversité via Internet. Son objectif est de soutenir la science, la conservation et le développement durable en rendant interopérables et accessibles les données d’occurrences d’espèces, de listes taxonomiques et d’événements d’échantillonnage. Pour faciliter la publication, GBIF met à disposition l’Integrated Publishing Toolkit (IPT), un logiciel open source qui permet aux institutions comme ARTELIA de préparer, standardiser et publier leurs jeux de données selon le format Darwin Core. L’IPT fonctionne comme une passerelle : il gère les métadonnées, attribue des identifiants uniques aux jeux de données, et les enregistre dans le registre GBIF pour qu’ils soient indexés et consultables sur le portail mondial.
Missions
Le/la stagiaire assurera les missions suivantes :
- Intégration de l’existant dans la base de données unique
En s’appuyant sur le standard Darwin Core, la personne recrutée devra définir une procédure afin d’intégrer les données existantes dans la base unique. Un jeu de données issues d’un projet en cours sera utilisé et servira de base de travail. La base de données sera hébergée sur un serveur dédié Cloud AWS, mis en place par le service digital d’ARTELIA.
- Partage des données avec la plateforme GBIF
Réaliser l’ensemble du processus menant à la publication en OpenSource des données biodiversités accumulées par ARTELIA. Ce processus comprendra les étapes de collecte des multiples bases de données des différents projets de l’équipe ESI, standardisation des formats, intégration à la base de données centralisée via l’IPT et le partage vers la plateforme GBIF.
- Requêtes
Le stage aura également pour objectif de développer un outil permettant d’interroger la base de données sous formes de requêtes. Cet outil sera à destination des membres de l’équipe ESI et devra être développé en étroite collaboration avec eux.
- Retours d’expériences et restitutions
Au terme du stage, il sera attendu 3 types de restitutions :
Un entretien « Retour d’Expérience » (REX) : il s’agit d’une présentation succincte (~30min) à l’équipe de sa démarche méthodologique, décrire les obstacles rencontrés, les solutions trouvées et les résultats obtenus. Le but étant de partager l’expérience et les connaissances acquises à l’équipe ESI.
Un guide d’utilisation : Un document décrivant l’outil de requêtes de la base de données centrale créé en collaboration avec l’équipe.
Une notice d’utilisation : Un document décrivant l’ensemble des étapes menant à la publication des données sur la plateforme GBIF via l’IPT.
Le/la stagiaire pourra être amené à apporter son appui sur d'autres problématiques liées à la gestion des bases de données et au traitement des données au sein de l'équipe ESI, et à participer à des groupes de travail sur ces sujets.
Make Your Resume Now