Analyste-chercheur.se en science des données juridiques et en IA
Université de Strasbourg (ouvre un nouvel onglet) — Université de Strasbourg
Localisation
Centre d'études internationales de la propriété intellectuelle (CEIPI) (67)
Temps de travail
Complet
Contrat
CDD d'1 an
Statut du poste
Vacant
Publication
1 avril 2026
Date limite
30 avril 2026
Secteur
Recherche & Innovation
Missions principales
CDD de projet 12 mois
Démarrage à compter du 18/05/2026
Catégorie : A Corps : Ingénieur de recherche
Quotité : 20% temps incomplet
Emploi ouvert aux agents contractuels uniquement
Rémunération selon grille de la Fonction Publique
Activités
Collecte & normalisation des textes (UE) :
- Moissonnage ciblé (EUR-Lex/CELEX/ELI) des actes identifiés ; archivage des versions (proposition/adoption/JO/consolidés), ainsi que des métadonnées (dates, base juridique, procédure, institutions).
- Capture des liens intertextes (articles/considérants/amendements), des phases de mise en application et des documents interprétatifs (lignes directrices, communications).
- Harmonisation des références (formatage uniforme des citations, identifiants uniques, nomenclature des actes).
Livrables : Corpus UE (répertoires textuels/JSON), table instruments.csv (métadonnées normalisées), table links.csv (renvois explicites).
Nettoyage & préparation des données. Extraction d’entités :
- Constitution d’un jeu d’annotation “or” (guidelines + 100-150 extraits annotés) - Livrable : guide d’annotation + dataset “gold”.
- Nettoyage structurel (suppression artefacts PDF/HTML, titres/annexes repérés, segmentation articles/considérants).
- Détection des doublons/versions ; harmonisation de l’encoding ; alignement inter-versions (diffs) pour suivre les évolutions.
- Contrôles qualité : complétude champs, cohérence des dates, validité des URLs sources ; journalisation des corrections (audit trail).
Livrables : Textes nettoyés (par langue/version) + diffs inter-versions ; rapport de contrôle qualité QA.
Embeddings & indexation sémantique & indicateurs d’évolution :
- Granularité d’indexation : passage du texte en chunks juridiques (article, alinéa, considérant), avec contexte (titre, chapitre, instrument).
- Embeddings : entraînement/choix de modèles adaptés au fr/en/de (ou multilingues) ; normalisation vectorielle ; stockage en vecteur-store (FAISS/pgvector).
- Évaluation : jeux de requêtes juridiques de test (IR@k, nDCG), hard negatives (renvois proches mais non pertinents), courbes précision-rappel.
- RAG contrôlé (optionnel pour la suite) : composition keyword + vector search ; garde-fous (citations pin-point, passage exact).
Livrables : Index sémantique (vectors + métadonnées), cartes de similarité (topics/communautés), bench d’évaluation (scripts + scores).
Comparaison UE → États membres (FR/DE/IT + 1 pays)
- France : recensement et cartographie de transposition/appropriation
- Allemagne : idem
- Italie : idem
- Pays additionnels (extension possible à l’Afrique, à confirmer) : idem
Livrables : Par pays : fiche pays (textes, échéances, autorités, écarts). Synthèse comparative & tableaux d’écart.: note comparative UE→ EM + tableaux consolidés.
(...) suite sur le site de l'Université de Strasbourg
Profil attendu
a) Savoir sur l’environnement professionnel
Cœur “NLP juridique”
- Embeddings : expérience pratique des modèles d’embeddings (monolingues et multilingues), normalisation vectorielle, indexation (FAISS/pgvector), évaluation IR (IR@k, nDCG, P/R), réduction dimensionnelle (UMAP/t-SNE) et RAG sous contraintes juridiques (citation exacte, grounding).
- Annotation : maîtrise d’outils d’annotation (notamment Prodigy) pour définir jeux “gold”, schémas d’étiquettes et boucles d’amélioration ; appétence pour l’automatisation (scripts QA).
- Préparation de corpus : parsing/cleaning de textes juridiques multi-formats (PDF/HTML/JO), segmentation articles/considérants, alignement inter-versions, gestion multilingue.
Droit & régulation
- Propriété intellectuelle (indispensable) : solides bases en brevets, dessins et modèles, marques, et droit d’auteur (originalité, titularité, exceptions), avec un intérêt marqué pour les problématiques liées à l’IA (œuvres générées, inventivité, données d’entraînement).
- Droit de l’UE lié à l’IA : connaissance des principaux instruments (données/plateformes/sécurité produits/cybersécurité) et de leurs mécanismes (amendements, “sans préjudice”, articulation règlements/directives).
- Comparé / international (atout) : premières notions des cadres africains (UA/organisations régionales) ou appétence pour les approches comparatives.
Data & visualisation
- Structuration de données, graphes (NetworkX/Gephi), timelines, matrices ; rigueur documentaire (dictionnaires de données, versioning).
- Communication claire des résultats (tableaux de bord, notes exécutives) ; anglais/français professionnels.
b) Savoir-faire opérationnel
- Capacités organisationnelles et de planification ; gestion de projets.
- Capacité à rédiger une note de synthèse technique.
c) Savoir-faire comportemental
- Initiative, autonomie, sens de l’organisation, reporting, respect des délais.
- Capacités d’observation, d’analyse et de synthèse.
- Disponibilité et flexibilité.
- Capacité à innover, curiosité intellectuelle.
- Capacité à travailler en équipe, à collaborer.
- Capacité à s’adapter dans différents contextes.
- Rigueur professionnelle.
- Capacité d’écoute et d’accompagnement.
Conditions d'exercice
- Possibilité de déplacements occasionnels pour assister à des conférences, des événements ou des réunions liées au travail.
- Activité à rythme variable selon les actions à mener.
- Contraintes de délais à respecter.
Pièces à fournir
L'envoi du CV et d'une lettre de motivation est obligatoire
Informations complémentaires
Situation du poste dans l’organigramme
Cette mission s’inscrit dans le cadre de la chaire « Dynamique des normes en Europe face aux technologies émergentes » (DENoTE) sous l’autorité de son responsable scientifique.
Métier de référence
Chercheuse / Chercheur
Réf. 2026-2239518Fonction publique d'État