Stage en Annotation d'entités d'intérêt dans des documents de renseignement source ouverte - Grenoble, France - INRIA

    INRIA
    INRIA Grenoble, France

    Trouvé dans: Talent FR C2 - il y a 2 semaines

    Default job background
    Stage
    Description

    Contexte et atouts du poste

    Inria Défense&Sécurité (Inria D&S) a été créé en 2020 pour fédérer les actions d'Inria répondant aux besoins numériques des forces armées et forces de l'intérieur. Le stage sera réalisée au sein de l'équipe de recherche en TALN de Inria D&S, sous la direction de Lucie Chasseur Ingénieur TALN (Mission D&S Inria, Grenoble).

    La reconnaissance d'entités nommées (NER) trouve ses racines dans les premiers travaux de traitement automatique du langage naturel (TALN), remontant aux années 1990 (Conférences MUC – Message Understanding Conference). À cette époque, les chercheurs ont commencé à explorer des méthodes pour identifier et classifier automatiquement les entités telles que les noms de personnes, les lieux et les organisations dans des documents textuels.

    Aujourd'hui, la recherche en NER continue d'évoluer, avec un accent particulier mis sur l'adaptation des systèmes aux langues peu dotées, à la diversité des types d'entités et à la prise en compte du contexte pour une compréhension plus fine des informations extraites des textes. Cette évolution témoigne de l'importance croissante de la reconnaissance d'entités nommées dans de nombreux domaines d'application, de la recherche d'informations à l'analyse des réseaux sociaux en passant par la médecine.

    L'annotation manuelle de ces données textuelles revêt une importance capitale pour des tâches telles que le NER. Elle permet de constituer des jeux de données annotés de haute qualité, indispensables pour entraîner et évaluer les modèles de reconnaissance d'entités nommées. Elle garantit et contribue à l'amélioration de la précision et de la fiabilité des algorithmes et leur adaptabilité à des domaines spécifiques.

    Mission confiée

    Ce projet s'inscrit dans une démarche visant à améliorer et à adapter les modèles de reconnaissance d'entités nommées au vocabulaire spécifique du domaine de la défense et en particulier dans le cadre du renseignement source ouverte.

    Bien que l'état de l'art du NER soit déjà très avancé et que les modèles présentent des performances élevées pour la reconnaissance de noms, de lieux et d'organisations dans des contextes généraux, il reste encore peu fréquent de trouver des modèles et des corpus spécifiquement conçus pour l'extraction d'informations pertinentes en matière de renseignement. L'accumulation de données journalistiques depuis le début de la guerre en Ukraine offre l'opportunité de constituer de nouveaux corpus où le vocabulaire spécialisé de la défense est omniprésent.

    L'objectif principal du stage sera donc de participer à l'annotation d'un corpus de documents textuels issus d'informations en direct du journal Le Monde. Ces news ont été produites sur la période initiale de la guerre en Ukraine entre février et mars 2022.

    Le travail se fera en suivant un guide d'annotation spécifiquement conçu pour ce projet.

    Principales activités

  • Annotation de texte en français
  • Correction d'annotations déjà existantes
  • Compétences

  • Maîtrise du français écrit et parlé
  • Connaissances en linguistique et en traitement automatique des langues
  • Une connaissance d'outil d'annotation, comme Label studio, sera apprécié
  • Avantages

  • Restauration subventionnée
  • Transports publics remboursés partiellement
  • Équipements professionnels à disposition (visioconférence, prêts de matériels informatiques, etc.)