Doctorant (F/H) Détection Et Clustering de La - Paris, France - Inria

Inria
Inria
Entreprise vérifiée
Paris, France

il y a 3 semaines

Sophie Dupont

Posté par:

Sophie Dupont

beBee Recruiter


Description
**Type de contrat **:CDD

**Niveau de diplôme exigé **:Bac + 5 ou équivalent

**Fonction **:Doctorant

**Contexte et atouts du poste**:
Inria Défense&Sécurité (Inria D&S) a été créé en 2020 pour fédérer les actions d'Inria répondant aux besoins numériques des forces armées et forces de l'intérieur. La thèse sera réalisée au sein de l'équipe de recherche en traitement de l'audio de Inria D&S, sous la direction de Jean-François Bonastre et co-encadrée par Raphaël Duroselle.

La thèse s'inscrit dans un projet visant au profilage vocal explicable et frugal. Le profilage vocal consiste à extraire des informations d'un enregistrement audio comme l'identité, la langue parlée, l'âge, l'origine géographique et ethnique, ou encore des marques socio/patho/physiologiques dans la voix. L'objectif de ce projet est d'apporter une explicabilité aux systèmes de profilage vocal sans perte de performance. L'explicabilité permet de conserver les opérateurs au centre du processus, en leur donnant les moyens d'une décision instruite.

**Mission confiée**:
**Approche**:
L'approche envisagée pour la thèse repose sur la définition d'un jeu d'attributs vocaux génériques partagés par des groupes individus. Seule la présence ou l'absence d'un attribut dans un extrait vocal donné est utilisée pour prendre la décision, menant à une représentation binaire. Cette approche a été introduite pour la tâche de vérification du locuteur [1,2].

La thèse proposée vise à développer cette méthodologie en l'abordant selon l'objectif d'analyse de la langue parlée [3]. Le système vise à regrouper ensemble les segments relevant de la même langue et de détecter si celle-ci fait partie d'un panel de langues connues ou s'il s'agit d'une langue inconnue. Dans ce dernier cas, la proximité avec les langues connues devra être explicitement proposée, sur la base des attributs connus par le système.

Depuis l'apparition des modèles iVector [4] (initialement pour la reconnaissance du locuteur) dans la détection de la langue, le schéma général a peu évolué dans ce domaine. Il s'agit toujours de proposer un extracteur appris sur une grande masse de données et capable de représenter une séquence acoustique de durée quelconque par un vecteur de taille fixe, concentrant la variabilité utile à la tâche visée. Ensuite des classifieurs 1:1, comparant deux langues, ou 1 :N, comparant N langues sont construits et un système de prise de décision, dit « back-end », se base sur ces classifieurs pour répondre aux diverses tâches visées. Les réseaux de neurones, comme les « bottleneck features » ont permis d'intégrer très bas (proche du niveau acoustique) des éléments de plus haut niveau, allant jusqu'aux modèles de langage, apportant un gain très significatif [5]. Puis les embeddings issus de modèles neuronaux, dit « xVector », ont remplacé les iVector et permis à la fois d'augmenter la taille des modèles (et la performance) et de simplifier l'apprentissage, avec un procédé unique réalisant la transformation d'une séquence acoustique de taille variable en un vecteur signifiant de taille contenue [6].

Plus récemment, l'usage des modèles pré-appris comme WavLM [7] ou MMS [8] a été étudié [9]. Par leur généricité, ces modèles permettent des gains intéressants, surtout quand peu de données sont disponibles dans la base d'entraînement pour certaines langues, au prix d'un accroissement important de la complexité en termes de nombres de paramètres.

Ces approches partagent des limitations communes : elles sont peu capables d'expliquer leur décision, les performances se dégradent très significativement quand le contexte d'utilisation s'éloigne du contexte d'apprentissage, les performances sont très variables suivant les couples de langues ou dialectes considérés, elles gèrent mal le déséquilibre entre les quantités de données d'apprentissage disponibles par langue et elles sont lourdes à adapter/réapprendre. Enfin, elles ne proposent rien ou peu dans le cas de langues inconnues.

Dans ce projet, nous proposons de partir de l'état de l'art puis d'adapter l'approche par attribut de voix au contexte de la détection de la langue parlée. Dans cette adaptation, une langue peut être représentée par un vecteur binaire correspondant à la présence/absence d'attributs dans cette langue ou par un vecteur scalaire, indiquant la fréquence des attributs dans la langue. Les attributs eux-mêmes peuvent intégrer des informations de plus haut niveau, comme les niveaux phonotactiques et linguistiques). Cette architecture offre la possibilité de reconnaître une langue inconnue (au sens qu'aucune donnée correspondant à cette langue n'est présente dans la base d'apprentissage) et de situer sa proximité avec les langues connues en termes d'attributs explicites

Plus d'emplois de Inria