Doctorant (F/H) Synthèse de La Parole Pour - Strasbourg, France - Inria

Inria

Entreprise vérifiée

Strasbourg, France

il y a 1 semaine

Posté par:

Sophie Dupont

beBee Recruiter

Description

**Type de contrat **:CDD

**Niveau de diplôme exigé **:Bac + 5 ou équivalent

**Fonction **:Doctorant

**Contexte et atouts du poste**:
Cette thèse se place dans le cadre du Défi Inria COLaF "Corpus et Outils pour les Langues de France", dont l'objectif est de créer des corpus, des modèles et des logiciels ouverts et inclusifs pour les langues de France. Cela inclut les langues régionales (alsacien, breton, corse, occitan, picard, etc.) et d'outre-mer (créoles, langues polynésiennes, langues kanakes, mahorais, etc.) et les langues d'immigration non-territoriales (arabe dialectal, arménien occidental, berbère, judéo-espagnol, romani, yiddish).

Le/la doctorant.e sera co-encadré.e par Vincent Colotte, Pascale Erhart et Emmanuel Vincent. Il/elle bénéficiera de l'expertise de l'équipe Multispeech en traitement de la parole et celle de LiLPa en dialectologie, en phonétique de corpus et en TAL. Il/elle collaborera avec les ingénieurs chargés de la création et la distribution des corpus et des briques logicielles et avec les autres partenaires du projet.

**Mission confiée**:
Les technologies linguistiques sont clés pour la protection, la valorisation et l'enseignement des langues régionales et d'outre-mer et pour l'inclusion des locuteurs de langues d'immigration non-territoriales. Ces langues restent cependant largement ignorées des fournisseurs de technologies linguistiques [1]. Cela est vrai en particulier des systèmes de synthèse vocale, qui sont classiquement appris sur un jeu de données de haute qualité enregistré en studio par un petit nombre d'acteurs professionnels. Cette méthode induit un coût élevé pour chaque langue et limite le nombre de voix et leur expressivité.

L'objectif de la thèse est de concevoir une approche générale de développement de systèmes de synthèse vocale multi-voix pour ces langues peu dotées à partir d'archives sonores existantes (radios, télévisions, web, etc.). Il s'agit d'une approche radicalement différente de l'état de l'art, qui pose deux difficultés : ces archives sont de qualité variable et pour l'essentiel non transcrites sous forme textuelle. Pour résoudre ces difficultés, nous nous appuierons sur la possibilité d'apprendre un système de synthèse vocale de haute qualité à partir d'un jeu de données de qualité variable [2] et sur l'émergence de systèmes de reconnaissance de la parole _few-shot_ [3] permettant d'envisager la transcription automatique des données.

[2] S. Ogun, V. Colotte, E. Vincent, "Can we use Common Voice to train a Multi-Speaker TTS system?", in 2022 IEEE Spoken Language Technology Workshop (SLT), 2023, pp
[3] A. Radford, J.W. Kim, T. Xu, G. Brockman, C. McLeavey, I. Sutskever, "Robust speech recognition via large-scale weak supervision", in 40th International Conference on Machine Learning, 2023, pp
[4] D. Bernhard, A.L. Ligozat, M. Bras, F. Martin, M. Vergez-Couret, P. Erhart, J. Sibille, A. Todirascu, P. Boula de Mareüil, D. Huck, "Collecting and annotating corpora for three under-resourced languages of France: Methodological issues", Language Documentation & Conservation, 2021, 15, pp

**Principales activités**:
Outre la faible quantité de données et potentiellement le faible nombre de locuteurs disponibles, i) toutes les langues régionales ne sont pas écrites ou ne le sont pas de façon standardisée ii) les enregistrements n'ont pas toujours été réalisés avec une qualité adéquate à la synthèse vocale iii) la transcription textuelle est souvent indisponible ou diffère des mots prononcés (erreurs de transcription, sous-titres, etc.). Il s'agira donc i) de concevoir une méthodologie de choix et de préparation des données, qui pourra s'appuyer sur l'estimation automatique de la qualité du signal [2] et de la transcription [5], sur des méthodes de transcription et de correction semi-automatiques et/ou sur l'apprentissage actif, ii) de concevoir une méthode de synthèse vocale multi-voix capable d'exploiter ces données, qui pourra s'appuyer sur la proximité phonétique et/ou morphologique entre les langues ciblées et des langues proches bien dotées (français, allemand, etc.) [6], ainsi que sur des ressources uniquement textuelles [7], iii) de la coupler avec des approches de transfert de style pour l'expression des émotions [8].

[5] K. Fan, J. Wang, B. Li, S. Zhang, B. Chen, N. Ge, Z. Yan, "Neural zero-inflated quality estimation model for automatic speech recognition system", in Interspeech, 2020, pp
[6] Z. Cai, Y. Yang, M. Li, "Cross-lingual multi-speaker speech synthesis with limited bilingual training data", Computer Speech and Language, 2023, 77, pp
[7] N. San, M. Bartelds, B. Billings, E. de Falco, H. Feriza, J. Safri, W. Sahrozi, B. Foley, B. McDonnell, D. Jurafsky, "Leveraging supplementary text data to kick-start automatic speech recognition s