Doctorant (F/H) Limitation de La Taille Des - Rennes, France - Inria

Inria
Inria
Entreprise vérifiée
Rennes, France

il y a 3 semaines

Sophie Dupont

Posté par:

Sophie Dupont

beBee Recruiter


Description
**Type de contrat **:CDD

**Niveau de diplôme exigé **:Bac + 5 ou équivalent

**Fonction **:Doctorant

**Niveau d'expérience souhaité **:Jeune diplômé

**A propos du centre ou de la direction fonctionnelle**:
Le centre Inria de l'Université de Rennes est l'un des neuf centres d'Inria et compte plus d'une trentaine d'équipes de recherche. Le centre Inria est un acteur majeur et reconnu dans le domaine des sciences numériques. Il est au cœur d'un riche écosystème de R&D et d'innovation : PME fortement innovantes, grands groupes industriels, pôles de compétitivité, acteurs de la recherche et de l'enseignement supérieur, laboratoires d'excellence, institut de recherche technologique.

**Contexte et atouts du poste**:
Cette thèse s'inscrit dans le PEPR "AgroEcologie Numérique". Elle sera encadrée par l'équipe GenScale. Le travail se fera de concert avec les membres du PEPR, en particulier du "flagship AgroDiv".

Pour faire face aux contraintes du changement climatique, tout en répondant aux objectifs de l'agroécologie, ce groupe, principalement composé de biologistes et de bio-analyses, a pour ambition de caractériser efficacement la diversité génétique inexploitée, stockée et disponible dans les collections. Il s'agit de 20476 espèces animales (lapin, abeille, truite, poulet, porc, chèvre, mouton, bovins ) et de 7466 espèces végétales (blé, maïs, tournesol melon, choux, navet, abricotier, pois, fèverole, luzerne, tomate aubergines, pommier, cerisier, pêcher, vigne ) majeures de l'Agriculture Française.

Ce poste s'inscrit dans l'un des axes de recherche de ce groupe, consistant à développer des moteurs de recherche conviviaux pour filtrer rapidement et efficacement les données des collections et des essais sur le terrain afin d'évaluer « fonctionnellement » les accessions ou les populations d'intérêt.

**Mission confiée**:
**Objectifs de la thèse et méthodes**:
Les moteurs de recherches actuels permettant de faire des requêtes sur des données génomiques sont principalement basés sur la notion de k-mers (mots de taille k). Il est nécessaire d'indexer les k-mers de tous les jeux de données que l'on souhaite pouvoir requêter.

Les meilleurs index actuels [1] nécessitent environ 10 à 15% de la taille des données brutes. Il est nécessaire de réduire leur taille afin de pouvoir indexer des données à l'échelle généralisée, atteignant plusieurs pétaoctets.

Les directions de recherches seront alors pleinement consacrées à cette réduction.
- possibilité d'organiser les données pour mieux compresser les indexes [2]
- possibilité de ne pas indexer tous les k-mers, au prix de résultats déteriorés [3]
- possiblité de proposer de nouvelles structures de données, avec une compression intrinsèque des données de jeux de séquences similaires
- etc...

**Objectifs**
La doctorante ou le doctorant aura pour mission d'explorer de nouvelles approches permettant d'améliorer les résultats existants en terme d'indexation de données génomiques. Il pourra s'agir d'une ou plusieurs contributions majeures parmi les points suivants:
1/ améliorer le passage à l'échelle : indexer plus de jeux de données, ou des jeux de données de plus en plus complexes en terme de diversité;
2/ développer de nouvelles approches pour associer des métadonnées aux kmers (abondance, séquence et position dont ils sont issus, annotations connues,...);
3/ limiter l'impact environnemental de la construction, du stockage et de la requête des indexes proposés.
4/ interagir avec les membres du PEPR AgroDiv en particulier et bien sur la communauté des utilisateurs en général.

[1] Lemane, Téo, et al. "Indexing and real-time user-friendly queries in terabyte-sized complex genomic datasets with kmindex and ORA." _Nature Computational Science_ :

[2] Břinda, Karel, et al. "Efficient and Robust Search of Microbial Genomes via Phylogenetic Compression." bioRxiv

[3] Darvish, Mitra, et al. "Needle: a fast and space-efficient prefilter for estimating the quantification of very large collections of expression experiments." Bioinformatics :

**Principales activités**:
Principales activés:

- Etudes de l'état de l'art
- Recherche et développement algorithmique
- Tests et validations
- Implémentation
- Rédactions

Activités complémentaires:

- Vie de l'équipe
- Veille technologique
- Lien avec les utilisateurs

**Compétences**:
Compétences techniques et niveau requis:

- expérience significative en programmation (si possible en C++ ou rust)
- expérience et gout pour l'algorithmique et les structures de données
- connaissances en développement de logiciel
- présentations, redaction et lecture en anglais

**Avantages**:

- Restauration subventionnée
- Transports publics remboursés partiellement
- Possibilité de télétravail à hauteur de 90 jours annuels
- Prise en charge partielle du coût de la mutu

Plus d'emplois de Inria