Doctorant (H/F) - Apprentissage profond et ses applications - Images hyperspectrales et données multimodales - Toulouse, France - CNRS

CNRS Toulouse, France

il y a 1 semaine

CDD

Description

Informations générales

Intitulé de l'offre : Doctorant (H/F) - Apprentissage profond et ses applications - Images hyperspectrales et données multimodales
Référence : UMR5505-CHLBOU-089
Nombre de Postes : 1
Lieu de travail : TOULOUSE
Date de publication : mercredi 5 juin 2024
Type de contrat : CDD Doctorant/Contrat doctoral
Durée du contrat : 36 mois
Date de début de la thèse : 1 octobre 2024
Quotité de travail : Temps complet
Rémunération : La rémunération est d'un minimum de 2135,00 € mensuel
Section(s) CN : Sciences de l'information : fondements de l'informatique, calculs, algorithmes, représentations, exploitations

Description du sujet de thèse

L'imagerie hyperspectrale, utilisée en médecine et en agriculture, est un précieux outil pour surveiller le corps humain et la surface terrestre. Cependant, les méthodes de traitement d'images récemment développées pour les images en couleur ont eu un succès limité lorsqu'elles sont appliquées aux images hyperspectrales, en raison des défis liés à la collecte et à l'annotation de données hyperspectrales en grande quantité. Pour surmonter ce défi, notre travail propose le développement de nouvelles techniques d'apprentissage auto-supervisé et multimodal pour les images hyperspectrales, ainsi que des architectures neuronales exploitant les données multimodales non étiquetées. Ce travail favorise la collaboration et l'échange de connaissances entre les domaines de l'informatique, de la médecine et de l'agriculture.

Dans les deux domaines, imagerie médicale et imagerie spatiale, les données sont très volumineuses et abondantes. Cependant, leur annotation est très couteuse car elle nécessite des experts, peu nombreux et qui ont des priorités autres ; cela est particulièrement vrai dans le domaine médical.
Il s'agit dans cette thèse d'étudier des modèles qui tirent profit de l'abondance des données non annotées. Non seulement les images sont essentielles pour ces applications, mais d'autres formes de données telles que les données structurées et les textes peuvent également être combinées pour une meilleure compréhension du domaine.
Quatre questions de recherche structureront ce travail :
QR 1 : Combiner apprentissage supervisé et non supervisé
Dans le domaine de la traduction automatique pour les langues peu dotées, la combinaison de grands modèles de langues appris sur une langue très dotées (comme l'anglais par exemple) combiné avec un apprentissage peu doté sur des équivalences entre paires de phrases dans différentes langues a montré son efficacité. Ainsi, nous pensons qu'apprendre sur des données non annotées les structures internes des images, combiné avec un apprentissage sur des données annotées peu nombreuses est une piste prometteuse. Par exemple, la combinaison de réseaux de neurones convolutionels avec des modèles transformers dans un environnement semi-supervisé est prometteur.

QR 2 : Apprentissage auto-supervisé
Les méthodes auto-supervisées peuvent exploiter l'abondance des données non étiquetées disponibles. L'objectif est de s'appuyer sur la structure inhérente ou le contexte des données pour générer des signaux de supervision. Travailler sur des données médicales et des données d'observation de la Terre pourrait aider à développer des représentations plus robustes.

QR 3 : Combinaison de données dans des architectures réseaux de neurones profonds
Sur les images d'observation de la Terre, des combinaisons de spectre ont permis d'extraire des indices permettant ensuite la détection de phénomènes, comme par exemple les indices de végétation utilisés pour la détection de mauvaise herbe. Nous étudierons l'adaptation de ce principe au domaine médical, pour la classification et le calibrage des données. La transposition des principes de l'utilisation des indices ingénieriés à partir de différents spectres d'images dans le domaine médical est une question ouverte

QR4 : Combinaison de différents formats de données
Les données multimodales peuvent être utiles dans de nombreuses applications. La question de savoir comment ces données peuvent être combinées reste ouverte. Dans cette thèse, nous travaillerons sur de nouveaux modèles qui peuvent combiner du texte, des images et des données. Cette combinaison pourrait commencer à partir de la couche de plongement des modèles d'apprentissage profond, ou pourrait être basée sur de nouvelles formes d'attention, ou la fusion peut se produire comme un processus tardif. L'impact des choix d'architecture sera étudié. Les grands modèles de langues seront utilisés.

Contexte de travail

La personne recrutée sera imputée à l'IRIT à l'université Paul Sabatier et aura l'occasion d'effectuer des missions à l'université de Bucarest. L'Institut de Recherche en Informatique de Toulouse (IRIT), une des plus imposantes Unité Mixte de Recherche (UMR 5505) au niveau national, est l'un des piliers de la recherche en Occitanie avec ses 600 membres, permanents et non-permanents, et une centaine de collaborateurs extérieurs. De par son caractère multi-tutelle (CNRS, Universités toulousaines), son impact scientifique et ses interactions avec les autres domaines, le laboratoire constitue une des forces structurantes du paysage de l'informatique et de ses applications dans le monde du numérique, tant au niveau régional que national. Notre unité a su, par ses travaux de pointe et sa dynamique, définir son identité et acquérir une visibilité incontestable, tout en se positionnant au cœur des évolutions des structures locales : Université de Toulouse, ainsi que les divers dispositifs issus des investissements d'avenir (LabEx CIMI, IRT Saint-Exupéry, SAT TTT...).
L'équipe « Information Systems » constitue l'une des plus importantes équipes du laboratoire avec 20 enseignants-chercheurs. Les recherches concernent la donnée ("Data") qui est au coeur des systèmes d'information modernes. Les données sont massives ("Big Data"), produites par des humains ou des systèmes (systèmes satellitaires, réseaux sociaux, imagerie médicale, capteurs, systèmes vidéo-surveillance). Les travaux de recherche visent à concevoir et à développer des méthodes, modèles, langages, algorithmes et outils logiciels qui permettent un accès simple et efficace à l'information pertinente pour en améliorer l'usage, faciliter l'analyse et aider la prise de décision. Nos travaux de recherche couvrent toute la chaine de traitement de la donnée, allant des données brutes aux données élaborées accessibles pour les utilisateurs cherchant de l'information, souhaitant la visualiser et effectuer des analyses décisionnelles, exploratoires et prédictives.
Josiane Mothe (//) est professeure depuis 2002. https:///citations?user=V-Nyr0wAAAAJ&hl=fr&oi=ao

Forte d'une histoire de plus de 150 ans et d'une réputation constamment confirmée, l'université de Bucarest est aujourd'hui un espace universitaire dynamique et inclusif, caractérisé par la créativité, l'innovation et le pragmatisme. Avec plus de étudiants, 1 300 professeurs et 600 chercheurs, 1 200 employés du personnel administratif, l'Université de Bucarest est une communauté forte. L'université de Bucarest occupe la première place parmi les universités roumaines et, dans le domaine de l'informatique, elle est classée entre 551 et 600 dans le QS World University Rankings by AI Lab de l'Université de Bucarest, dirigé par le professeur Radu Tudor Ionescu (https:///citations?hl=en&user=qVbwC6QAAAAJ), mène des recherches fondamentales et appliquées dans les domaines de l'intelligence artificielle, de l'apprentissage automatique, de l'apprentissage profond, de la vision par ordinateur, du traitement d'images, de l'exploration de textes, de la linguistique informatique, de l'imagerie médicale et du traitement des signaux. Ses membres publient régulièrement dans les meilleures revues (TPAMI, IJCV) et conférences (CVPR, NeurIPS, ICCV, ECCV, ACL, ACMMM, EMNLP, NAACL, WACV, ECML-PKDD, INTERSPEECH, EACL) dans le domaine.

Le poste se situe dans un secteur relevant de la protection du potentiel scientifique et technique (PPST), et nécessite donc, conformément à la réglementation, que votre arrivée soit autorisée par l'autorité compétente du MESR.

Informations complémentaires

Formation et Compétences :
- Un diplôme de Master (ou équivalent) en Informatique ou en Science des Données,
- Connaissance (théorie / projet pratique, : Imagerie hyperspectrale, Apprentissage automatique, Apprentissage profond incluant les réseaux de neurones convolutifs (CNN) et les modèles de transformateurs, méthodes d'apprentissage auto-supervisé, Grands Modèles de Langage, Apprentissage multimodal,
- Programmation : Maîtrise des langages de programmation couramment utilisés en apprentissage automatique (par exemple, Python, TensorFlow, PyTorch).
- Intérêt démontré pour la recherche à travers des projets précédents, des stages ou des publications.
Exigences de l'application :
- Un CV détaillé mettant en évidence l'expérience et les compétences pertinentes (une ou plusieurs de celles décrites dans l'offre).
- Une lettre de motivation expliquant l'intérêt du candidat pour le poste et ses qualifications pertinentes.
- Les relevés de notes académiques des diplômes précédents.
- Les coordonnées d'au moins deux références académiques ou professionnelles.
- Des exemples de travaux de recherche ou des publications précédentes.

Architecte Cloud AWS ou GCP

il y a 3 jours

Capgemini Toulouse, France

Le groupe Capgemini · Choisir Capgemini, c'est choisir une entreprise où vous serez en mesure de façonner votre carrière selon vos aspirations. Avec le soutien et l'inspiration d'une communauté d'experts dans le monde entier, où vous pourrez réécrire votre futur. · Rejoignez-nous ...
Architecte Cloud Aws Ou Gcp

il y a 2 jours

Capgemini Toulouse, France

Le groupe CapgeminiChoisir Capgemini, c'est choisir une entreprise où vous serez en mesure de façonner votre carrière selon vos aspirations. Avec le soutien et l'inspiration d'une communauté d'experts dans le monde entier, où vous pourrez réécrire votre futur.Rejoignez-nous pour ...
ingenieur de recherche en correction geometrique d'images de teledetection optique 12 mois

il y a 4 semaines

Onera Toulouse, France

Présentation de l'ONERAL'ONERA, acteur central de la recherche aéronautique et spatiale, emploie plus de 2000 personnes. Placé sous la tutelle du Ministère des Armées, il dispose d'un budget de 289 millions d'euros (2023), dont plus de la moitié provient de contrats d'études, de ...

Doctorant (H/F) - Apprentissage profond et ses applications - Images hyperspectrales et données multimodales - Toulouse, France - CNRS

Description

Architecte Cloud AWS ou GCP

Architecte Cloud Aws Ou Gcp

ingenieur de recherche en correction geometrique d'images de teledetection optique 12 mois