Logo Lab-STICCDes capteurs à la connaissance : Communiquer et décider

Offre de thèse sur la théorie de l'information et le codage source-canal pour les applications d'apprentissage automatique.

| CODES  

Sujet : Codage source-canal pour l'apprentissage

Financement : Cette thèse sera menée dans le cadre du projet Labex CominLabs CoLearn (Coding for Learning).

Date de début prévue : 1er octobre 2021

Laboratoire d'accueil : Encadrement conjoint entre le Lab-STICC/IMT Atlantique, équipe CODES, et l'IETR/INSA Rennes, équipe SYSCOM.

Mots-clés : Théorie de l'information asymptotique et non-asymptotique, théorie de la mesure, codage source et canal, apprentissage automatique.

Résumé :

Chaque minute, 500 heures de vidéo sont téléchargées sur Youtube, et 240 000 images sont ajoutées sur Facebook. Comme il est physiquement impossible que cette énorme masse de données soit entièrement traitée et visualisée par des humains, il est absolument nécessaire de s'appuyer sur des méthodes avancées d'apprentissage automatique pour trier, organiser et recommander le contenu aux utilisateurs. Cependant, la transmission des données de l'endroit où elles sont collectées vers le serveur où elles sont traitées doit être effectuée comme une étape préliminaire. Le cadre conventionnel de transmission des données suppose que les données doivent être complètement reconstruites, même avec quelques distorsions, par le serveur. Cette thèse vise plutôt à développer un nouveau cadre de communication dans lequel le serveur peut également appliquer une tâche d'apprentissage sur les données codées. Nous souhaitons développer une analyse théorique de l'information afin de comprendre les limites fondamentales de tels systèmes, et développer de nouvelles techniques de codage permettant à la fois l'apprentissage et la reconstruction des données à partir des données codées.

Pour effectuer l'apprentissage, une idée simple consiste à utiliser des techniques de codage standard pour la transmission des données, et à effectuer l'apprentissage après la reconstruction des données. Cependant, on peut se demander si la conception du schéma de codage du point de vue du critère de distorsion peut également optimiser les performances d'apprentissage. Par conséquent, la première question fondamentale à laquelle le candidat devra répondre est la suivante : "existe-t-il un compromis en termes de taux de codage entre la distorsion et les performances d'apprentissage ?". Par ailleurs, le théorème de séparation source-canal stipule que, dans des conditions asymptotiques, le système de codage de la source et le système de codage du canal peuvent être conçus de manière totalement indépendante l'un de l'autre, sans aucune perte de performance par rapport à une conception conjointe des deux systèmes. Par conséquent, la deuxième question fondamentale que nous souhaitons étudier est la suivante : "la séparation source-canal est-elle toujours optimale pour l'apprentissage dans des conditions asymptotiques ou non asymptotiques ?". [1].

Les quelques travaux dans la littérature qui ont traité du compromis entre la reconstruction et la performance d'apprentissage ont considéré soit une configuration particulière du problème général décrit ici, par exemple [2, 3], soit ont négligé la partie codage du canal, par exemple [4]. Dans ce doctorat, le candidat considérera la configuration générale décrite ci-dessus et cherchera les limites fondamentales de la théorie de l'information régissant le compromis entre la reconstruction des données et la mesure de la performance d'apprentissage. En outre, le doctorant étudiera les solutions les plus prometteuses de codage de la source et du canal afin de se rapprocher des limites qui auraient été dérivées dans un premier temps.

L'une des applications envisagées est la classification de signaux acoustiques provenant de capteurs sous-marins. Les données, collectées à partir de capteurs acoustiques, sont transmises via un canal acoustique sous-marin à une passerelle afin d'être classées, par exemple, en sons biologiques ou géologiques. Les schémas de codage proposés dans le cadre de la thèse peuvent être appliqués dans ce contexte.

Compétences clés

Le candidat doit avoir obtenu un diplôme MSc, ou équivalent, dans l'un des domaines suivants : théorie de l'information, traitement du signal, mathématiques appliquées. Il devrait avoir de solides connaissances en probabilités et en théorie de l'information. Une certaine connaissance du domaine de l'apprentissage automatique serait également appréciée. Le candidat doit être familier avec Matlab et le langage C/C++ ou Python.

Comment postuler ?

Veuillez envoyer un e-mail aux contacts listés ci-dessous en expliquant en quelques lignes votre intérêt pour ce sujet, et joindre :

  • Un CV complet avec la liste des projets et des cours qui pourraient être liés au sujet.
  • Un dossier académique complet (de la licence au MSc)
  • 1 ou 2 références

Les candidatures seront examinées dès leur réception jusqu'à ce qu'un candidat soit sélectionné.

Contacts :

Dr. Elsa Dupraz, IMT Atlantique / Lab-STICC UMR CNRS 6285

email: elsa.dupraz@imt-atlantique.fr

website: http://elsa-dupraz.fr

Dr. Philippe Mary, INSA de Rennes / IETR UMR CNRS - 6164

email: philippe.mary@insa-rennes.fr

website: http://pmary.perso.insa-rennes.fr

 

Références

[1] V. Kostina, "Lossy data compression : non-asymptotic fundamental limits", PhD dissertation, Princeton University, 2013.

[2] E. Tuncel, D. Gündüz, "Identification and lossy reconstruction in noisy databases", IEEE Trans. on Inf. Theory, 2013.

[3] S. Sreekumar, D. Günduz, "Distributed hypothesis testing over discrete memoryless channels", IEEE Trans. on Inf. Theory, 2019

[4] M. Raginski, "Learning from compressed observations", In Proc. of IEEE ITW, 2007.


Toutes les actualités