Analyse et traitement de données multicomposantes et multivariées en biologie de cancer

Retour à la liste des thèses
Ajouté le: 5/02/2014
Directeur : MOHAMMAD-DJAFARI Ali - djafari@lss.supelec.fr
Titre : Analyse et traitement de données multicomposantes et multivariées en biologie de cancer
Thèmes : Automatique, Signal, Télécoms, Systèmes embarqués
Laboratoires : L2S Laboratoire des Signaux et Systèmes UMR 8506
Description :

Laboratoire d'accueil :
Laboratoire des Signaux et Systèmes (L2S),
UMR 8506, CNRS-SUPELEC-UNIV PARIS SUD
L2S, SUPELEC, Plateau de Moulon, 91192 Gif-sur-Yvette, France

Directeur du laboratoire : Silviu Niculescu, DR CNRS

Équipe : Groupe problèmes inverse (GPI)

Directeurs de thèse:

Ali Mohammad-Djafari, DR CNRS, djafari@lss.supelec.fr

Francis Lévi, DR CNRS, Directeur d'unité RBC, INSERM

Présentation générale :

Pour comprendre le cancer, les biologistes et les médecins étudient les cellules dans différentes expériences : cellules seules, population des cellules, petits animaux et finalement l'homme. On utilise différentes techniques pour mesurer les expressions des différentes gènes, protéines, hormones, température du corps, le niveau d'activité, etc. On enregistre ainsi une grande quantités de signaux et des images et des vidéos (multicomposantes multivariées). Il faut alors étudier ces signaux et ces images pour extraire des connaissances.

Le sujet de cette thèse qui se déroulera dans un cadre coopératif entre L2S à Supélec et plusieurs laboratoires d'INSERM et de CNRS est exactement développement des méthodes d'analyse et d'inférence pour ces signaux : Réduction de dimensionnalité (DR) pour visualisation et pour détermination des dimensions intrinsèques, Analyse en composantes principales (ACP), Analyse en composantes indépendantes (ACI), Analyse discriminante (AD), Séparation de sources (SS), ...

Objectifs : Le principal objectif de cette thèse est de développer les méthodes spécifiques pour ces données afin d'extraire des caractéristiques intrinsèques de chaque variable, étudier les dépendances entre un grand nombre de ces variables, déterminer la causalité entre ces variables lorsqu'on dispose d'un nombre très faible d'observations pour chaque variable et lorsqu'on peux avoir des données manquantes et des données aberrantes et lorsque ces données sont obtenues avec des rythmes différents. L'accent est mise sur des méthodes probabilistes et en particulier l'inférence bayésienne. Plus spécifiquement, les points suivants seront abordés :

  1. Modélisation et étude de l'évolution des différentes caractéristiques d'une cellule pendant les différentes étapes de son évolution. Parmi différentes caractéristiques, nous sommes intéressés plus particulièrement à son cycle cellulaire (CC) et à l'évolution des expressions de ses différentes gènes, particulièrement les gènes de l'horloge. Trouver ensuite un lien entre le CC et ces gènes apportent des informations sur le rôle de l'horloge sur le CC.
  2. Modélisation et étude de l'évolution des différentes caractéristiques d'une population de cellules en fonction de son environnement. A titre d'exemple, une étude statistique sur la distribution du CC d'une population de cellules apporte des informations utiles pour la modélisation du dynamique et et la synchronie d'une population de cellules.
  3. Planification d'expérience et sélection de variables importantes pour ces différentes études utilisant les techniques de ACP, ACI, AF, AD, SS, etc. En effet, dans la phase d'exploratoire des études, souvent on mesure un grand nombre de variables, parfois associées à des classes ou des contextes spécifiques. Parmi les différentes questions qui sont alors posées sont :
  4. Combien de variables est suffisantes pour décrire l'ensemble de ces données (Réduction de dimensionalité ) ?
  5. Quelles sont des variables les plus importantes à observer  (AF, ACP ou ACI)?
  6. Quelles sont des variables les plus discriminantes pour pouvoir discriminer entre ces classes ? (AD)
  7. Modélisation des liens entre ces différentes variables en utilisant les différentes mesures de dépendances comme la corrélation de Pearson, Spearman, Tau de Kendhal, ou plus généralement l'utilisation des copules. Plus spécifiquement :
  8. Lorsqu'on étudie l'évolution temporelle de certaines de ces variables, quelles sont les signaux sources à l'origine de ces signaux ? (SS)
  9. Peut-on fournir un graphe de dépendances entre ces variables ?
  10. Modélisation des causalités entre ces différentes variables en étudiant des séries temporelles liées à l'évolution dans le temps de ces variables.

Cette thèse se fera dans un cadre collaboratif entre L2S (http://www.lss.supelec.fr/) et en priorité avec l'unité Unité de Recherche « Rythmes Biologiques et Cancers » (RBC) Institut National de la Santé et de la Recherche Médicale (INSERM) et Université Paris Sud;(https://rbc.vjf.inserm.fr/) (sous la direction de Dr. Lévi) dans le cadre de plusieurs projets européen s comme ERASYSBIO.

Profil souhaité :

M2R, formation traitement statistique du signal et des images et en mathématiques appliquées, élève Ingénieur.

Contacts :

Ali Mohammad-Djafari, DR CNRS

djafari@lss.supelec.fr

01 69 85 17 41