Outils statistiques pour l'analyse de données génétiques multiples et corrélées : expression génétique, phénotypes et méthylation

 

Aurelie Labbe

Université McGill

 

Domaine : Génétique humaine

Programme chercheurs-boursiers - Junior 2

Concours 2013-2014

Ce programme de recherche se concentre sur le développement d'outils statistiques pour l'analyse de données génétiques multivariées. Spécifiquement, je souhaite aborder certaines questions telles que la définition du phénotype et l'analyse de données de méthylation.

Maximiser l'utilité des traits multiples corrélés dans les études génétiques : Je propose ici de revisiter le concept de phénotype dans les études génétiques lorsque de nombreux traits sont mesurés par les chercheurs. Dans de tels cas, la question du phénotype se pose, car chaque trait constitue un phénotype potentiel, et la corrélation entre les traits rend les analyses redondantes. L'idée que je souhaite poursuivre est d'identifier la combinaison optimale de traits ayant la plus grande héritabilité dans une région génétique d'intérêt.  

Caractériser les patterns de méthylation dans des régions génomiques d'intérêt : La méthylation de l'ADN est le processus qui conditionne et régule l'expression des gènes dans une cellule. Aujourd'hui, la technologie permet de mesurer les niveaux de méthylation sur des centaines de milliers de microrégions de l'ADN. Je propose dans ce projet de développer un modèle statistique qui va permettre de caractériser le pattern de méthylation dans certaines régions de l'ADN.

Identifier les marqueurs génétiques régulant les niveaux de méthylation : Il est connu que la méthylation de l'ADN est en partie contrôlée par le code génétique de l'ADN. Je souhaite donc dans ce projet développer un modèle statistique permettant de prendre en compte les centaines de milliers de marqueurs génétiques le long de l'ADN et les dizaines de milliers de régions génétiques dont le niveau de méthylation aura été caractérisé dans le second projet. Pour ce faire, je vais essayer de rendre l'estimation du modèle développé le moins coûteux en terme de temps de calcul.