Soutenance de thèse Julie HAMON - 26 novembre 2013

par joyeux_lapin13 Mer 30 Oct 2013 - 5:12

Bonjour,

J'ai le plaisir de vous inviter à ma soutenance de thèse intitulée
"Optimisation combinatoire pour la sélection de variables en régression
en grande dimension : Application en génétique animale" qui aura lieu
le mardi 26 novembre 2013 à 14h à l'amphithéatre de l'IRCICA
(http://www.ircica.univ-lille1.fr/) ainsi qu'au pot qui suivra.

Le Jury est composé de :

Directeur de Thèse : Clarisse DHAENENS, Université Lille 1
Julien JACQUES, Université Lille 1

Rapporteurs : Charles BOUVEYRON, Université Paris Descartes
Frédéric LARDEUX, Université d'Angers

Membres : Laurence DUCHIEN, Université Lille 1
Stéphane CHRÉTIEN, Université de Franche-Comté
Claude GRENIER, Gènes Diffusion

Résumé :

Le développement des technologies de séquençage et de génotypage
haut-débit permet de mesurer, pour un individu, une grande quantité
d’information génomique.
L’objectif de ce travail est, dans le cadre de la sélection génomique
animale, de sélectionner un sous-ensemble de marqueurs génétiques
pertinents permettant de prédire un caractère quantitatif, dans un
contexte où le nombre d’animaux génotypés est largement inférieur au
nombre de marqueurs étudiées.
Après un état de l’art des méthodes actuelles permettant de répondre à
la problématique nous proposons de répondre à notre problématique de
sélection de variables en régression en grande dimension en combinant
approches d’optimisation combinatoire et modèles statistiques. Nous
commençons par paramétrer expérimentalement deux méthodes d’optimisation
combinatoire, la recherche locale itérée et l’algorithme génétique,
combinées avec une régression linéaire multiple et nous évaluons leur
pertinence. Dans le contexte de la génomique animale les relations
familiales entre animaux sont connues et peuvent constituer une
information importante. Notre approche étant ﬂexible, nous proposons une
adaptation permettant de prendre en considération ces relations
familiales via l’utilisation
d’un modèle mixte. Le problème du sur-apprentissage étant
particulièrement présent sur nos données dû au déséquilibre important
entre le nombre de variables étudiées et le nombre d’animaux
disponibles, nous proposons également une amélioration de notre approche
permettant de diminuer ce sur-apprentissage.
Les différentes approches proposées sont validées sur des données de la
littérature ainsi que sur des données réelles de Gènes Diﬀusion.

Abstract:

Advances in high-throughput sequencing and genotyping technologies allow
to measure large amounts of genomic information.
The aim of this work is dedicated to the animal genomic selection is to
select a subset of relevant genetic markers to predict a quantitative
trait, in a context where the number of genotyped animals is widely
lower than the number of markers studied.
We introduce a state-of-the-art of existing methods to address the
problem and then suggest to deal with the variable selection in high
dimensional regression problem combining combinatorial optimization
methods and statistical models.
We start by experimentally set two combinatorial optimization methods,
the iterated local search and the genetic algorithm, combined with a
linear multiple regression and we evaluate their relevance. In the
context of animal genomic, family relationships between animals are
known and can be an important information.
As our approach is ﬂexible we suggest an adaptation to consider these
familial relationships through the use of a mixed model. Moreover, the
problem of over-ﬁtting is particularly present in such data due to the
large imbalance between the number of variables studied and the number
of animals available, so we suggest an improvement of our approach in
order to reduce this over-ﬁtting.
The diﬀerent suggested approaches are validated on data from the
literature as well as on real data of Gènes Diffusion.

Meilleures salutations,

--
Julie HAMON
Doctorante CIFRE
Chargé d'études de méthodologies statistiques et informatique
INRIA Lille Nord-Europe
Société Gènes Diffusion
Tel : 03 59 35 86 33
julie.hamon@inria.fr