Interpretation Analyse discriminante PLS-DA

par PLSam Sam 14 Mai 2016 - 23:09

Bonjour à tous et à toutes,

Je suis nouveau sur ce forum qui m'a été très utile à bien des reprises.
Je ne suis pas statisticien de formation Embarassed

. Je vous demanderai s'il vous plait d'être un peu indulgent avec mes éventuelles inexactitudes de langage (Mathématique) ou questions un peu naïves si on peut dire.

J'ai recours en ce moment à une analyse de classification supervisée: la PLS-DA (Partial Least square Discriminant Analysis) sur le logiciel R. Mon objectif est de trouver des ensembles de variables (Dans mon cas des expressions de gènes) qui discriminent au mieux deux groupes expérimentaux "A" et "B". Je test plusieurs ensembles de gènes différents mais ce détail n'est pas très important ici je pense. J’évalue le taux d'erreur de classification par cross validation avec, comme estimateur de l'erreur, le "number of misclassifications" (NMC).
Afin de paramétrer le nombre adéquat de composantes (Axes ou "variates") du modèle de classification, j’évalue le taux d'erreur (NMC) en fonction du nombre de composante (de 1 à 10 par exemple). Donc je me retrouve avec une courbe NMC = f(Nombre d'axes).
C'est là où ça se complique pour moi (Peut être que je complique les choses tout seul Embarassed

).
Selon le modèle généré, les courbes ont des allures différentes: Certaines courbes montrent une réduction du NMC jusqu'à atteindre une valeur "asymptotique". D'autre atteignent un niveau d'erreur assez bas (Au bout de 5 axes par exemple) puis rebondissent... furieusement ! Enfin, d'autres courbes montrent une fluctuation aléatoire du taux d'erreur selon le nombre de composantes; un peu comme l’électrocardiogramme d'une grenouille en plein infarctus !

Ma QUESTION: Pour apprécier la qualité de mon modèle , dois-je prendre en compte uniquement le nombre de composantes qui me permet d'avoir un taux d'erreur assez bas (Selon un seuil donné: 10% par exemple)? ou alors dois-je tenir compte des différentes allures de courbes décrites précédemment ? Si oui, peut-on me dire pourquoi ?

Bien à vous Smile

PS: Encore une fois, je parle de plusieurs modèles parce que j'applique des PLSDA sur plusieurs ensembles de variables différents.

par joyeux_lapin13 Mar 17 Mai 2016 - 4:45

Bonjour,

En général le choix du critère de sélection du modèle s'applique en fonction de l'un des deux objectifs suivants: classer ou modéliser. Le premier cas est très prisé dans l'industrie pharmaceutique puisque les objectifs se limitent souvent à sortir une combinaison de variables qui va battre la référence afin de pouvoir bâtir un brevet dessus. La second produit souvent (quoi que...) des performances un peu moins bonne mais a plus de chance de se généraliser.

Sinon, en régression PLS le nombre de composantes optimales se situe en général entre 1 et 4 (cf S. Tufféry), au delà il vaut mieux ne pas regarder.

Par contre je n'ai pas compris l'histoire des courbes en fonction du modèle généré. Tu veux dire que tu fais tourner plusieurs modèles sur plusieurs sous-ensemble de variables? Si c'est ça, c'est quoi ton critère de sélection du coup?

En général si tu fais de la PLS il te faut sortir la distribution des coefficients (par bootstrap) par variable et regarder pour lesquelles on rejette la valeur nulle. Tu fais tourner à nouveau ton modèle après suppression des variables concernées puis tu appliques la même méthodo jusqu'à ne plus avoir de variables dont le coefficient contient 0 dans sa distribution. Ou alors tu fais tourner tous les modèles possibles et imaginables et tu compares le critère de performance que tu auras choisi pour opter pour la solution la plus performante.

par PLSam Mar 24 Mai 2016 - 11:59

Bonjour,
Merci beaucoup pour cette réponse. En effet S.Tuffery indique qu'un nombre optimal de 4 composantes est déjà rarement utile et, qu'au delà, le risque de sur-apprentissage est important (si ma mémoire est bonne).
Alors pour l'histoire de mes courbes en effet c'est pas clair du tout, mais tu as déjà compris le truc. J'ai environ 15000 variables. Ce sont des expressions de gènes.
J'ai classé ces gènes par catégories fonctionnelles (Un groupe de gènes impliqué dans une même fonction cellulaire). Donc j'applique la PLS pour chaque ensemble de variable (Partageant la mm catégorie d'après les bases de donnée disponible).

Je n'ai pas fait de bootstrap mais un test de permutation. De ce que j'ai pu comprendre, il n'y a pas d'avantage particulier à utiliser l'une ou l'autre technique.

par Contenu sponsorisé

Interpretation Analyse discriminante PLS-DA

Interpretation Analyse discriminante PLS-DA

Re: Interpretation Analyse discriminante PLS-DA

Re: Interpretation Analyse discriminante PLS-DA

Re: Interpretation Analyse discriminante PLS-DA