Re: ACP

par mounira Dim 22 Jan 2017 - 15:39

j'ai fait un ACP sur des données et je trouve comme résultat :
31% d'inertie expliqué par les deux axes principales. Ce pourcentage d'inertie n'est pas suffisante pour sélection des variable explicatif.

je me propose comme solution de faire un filtrage des individus mais mon problème est quelle méthode que je peut utiliser pour appliquer le filtrage?

par Eric Wajnberg Lun 23 Jan 2017 - 5:53

Avant tout chose, pourquoi 31% sur les deux premiers axes n'est pas suffisant ? Combien avez-vous de variables dans votre ACP ? Enfin, que veut dire "sélectionner des variables explicatives" ? Explicatives de quoi ?

Cordialement, Eric.

par mounira Mar 24 Jan 2017 - 8:20

j'ai 15 variable.
je vais réduire le nombre des variables et de prendre que les variable le plus des données

cordialement

par Florent Aubry Mar 24 Jan 2017 - 9:40

Le problème n'est pas vraiment un problème de nombre de variables mais de corrélation (redondance) entre les variable et de dispersion des valeurs dans la population. En effet, plus les variables sont corrélées ou plus elles sont dispersées ('bruitées') alors moins il y a de dimensions significations. Dans ce dernier cas, 2 axes et 31% peuvent être largement suffisant. Le cercle de corrélation dans le plan (1, 2) répond au premier point.

Pour une ACP classique, il existe des méthodes plus ou moins empiriques pour avoir une idée du nombre de dimensions à retenir, comme le critère du coude (screeplot, éboulis ou critère de Cattell sont des noms équivalents) ou l'analyse parallèle de Horn. Pour cette dernière, voir le package paran.
On peut aussi contourner le problème en utilisant des ACP robustes.

par Eric Wajnberg Mar 24 Jan 2017 - 14:51

Il existe des procédures d'inférence sur la significativité des valeurs propres en ACP, et celles-ci dépendent évidement du nombre de variables. Par exemple, s'il n'y aucune structure de corrélation, par définition la quantité d'information expliquée par chaque sera exactement 1/m, où "m" est le nombre de variables. Il n'est donc pas possible de savoir si une valeur de 31% a un sens ou non, sans connaitre le nombre variables dans le jeu de données. 31% sera particulièrement faible s'il y peu de variables, et particulièrement élevé s'il y en a énormément.

On peut regarder l'éboulis des valeurs propres et chercher une rupture effectivement. En pratique cependant, on regarde les 2-3 premiers axes et ça suffit très souvent.

Eric.

par Florent Aubry Mar 24 Jan 2017 - 16:03

Eric, je pense que tu ouvres un débat intéressant sur l'ACP qui pourrait mériter une discussion plus approfondie. D'après mon expérience, les procédures formelles d'inférence ont une certaine tendance à surestimer le nombre de composantes à conserver et je fais plus confiance à l'éboulis ou, à condition que le rapport entre le nombre d'individus et de variables soit raisonnable, à la procédure de Horn qui donne alors à peu près le même nombre de composantes (généralement à 1 près). Quand ce rapport tend vers 1, l'analyse de Horn a tendance à donner 0 composante. A l'inverse, et toujours d'après mon expérience, les procédures d'inférence vont donner de plus en plus de composantes jusqu'à un nombre non négligeable de composantes même si les variables sont corrélées. En fait, il semble alors que le procédure de Horn et les procédures plus formelles gèrent de manière différente le fait que la matrice de corrélation tend alors ne plus être de rang plein (ce qui est sûrement les cas s'il y a plus de variables que d'individus). De plus, l'inspection de l'éboulis permet de voir du premier coup d’œil si les données sont corrélées entre elles ou non. Un éboulis 'plat' indique des variables peu corrélées entre elles à condition toujours que le nombre d'individus soir raisonnablement grand par rapport au nombre de variables. Si ce n'est pas le cas, même un éboulis avec un coude ne veut rien dire et il est préférable de passer aux méthodes robustes. Enfin, les procédures formelles font généralement l'hypothèse de données multivariées gaussiennes et certaines procédures sont très sensibles à la non normalité des données et sont en fait à proscrire.

La règle pratique que tu mentionnes est souvent une bonne règle empirique car il devient souvent difficile d'interpréter les axes au-delà et souvent on se retrouve de toute façon avec 3/4 dimensions à conserver d'après le critère du coude. Cependant, il n'est pas toujours inutile de regarder la dimension suivante (par exemple 4) car elle peut indiquer des tendances intéressantes. Mais je pense que tout cela est aussi lié au domaine d'utilisation et au fait qu'on introduit ou non des variables qualitatives supplémentaires dans l'analyse (ACP dite 'à la française' dans la littérature anglo-saxonne).

par Eric Wajnberg Mer 25 Jan 2017 - 5:53

Je dis qu'il existe des procédures inférentielles sur la significativité des valeurs propres. Je ne dis pas qu'il faille les utiliser (de fait, elles ne sont généralement pas utilisées). Je dis ceci comme un argument (parmi d'autres) qui explique que la variance expliquée par un axe n'apporte en soit aucune information, ca dépend du nombre de variables dans l'ACP. Et c'est la question posée initialement.

Eric.

par Contenu sponsorisé