Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
ACP
3 participants
Page 1 sur 1
ACP
j'ai fait un ACP sur des données et je trouve comme résultat :
31% d'inertie expliqué par les deux axes principales. Ce pourcentage d'inertie n'est pas suffisante pour sélection des variable explicatif.
je me propose comme solution de faire un filtrage des individus mais mon problème est quelle méthode que je peut utiliser pour appliquer le filtrage?
31% d'inertie expliqué par les deux axes principales. Ce pourcentage d'inertie n'est pas suffisante pour sélection des variable explicatif.
je me propose comme solution de faire un filtrage des individus mais mon problème est quelle méthode que je peut utiliser pour appliquer le filtrage?
mounira- Nombre de messages : 2
Date d'inscription : 21/01/2017
Re: ACP
Avant tout chose, pourquoi 31% sur les deux premiers axes n'est pas suffisant ? Combien avez-vous de variables dans votre ACP ? Enfin, que veut dire "sélectionner des variables explicatives" ? Explicatives de quoi ?
Cordialement, Eric.
Cordialement, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: ACP
j'ai 15 variable.
je vais réduire le nombre des variables et de prendre que les variable le plus des données
cordialement
je vais réduire le nombre des variables et de prendre que les variable le plus des données
cordialement
mounira- Nombre de messages : 2
Date d'inscription : 21/01/2017
Re: ACP
Le problème n'est pas vraiment un problème de nombre de variables mais de corrélation (redondance) entre les variable et de dispersion des valeurs dans la population. En effet, plus les variables sont corrélées ou plus elles sont dispersées ('bruitées') alors moins il y a de dimensions significations. Dans ce dernier cas, 2 axes et 31% peuvent être largement suffisant. Le cercle de corrélation dans le plan (1, 2) répond au premier point.
Pour une ACP classique, il existe des méthodes plus ou moins empiriques pour avoir une idée du nombre de dimensions à retenir, comme le critère du coude (screeplot, éboulis ou critère de Cattell sont des noms équivalents) ou l'analyse parallèle de Horn. Pour cette dernière, voir le package paran.
On peut aussi contourner le problème en utilisant des ACP robustes.
Pour une ACP classique, il existe des méthodes plus ou moins empiriques pour avoir une idée du nombre de dimensions à retenir, comme le critère du coude (screeplot, éboulis ou critère de Cattell sont des noms équivalents) ou l'analyse parallèle de Horn. Pour cette dernière, voir le package paran.
On peut aussi contourner le problème en utilisant des ACP robustes.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: ACP
Il existe des procédures d'inférence sur la significativité des valeurs propres en ACP, et celles-ci dépendent évidement du nombre de variables. Par exemple, s'il n'y aucune structure de corrélation, par définition la quantité d'information expliquée par chaque sera exactement 1/m, où "m" est le nombre de variables. Il n'est donc pas possible de savoir si une valeur de 31% a un sens ou non, sans connaitre le nombre variables dans le jeu de données. 31% sera particulièrement faible s'il y peu de variables, et particulièrement élevé s'il y en a énormément.
On peut regarder l'éboulis des valeurs propres et chercher une rupture effectivement. En pratique cependant, on regarde les 2-3 premiers axes et ça suffit très souvent.
Eric.
On peut regarder l'éboulis des valeurs propres et chercher une rupture effectivement. En pratique cependant, on regarde les 2-3 premiers axes et ça suffit très souvent.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: ACP
Eric, je pense que tu ouvres un débat intéressant sur l'ACP qui pourrait mériter une discussion plus approfondie. D'après mon expérience, les procédures formelles d'inférence ont une certaine tendance à surestimer le nombre de composantes à conserver et je fais plus confiance à l'éboulis ou, à condition que le rapport entre le nombre d'individus et de variables soit raisonnable, à la procédure de Horn qui donne alors à peu près le même nombre de composantes (généralement à 1 près). Quand ce rapport tend vers 1, l'analyse de Horn a tendance à donner 0 composante. A l'inverse, et toujours d'après mon expérience, les procédures d'inférence vont donner de plus en plus de composantes jusqu'à un nombre non négligeable de composantes même si les variables sont corrélées. En fait, il semble alors que le procédure de Horn et les procédures plus formelles gèrent de manière différente le fait que la matrice de corrélation tend alors ne plus être de rang plein (ce qui est sûrement les cas s'il y a plus de variables que d'individus). De plus, l'inspection de l'éboulis permet de voir du premier coup d’œil si les données sont corrélées entre elles ou non. Un éboulis 'plat' indique des variables peu corrélées entre elles à condition toujours que le nombre d'individus soir raisonnablement grand par rapport au nombre de variables. Si ce n'est pas le cas, même un éboulis avec un coude ne veut rien dire et il est préférable de passer aux méthodes robustes. Enfin, les procédures formelles font généralement l'hypothèse de données multivariées gaussiennes et certaines procédures sont très sensibles à la non normalité des données et sont en fait à proscrire.
La règle pratique que tu mentionnes est souvent une bonne règle empirique car il devient souvent difficile d'interpréter les axes au-delà et souvent on se retrouve de toute façon avec 3/4 dimensions à conserver d'après le critère du coude. Cependant, il n'est pas toujours inutile de regarder la dimension suivante (par exemple 4) car elle peut indiquer des tendances intéressantes. Mais je pense que tout cela est aussi lié au domaine d'utilisation et au fait qu'on introduit ou non des variables qualitatives supplémentaires dans l'analyse (ACP dite 'à la française' dans la littérature anglo-saxonne).
La règle pratique que tu mentionnes est souvent une bonne règle empirique car il devient souvent difficile d'interpréter les axes au-delà et souvent on se retrouve de toute façon avec 3/4 dimensions à conserver d'après le critère du coude. Cependant, il n'est pas toujours inutile de regarder la dimension suivante (par exemple 4) car elle peut indiquer des tendances intéressantes. Mais je pense que tout cela est aussi lié au domaine d'utilisation et au fait qu'on introduit ou non des variables qualitatives supplémentaires dans l'analyse (ACP dite 'à la française' dans la littérature anglo-saxonne).
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: ACP
Je dis qu'il existe des procédures inférentielles sur la significativité des valeurs propres. Je ne dis pas qu'il faille les utiliser (de fait, elles ne sont généralement pas utilisées). Je dis ceci comme un argument (parmi d'autres) qui explique que la variance expliquée par un axe n'apporte en soit aucune information, ca dépend du nombre de variables dans l'ACP. Et c'est la question posée initialement.
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum