Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
ACP et distribution des variables
5 participants
Page 1 sur 1
ACP et distribution des variables
Bonjour,
Serait-il incorrect de réaliser une ACP sur des variables dont la distribution n'est pas normale et pourquoi?
Merci d'avance.
Serait-il incorrect de réaliser une ACP sur des variables dont la distribution n'est pas normale et pourquoi?
Merci d'avance.
fbn- Nombre de messages : 12
Date d'inscription : 19/02/2015
Re: ACP et distribution des variables
Bonjour,
tu touches un point sensible en statistiques ici :-)
Il y a les partisans du "tu as le droit, ça ne change rien"
et les partisans du "il faut que les distributions soient normales sinon rien".
Pour ma part, je trouve que ce n'est pas forcément gênant de faire une ACP sur des variables non normales. Seulement cette méthode ne va pas t'informer du vrai lien qui peut exister entre les variables.
Par contre si tu as des distributions normales sur chacune de tes variables, l'ACP va te restituer complètement les liens qui existent ou pas entre tes variables.
Je ne sais pas si je suis clair...
Niaboc
tu touches un point sensible en statistiques ici :-)
Il y a les partisans du "tu as le droit, ça ne change rien"
et les partisans du "il faut que les distributions soient normales sinon rien".
Pour ma part, je trouve que ce n'est pas forcément gênant de faire une ACP sur des variables non normales. Seulement cette méthode ne va pas t'informer du vrai lien qui peut exister entre les variables.
Par contre si tu as des distributions normales sur chacune de tes variables, l'ACP va te restituer complètement les liens qui existent ou pas entre tes variables.
Je ne sais pas si je suis clair...
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: ACP et distribution des variables
Merci pour cette réponse, mais je ne suis pas sûr d'avoir compris.
Si, par exemple, je veux utiliser le premier axe de l'ACP pour résumer l'information contenue dans mes variables, je n'ai pas besoin que la distribution de mes variables soit normale?
Si, par exemple, je veux utiliser le premier axe de l'ACP pour résumer l'information contenue dans mes variables, je n'ai pas besoin que la distribution de mes variables soit normale?
fbn- Nombre de messages : 12
Date d'inscription : 19/02/2015
Re: ACP et distribution des variables
Non tu n'as pas forcément besoin.
Mais si leur distribution est normale, les mesures de corrélation de ton ACP t'indique complètement le lien qui peut exister entre les variables.
Niaboc
Mais si leur distribution est normale, les mesures de corrélation de ton ACP t'indique complètement le lien qui peut exister entre les variables.
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: ACP et distribution des variables
OK, mais si leur distribution n'est pas normale, comment interpréter les mesures de corrélation?
fbn- Nombre de messages : 12
Date d'inscription : 19/02/2015
Re: ACP et distribution des variables
L'ACP ne va mesurer que les corrélations linéaires, donc si les distributions ne sont pas normales, une absence de corrélation dans ton ACP indique une absence de corrélation linéaire... Mais ça ne veut pas dire que tes variables ne sont pas corrélées autrement que linéairement.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: ACP et distribution des variables
Je comprends bien cette remarque, mais je ne comprends pas pourquoi elle ne serait vraie que dans le cas où les variables ne seraient pas normalement distribuées.
Deux variables avec une distribution normale peuvent être liées autrement que de façon linéaire, et dans ce cas la corrélation linéaire sera faible aussi, non?
Deux variables avec une distribution normale peuvent être liées autrement que de façon linéaire, et dans ce cas la corrélation linéaire sera faible aussi, non?
fbn- Nombre de messages : 12
Date d'inscription : 19/02/2015
Re: ACP et distribution des variables
Je m'exprime surement mal aussi...
En fait pour des distributions linéaires, une absence de corrélation impliquent une indépendance entre les deux lois... ce qui n'est pas vrai lorsque les distributions ne sont pas normales.
"Deux variables avec une distribution normale peuvent être liées autrement que de façon linéaire"... à réfléchir si c'est possible du coup?
En fait pour des distributions linéaires, une absence de corrélation impliquent une indépendance entre les deux lois... ce qui n'est pas vrai lorsque les distributions ne sont pas normales.
"Deux variables avec une distribution normale peuvent être liées autrement que de façon linéaire"... à réfléchir si c'est possible du coup?
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: ACP et distribution des variables
niaboc a écrit:
"Deux variables avec une distribution normale peuvent être liées autrement que de façon linéaire"... à réfléchir si c'est possible du coup?
Oui effectivement je suis allé un peu vite...
fbn- Nombre de messages : 12
Date d'inscription : 19/02/2015
Re: ACP et distribution des variables
La raison pour laquelle il faudrait que tes variables suivent une loi normale c'est parce que l'ACP se base sur le coefficient de corrélation de Pearson pour construire la matrice de corrélation à partir de laquelle on calcule les valeurs propres (ce que l'on appelle les parts de variance restituée par les composantes principales) et leur vecteur propre associé (ce que l'on appelle les composantes principales).
Si tu regardes la formule du coefficient de corrélation de Pearson, il s'agit (de mémoire) du rapport entre la norme euclidienne et le résultat attendu dans le cas d'une droite linéaire parfaite pour deux variables suivant une loi normale chacune, à approfondir car c'est vraiment de souvenir très lointain pour ce passage.
Pour l'étude ou plutôt la mise en évidence de liaison non linéaire, on procède très souvent par une ACM en divisant en trois voir quatre classe chacune des variables (découpage 1/3-1/3-1/3 dans le premier cas et découpage selon un boxplot dans le second).
Si tu regardes la formule du coefficient de corrélation de Pearson, il s'agit (de mémoire) du rapport entre la norme euclidienne et le résultat attendu dans le cas d'une droite linéaire parfaite pour deux variables suivant une loi normale chacune, à approfondir car c'est vraiment de souvenir très lointain pour ce passage.
Pour l'étude ou plutôt la mise en évidence de liaison non linéaire, on procède très souvent par une ACM en divisant en trois voir quatre classe chacune des variables (découpage 1/3-1/3-1/3 dans le premier cas et découpage selon un boxplot dans le second).
Re: ACP et distribution des variables
Désolé,
mais je ne comprends pas pourquoi il faudrait avoir normalité des données pour faire de la régression linéaire. La seule Normalité qui existe dans le modèle est celle des résidus, c'est à dire qu'on utilise un modèle Y=aX+b+e où e est une variable gaussienne "minimale".
Ce serait d'ailleurs gênant d'avoir besoin de la Normalité de X ou de Y. Dans les modèle contrôlés, X est par exemple une variable entière distribuée régulièrement (date, nombre de cas, ...); donc surtout pas gaussien
Pour l'ACP, je ne connais pas assez, mais j'ai rarement rencontré cette exigence (sauf dans certains domaines où les enseignants demandent constamment de la Normalité).
Cordialement.
mais je ne comprends pas pourquoi il faudrait avoir normalité des données pour faire de la régression linéaire. La seule Normalité qui existe dans le modèle est celle des résidus, c'est à dire qu'on utilise un modèle Y=aX+b+e où e est une variable gaussienne "minimale".
Ce serait d'ailleurs gênant d'avoir besoin de la Normalité de X ou de Y. Dans les modèle contrôlés, X est par exemple une variable entière distribuée régulièrement (date, nombre de cas, ...); donc surtout pas gaussien
Pour l'ACP, je ne connais pas assez, mais j'ai rarement rencontré cette exigence (sauf dans certains domaines où les enseignants demandent constamment de la Normalité).
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: ACP et distribution des variables
La normalité n'est pas nécessaire, c'est juste que la méthode ACP donne 100% de ses capacités sur des distributions normales :-)
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: ACP et distribution des variables
bonjour,
toute est une question d'école.
Ecole française : ACP and co sont des méthodes géométriques donc rien à voir avec les prérequis des régressions linéaires
Ecole anglaise: l'ACP est une méthode prédictive (les colonnes en fonction des lignes) donc la relation liant les axes principaux et les combinaisons de variables doivent respecter les hypothèses du modèles linéaires et donc la normalité des erreurs.
Le problème en ACP n'est pas tant celui de la normalité mais plutôt celui des outliers des variables qui sont déjà lesplus dispersées car l'ACP va nécessairement donner beaucoup de poids à ces variables.
Nik
toute est une question d'école.
Ecole française : ACP and co sont des méthodes géométriques donc rien à voir avec les prérequis des régressions linéaires
Ecole anglaise: l'ACP est une méthode prédictive (les colonnes en fonction des lignes) donc la relation liant les axes principaux et les combinaisons de variables doivent respecter les hypothèses du modèles linéaires et donc la normalité des erreurs.
Le problème en ACP n'est pas tant celui de la normalité mais plutôt celui des outliers des variables qui sont déjà lesplus dispersées car l'ACP va nécessairement donner beaucoup de poids à ces variables.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Sujets similaires
» Distribution
» Distribution d'une AUC
» ajustement des distribution
» distribution gaussienne ou pas
» distribution gaussienne
» Distribution d'une AUC
» ajustement des distribution
» distribution gaussienne ou pas
» distribution gaussienne
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum