Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
test de pearson et coefficient de corrélation [RESOLU]
2 participants
Page 1 sur 1
test de pearson et coefficient de corrélation [RESOLU]
Bonjour,
j'ai fait une série de test de corrélation via la méthode de Pearson sur une série de variables et je me suis rendu compte que le coefficient de corrélation et la p-valeur obtenu par Pearson se contredisent par moment.
Je cherche des infos sur ceci pour voir si mon test est faux ou si au contraire c'est normale et donc si avant de lire le coefficient de corrélation de deux variables il faut d'abord voir la p-valeur.
Merci de votre aide.
j'ai fait une série de test de corrélation via la méthode de Pearson sur une série de variables et je me suis rendu compte que le coefficient de corrélation et la p-valeur obtenu par Pearson se contredisent par moment.
Je cherche des infos sur ceci pour voir si mon test est faux ou si au contraire c'est normale et donc si avant de lire le coefficient de corrélation de deux variables il faut d'abord voir la p-valeur.
Merci de votre aide.
Dernière édition par joyeux_lapin13 le Lun 4 Oct 2010 - 17:40, édité 1 fois
Re: test de pearson et coefficient de corrélation [RESOLU]
Bonjour,
qu'entends-tu par il se contredise ? La p-value est directement associée au coefficient de corrélation, elle te dit juste si celui-ci est significativement différent de 0.
Donc 1) regarder la valeur du coeff de corrélation pour savoir comment les variables sont liées. Coeff négatif ? Positif ? proche de -1 de 0 ou de 1 ?
2) voir si celui-ci est significatif grâce à la p-value.
qu'entends-tu par il se contredise ? La p-value est directement associée au coefficient de corrélation, elle te dit juste si celui-ci est significativement différent de 0.
Donc 1) regarder la valeur du coeff de corrélation pour savoir comment les variables sont liées. Coeff négatif ? Positif ? proche de -1 de 0 ou de 1 ?
2) voir si celui-ci est significatif grâce à la p-value.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: test de pearson et coefficient de corrélation [RESOLU]
Bonjour Droopy, merci de m'avoir répondu si vite.
Alors par exemple le test de Pearson me renvoi une p-valeur = 0.0496 pour un coeff de 0.16634 entre deux variables V1 et V2. Mais pour deux variables V3 et V4 le test me donne une p-valeur = 0.1325 pour un coeff de 0.14301.
En d'autre terme pour des coeffs de corrélation assez proche (je trouve), il me donne deux p-valeurs qui veulent dire des choses opposés...
Cependant j'ai lu des infos sur wiki (je sais c'est satan pour certaines personnes) et là ils disent que l'on peut avoir des p-valeurs qui sont pas dans le sens des coeffs de corrélation lors de ce test et que c'est normal d'où la lecture en premier de la p-valeur puis du coefficient.
En attendant j'ai testé avec un Spearman et là j'obtiens des valeurs qui concorde (p-valeur / coeff) aussi j'en profite pour demander si utiliser Spearman ou Pearson revient au même ou si l'un est moins bien que l'autre.
Merci d'avance.
Alors par exemple le test de Pearson me renvoi une p-valeur = 0.0496 pour un coeff de 0.16634 entre deux variables V1 et V2. Mais pour deux variables V3 et V4 le test me donne une p-valeur = 0.1325 pour un coeff de 0.14301.
En d'autre terme pour des coeffs de corrélation assez proche (je trouve), il me donne deux p-valeurs qui veulent dire des choses opposés...
Cependant j'ai lu des infos sur wiki (je sais c'est satan pour certaines personnes) et là ils disent que l'on peut avoir des p-valeurs qui sont pas dans le sens des coeffs de corrélation lors de ce test et que c'est normal d'où la lecture en premier de la p-valeur puis du coefficient.
En attendant j'ai testé avec un Spearman et là j'obtiens des valeurs qui concorde (p-valeur / coeff) aussi j'en profite pour demander si utiliser Spearman ou Pearson revient au même ou si l'un est moins bien que l'autre.
Merci d'avance.
Re: test de pearson et coefficient de corrélation [RESOLU]
Certes les deux coeffs sont assez proches mais en tout cas les résultats sont cohérents: le coefficient le plus fort à la p-value la plus faible. De plus la p-value dépend aussi du nombre de valeurs que tu utilises, si dans les deux cas le nombre n'est pas le même alors il est normal d'observer des variations. Après il faut se méfier de ce qu'on pense être la vérité et de ce que les tests te disent il y a souvent un monde.
D'après ce que j'ai pu calculé tu as 140 individus dans un cas et 124 dans l'autre. Le nombre d'individu joue sur le calcul de la probabilité parce que dans le test du coefficient de corrélation la statistique suivante suit une loi de student a n-2 degré de liberté.
Si on reprend tes exemple, si tu as un r=0.16634 et 124 individus la p-value sera de 0.06483272 alors que si tu as le même r mais 140 individus la pvalue est de 0.0495043.
Plus r sera grand et plus le nombre d'individus sera grand et plus la p-value sera petite.
pearson mesure une corrélation linéaire entre tes deux variables aléatoires. Si tu fais un graph et que tu vois que la relation entre les deux n'est pas franchement linéaire alors il vaut mieux passer sur du spearman. pearson doit aussi être sensible à la normalité des distributions.
D'après ce que j'ai pu calculé tu as 140 individus dans un cas et 124 dans l'autre. Le nombre d'individu joue sur le calcul de la probabilité parce que dans le test du coefficient de corrélation la statistique suivante suit une loi de student a n-2 degré de liberté.
Si on reprend tes exemple, si tu as un r=0.16634 et 124 individus la p-value sera de 0.06483272 alors que si tu as le même r mais 140 individus la pvalue est de 0.0495043.
Plus r sera grand et plus le nombre d'individus sera grand et plus la p-value sera petite.
pearson mesure une corrélation linéaire entre tes deux variables aléatoires. Si tu fais un graph et que tu vois que la relation entre les deux n'est pas franchement linéaire alors il vaut mieux passer sur du spearman. pearson doit aussi être sensible à la normalité des distributions.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: test de pearson et coefficient de corrélation [RESOLU]
Merci Droopy pour ta réponse, elle m'a apporté de nouvelles infos sur ce test.
Mais en fait ce qui me chiffonne réellement c'est de quel façon il décide que passé un certain coeff de corrélation il obtient une p-valeur plus petite à 5%.
J'aurais tendance à dire qu'en fait il compare le vecteur avec tous les autre et en fonction du comportement de ce vecteur par rapport à tous les autre il décide à quel point on peut dire qu'il est corrélé ou non, mais la formule ne me semble pas penser en ce sens même s'il est vrai qu'elle est tiré du coeff qui lui prend en compte tous les autre vecteurs...
Mais en fait ce qui me chiffonne réellement c'est de quel façon il décide que passé un certain coeff de corrélation il obtient une p-valeur plus petite à 5%.
J'aurais tendance à dire qu'en fait il compare le vecteur avec tous les autre et en fonction du comportement de ce vecteur par rapport à tous les autre il décide à quel point on peut dire qu'il est corrélé ou non, mais la formule ne me semble pas penser en ce sens même s'il est vrai qu'elle est tiré du coeff qui lui prend en compte tous les autre vecteurs...
Re: test de pearson et coefficient de corrélation [RESOLU]
En fait il ne faut pas voir les choses de cette façon. Il ne "décide pas" si le test est significatif ou non. Tu calcules la p-value a partir dhypothèse sur la distribution de la statistique de ton test. Ce qui se passe c'est que plus tu as un grand nombre de valeurs pour calculer ton coefficient de corrélation plus la précision concernant cette valeur sera grande et l'écart type autour de cette valeur sera donc d'autant plus petit. Donc plus tu vas avoir un grand nombre de valeur et plus tu vas avoir tendance a avoir des p-values inférieures à 0.05. Tu peux même avoir des r=0.001 qui sont significatifs si le nombre de valeurs est grand. Dans ce cas même si la valeur est proche de 0, le fait que tu sois super précis pour estimer la valeur fait que tu peux dire qu'elle n'est pas égale à 0.
Après il y a les tests que l'on fait et leur interprétation.
Après il y a les tests que l'on fait et leur interprétation.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: test de pearson et coefficient de corrélation [RESOLU]
Bon en gros on peut préférer passer sur la p-valeur et regarder uniquement le coefficient de corrélation? De toute manière il reste lié, le souci est uniquement à partir de quel coefficient on va commencer à être inférieur au seuil et ça dépend du comportement de la variable et de son nombre d'observations.
Désolé si je t'oblige à te répéter mais je vois plus ou moins la logique sauf que j'ai du mal à comprendre l'intêret de cette p-valeur au final sauf si en réalité le coeff avait une part aléatoire dans son calcul et qu'on chercherait à voir si dés fois il peut valoir 0 même si en majeur partie il vaut la valeur retournée.
Mais je pense pas qu'on soit dans cette configuration, surtout quand on voit la formule utilisée... enfin je te rassure je cherche en parallèle de la doc relativement pertinente à ce sujet mais pas moyen d'en trouver... si ce n'est du sommaire...
Merci pour tes réponses.
EDIT: je viens de réaliser, comme on sait que indépendant => corrélé mais pas l'inverse, est ce que le test de Pearson a pour but de dire si on a l'autre implication ou pas? exemple dés qu'on a des p-valeurs inférieur à 5% alors on a indépendance et donc la corrélation est significative? oui je sais j'insiste mais je veux vraiment comprendre car là j'ai un tableau de données sur lequel je ne peux rien conclure tant que j'ai pas compris...
Désolé si je t'oblige à te répéter mais je vois plus ou moins la logique sauf que j'ai du mal à comprendre l'intêret de cette p-valeur au final sauf si en réalité le coeff avait une part aléatoire dans son calcul et qu'on chercherait à voir si dés fois il peut valoir 0 même si en majeur partie il vaut la valeur retournée.
Mais je pense pas qu'on soit dans cette configuration, surtout quand on voit la formule utilisée... enfin je te rassure je cherche en parallèle de la doc relativement pertinente à ce sujet mais pas moyen d'en trouver... si ce n'est du sommaire...
Merci pour tes réponses.
EDIT: je viens de réaliser, comme on sait que indépendant => corrélé mais pas l'inverse, est ce que le test de Pearson a pour but de dire si on a l'autre implication ou pas? exemple dés qu'on a des p-valeurs inférieur à 5% alors on a indépendance et donc la corrélation est significative? oui je sais j'insiste mais je veux vraiment comprendre car là j'ai un tableau de données sur lequel je ne peux rien conclure tant que j'ai pas compris...
Re: test de pearson et coefficient de corrélation [RESOLU]
En fait ça dépend ce que tu cherches a faire. Si c'est a titre exploratoire pour toi voir dans quel mesure tes variables sont liées alors oui tu n'as pas forcément besoin de la p-value. Si par contre tu dois communiqué ces valeurs dans un rapport, un article, une communication orale ou je ne sais quoi alors il te faut la p-value.
Le coeff a bel et bien une part aléatoire puisque tu pars de ton échantillon et tu tires des conclusions sur la population. Admettons que tu es une population de 500 individus dont tu cherches a connaître le lien entre la taille et le poids. Malheureusement pour des questions de temps et de cout, tu ne peux pas mesurer et peser tout le monde. Tu prends donc 100 individuas au hasard. A partir de ces individus tu vas avoir une estimation du lien entre poids et taille. Si tu prends 100 autres individus tu aurais une autre estimation. Il y a donc bien une part de hasard qui est liée à l'échantillonnage.
C'est la dessus que repose le principe des tests. Quand tu testes la significativité de ton coefficient tu regardes quelle est la probabilité d'observer au hasard une valeur de r qui soit supérieure ou inférieure (selon le signe de r) à la valeur que tu as observée. C'est ça la définition de la p-value. Ce que tu testes c'est bien si le coefficient de corrélation est égale à 0 : l'hypothèse nulle. L'hypothèse alternative étant que non le r n'est pas égal à 0.
Quand tu testes le coefficient de corrélation c'est tout ce que tu fais, tu testes s'il est égale ou non à 0.
Corrélation et indépendance sont deux choses différentes. La corrélation cherche un lien "linéaire" entre deux variables. Si tu prends le cas y=x², y et x ne sont pas indépendant et pourtant ils ne sont pas corrélées. Par contre si tu as la relation y=x alors ils ne sont pas indépendant et seront corrélées.
Par contre si deux variables sont indépendantes alors elles doivent avoir une corrélation de 0, mais l'inverse n'est pas vrai.
Avec le coefficient de corrélation de pearson tu estimes le lien linéaire entre tes variables et quand tu le testes tu cherches a savoir si le r observée est différent ou non de 0.
La formule utilisée que je t'ai présentée est en fait une formule simplifiée. Au numérateur il aurait fallu écrire absolu(r)-0. Parce qu'on teste la différence entre r et 0. Par simplification on vire le 0, mais c'est bien un test de r par rapport à 0. Tu pourrais très bien aussi testé si r était ou non égal à -0.7 ou la valeur que tu veux.
P-value faible --> test significatif, r différent de 0 --> lien entre les variables
P-value forte (>alpha) --> test non significatif, tu ne peux pas rejetter H0 --> pas de lien entre les variables (mais ce n'est pas une démonstration de l'absence de lien, c'est une interprétation).
Le coeff a bel et bien une part aléatoire puisque tu pars de ton échantillon et tu tires des conclusions sur la population. Admettons que tu es une population de 500 individus dont tu cherches a connaître le lien entre la taille et le poids. Malheureusement pour des questions de temps et de cout, tu ne peux pas mesurer et peser tout le monde. Tu prends donc 100 individuas au hasard. A partir de ces individus tu vas avoir une estimation du lien entre poids et taille. Si tu prends 100 autres individus tu aurais une autre estimation. Il y a donc bien une part de hasard qui est liée à l'échantillonnage.
C'est la dessus que repose le principe des tests. Quand tu testes la significativité de ton coefficient tu regardes quelle est la probabilité d'observer au hasard une valeur de r qui soit supérieure ou inférieure (selon le signe de r) à la valeur que tu as observée. C'est ça la définition de la p-value. Ce que tu testes c'est bien si le coefficient de corrélation est égale à 0 : l'hypothèse nulle. L'hypothèse alternative étant que non le r n'est pas égal à 0.
Quand tu testes le coefficient de corrélation c'est tout ce que tu fais, tu testes s'il est égale ou non à 0.
Corrélation et indépendance sont deux choses différentes. La corrélation cherche un lien "linéaire" entre deux variables. Si tu prends le cas y=x², y et x ne sont pas indépendant et pourtant ils ne sont pas corrélées. Par contre si tu as la relation y=x alors ils ne sont pas indépendant et seront corrélées.
Par contre si deux variables sont indépendantes alors elles doivent avoir une corrélation de 0, mais l'inverse n'est pas vrai.
Avec le coefficient de corrélation de pearson tu estimes le lien linéaire entre tes variables et quand tu le testes tu cherches a savoir si le r observée est différent ou non de 0.
La formule utilisée que je t'ai présentée est en fait une formule simplifiée. Au numérateur il aurait fallu écrire absolu(r)-0. Parce qu'on teste la différence entre r et 0. Par simplification on vire le 0, mais c'est bien un test de r par rapport à 0. Tu pourrais très bien aussi testé si r était ou non égal à -0.7 ou la valeur que tu veux.
P-value faible --> test significatif, r différent de 0 --> lien entre les variables
P-value forte (>alpha) --> test non significatif, tu ne peux pas rejetter H0 --> pas de lien entre les variables (mais ce n'est pas une démonstration de l'absence de lien, c'est une interprétation).
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: test de pearson et coefficient de corrélation [RESOLU]
Ok, en fait je te rassure je comprends parfaitement l'idée et tes explications me permettent de comprendre l'optique dans lequel s'effectue ce test.
Je crois que la seule chose qui me chiffone c'est que depuis le début j'essaie de faire le lien entre cette part aléatoire et la formule utilisée par le logiciel.
Je me permet de lié la page, on peut rapidement voir en bas ce que fait SAS: http://support.sas.com/documentation/cdl/en/procstat/63032/HTML/default/procstat_corr_sect013.htm
Et mon souci c'est que dans cette formule j'ai l'impression qu'on parle d'un calcul exact prenant en compte le vecteur complet... pour ça que j'ai du mal à comprendre comment dans un tel calcul on peut tester voir si malgré un 0.5 on cherche à voir si on peut valoir 0...
Je crois que la seule chose qui me chiffone c'est que depuis le début j'essaie de faire le lien entre cette part aléatoire et la formule utilisée par le logiciel.
Je me permet de lié la page, on peut rapidement voir en bas ce que fait SAS: http://support.sas.com/documentation/cdl/en/procstat/63032/HTML/default/procstat_corr_sect013.htm
Et mon souci c'est que dans cette formule j'ai l'impression qu'on parle d'un calcul exact prenant en compte le vecteur complet... pour ça que j'ai du mal à comprendre comment dans un tel calcul on peut tester voir si malgré un 0.5 on cherche à voir si on peut valoir 0...
Re: test de pearson et coefficient de corrélation [RESOLU]
les formules dans ton lien ne sont ni plus ni moins que les formules universelles du calcul de ce test.
En fait je ne vois pas ce que tu entends par vecteur complet. Tu ne testes pas l'ensemble des valeurs possibles que peut prendre r mais, tu testes si la valeur que tu observes qui est une réalisation parmi d'autre (si tu avais eu un autre échantillon tu aurais eu une autre valeur) est significativement différente de 0 ou dit autrement est-ce que par hasard on aurait pu obtenir une valeur aussi forte que celle que tu observes.
Je crois qu'il ne faut pas chercher midi a 14h, tu as une corrélation et tu cherches a savoir si celle-ci est significative ou pas.
En fait je ne vois pas ce que tu entends par vecteur complet. Tu ne testes pas l'ensemble des valeurs possibles que peut prendre r mais, tu testes si la valeur que tu observes qui est une réalisation parmi d'autre (si tu avais eu un autre échantillon tu aurais eu une autre valeur) est significativement différente de 0 ou dit autrement est-ce que par hasard on aurait pu obtenir une valeur aussi forte que celle que tu observes.
Je crois qu'il ne faut pas chercher midi a 14h, tu as une corrélation et tu cherches a savoir si celle-ci est significative ou pas.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: test de pearson et coefficient de corrélation [RESOLU]
Je pense en effet que je me prends trop la tête à vouloir identifier la logique du test par la formule que j'ai lié... Surtout que tes explications vont dans la logique des résultats que je trouve.
Merci Droopy, grâce à toi j'y vois plus clair sur cette histoire de test et de coeff
Merci Droopy, grâce à toi j'y vois plus clair sur cette histoire de test et de coeff
Sujets similaires
» Coefficient de corrélation PEARSON ou régression...???
» coefficient de Pearson ou spearman ?
» différence rapport de corrélation et coefficient corrélation
» coefficient de corrélation - coefficient de détermination
» Corrélation de Spearman ou Pearson ?
» coefficient de Pearson ou spearman ?
» différence rapport de corrélation et coefficient corrélation
» coefficient de corrélation - coefficient de détermination
» Corrélation de Spearman ou Pearson ?
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum