Test de normalité et de corrélation (ou régression)

Voir le sujet précédent Voir le sujet suivant Aller en bas

Test de normalité et de corrélation (ou régression)

Message par Jean-Marie le Ven 22 Jan 2016 - 12:34

Bonjour tout le monde,

Je me tourne vers vous car je n'arrive pas à trouver réponse à mes questions, qui pourtant ne me paraissent pas très compliquées...
Alors voilà, j'ai un jeu de données correspond à des données d'hydraulicité et des données de qualité de l'eau.
Mon but est de savoir si l'hydraulicité influe sur les données de qualité d'eau.
Si j'ai bien compris, cette une régression et non une corrélation qu'il faut que j'effectue mais je n'en suis pas sur. Il est clair que sur un graph, la liaison n'est pas évidente.
Je possède les données de 48 stations, avec pour chaque stations des données d'hydraulicité et de qualité de l'eau entre 5 et 13 années.

Je pensais faire une étude globale avec donc un grand nombre de données, et étudier les stations une par une pour isoler les stations ou une liaison est significative.

Pour l'instant, je ne pense pas être sur la bonne voie d'analyse. Voilà où j'en suis :
J'ai calculé un coefficient de Pearson pour chaque stations, avec une valeur théorique calculé (avec la formule r/(RACINE(1-r²))*RACINE(n-2) ) puis la p value avec la fonction loi student inverse. Cela me permet de savoir si ma corrélation est significative ou non.
Et là je me pose une question que j'ai oublié depuis le début et qui je crois est importante. Pour réalisé ces calculs, est-ce que mes données doivent suivre une loi normale ou non ?

En espérant avoir été clair dans mes explications...

Merci d'avance pour vos réponses !

Jean-Marie

Nombre de messages : 9
Date d'inscription : 22/01/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

relance

Message par Jean-Marie le Dim 24 Jan 2016 - 13:54

Personne pour m'aider dans mon problème ?

Je reformule ma question au cas où je me suis mal exprimé.
Est-ce possible, pour tester une liaison entre deux paramètres, de calculer le coefficient de pearson et de tester sa significativité grâce à un test de student, sans que les paramètres suivent une loi normale ?
Si non, quel test dois-je réaliser ?

J'ai en tout 480 données d'hydraulicité et autant de qualité de l'eau pour la matrice complète.

Pour l'étude au cas par cas, mon nombre de cas est beaucoup plus petit, entre 5 et 13 donnée par stations. Peut-être que le nombre peut poser des problèmes car insuffisant non ?

Merci de votre aide.

Jean-Marie

Nombre de messages : 9
Date d'inscription : 22/01/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par c@ssoulet le Lun 25 Jan 2016 - 9:51

C'est pas très clair ton histoire. Schématiquement, avant de se poser la question de tester, il faut savoir ce que l'on veut tester.

D'abord tu dois te faire une idée du type de relation qui lie tes 2 variables. Linéaire, log, exp... etc... Il ne faut pas partir bille en tete sur l'étude de la régression linéaire avant d'avoir confirmé, a minima par un graphique, que la relation que tu veux étudier est effectivement lineaire....

Ensuite, les assomptions pour l'étude de la régression, c'est pas la normalité des variables. C'est la normalité des résidus + l'homoscédasticité (= répartition homogène de la variance) + la non predictibilité des résidus.

Enfin, si tu veux étudier "l'effet station" c'est un peu compliqué. Multiplier les tests station par station n'est pas correct à cause de la hausse du risque de première espèce (= risque ++ de conclusion fausse). Tu auras besoin d'un conseil, et ton besoin va au delà des quelques notion qu'on peut expliquer sur un forum.


c@ssoulet

Nombre de messages : 649
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par Jean-Marie le Lun 25 Jan 2016 - 14:16

Merci de ta réponse, je me doutais bien que étudier au cas par cas allait poser des problèmes....
J'ai joint la photo d'un graphique de mes points.
l'abscisse est l'hydraulicité et l'ordonnée est la qualité de l'eau.

La liaison est clairement peu évidente et la variabilité semble importante.
Du coup je sais pas vraiment comment partir. je voudrais simplement savoir si la relation entre les deux variables est significative ou non.

Il semblerait que lorsque l'hydraulicité est forte, on obtient pas de mauvaise qualité d'eau (dit autrement, on a des mauvaises qualité d'eau que quand l'hydraulicité est faible). Mais pour dire si c'est significatif ou pas, j'ai absolument aucune idée de la procédure....

Jean-Marie

Nombre de messages : 9
Date d'inscription : 22/01/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par gg le Lun 25 Jan 2016 - 22:29

Bonsoir.

A vue de nez, il n'y a pas de relation statistique sérieuse entre les variables.

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par Jean-Marie le Mar 26 Jan 2016 - 10:28

J'aurais tendance à dire ça mais c'est possible de le confirmer statistiquement ou non ?

Si je fais un test de Spearman sur les données du graphique, ça me donne un r=0.23503 et une p-value=3.38E-05.

On rejeterait H0 au vu de la p-value, donc il y aurait une corrélation significative entre les deux variables.

P.S : un test de pearson donc presque les mêmes résultats. Les valeurs changent mais reste dans les mêmes grandeurs.

Jean-Marie

Nombre de messages : 9
Date d'inscription : 22/01/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par c@ssoulet le Mar 26 Jan 2016 - 10:57

Pour les corrélations-régressions il faut distinguer la significativité statistique de la significativité pratique.

L'hypothèse nulle est : r=0
Pour tout jeu de données comprenant un grand nombre d'observation, un r différent de zéro sera statistiquement significatif.
Donc il est tout a fait possible sur ce genre d'analyse d'obtenir un résultat statistiquement significatif n'ayant aucune signification pratique. C'est a l'expérimentateur de décider

A la louche, on considère qu'un r<0.2 reflète une "force d'association" très faible à nulle, très faible à faible 0.2 - 0.5, forte 0.5-0.8 et très forte > 0.8.

C'est à l'expérimentateur de décider et argumenter, en fonction des résultats, graphiques ... etc ... si l'intensité de la relation lui semble suffisante pour être considérée comme importante.

Donc, dans ce type d'analyse, lorsqu'on a beaucoup d'observations (beaucoup de points sur le graphe), il faut se détacher de la fascination engendrée par les tests statistiques et leurs résultats chiffrés et prendre un peu de recul. Tout ca se résume très bien par une formule simple : le "à vue de nez" de gg, qui me semble beaucoup plus pertinent dans ton cas qu'une p-value qui ne veut pas dire grand chose.



c@ssoulet

Nombre de messages : 649
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par c@ssoulet le Mar 26 Jan 2016 - 11:22

Il est marrant ton graphique, c'est un assez bon exemple du côté suggestif de ces analyses de corrélations

- masque avec ta main tous les points x>1, là tu diras: c'est sur, il n'y a rien.
- masque avec ton doigt un seul point : x=0.1 y = 70, et tu vas te dire qu'il y a un certain lien. Masques en un second : x=1 y=12. La c'est sur, il y a un lien.
- rajoute 1 seul point à x=1.5 y = 10 et là c'est sur, il n'y a plus aucun lien

C'est ca qui fait dire que "à vue de nez" il n'y a rien de bien convainquant




c@ssoulet

Nombre de messages : 649
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par Jean-Marie le Mar 26 Jan 2016 - 11:24

Je suis assez d'accord avec le "à vue de nez".

Disons que j'essayais de trouver quelque chose de chiffré pour ajouter un poids plus scientifique à mon argumentation, mais je crois que le "à vue de nez" me suffira.

Merci pour vos réponses

Jean-Marie

Nombre de messages : 9
Date d'inscription : 22/01/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par Jean-Marie le Ven 5 Fév 2016 - 11:03

Concernant le fait que lorsque le coefficient est inférieur à 0.2 on considère qu'il n'y a pas de relation, que >0.8 on considère qu'il y a une, etc.
Je voudrais savoir si quelqu'un connais un référence par rapport à ça ? Je trouve cette interprétation dans beaucoup de document mais personne n'indique une source pour cette interprétation.
Je recherche en fait un article scientifique ou quelque chose du genre.
Quelqu'un connait cette référence ?

Jean-Marie

Nombre de messages : 9
Date d'inscription : 22/01/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par Ayana le Ven 5 Fév 2016 - 11:44

Bonjour,

Cette "rule of thumb" a ete proposee initialement par Cohen en 1988:
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.).
Cependant, cela reste tres discutable, car la valeurs du coefficient de correlation depend de l'effectif mais egalement des quantites que l'on compare.

Ayana

Ayana

Nombre de messages : 388
Date d'inscription : 18/08/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par Ayana le Ven 5 Fév 2016 - 11:51

Petite remarque, Cohen met la limite a 0.5. Mais cet article fait un petit peu de tri sur la question:
https://www.researchgate.net/profile/James_Hemphill/publication/10822415_Interpreting_the_Magnitude_of_Correlation_Coefficients/links/00b7d5261c85985145000000.pdf

Ayana

Nombre de messages : 388
Date d'inscription : 18/08/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par Nik le Ven 5 Fév 2016 - 12:18

Bonjour,

A mon avis ton à priori sur la relation linéaire qui lierait tes données t'empêche de voir autre chose sur ton graphique.
Je ne sais pas ce qu'est ton échelle de qualité des eaux mais il semble que ce soit un paramètre synthétique et donc il n'est pas étonnant que tu perdes le lien avec une variable ayant trait à l'hydrologie annuelle.
Quoiqu'il en soit, quand l'hydraulicité est supérieure à 1, tu as moins de valeurs basse. Tu as donc une sorte d'effet seuil. S'il s'agit de qualité d'eau de rivière, ça ne serait pas étonnant...
Pour en revenir aux stats, il impossible de détecter un effet seuil avec une régression simple (et encore pire avec juste un coefficient de corrélation). Comme il te l'a été suggéré, avant de se lancer dans des stats, il faut savoir ce qu'il est envisageable de rechercher comme tendance. L'hydraulicité étant un ratio, la valeur de 1 a un sens tout particulier. En dessous de 1 -> pas d'eau; au dessus -> plus d'eau que la moyenne. Il faut donc orienter la lecture de ton graphique et ensuite les analyses dans ce sens.

HTH

Nik

Nik

Nombre de messages : 1501
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par Jean-Marie le Ven 5 Fév 2016 - 13:19

Merci pour vos réponses,
J'ai quelques 400 points sur mes graphiques et mes coefficients sont au maximum égal à 0.25.

Nik, je suis complétement d'accord avec vous avec l'hypothèse de l'effet de seuil, et je pensais orienté ma discussion dans cette voie car honnêtement, je n'ai aucune idée de comment m'orienter quand vous dite "Il faut donc orienter la lecture de ton graphique et ensuite les analyses dans ce sens"....

Jean-Marie

Nombre de messages : 9
Date d'inscription : 22/01/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par Nik le Lun 8 Fév 2016 - 14:17

Tu peux explicitement tester l'effet seuil en comparant les valeurs de qualité d'eau de 2 modalités:
- hydraulicité <=1
- Hydraulicité >1

Ou alors tester indirectement en modélisant la proba d'être inférieur ou égal à un certaine valeur de qualité d'eau en fonction de l'hydraulicité.

Il existe également des tests d'effet seuil il me semble.

A toi de voir.

Nik

Nik

Nombre de messages : 1501
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par c@ssoulet le Lun 8 Fév 2016 - 15:35

Il faudrait nous expliquer ce qu'est l'hydrolicité. Comme un gros ignorant, je vois ca comme une sorte de débit. Donc je me dis qu'à priori il doit y avoir un effet de dilution.
- On voit que pour les valeurs hautes la qualité n'est jamais inférieure à 40, ce qui semble aller dans ce sens. Mais il n'y a pas de relation nette, ce qui gene un peu.
- A débit faible on devrait avoir une mauvaise qualité. Pas du tout, rien de cela ne ressort sur le graphique.

Perso, je trouve que ca fait "variable cachée" = influence non prise en compte du lieu de prélèvement (si tu prélèves à 500m de la source de la seine ca sera toujours propre quel que soit le débit, et inversement en aval de Paris) ou je ne sais trop quoi. edit : ah si je sais quoi: quand le débit est faible c'est l'été, et l'été les usines sont fermées ou fonctionnent au ralenti. La periode du prélèvement peut considérablement jouer. L'effet de mesures légales aussi (limitation des rejets en cas de secheresse ... etc...)

c@ssoulet

Nombre de messages : 649
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par Nik le Lun 8 Fév 2016 - 21:13

Oui tu as raison c@ssoulet. En fait, dès lors qu'on touche à l'environnement on n'a jamais réellement de réplicat. Donc quand tu parles de variables cachées c'est un peu ça. Ce sont toutes les conditions qui ne sont pas maitrisées.
Donc en général on regroupe des choses qui n'ont pas grand chose à voir entre elles. Pour moi le fait que finalement le phénomène observé semble plutôt s'exprimer en termes de variance que de moyenne est assez symptomatique.

Nik

Nik

Nombre de messages : 1501
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par droopy le Mar 9 Fév 2016 - 15:03

Bonjour,

Il est évident que la qualité de l'eau ne dépendra pas uniquement de l'hydraulicité. Il y a déjà eu des travaux sur ces questions, je ne sais plus si c'est au niveau de l'ONEMA ou de l'Irstea. Des gens ont essayé de dégager des principes pour pouvoir interpoler la qualité de l'eau à l'ensemble du réseau.

Avant de mixer tout un tas de données, en provenance de tout un tas de stations, est-ce que tu as regardé pour chaque station pour lesquelles tu avais plusieurs années de données, si tu voyais des choses. Il n'est pas forcément évident que la relation entre les deux soient constantes d'une station à l'autre.

Cordialement

droopy

Nombre de messages : 986
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par Jean-Marie le Jeu 18 Fév 2016 - 13:36

Merci à tous pour vos réponses ! J'ai avancé un peu sur mon étude et comme le dit cassoulet c'est carrément une variable caché que j'étudie.
L'hydraulicité pour faire simple, c'est le débit moyen annuel du cours d'eau. Quand il est supérieur à 1 on a une année avec beaucoup d'eau et inversement.
Le soucis est que pour pouvoir mettre en lumière une relation, il faudrait s'affranchir de plein d'autre paramètre.
Ma discussion peut se résumer à cette phrase : "En deuxième exemple, prenons un cours d’eau quelconque avec pour une première année une classe d’état écologique de 4. L’année suivante, l’hydraulicité moyenne est plus importante que l’année précédente mais la classe de l’état écologique est maintenant de 3. Cette baisse de l’état écologique peut-être dû à une nouvelle pollution déversé dans le cours d’eau.
Les sources de dépendance envers d’autres facteurs sont multiples et très diversifiées avec une source de biais finalement très importante dans nos résultats."

Hors contexte c'est peut-être délicat à comprendre mais je pense que vous pouvez saisir mon idée =)


Jean-Marie

Nombre de messages : 9
Date d'inscription : 22/01/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par droopy le Jeu 18 Fév 2016 - 14:54

Bonjour,

c'est sur que pour un même cours d'eau entre deux années différentes tu peux avoir des multitudes de facteurs qui interviennent. Je ne sais pas sur quoi est établi ton diagnostique écologique mais déjà avant même que les conditions environnementales changent, les indicateurs biologiques peuvent varier d'une année sur l'autre. Un écart d'une classe n'est pas "choquant" pour un gestionnaire. Après si les perturbations humaines changent d'une année à l'autre et que l'année de la pollution, l'état écologique diminue, ouf ... les gens qui ont développées les indicateurs ont bien fait leur boulot, ou la note a été logiquement diminué parce que tels ou tels composant chimique a été retrouvé dans les analyses.
Moralité comme tu le résumes si bien la baisse de l'état écologique peut-être du à plein de choses : la variabilité interannuelle "normale" des notes de l'indice, des modifications des perturbations anthropiques, etc ...

Courage !

droopy

Nombre de messages : 986
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par Jean-Marie le Ven 19 Fév 2016 - 9:58

Oui bien sûr. L'idée de mon travail était en fait de voir si l'hydraulicité impactait l'évaluation de la qualité du milieux. En simple, on considère que si un milieu est dans la classe 3, et que, lors d'une année avec beaucoup d'eau la classe obtenue est de 4, on considère que le résultat est biaisé où mal classé car il ne correspond pas à la situation "normale".
Je devais donc caractériser ce possible effet. Il y a tellement de chose à tester, regarder, prendre en compte que c'est très intéressant, mais je m'y suis peut-être un peu perdu !

Jean-Marie

Nombre de messages : 9
Date d'inscription : 22/01/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité et de corrélation (ou régression)

Message par Contenu sponsorisé Aujourd'hui à 20:25


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum