Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Quel tests statistiques faire dans mon cas?
+2
Florent Aubry
moilolo93
6 participants
Page 1 sur 2
Page 1 sur 2 • 1, 2
Quel tests statistiques faire dans mon cas?
Bonjour,
Je suis étudiante en master 2 et je réalise un mémoire, il me faut faire des stats mais je ne sais pas du tout quels tests choisir !
J'ai fait une expérience sur 2 groupes de 19 personnes (mon échantillon est un peu faible) avant et après une séquence d'apprentissage spécifique pour un groupe et normale pour l'autre. Je souhaite montrer qu'avant, la moyenne des deux groupes n'est pas significativement différente, et qu'elle l'est après la séquence d'apprentissage afin de conclure que cette séquence spécifique a un effet bénéfique.
J'avais pensé à faire un test de khi2 mais il me semble qu'il faut faire d'autres tests avant pour vérifier la normalité ou je ne sais quoi d'autre. De plus, je ne sais plus comment on pose HO, H1 et comment on trouve le DDL (j'ai beau chercher dans mes anciens cours, je n'arrive pas à y mettre la main dessus)
J'ai eu quelques cours de stats en licence mais je n'avais pas compris grand chose. Du coup, je suis bien embêtée aujourd'hui.
Merci pour votre aide.
PS : je dispose du logiciel open office (ce n'est pas grand chose), je peux télécharger un logiciel gratuit (si possible assez simple d'utilisation car je n'y connais vraiment pas grand chose), j'ai un peu travaillé sur R en licence mais j'avais eu un peu de mal
Moilolo93
Je suis étudiante en master 2 et je réalise un mémoire, il me faut faire des stats mais je ne sais pas du tout quels tests choisir !
J'ai fait une expérience sur 2 groupes de 19 personnes (mon échantillon est un peu faible) avant et après une séquence d'apprentissage spécifique pour un groupe et normale pour l'autre. Je souhaite montrer qu'avant, la moyenne des deux groupes n'est pas significativement différente, et qu'elle l'est après la séquence d'apprentissage afin de conclure que cette séquence spécifique a un effet bénéfique.
J'avais pensé à faire un test de khi2 mais il me semble qu'il faut faire d'autres tests avant pour vérifier la normalité ou je ne sais quoi d'autre. De plus, je ne sais plus comment on pose HO, H1 et comment on trouve le DDL (j'ai beau chercher dans mes anciens cours, je n'arrive pas à y mettre la main dessus)
J'ai eu quelques cours de stats en licence mais je n'avais pas compris grand chose. Du coup, je suis bien embêtée aujourd'hui.
Merci pour votre aide.
PS : je dispose du logiciel open office (ce n'est pas grand chose), je peux télécharger un logiciel gratuit (si possible assez simple d'utilisation car je n'y connais vraiment pas grand chose), j'ai un peu travaillé sur R en licence mais j'avais eu un peu de mal
Moilolo93
moilolo93- Nombre de messages : 7
Date d'inscription : 22/04/2016
Re: Quel tests statistiques faire dans mon cas?
Si tu ne t'intéresse pas au effets intra-sujet du premier groupe, tu peux considérer que tu as 2 groupes indépendants (ce qui est inexact formellement). Tu as donc à faire une Anova à 1 facteur à trois niveaux (groupe 1 avant, groupe 1 après, groupe contrôle) suivie, si elle est significative, d'un test post-hoc de Dunnett avec comme groupe de référence le groupe contrôle.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Quel tests statistiques faire dans mon cas?
C'est un schéma très classique en recherche clinique, du type essai comparatif en parallèle. La façon la plus simple d'analyser ca est l'ANOVA en mesures répétées.
En pratique on procède en 2 étapes
1-description de la population à l'inclusion (3 colonnes: population totale, sous population premier groupe, sous population 2e groupe) ce que tu appelles comparer la population avant = comparer groupe1/groupe 2 à l'inclusion.
2- analyse de variance en mesures répétées, ce qui t'intéressera sera l'interaction (= les deux moyenne ont elles évolué de façon significativement différente)
En pratique on procède en 2 étapes
1-description de la population à l'inclusion (3 colonnes: population totale, sous population premier groupe, sous population 2e groupe) ce que tu appelles comparer la population avant = comparer groupe1/groupe 2 à l'inclusion.
2- analyse de variance en mesures répétées, ce qui t'intéressera sera l'interaction (= les deux moyenne ont elles évolué de façon significativement différente)
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Quel tests statistiques faire dans mon cas?
c@ssoulet, d'après ce que j'ai compris de la description faite par moilolo93, la mesure est bien répétée (avant / après) sur la population testée mais ne l'est pas pour le second groupe, indépendant du premier. Si les deux groupes avaient eu deux mesures, le t de Student apparié est la solution.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Quel tests statistiques faire dans mon cas?
Moi je comprends 2 groupes de 19 sujets, mesure avant/après apprentissage pour chaque sujet, un groupe suit un apprentissage spécifique, l'autre groupe un apprentissage normal.
On va laisser moilolo nous éclaircir ca
On va laisser moilolo nous éclaircir ca
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Quel tests statistiques faire dans mon cas?
Merci pour vos réponses
Alors les deux groupes sont testés avant et après. Pour le premier groupe il y a apprentissage spécifique et pour le second classique.
J'ai fait un test de student qui montre que la différence de résultats lors des tests Avants n'est pas significative entre les deux groupes. J'ai fait le même test avec les résultats du test final et là la différence est montrée colle significative par le test. Ça va dans le sens que je veux donc je pense que ça suffit. Qu'en pensez vous ??
Alors les deux groupes sont testés avant et après. Pour le premier groupe il y a apprentissage spécifique et pour le second classique.
J'ai fait un test de student qui montre que la différence de résultats lors des tests Avants n'est pas significative entre les deux groupes. J'ai fait le même test avec les résultats du test final et là la différence est montrée colle significative par le test. Ça va dans le sens que je veux donc je pense que ça suffit. Qu'en pensez vous ??
moilolo93- Nombre de messages : 7
Date d'inscription : 22/04/2016
Re: Quel tests statistiques faire dans mon cas?
bonjour,
si je comprends bien vous comparez des moyennes de groupe. groupe 1 vs 2 avant et groupe 1 vs 2 après.
je me demande s'il ne serait pas plus intéressant de regarder l'apprentissage de chaque individu.
note après g1 i1 - note avant g1 i1
...
note après g1 i19 - note avant g1 i19
et pareil pour groupe 2
et comparer ces apprentissages (distribution)
si je comprends bien vous comparez des moyennes de groupe. groupe 1 vs 2 avant et groupe 1 vs 2 après.
je me demande s'il ne serait pas plus intéressant de regarder l'apprentissage de chaque individu.
note après g1 i1 - note avant g1 i1
...
note après g1 i19 - note avant g1 i19
et pareil pour groupe 2
et comparer ces apprentissages (distribution)
StatStatS- Nombre de messages : 11
Date d'inscription : 17/04/2016
Re: Quel tests statistiques faire dans mon cas?
Bonjour StatStatS,
C'est vrai que cette méthode est peut être plus intéressante, mais le faut il les comparer par des Stats ou puis je simplement dire qu'il y a eu progression ou non ?
Merci
C'est vrai que cette méthode est peut être plus intéressante, mais le faut il les comparer par des Stats ou puis je simplement dire qu'il y a eu progression ou non ?
Merci
moilolo93- Nombre de messages : 7
Date d'inscription : 22/04/2016
Re: Quel tests statistiques faire dans mon cas?
Si les distributions suivent des lois normales vous pourrez comparer les moyennes avec un t test.
StatStatS- Nombre de messages : 11
Date d'inscription : 17/04/2016
Re: Quel tests statistiques faire dans mon cas?
Comment puis je vérifier que les distributions suivent une loi normale ?
moilolo93- Nombre de messages : 7
Date d'inscription : 22/04/2016
Re: Quel tests statistiques faire dans mon cas?
La distribution a une forme de cloche, il y a symétrie des données. Un test permet de statuer.
StatStatS- Nombre de messages : 11
Date d'inscription : 17/04/2016
Re: Quel tests statistiques faire dans mon cas?
Ce n'est pas le cas de mes données
moilolo93- Nombre de messages : 7
Date d'inscription : 22/04/2016
Re: Quel tests statistiques faire dans mon cas?
Alors il ne faut pas comparer les moyennes.
StatStatS- Nombre de messages : 11
Date d'inscription : 17/04/2016
Re: Quel tests statistiques faire dans mon cas?
Que puis je faire alors ??
moilolo93- Nombre de messages : 7
Date d'inscription : 22/04/2016
Re: Quel tests statistiques faire dans mon cas?
Comparez vos distributions, les médianes, l'étendue inter quartile. Vous aurez probablement de quoi conclure.
StatStatS- Nombre de messages : 11
Date d'inscription : 17/04/2016
Re: Quel tests statistiques faire dans mon cas?
D'accord merci beaucoup pour ces conseils
moilolo93- Nombre de messages : 7
Date d'inscription : 22/04/2016
Re: Quel tests statistiques faire dans mon cas?
Attention : pour faire des tests statistiques paramétriques relevant d'un modèle linéaire, il faut que les résidus suivent une loi normale et non les données comme on le lit trop souvent. En effet, ce n'est que dans le cas de l'hypothèse nulle (pas de différence significative entre groupes) que les données suivront alors une loi normale. S'il y a des différences significatives, cela signifie qu'il y a un mélange de plusieurs distributions gaussiennes, même si la différence n'est pas suffisamment significative pour discriminer les sous-populations entre elles.
Si tu penses que les tests paramétriques ne s'appliquent pas, bien qu'ils soient quand même assez robustes face à la violation de la normalité des résidus, utilises alors un test non paramétrique équivalent, c'est-à-dire le test rangs de Wilcoxon pour données appariées (an anglais : Wilcoxon matched-pairs signed-ranks test)
Si tu penses que les tests paramétriques ne s'appliquent pas, bien qu'ils soient quand même assez robustes face à la violation de la normalité des résidus, utilises alors un test non paramétrique équivalent, c'est-à-dire le test rangs de Wilcoxon pour données appariées (an anglais : Wilcoxon matched-pairs signed-ranks test)
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Quel tests statistiques faire dans mon cas?
C'est bien les résidus qui doivent suivre une loi normale mais dans le cas évoqué si les données ne suivent pas une loi normale alors les résidus non plus. Les résidus seront les résultats individuels moins la moyenne.
StatStatS- Nombre de messages : 11
Date d'inscription : 17/04/2016
Re: Quel tests statistiques faire dans mon cas?
Vu que moilolo part d'un peu loin côté maitrise et que le respect des assomptions n'est pas verifiable basiquement je lui conseillerais un truc simple: calculer la différences avant/apres pour chaque individu et comparer les 2 groupes avec un test non paramétrique (mann-whitney)
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Quel tests statistiques faire dans mon cas?
Soit deux groupes de variance unité et de différence de moyenne de 4 et soit 50 mesures dans chaque groupe, alors :
1) différence significative entre groupes p < 0.001
2) normalité des résidus (test de Shapiro) : p ~ 0.54
3) normalité des données dans chaque groupe (test de Shapiro) :
- groupe 1 p ~ 0.45
- groupe 2 p ~ 0.7
4) normalité des données (donc groupes confondus) par le test de Shapiro : p < 0.001
Conclusion : les données de suivant pas une loi normale mais les résidus si.
Pour les personnes voulant contrôler les résultats, voici les données simulées :
"Y" "G"
-1.20988040010873 "A"
4.43476517873628 "B"
0.37995078240785 "A"
4.74077011476491 "B"
1.39112720917037 "A"
3.28498998686093 "B"
-0.404445155437497 "A"
4.4640242817918 "B"
1.85302633915529 "A"
3.39931984588236 "B"
-0.989892128878616 "A"
5.35396915657525 "B"
0.0138468187833034 "A"
5.16687251166057 "B"
-1.04299972913604 "A"
6.33504638088024 "B"
-0.658465231147396 "A"
4.48549625585627 "B"
-1.24625998187882 "A"
4.71787639285697 "B"
-0.198949147384767 "A"
4.39672770937425 "B"
-0.343959046057744 "A"
4.46094041877845 "B"
0.102630314003396 "A"
2.72275961064008 "B"
-0.538182494397031 "A"
3.00200599342107 "B"
-0.836538318064905 "A"
5.36673694623267 "B"
-0.0376067307766745 "A"
5.99358641620551 "B"
-0.788996846470904 "A"
4.04543336277518 "B"
-0.654442810918678 "A"
4.05017744566277 "B"
0.954724026156948 "A"
4.77579533072093 "B"
0.740313952451266 "A"
2.56202515265304 "B"
-0.0292803499337925 "A"
4.35626858606749 "B"
-0.414591014194516 "A"
3.20152286147648 "B"
-0.610226816398659 "A"
2.78985285372737 "B"
-0.217502605366208 "A"
4.87201407018916 "B"
-0.0142701129238842 "A"
4.09635261424807 "B"
-0.291139371734531 "A"
3.93423973390339 "B"
-0.271922441414177 "A"
3.75487056861129 "B"
-0.56744246838716 "A"
5.28159626272985 "B"
0.203467490827486 "A"
3.53071671508705 "B"
-0.40974450248176 "A"
2.9306112628296 "B"
1.13171627529209 "A"
4.93951302914644 "B"
-0.181636086482437 "A"
5.03103564917342 "B"
0.734730905194748 "A"
4.02723020570891 "B"
0.0413908983901872 "A"
4.05487759338756 "B"
0.374818562655219 "A"
4.19530223315751 "B"
1.05770133125423 "A"
4.19624164636172 "B"
0.031119962212326 "A"
5.17153516469164 "B"
-1.52007240434924 "A"
2.79653590360704 "B"
1.68256140110053 "A"
5.3288057280351 "B"
0.0035517729660597 "A"
4.41720771732018 "B"
-2.43236800415996 "A"
4.36172541729608 "B"
-1.38400568954572 "A"
4.90416811540021 "B"
-0.798498117888332 "A"
5.58358307881403 "B"
-0.252111376053106 "A"
6.21193743398406 "B"
-0.365858419003467 "A"
2.40956179978678 "B"
0.307089063249802 "A"
3.67718909253866 "B"
-0.196212709203333 "A"
4.62469761290123 "B"
0.20284534546003 "A"
3.77429354167212 "B"
-1.76958666177933 "A"
4.17143920507038 "B"
-0.180681410937253 "A"
3.28477308598813 "B"
N.B. ; Le solution de C@ssoulet est très proche de celle que je préconisais par un test non-paramétrique.
1) différence significative entre groupes p < 0.001
2) normalité des résidus (test de Shapiro) : p ~ 0.54
3) normalité des données dans chaque groupe (test de Shapiro) :
- groupe 1 p ~ 0.45
- groupe 2 p ~ 0.7
4) normalité des données (donc groupes confondus) par le test de Shapiro : p < 0.001
Conclusion : les données de suivant pas une loi normale mais les résidus si.
Pour les personnes voulant contrôler les résultats, voici les données simulées :
"Y" "G"
-1.20988040010873 "A"
4.43476517873628 "B"
0.37995078240785 "A"
4.74077011476491 "B"
1.39112720917037 "A"
3.28498998686093 "B"
-0.404445155437497 "A"
4.4640242817918 "B"
1.85302633915529 "A"
3.39931984588236 "B"
-0.989892128878616 "A"
5.35396915657525 "B"
0.0138468187833034 "A"
5.16687251166057 "B"
-1.04299972913604 "A"
6.33504638088024 "B"
-0.658465231147396 "A"
4.48549625585627 "B"
-1.24625998187882 "A"
4.71787639285697 "B"
-0.198949147384767 "A"
4.39672770937425 "B"
-0.343959046057744 "A"
4.46094041877845 "B"
0.102630314003396 "A"
2.72275961064008 "B"
-0.538182494397031 "A"
3.00200599342107 "B"
-0.836538318064905 "A"
5.36673694623267 "B"
-0.0376067307766745 "A"
5.99358641620551 "B"
-0.788996846470904 "A"
4.04543336277518 "B"
-0.654442810918678 "A"
4.05017744566277 "B"
0.954724026156948 "A"
4.77579533072093 "B"
0.740313952451266 "A"
2.56202515265304 "B"
-0.0292803499337925 "A"
4.35626858606749 "B"
-0.414591014194516 "A"
3.20152286147648 "B"
-0.610226816398659 "A"
2.78985285372737 "B"
-0.217502605366208 "A"
4.87201407018916 "B"
-0.0142701129238842 "A"
4.09635261424807 "B"
-0.291139371734531 "A"
3.93423973390339 "B"
-0.271922441414177 "A"
3.75487056861129 "B"
-0.56744246838716 "A"
5.28159626272985 "B"
0.203467490827486 "A"
3.53071671508705 "B"
-0.40974450248176 "A"
2.9306112628296 "B"
1.13171627529209 "A"
4.93951302914644 "B"
-0.181636086482437 "A"
5.03103564917342 "B"
0.734730905194748 "A"
4.02723020570891 "B"
0.0413908983901872 "A"
4.05487759338756 "B"
0.374818562655219 "A"
4.19530223315751 "B"
1.05770133125423 "A"
4.19624164636172 "B"
0.031119962212326 "A"
5.17153516469164 "B"
-1.52007240434924 "A"
2.79653590360704 "B"
1.68256140110053 "A"
5.3288057280351 "B"
0.0035517729660597 "A"
4.41720771732018 "B"
-2.43236800415996 "A"
4.36172541729608 "B"
-1.38400568954572 "A"
4.90416811540021 "B"
-0.798498117888332 "A"
5.58358307881403 "B"
-0.252111376053106 "A"
6.21193743398406 "B"
-0.365858419003467 "A"
2.40956179978678 "B"
0.307089063249802 "A"
3.67718909253866 "B"
-0.196212709203333 "A"
4.62469761290123 "B"
0.20284534546003 "A"
3.77429354167212 "B"
-1.76958666177933 "A"
4.17143920507038 "B"
-0.180681410937253 "A"
3.28477308598813 "B"
N.B. ; Le solution de C@ssoulet est très proche de celle que je préconisais par un test non-paramétrique.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Quel tests statistiques faire dans mon cas?
Florent, tu vas la perdre cette pauvre moilolo avec tes trucs.
A mon avis, il faut exposer clairement le problème et le résoudre le plus simplement possible
- La question est: es ce qu'on s'améliore plus avec l'apprentissage bidule par rapport à l'apprentissage classique.
- On doit donc travailler avec une méthode ou sur une variable adaptée pour évaluer une amélioration
- Si on veut rester basique et ne pas se prendre le chou avec une anova, on calcule la variable "différence avant-après". On a notre critère d'évaluation de l'amélioration.
- On teste la différence entre les 2 méthodes d'apprentissage sur ce critère, avec un test non paramétrique qui produira un résultat relativement solide puisque aucune hypothèse sur la distribution des variables ne sous tendra son résultat.
Et voilà, pour moilolo c'est torché.
Entre nous (moilolo, ne lis pas ca...), même si ce que tu dis concernant la distribution des résidus pouvant être différente de la distribution des variables est vrai, ta démonstration ne me convainc pas du tout car elle est basée sur un test de SW, dont le résultat est très dépendant du nombre d'observations. Tu appliques plusieurs fois le même test sur des groupes d'effectif très différents (sous groupes vs données poolées) et donc il est tout à fait possible qu'un résultat différent soit simplement le reflet d'effectifs différents.
Et ce test s'interprète "à l'envers". Hypothèse nulle = normalité. Pour un p significatif, je rejette l'hypothèse nulle, donc la distribution n'est pas normale. Plus l'effectif est important, plus on rejette "facilement" l'hypothèse de normalité. C'est ce que tes données montrent.
A mon avis, il faut exposer clairement le problème et le résoudre le plus simplement possible
- La question est: es ce qu'on s'améliore plus avec l'apprentissage bidule par rapport à l'apprentissage classique.
- On doit donc travailler avec une méthode ou sur une variable adaptée pour évaluer une amélioration
- Si on veut rester basique et ne pas se prendre le chou avec une anova, on calcule la variable "différence avant-après". On a notre critère d'évaluation de l'amélioration.
- On teste la différence entre les 2 méthodes d'apprentissage sur ce critère, avec un test non paramétrique qui produira un résultat relativement solide puisque aucune hypothèse sur la distribution des variables ne sous tendra son résultat.
Et voilà, pour moilolo c'est torché.
Entre nous (moilolo, ne lis pas ca...), même si ce que tu dis concernant la distribution des résidus pouvant être différente de la distribution des variables est vrai, ta démonstration ne me convainc pas du tout car elle est basée sur un test de SW, dont le résultat est très dépendant du nombre d'observations. Tu appliques plusieurs fois le même test sur des groupes d'effectif très différents (sous groupes vs données poolées) et donc il est tout à fait possible qu'un résultat différent soit simplement le reflet d'effectifs différents.
Et ce test s'interprète "à l'envers". Hypothèse nulle = normalité. Pour un p significatif, je rejette l'hypothèse nulle, donc la distribution n'est pas normale. Plus l'effectif est important, plus on rejette "facilement" l'hypothèse de normalité. C'est ce que tes données montrent.
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Quel tests statistiques faire dans mon cas?
Faire un test sur les données poolees n'a pas de sens selon moi. Deux systèmes sont mélangés, on s'attend plutôt à avoir des données bimodales. C'est encore pire avec 4 groupes.
StatStatS- Nombre de messages : 11
Date d'inscription : 17/04/2016
Re: Quel tests statistiques faire dans mon cas?
@c@ssoulet et @StatStatS, ce n'est pas à moilolo que je répondais directement sauf pour lui signaler que l'affirmation : "les données ne sont pas normales donc les résidus ne le sont pas" était fausse. Il semble malheureusement que ma remarque dans un commentaire précédent "S'il y a des différences significatives, cela signifie qu'il y a un mélange de plusieurs distributions gaussiennes, même si la différence n'est pas suffisamment significative pour discriminer les sous-populations entre elles." n'ait pas été lue donc j'ai pris un exemple sur des groupes équilibrés de même variance et avec une différence de 4 ce qui ne souffre aucune discussion quant à la possibilité de discriminer des groupes (AUC sous la courbe ROC proche de l'unité) pour montrer que je pouvais facilement invalider cette affirmation. Mon test montre bien que je rejette l'hypothèse nulle pour la population et c'est bien ce que je voulais montrer alors que je ne peux pas la rejeter pour les résidus
Plus spécifiquement :
- @c@ssoulet, tu sais très bien que toute démonstration sur un cas illustratif utilise des approximations et tu sais très bien que ce que j'affirme est vrai.
- @StatStatS, nous sommes d'accord et tu ne fais que renforcer le problème que j'ai soulevé qui venait d'une réponse, sans doute involontairement ambigüe, de ta part.
Plus spécifiquement :
- @c@ssoulet, tu sais très bien que toute démonstration sur un cas illustratif utilise des approximations et tu sais très bien que ce que j'affirme est vrai.
- @StatStatS, nous sommes d'accord et tu ne fais que renforcer le problème que j'ai soulevé qui venait d'une réponse, sans doute involontairement ambigüe, de ta part.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Quel tests statistiques faire dans mon cas?
Florent Aubry a écrit:Attention : pour faire des tests statistiques paramétriques relevant d'un modèle linéaire, il faut que les résidus suivent une loi normale et non les données comme on le lit trop souvent. En effet, ce n'est que dans le cas de l'hypothèse nulle (pas de différence significative entre groupes) que les données suivront alors une loi normale. S'il y a des différences significatives, cela signifie qu'il y a un mélange de plusieurs distributions gaussiennes, même si la différence n'est pas suffisamment significative pour discriminer les sous-populations entre elles.
Si tu penses que les tests paramétriques ne s'appliquent pas, bien qu'ils soient quand même assez robustes face à la violation de la normalité des résidus, utilises alors un test non paramétrique équivalent, c'est-à-dire le test rangs de Wilcoxon pour données appariées (an anglais : Wilcoxon matched-pairs signed-ranks test)
Euh... je suis pas d'accords avec le début. En effet certains tests demandent à ce que les résidus suivent une loi normale, mais beaucoup de tests paramétriques demandent cette hypothèse sur les données en l'état. Ma mémoire me fait défaut et si besoin est je peux prendre le temps d'en citer quelques uns mais de souvenir, par exemple, le test du T2 de Hotelling nécessite que les matrices suivent des lois de Wishart, choses qui est vrai uniquement si tu les obtiens depuis la matrice de covariance d'une matrice de variables aléatoires qui suivent une loi normale. De mémoire pour le F de Fisher-Snedecor, il faut que tes variances suivent une loi du chi2, ce qui est vrai si tes données suivent une loi normale, idem pour le test de Student.
Mais en effet, dés fois on peut lire certains tests qui nécessitent la normalité des résidus (notamment tout ce qui se reporte à la régression linéaire) et la plupart des gens traduisent: ah mes données doivent suivre une loi normale. Sauf que pour certains tests c'est bien sur ça que doivent porter les hypothèses d'utilisation.
Re: Quel tests statistiques faire dans mon cas?
@joyeux_lapin13 :
En fait, il y a deux choses différentes que d'ailleurs j'ai mis un certain temps à comprendre.
La première concerne l'application du modèle linéaire généralisé. En théorie, les résidus des données transformées via la fonction de lien doivent suivre une loi normale. Par contre, les données brutes ne suivent pas la loi normale (comptage poissonien, logit, ...)
La seconde concerne le test statistique adapté au modèle. Si l'estimation du modèle est fait par la méthode des moindres carrés ou par une méthode du maximum de vraisemblance (ML ou plus encore REML), le critère statistique final sera différent (F, khi-deux, ...). Il faut en effet faire très attention au critère utilisé notamment dans le cas d'analyses multivariées car certains critères sont moins robustes que d'autres face à la violation de la normalité (Bartlett pour l'égalité de variance, T2 ou plus grande valeur propre de Roy pour les Manova).
Ce en quoi tu as raison dans ta remarque est que je n'aurais pas du parler de "tests" dans la mesure où cela conduit au critère final qui utilise ou non la normalité mais d'analyses.
D'autre part, la notion même de normalité des données est ambigüe. Le F de Fisher-Snedecor est bien la rapport entre deux khi-deux centrés mais c'est sous l'hypothèse nulle, c'est-à-dire que tous mes groupes ont la même moyenne et la même variance.
Dans le test final de l'Anova, on teste le rapport entre la variance expliquée par le modèle et la variance intra-groupe sous l'hypothèse que chacune s'explique par la même distribution gaussienne. Pour que ce test ait un sens, il ne faut pas que les données soient gaussiennes (c'est-à-dire l'ensemble des valeurs poolées) mais qu'elles le soient dans chacun des groupes sinon le dénominateur du test n'a pas de sens. C'est d'ailleurs une condition plus forte que celle des données gaussiennes puisque le fait que les données poolées soient gaussiennes n'impliquent pas que les groupes en eux-mêmes le soient (cf. découpage de la variable en classes).
En régression simple, le test bien que basé sur le F ne teste pas exactement les mêmes valeurs puisque ce qu'on cherche à tester est si les données estimées suivent la même loi que les résidus. Par contre, on suppose toujours que les résidus sont gaussiens.
En conclusion, nous sommes d'accord. Il faut dissocier la notion de résidus gaussiens de celle de données gaussiennes et certains tests fonctionnent d'autant mieux que si l'hypothèse nulle était vérifiée, alors les données étaient gaussiennes mais pour prendre le cas de l'Anova ou de la régression, on cherche ce qui permet d'affirmer le contraire.
En fait, il y a deux choses différentes que d'ailleurs j'ai mis un certain temps à comprendre.
La première concerne l'application du modèle linéaire généralisé. En théorie, les résidus des données transformées via la fonction de lien doivent suivre une loi normale. Par contre, les données brutes ne suivent pas la loi normale (comptage poissonien, logit, ...)
La seconde concerne le test statistique adapté au modèle. Si l'estimation du modèle est fait par la méthode des moindres carrés ou par une méthode du maximum de vraisemblance (ML ou plus encore REML), le critère statistique final sera différent (F, khi-deux, ...). Il faut en effet faire très attention au critère utilisé notamment dans le cas d'analyses multivariées car certains critères sont moins robustes que d'autres face à la violation de la normalité (Bartlett pour l'égalité de variance, T2 ou plus grande valeur propre de Roy pour les Manova).
Ce en quoi tu as raison dans ta remarque est que je n'aurais pas du parler de "tests" dans la mesure où cela conduit au critère final qui utilise ou non la normalité mais d'analyses.
D'autre part, la notion même de normalité des données est ambigüe. Le F de Fisher-Snedecor est bien la rapport entre deux khi-deux centrés mais c'est sous l'hypothèse nulle, c'est-à-dire que tous mes groupes ont la même moyenne et la même variance.
Dans le test final de l'Anova, on teste le rapport entre la variance expliquée par le modèle et la variance intra-groupe sous l'hypothèse que chacune s'explique par la même distribution gaussienne. Pour que ce test ait un sens, il ne faut pas que les données soient gaussiennes (c'est-à-dire l'ensemble des valeurs poolées) mais qu'elles le soient dans chacun des groupes sinon le dénominateur du test n'a pas de sens. C'est d'ailleurs une condition plus forte que celle des données gaussiennes puisque le fait que les données poolées soient gaussiennes n'impliquent pas que les groupes en eux-mêmes le soient (cf. découpage de la variable en classes).
En régression simple, le test bien que basé sur le F ne teste pas exactement les mêmes valeurs puisque ce qu'on cherche à tester est si les données estimées suivent la même loi que les résidus. Par contre, on suppose toujours que les résidus sont gaussiens.
En conclusion, nous sommes d'accord. Il faut dissocier la notion de résidus gaussiens de celle de données gaussiennes et certains tests fonctionnent d'autant mieux que si l'hypothèse nulle était vérifiée, alors les données étaient gaussiennes mais pour prendre le cas de l'Anova ou de la régression, on cherche ce qui permet d'affirmer le contraire.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Page 1 sur 2 • 1, 2
Sujets similaires
» Quel type d'analyse faire???
» Choix des tests statistiques
» quel test faire?
» Tests statistiques
» les tests statistiques
» Choix des tests statistiques
» quel test faire?
» Tests statistiques
» les tests statistiques
Page 1 sur 2
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum