Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Hypothèse de normalité : comparaison de moyennes
4 participants
Page 1 sur 1
Hypothèse de normalité : comparaison de moyennes
Bonjour,
Après avoir fait un tour des topics sur les hypothèses de normalité, je ne suis pas encore tout à fait au clair sur la question suivante.
A la suite d’une anova à un facteur, je souhaite réaliser un test « post-hoc » type TukeyHSD ou Newman-Keuls par exemple.
L’hypothèse de normalité doit donc être vérifiée pour les données de chacune de mes modalités. Ma question est la suivante : est-il équivalent de regarder si les résidus de ma régression linéaire suivent une loi normale grâce à un graphique de diagnostic (cf. 1er bloc de code) et de regarder si les données de chacune de mes modalités suivent une loi normale (cf. 2nd bloc de code ou bien test de Shapiro éventuellement) ?
Ex : j’ai une expérience à 4 répétitions avec un seul facteur et 5 modalités. J’ai donc quatre données pour chaque modalité. Il est tout à fait possible que les graphiques de diagnostic « autorisent » de faire une anova. Mais regarder si les données de chaque modalité (à savoir 4…) suivent une loi normale, ça me paraît plus que bancal. Finalement, est-ce que ce n'est pas faire dire n'importe quoi aux modèles statistiques que d'appliquer des tests "post-hoc" sur des données de cette dimension ? (... je vois ça tous les jours au boulot et ça me pose question...)
J’espère que la question est claire, car j’ai un peu le sentiment de m’emmêler les pinceaux sur une question qui semble simple.
Merci beaucoup.
Après avoir fait un tour des topics sur les hypothèses de normalité, je ne suis pas encore tout à fait au clair sur la question suivante.
A la suite d’une anova à un facteur, je souhaite réaliser un test « post-hoc » type TukeyHSD ou Newman-Keuls par exemple.
L’hypothèse de normalité doit donc être vérifiée pour les données de chacune de mes modalités. Ma question est la suivante : est-il équivalent de regarder si les résidus de ma régression linéaire suivent une loi normale grâce à un graphique de diagnostic (cf. 1er bloc de code) et de regarder si les données de chacune de mes modalités suivent une loi normale (cf. 2nd bloc de code ou bien test de Shapiro éventuellement) ?
- Code:
lm1.rdtsucre=lm(MYDATAK2$RDT_SUCRE~MYDATAK2$FERTI_P)
par(mfrow=c(2,2))
plot(lm1.rdtsucre)
Anova(lm1.rdtsucre)
- Code:
par(mfrow=c(1,1))
qqnorm(c)
qqline(c)
Ex : j’ai une expérience à 4 répétitions avec un seul facteur et 5 modalités. J’ai donc quatre données pour chaque modalité. Il est tout à fait possible que les graphiques de diagnostic « autorisent » de faire une anova. Mais regarder si les données de chaque modalité (à savoir 4…) suivent une loi normale, ça me paraît plus que bancal. Finalement, est-ce que ce n'est pas faire dire n'importe quoi aux modèles statistiques que d'appliquer des tests "post-hoc" sur des données de cette dimension ? (... je vois ça tous les jours au boulot et ça me pose question...)
J’espère que la question est claire, car j’ai un peu le sentiment de m’emmêler les pinceaux sur une question qui semble simple.
Merci beaucoup.
Paul Tauvel- Nombre de messages : 4
Date d'inscription : 04/05/2018
Re: Hypothèse de normalité : comparaison de moyennes
En théorie si les résidus e suivent une loi normale alors la variable Y aussi (on le prouve avec un calcul d'espérance et de variance très simple) . C'est vrai que ce soit une anova, une régression linéaire, ancova ou manova. On appelle ça un modèle linéaire gaussien.
Si tes données ne sont pas normales il faut faire un test de Kruskal-Wallis (un test construit sur les rangs).
Tes modalités ne sont pas distribués selon une loi (sinon ça serait un modèle à effet aléatoire). Le fait que tu regardes Y que pour une modalité précise. Si Y est distribué selon une loi normale, alors cet ''échantillon" provient aussi d'une loi normale
Si tes données ne sont pas normales il faut faire un test de Kruskal-Wallis (un test construit sur les rangs).
Tes modalités ne sont pas distribués selon une loi (sinon ça serait un modèle à effet aléatoire). Le fait que tu regardes Y que pour une modalité précise. Si Y est distribué selon une loi normale, alors cet ''échantillon" provient aussi d'une loi normale
AdrienC- Nombre de messages : 93
Date d'inscription : 15/03/2018
Re: Hypothèse de normalité : comparaison de moyennes
Plusieurs points :
1) Oui, c'est équivalent de regarder la normalité avant ou après l'anova (sur les résidus), pour la simple raison que les résidus sont juste les données d'origine moins la valeur estimée par le modèle. Ca ne change pas la forme de la distribution.
2) Dans R, vous pouvez faire un plot de l'objet lm (ou aov), du type :
Ca vous sort des graphes diagnostiques, et le second est justement un Q-Q plot qui vous renseigne (globalement) s'il y a des problèmes sur la normalité des données (en vous indiquant les points qui seraient éventuellement suspects).
3) En pratique, on ne fait ce genre de trucs. On se base à la fois sur le fait que le modèle linéaire (en général) est connu (depuis les années 60) comme étant très robuste à la non-normalité, et sur la notoriété de la variable à expliquer comme étant normale (comme, par exemple, un poids, un surface, un taux, etc). Du coup, c'est vous qui savez (devriez savoir) si votre variable RDT_SUCRE peut être considérée comme normale ou pas. Et ça s’arrête là. Par exemple, si c'est un comptage (poisson) ou un pourcentage (binomial) il convient de partir sur un autre modèle, etc.
HTH, Eric.
1) Oui, c'est équivalent de regarder la normalité avant ou après l'anova (sur les résidus), pour la simple raison que les résidus sont juste les données d'origine moins la valeur estimée par le modèle. Ca ne change pas la forme de la distribution.
2) Dans R, vous pouvez faire un plot de l'objet lm (ou aov), du type :
- Code:
plot(lm1.rdtsucre)
Ca vous sort des graphes diagnostiques, et le second est justement un Q-Q plot qui vous renseigne (globalement) s'il y a des problèmes sur la normalité des données (en vous indiquant les points qui seraient éventuellement suspects).
3) En pratique, on ne fait ce genre de trucs. On se base à la fois sur le fait que le modèle linéaire (en général) est connu (depuis les années 60) comme étant très robuste à la non-normalité, et sur la notoriété de la variable à expliquer comme étant normale (comme, par exemple, un poids, un surface, un taux, etc). Du coup, c'est vous qui savez (devriez savoir) si votre variable RDT_SUCRE peut être considérée comme normale ou pas. Et ça s’arrête là. Par exemple, si c'est un comptage (poisson) ou un pourcentage (binomial) il convient de partir sur un autre modèle, etc.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Hypothèse de normalité : comparaison de moyennes
Bonjour,
Merci beaucoup à vous deux pour vos retours qui me rassurent dans nos pratiques au boulot.
Il n'est donc pas choquant pour vous de faire un test de comparaison de moyenne sur un échantillon de 4 individus?
Merci beaucoup à vous deux pour vos retours qui me rassurent dans nos pratiques au boulot.
Il n'est donc pas choquant pour vous de faire un test de comparaison de moyenne sur un échantillon de 4 individus?
Paul Tauvel- Nombre de messages : 4
Date d'inscription : 04/05/2018
Re: Hypothèse de normalité : comparaison de moyennes
Non. Mais vous manquez sérieusement de puissance dans votre test.
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Hypothèse de normalité : comparaison de moyennes
Mon avis est que faire une comparaison statistique sur des groupes de 4 sujets n'a aucun sens
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Hypothèse de normalité : comparaison de moyennes
Effectivement, ce sont des choses que j'ai déjà entendues. Mais qu'est-ce que vous entendez par aucun sens?
Je comprends tout à fait la réponse d'Eric Wajnberg, à savoir qu'on risque de faire un test pour rien, car la puissance est très faible.
Mais imaginons qu'un test de ce genre, aussi peu puissant soit il, fasse ressortir des différences significatives. Vous ne leur accorderiez aucun crédit c@assoulet?
Merci encore pour vos retours qui m'ont déjà beaucoup éclairé!
Je comprends tout à fait la réponse d'Eric Wajnberg, à savoir qu'on risque de faire un test pour rien, car la puissance est très faible.
Mais imaginons qu'un test de ce genre, aussi peu puissant soit il, fasse ressortir des différences significatives. Vous ne leur accorderiez aucun crédit c@assoulet?
Merci encore pour vos retours qui m'ont déjà beaucoup éclairé!
Paul Tauvel- Nombre de messages : 4
Date d'inscription : 04/05/2018
Re: Hypothèse de normalité : comparaison de moyennes
Encore une fois, il faut se poser la question de l'objectif réel de ce que l'on fait.
L'objectif final de l'analyse stat est de savoir si on peut généraliser les conclusions de l'observation d'un échantillon à la population cible sans trop de risque de faire une connerie.
Redit en Français: j'ai vérifié mathématiquement que ce que j'ai observé sur mon groupe test est probablement vrai pour tout le monde.
Le p, c'est mettre un chiffre en face du mot "probablement". C'est plus précisément le risque de dire une connerie quand on formule la phrase ci-dessus.
Sans faire de maths, intuitivement, si je te dis que l'observation de 4 cas est suffisante pour généraliser mes conclusions, tu me prends au sérieux ?
L'objectif final de l'analyse stat est de savoir si on peut généraliser les conclusions de l'observation d'un échantillon à la population cible sans trop de risque de faire une connerie.
Redit en Français: j'ai vérifié mathématiquement que ce que j'ai observé sur mon groupe test est probablement vrai pour tout le monde.
Le p, c'est mettre un chiffre en face du mot "probablement". C'est plus précisément le risque de dire une connerie quand on formule la phrase ci-dessus.
Sans faire de maths, intuitivement, si je te dis que l'observation de 4 cas est suffisante pour généraliser mes conclusions, tu me prends au sérieux ?
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Hypothèse de normalité : comparaison de moyennes
Même si c@ssoulet a clairement raison, un problème avec cette discussion récurrente est que - parfois - on est limité à quelques répétitions seulement, soit parce l'obtention d'une répétition supplémentaire est tout bonnement impossible, soit parce que cela coûterait trop chez, financièrement ou en temps (ou les deux). Il m'arrive de faire des expériences dans lesquelles il me faut plusieurs heures supplémentaires d'effort continu juste pour avoir une répétition supplémentaire. En clair, on aimerait tous avoir des échantillons avec plein d'observations, mais on fait avec ce qu'on a. Et les résultats sont à prendre avec plus de précaution si on a peu de répétitions.
Il reste qu'une loi de Student avec 2 ddl, ça peut se calculer...
HTH, Eric.
Il reste qu'une loi de Student avec 2 ddl, ça peut se calculer...
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Hypothèse de normalité : comparaison de moyennes
Effectivement, les deux messages s'entendent tout à fait. Conclusion : très grande prudence!
Merci encore pour vos réponses.
Merci encore pour vos réponses.
Paul Tauvel- Nombre de messages : 4
Date d'inscription : 04/05/2018
Sujets similaires
» Econometrie: rejet de l'hypothese de normalité des erreurs
» Comparaison de moyennes
» Comparaison de moyennes
» Comparaison de moyennes
» comparaison de moyennes
» Comparaison de moyennes
» Comparaison de moyennes
» Comparaison de moyennes
» comparaison de moyennes
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum