Hypothèse de normalité : comparaison de moyennes

par Paul Tauvel Ven 4 Mai 2018 - 13:14

Bonjour,

Après avoir fait un tour des topics sur les hypothèses de normalité, je ne suis pas encore tout à fait au clair sur la question suivante.

A la suite d’une anova à un facteur, je souhaite réaliser un test « post-hoc » type TukeyHSD ou Newman-Keuls par exemple.
L’hypothèse de normalité doit donc être vérifiée pour les données de chacune de mes modalités. Ma question est la suivante : est-il équivalent de regarder si les résidus de ma régression linéaire suivent une loi normale grâce à un graphique de diagnostic (cf. 1er bloc de code) et de regarder si les données de chacune de mes modalités suivent une loi normale (cf. 2nd bloc de code ou bien test de Shapiro éventuellement) ?

Code:: lm1.rdtsucre=lm(MYDATAK2$RDT_SUCRE~MYDATAK2$FERTI_P) par(mfrow=c(2,2)) plot(lm1.rdtsucre) Anova(lm1.rdtsucre)

Code:: par(mfrow=c(1,1)) qqnorm(c) qqline(c)

Ex : j’ai une expérience à 4 répétitions avec un seul facteur et 5 modalités. J’ai donc quatre données pour chaque modalité. Il est tout à fait possible que les graphiques de diagnostic « autorisent » de faire une anova. Mais regarder si les données de chaque modalité (à savoir 4…) suivent une loi normale, ça me paraît plus que bancal. Finalement, est-ce que ce n'est pas faire dire n'importe quoi aux modèles statistiques que d'appliquer des tests "post-hoc" sur des données de cette dimension ? (... je vois ça tous les jours au boulot et ça me pose question...)

J’espère que la question est claire, car j’ai un peu le sentiment de m’emmêler les pinceaux sur une question qui semble simple.

Merci beaucoup.

par AdrienC Ven 4 Mai 2018 - 15:32

En théorie si les résidus e suivent une loi normale alors la variable Y aussi (on le prouve avec un calcul d'espérance et de variance très simple) . C'est vrai que ce soit une anova, une régression linéaire, ancova ou manova. On appelle ça un modèle linéaire gaussien.

Si tes données ne sont pas normales il faut faire un test de Kruskal-Wallis (un test construit sur les rangs).

Tes modalités ne sont pas distribués selon une loi (sinon ça serait un modèle à effet aléatoire). Le fait que tu regardes Y que pour une modalité précise. Si Y est distribué selon une loi normale, alors cet ''échantillon" provient aussi d'une loi normale

par Eric Wajnberg Sam 5 Mai 2018 - 8:09

Plusieurs points :

1) Oui, c'est équivalent de regarder la normalité avant ou après l'anova (sur les résidus), pour la simple raison que les résidus sont juste les données d'origine moins la valeur estimée par le modèle. Ca ne change pas la forme de la distribution.

2) Dans R, vous pouvez faire un plot de l'objet lm (ou aov), du type :

Code:: plot(lm1.rdtsucre)

Ca vous sort des graphes diagnostiques, et le second est justement un Q-Q plot qui vous renseigne (globalement) s'il y a des problèmes sur la normalité des données (en vous indiquant les points qui seraient éventuellement suspects).

3) En pratique, on ne fait ce genre de trucs. On se base à la fois sur le fait que le modèle linéaire (en général) est connu (depuis les années 60) comme étant très robuste à la non-normalité, et sur la notoriété de la variable à expliquer comme étant normale (comme, par exemple, un poids, un surface, un taux, etc). Du coup, c'est vous qui savez (devriez savoir) si votre variable RDT_SUCRE peut être considérée comme normale ou pas. Et ça s’arrête là. Par exemple, si c'est un comptage (poisson) ou un pourcentage (binomial) il convient de partir sur un autre modèle, etc.

HTH, Eric.

par Paul Tauvel Lun 7 Mai 2018 - 8:48

Bonjour,

Merci beaucoup à vous deux pour vos retours qui me rassurent dans nos pratiques au boulot.

Il n'est donc pas choquant pour vous de faire un test de comparaison de moyenne sur un échantillon de 4 individus?

par Eric Wajnberg Lun 7 Mai 2018 - 10:15

Non. Mais vous manquez sérieusement de puissance dans votre test.

Eric.

par c@ssoulet Lun 7 Mai 2018 - 10:47

Mon avis est que faire une comparaison statistique sur des groupes de 4 sujets n'a aucun sens

par Paul Tauvel Mer 9 Mai 2018 - 8:12

Effectivement, ce sont des choses que j'ai déjà entendues. Mais qu'est-ce que vous entendez par aucun sens?
Je comprends tout à fait la réponse d'Eric Wajnberg, à savoir qu'on risque de faire un test pour rien, car la puissance est très faible.
Mais imaginons qu'un test de ce genre, aussi peu puissant soit il, fasse ressortir des différences significatives. Vous ne leur accorderiez aucun crédit c@assoulet?

Merci encore pour vos retours qui m'ont déjà beaucoup éclairé!

par c@ssoulet Mer 9 Mai 2018 - 9:15

Encore une fois, il faut se poser la question de l'objectif réel de ce que l'on fait.

L'objectif final de l'analyse stat est de savoir si on peut généraliser les conclusions de l'observation d'un échantillon à la population cible sans trop de risque de faire une connerie.

Redit en Français: j'ai vérifié mathématiquement que ce que j'ai observé sur mon groupe test est probablement vrai pour tout le monde.

Le p, c'est mettre un chiffre en face du mot "probablement". C'est plus précisément le risque de dire une connerie quand on formule la phrase ci-dessus.

Sans faire de maths, intuitivement, si je te dis que l'observation de 4 cas est suffisante pour généraliser mes conclusions, tu me prends au sérieux ?

par Eric Wajnberg Mer 9 Mai 2018 - 13:55

Même si c@ssoulet a clairement raison, un problème avec cette discussion récurrente est que - parfois - on est limité à quelques répétitions seulement, soit parce l'obtention d'une répétition supplémentaire est tout bonnement impossible, soit parce que cela coûterait trop chez, financièrement ou en temps (ou les deux). Il m'arrive de faire des expériences dans lesquelles il me faut plusieurs heures supplémentaires d'effort continu juste pour avoir une répétition supplémentaire. En clair, on aimerait tous avoir des échantillons avec plein d'observations, mais on fait avec ce qu'on a. Et les résultats sont à prendre avec plus de précaution si on a peu de répétitions.

Il reste qu'une loi de Student avec 2 ddl, ça peut se calculer...

HTH, Eric.

par Paul Tauvel Ven 18 Mai 2018 - 15:30

Effectivement, les deux messages s'entendent tout à fait. Conclusion : très grande prudence!
Merci encore pour vos réponses.

par Contenu sponsorisé

Hypothèse de normalité : comparaison de moyennes

Hypothèse de normalité : comparaison de moyennes

Re: Hypothèse de normalité : comparaison de moyennes

Re: Hypothèse de normalité : comparaison de moyennes

Re: Hypothèse de normalité : comparaison de moyennes

Re: Hypothèse de normalité : comparaison de moyennes

Re: Hypothèse de normalité : comparaison de moyennes

Re: Hypothèse de normalité : comparaison de moyennes

Re: Hypothèse de normalité : comparaison de moyennes

Re: Hypothèse de normalité : comparaison de moyennes

Re: Hypothèse de normalité : comparaison de moyennes

Re: Hypothèse de normalité : comparaison de moyennes