Re: Quel tests statistiques faire dans mon cas?

par joyeux_lapin13 Mar 26 Avr 2016 - 9:08

OK.

Par contre tu soulèves une autre erreur que beaucoup d'utilisateurs font (et c'est dû à certaines définitions qui sont ambigues) c'est que souvent on parle de normalité des données alors que si on regarde bien comment est fait le test en effet c'est la normalité au sein des groupes, ce qui rend encore moins probable le recours aux approches paramétriques. Je pense que l'amalgame vient du fait qu'on part du principe que si X suit une loi normale alors il en est de même pour X restreint aux différents groupes d'une variable, ce qui me semble pas toujours vrai lol.

par droopy Mar 26 Avr 2016 - 9:14

Bonjour,

Florent Aubry a écrit:La première concerne l'application du modèle linéaire généralisé. En théorie, les résidus des données transformées via la fonction de lien doivent suivre une loi normale. Par contre, les données brutes ne suivent pas la loi normale (comptage poissonien, logit, ...)

Je ne partage pas cette vision des choses. Quand on fait un glm on fait une hypothèse sur la distribution des observations comme dans le cas d'un modèle linéaire. Il faut que la distribution des observations fassent partie de la famille exponentielle : binomiale, poisson, gaussienne, gamma, etc. La transformation utilisée, la fonction de lien (souvent notée g), ne doit pas conduire à la normalité des résidus. Je n'ai jamais vu dans un livre une équation de la sorte :
eta = aX + b + epsilon
avec epsilon qui suit une loi normale et êta l'opérateur linéaire c'est à dire que êta = g(y) avec g la fonction de lien.
Souvent on ne voit que eta = aX + b. Il n'y a pas d'hypothèses réelles sur les résidus. D'ailleurs avec les glm, il n'y a pas un seul type de résidus. Il y a les résidus de student, student standardisés, de vraisemblance, de déviance, de anscombe, etc.

L'hypothèse qui est faite sur une régression linéaire est une hypothèse de multinormalité. Chaque observation est issue d'une distribution normale dont la moyenne évolue linéairement avec les variables explicatives, mais dont la dispersion est constante. En pratique il n'est pas possible de vérifier cette hypothèse, alors on se sert des résidus pour approcher cette hypothèse. S'ils sont normaux on partira du principe que l'hypothèse est vérifié, s'ils ne le sont pas que l'hypothèse ne l'est pas. Par contre l'hypothèse de normalité ne se fait pas directement sur la variable Y. Si on a deux groupes très distincts on aura sur Y une distribution bimodale.

Le cas du modèle linéaire est un cas particulier des glm, ou le critère d'estimation des paramètres : les moindres carrés est équivalent au critère de maximisation de la vraisemblance (en pratique minimisation de la -log vraisemblance). Du coup test F et Chi² sont identiques. Pour s'en convaincre :

Code:: x <- rnorm(100) y <- 3*x+2+rnorm(100, 0, 3) lm1 <- lm(y ~ x) anova(lm1) Analysis of Variance Table Response: y Df Sum Sq Mean Sq F value Pr(>F) x 1 927.80 927.80 102.42 < 2.2e-16 *** Residuals 98 887.72 9.06 glm1 <- glm(y ~x, family = gaussian()) anova(glm1, test = "Chisq") Analysis of Deviance Table Model: gaussian, link: identity Response: y Terms added sequentially (first to last) Df Deviance Resid. Df Resid. Dev Pr(>Chi) NULL 99 1815.52 x 1 927.8 98 887.72 < 2.2e-16 ***

On retrouve bien les mêmes éléments mais présentés différemment. C'est uniquement vrai pour les modèles linéaires.

cdlt

par c@ssoulet Mar 26 Avr 2016 - 9:35

J'ai eu il y a quelques temps une discussion très intéressante avec une statisticienne de santé publique sur ce problème de vérification de la normalité.

On parlait des vérifications des assomptions pour un simple t-test. Voilà ce que j'en ai retenu.
- Beaucoup de gens focalisent uniquement sur le strict respect de la normalité, alors que des variances inégales entre les groupes sont beaucoup plus biaisantes que de faibles violations de l'hypothèse de normalité.
- Il faut avoir beaucoup de recul sur l'interprétation des tests de normalité, qui est loin d'etre directe. En effet, plus l'effectif est important plus le test est puissant et donc plus on rejettera facilement l'hypothèse de normalité. Sur de gros effectifs (santé publique) ca n'a plus aucun sens, et le test rejette l'hypothèse de normalité même pour de très faibles violations qui n'ont absolument aucune incidence sur le respect des assomptions. Inversement, et c'est surtout là que le bât blesse, sur de très faibles effectifs, le test ne rejettera JAMAIS l'hypothèse de normalité, même pour des distributions très déséquilibrées - voire à l'extreme n'ayant aucun sens, genre tester l'hypothèse de normalité d'une distribution de 6 observations - et sur la base d'une interprétation basique du p beaucoup de gens s'autorisent à faire n'importe quoi.

En synthèse, la tendance actuelle semble être de se baser sur des vérifications visuelles (normal-quantile plot) et à ne pas tester. Avec un bémol pour des effectifs "raisonnables", disons de 20 à 50-60 observations, pour lesquels l'interprétation d'un test de normalité peut avoir un sens. Mais pour lesquelles une simple vérification visuelle a tout autant de poids.
Et on n'oublie pas de vérifier les autres assomptions....

par Florent Aubry Mar 26 Avr 2016 - 10:17

c@ssoulet, je suis en plein accord avec tes remarques qui, même si elles sont loin de la question qui a suscité la discussion, à savoir est-ce que l'affirmation "données non normales => résidus non normaux" et par ricochet => non pertinence d'un approche paramétrique par modèle linéaire est exacte, sont à mon avis les bonnes questions. En effet, on sait, ce que j'ai déjà mentionné, que ces méthodes sont assez robustes face à la violation de la normalité. Pour le second point que tu soulèves, c'est aussi pour cela que j'avais lancé une discussion sur la validation des méthodes, discussion qui jusqu'ici n'a pas eu beaucoup de succès mais peut-être est-ce le moment de la relancer.

par Contenu sponsorisé