Quel tests statistiques faire dans mon cas?

Page 2 sur 2 Précédent  1, 2

Voir le sujet précédent Voir le sujet suivant Aller en bas

Re: Quel tests statistiques faire dans mon cas?

Message par joyeux_lapin13 le Mar 26 Avr 2016 - 9:08

OK.

Par contre tu soulèves une autre erreur que beaucoup d'utilisateurs font (et c'est dû à certaines définitions qui sont ambigues) c'est que souvent on parle de normalité des données alors que si on regarde bien comment est fait le test en effet c'est la normalité au sein des groupes, ce qui rend encore moins probable le recours aux approches paramétriques. Je pense que l'amalgame vient du fait qu'on part du principe que si X suit une loi normale alors il en est de même pour X restreint aux différents groupes d'une variable, ce qui me semble pas toujours vrai lol.

joyeux_lapin13

Nombre de messages : 1674
Age : 33
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Re: Quel tests statistiques faire dans mon cas?

Message par droopy le Mar 26 Avr 2016 - 9:14

Bonjour,

Florent Aubry a écrit:La première concerne l'application du modèle linéaire généralisé. En théorie, les résidus des données transformées via la fonction de lien doivent suivre une loi normale. Par contre, les données brutes ne suivent pas la loi normale (comptage poissonien, logit, ...)
Je ne partage pas cette vision des choses. Quand on fait un glm on fait une hypothèse sur la distribution des observations comme dans le cas d'un modèle linéaire. Il faut que la distribution des observations fassent partie de la famille exponentielle : binomiale, poisson, gaussienne, gamma, etc. La transformation utilisée, la fonction de lien (souvent notée g), ne doit pas conduire à la normalité des résidus. Je n'ai jamais vu dans un livre une équation de la sorte :
eta = aX + b + epsilon
avec epsilon qui suit une loi normale et êta l'opérateur linéaire c'est à dire que êta = g(y) avec g la fonction de lien.
Souvent on ne voit que eta = aX + b. Il n'y a pas d'hypothèses réelles sur les résidus. D'ailleurs avec les glm, il n'y a pas un seul type de résidus. Il y a les résidus de student, student standardisés, de vraisemblance, de déviance, de anscombe, etc.

L'hypothèse qui est faite sur une régression linéaire est une hypothèse de multinormalité. Chaque observation est issue d'une distribution normale dont la moyenne évolue linéairement avec les variables explicatives, mais dont la dispersion est constante. En pratique il n'est pas possible de vérifier cette hypothèse, alors on se sert des résidus pour approcher cette hypothèse. S'ils sont normaux on partira du principe que l'hypothèse est vérifié, s'ils ne le sont pas que l'hypothèse ne l'est pas. Par contre l'hypothèse de normalité ne se fait pas directement sur la variable Y. Si on a deux groupes très distincts on aura sur Y une distribution bimodale.

Le cas du modèle linéaire est un cas particulier des glm, ou le critère d'estimation des paramètres : les moindres carrés est équivalent au critère de maximisation de la vraisemblance (en pratique minimisation de la -log vraisemblance). Du coup test F et Chi² sont identiques. Pour s'en convaincre :
Code:
x <- rnorm(100)
y <- 3*x+2+rnorm(100, 0, 3)

lm1 <- lm(y ~ x)
anova(lm1)
Analysis of Variance Table

Response: y
          Df Sum Sq Mean Sq F value    Pr(>F)   
x          1 927.80  927.80  102.42 < 2.2e-16 ***
Residuals 98 887.72    9.06

glm1 <- glm(y ~x, family = gaussian())
anova(glm1, test = "Chisq")
Analysis of Deviance Table

Model: gaussian, link: identity

Response: y

Terms added sequentially (first to last)


    Df Deviance Resid. Df Resid. Dev  Pr(>Chi)   
NULL                    99    1815.52             
x    1    927.8        98    887.72 < 2.2e-16 ***
On retrouve bien les mêmes éléments mais présentés différemment. C'est uniquement vrai pour les modèles linéaires.

cdlt

droopy

Nombre de messages : 986
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Quel tests statistiques faire dans mon cas?

Message par c@ssoulet le Mar 26 Avr 2016 - 9:35

J'ai eu il y a quelques temps une discussion très intéressante avec une statisticienne de santé publique sur ce problème de vérification de la normalité.

On parlait des vérifications des assomptions pour un simple t-test. Voilà ce que j'en ai retenu.
- Beaucoup de gens focalisent uniquement sur le strict respect de la normalité, alors que des variances inégales entre les groupes sont beaucoup plus biaisantes que de faibles violations de l'hypothèse de normalité.
- Il faut avoir beaucoup de recul sur l'interprétation des tests de normalité, qui est loin d'etre directe. En effet, plus l'effectif est important plus le test est puissant et donc plus on rejettera facilement l'hypothèse de normalité. Sur de gros effectifs (santé publique) ca n'a plus aucun sens, et le test rejette l'hypothèse de normalité même pour de très faibles violations qui n'ont absolument aucune incidence sur le respect des assomptions. Inversement, et c'est surtout là que le bât blesse, sur de très faibles effectifs, le test ne rejettera JAMAIS l'hypothèse de normalité, même pour des distributions très déséquilibrées - voire à l'extreme n'ayant aucun sens, genre tester l'hypothèse de normalité d'une distribution de 6 observations - et sur la base d'une interprétation basique du p beaucoup de gens s'autorisent à faire n'importe quoi.

En synthèse, la tendance actuelle semble être de se baser sur des vérifications visuelles (normal-quantile plot) et à ne pas tester. Avec un bémol pour des effectifs "raisonnables", disons de 20 à 50-60 observations, pour lesquels l'interprétation d'un test de normalité peut avoir un sens. Mais pour lesquelles une simple vérification visuelle a tout autant de poids.
Et on n'oublie pas de vérifier les autres assomptions....

c@ssoulet

Nombre de messages : 649
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Quel tests statistiques faire dans mon cas?

Message par Florent Aubry le Mar 26 Avr 2016 - 10:17

c@ssoulet, je suis en plein accord avec tes remarques qui, même si elles sont loin de la question qui a suscité la discussion, à savoir est-ce que l'affirmation "données non normales => résidus non normaux" et par ricochet => non pertinence d'un approche paramétrique par modèle linéaire est exacte, sont à mon avis les bonnes questions. En effet, on sait, ce que j'ai déjà mentionné, que ces méthodes sont assez robustes face à la violation de la normalité. Pour le second point que tu soulèves, c'est aussi pour cela que j'avais lancé une discussion sur la validation des méthodes, discussion qui jusqu'ici n'a pas eu beaucoup de succès mais peut-être est-ce le moment de la relancer.

Florent Aubry

Nombre de messages : 123
Date d'inscription : 02/11/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Quel tests statistiques faire dans mon cas?

Message par Contenu sponsorisé Aujourd'hui à 0:13


Contenu sponsorisé


Revenir en haut Aller en bas

Page 2 sur 2 Précédent  1, 2

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum