Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Quel tests statistiques faire dans mon cas?
+2
Florent Aubry
moilolo93
6 participants
Page 2 sur 2
Page 2 sur 2 • 1, 2
Re: Quel tests statistiques faire dans mon cas?
OK.
Par contre tu soulèves une autre erreur que beaucoup d'utilisateurs font (et c'est dû à certaines définitions qui sont ambigues) c'est que souvent on parle de normalité des données alors que si on regarde bien comment est fait le test en effet c'est la normalité au sein des groupes, ce qui rend encore moins probable le recours aux approches paramétriques. Je pense que l'amalgame vient du fait qu'on part du principe que si X suit une loi normale alors il en est de même pour X restreint aux différents groupes d'une variable, ce qui me semble pas toujours vrai lol.
Par contre tu soulèves une autre erreur que beaucoup d'utilisateurs font (et c'est dû à certaines définitions qui sont ambigues) c'est que souvent on parle de normalité des données alors que si on regarde bien comment est fait le test en effet c'est la normalité au sein des groupes, ce qui rend encore moins probable le recours aux approches paramétriques. Je pense que l'amalgame vient du fait qu'on part du principe que si X suit une loi normale alors il en est de même pour X restreint aux différents groupes d'une variable, ce qui me semble pas toujours vrai lol.
Re: Quel tests statistiques faire dans mon cas?
Bonjour,
eta = aX + b + epsilon
avec epsilon qui suit une loi normale et êta l'opérateur linéaire c'est à dire que êta = g(y) avec g la fonction de lien.
Souvent on ne voit que eta = aX + b. Il n'y a pas d'hypothèses réelles sur les résidus. D'ailleurs avec les glm, il n'y a pas un seul type de résidus. Il y a les résidus de student, student standardisés, de vraisemblance, de déviance, de anscombe, etc.
L'hypothèse qui est faite sur une régression linéaire est une hypothèse de multinormalité. Chaque observation est issue d'une distribution normale dont la moyenne évolue linéairement avec les variables explicatives, mais dont la dispersion est constante. En pratique il n'est pas possible de vérifier cette hypothèse, alors on se sert des résidus pour approcher cette hypothèse. S'ils sont normaux on partira du principe que l'hypothèse est vérifié, s'ils ne le sont pas que l'hypothèse ne l'est pas. Par contre l'hypothèse de normalité ne se fait pas directement sur la variable Y. Si on a deux groupes très distincts on aura sur Y une distribution bimodale.
Le cas du modèle linéaire est un cas particulier des glm, ou le critère d'estimation des paramètres : les moindres carrés est équivalent au critère de maximisation de la vraisemblance (en pratique minimisation de la -log vraisemblance). Du coup test F et Chi² sont identiques. Pour s'en convaincre :
cdlt
Je ne partage pas cette vision des choses. Quand on fait un glm on fait une hypothèse sur la distribution des observations comme dans le cas d'un modèle linéaire. Il faut que la distribution des observations fassent partie de la famille exponentielle : binomiale, poisson, gaussienne, gamma, etc. La transformation utilisée, la fonction de lien (souvent notée g), ne doit pas conduire à la normalité des résidus. Je n'ai jamais vu dans un livre une équation de la sorte :Florent Aubry a écrit:La première concerne l'application du modèle linéaire généralisé. En théorie, les résidus des données transformées via la fonction de lien doivent suivre une loi normale. Par contre, les données brutes ne suivent pas la loi normale (comptage poissonien, logit, ...)
eta = aX + b + epsilon
avec epsilon qui suit une loi normale et êta l'opérateur linéaire c'est à dire que êta = g(y) avec g la fonction de lien.
Souvent on ne voit que eta = aX + b. Il n'y a pas d'hypothèses réelles sur les résidus. D'ailleurs avec les glm, il n'y a pas un seul type de résidus. Il y a les résidus de student, student standardisés, de vraisemblance, de déviance, de anscombe, etc.
L'hypothèse qui est faite sur une régression linéaire est une hypothèse de multinormalité. Chaque observation est issue d'une distribution normale dont la moyenne évolue linéairement avec les variables explicatives, mais dont la dispersion est constante. En pratique il n'est pas possible de vérifier cette hypothèse, alors on se sert des résidus pour approcher cette hypothèse. S'ils sont normaux on partira du principe que l'hypothèse est vérifié, s'ils ne le sont pas que l'hypothèse ne l'est pas. Par contre l'hypothèse de normalité ne se fait pas directement sur la variable Y. Si on a deux groupes très distincts on aura sur Y une distribution bimodale.
Le cas du modèle linéaire est un cas particulier des glm, ou le critère d'estimation des paramètres : les moindres carrés est équivalent au critère de maximisation de la vraisemblance (en pratique minimisation de la -log vraisemblance). Du coup test F et Chi² sont identiques. Pour s'en convaincre :
- Code:
x <- rnorm(100)
y <- 3*x+2+rnorm(100, 0, 3)
lm1 <- lm(y ~ x)
anova(lm1)
Analysis of Variance Table
Response: y
Df Sum Sq Mean Sq F value Pr(>F)
x 1 927.80 927.80 102.42 < 2.2e-16 ***
Residuals 98 887.72 9.06
glm1 <- glm(y ~x, family = gaussian())
anova(glm1, test = "Chisq")
Analysis of Deviance Table
Model: gaussian, link: identity
Response: y
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev Pr(>Chi)
NULL 99 1815.52
x 1 927.8 98 887.72 < 2.2e-16 ***
cdlt
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Quel tests statistiques faire dans mon cas?
J'ai eu il y a quelques temps une discussion très intéressante avec une statisticienne de santé publique sur ce problème de vérification de la normalité.
On parlait des vérifications des assomptions pour un simple t-test. Voilà ce que j'en ai retenu.
- Beaucoup de gens focalisent uniquement sur le strict respect de la normalité, alors que des variances inégales entre les groupes sont beaucoup plus biaisantes que de faibles violations de l'hypothèse de normalité.
- Il faut avoir beaucoup de recul sur l'interprétation des tests de normalité, qui est loin d'etre directe. En effet, plus l'effectif est important plus le test est puissant et donc plus on rejettera facilement l'hypothèse de normalité. Sur de gros effectifs (santé publique) ca n'a plus aucun sens, et le test rejette l'hypothèse de normalité même pour de très faibles violations qui n'ont absolument aucune incidence sur le respect des assomptions. Inversement, et c'est surtout là que le bât blesse, sur de très faibles effectifs, le test ne rejettera JAMAIS l'hypothèse de normalité, même pour des distributions très déséquilibrées - voire à l'extreme n'ayant aucun sens, genre tester l'hypothèse de normalité d'une distribution de 6 observations - et sur la base d'une interprétation basique du p beaucoup de gens s'autorisent à faire n'importe quoi.
En synthèse, la tendance actuelle semble être de se baser sur des vérifications visuelles (normal-quantile plot) et à ne pas tester. Avec un bémol pour des effectifs "raisonnables", disons de 20 à 50-60 observations, pour lesquels l'interprétation d'un test de normalité peut avoir un sens. Mais pour lesquelles une simple vérification visuelle a tout autant de poids.
Et on n'oublie pas de vérifier les autres assomptions....
On parlait des vérifications des assomptions pour un simple t-test. Voilà ce que j'en ai retenu.
- Beaucoup de gens focalisent uniquement sur le strict respect de la normalité, alors que des variances inégales entre les groupes sont beaucoup plus biaisantes que de faibles violations de l'hypothèse de normalité.
- Il faut avoir beaucoup de recul sur l'interprétation des tests de normalité, qui est loin d'etre directe. En effet, plus l'effectif est important plus le test est puissant et donc plus on rejettera facilement l'hypothèse de normalité. Sur de gros effectifs (santé publique) ca n'a plus aucun sens, et le test rejette l'hypothèse de normalité même pour de très faibles violations qui n'ont absolument aucune incidence sur le respect des assomptions. Inversement, et c'est surtout là que le bât blesse, sur de très faibles effectifs, le test ne rejettera JAMAIS l'hypothèse de normalité, même pour des distributions très déséquilibrées - voire à l'extreme n'ayant aucun sens, genre tester l'hypothèse de normalité d'une distribution de 6 observations - et sur la base d'une interprétation basique du p beaucoup de gens s'autorisent à faire n'importe quoi.
En synthèse, la tendance actuelle semble être de se baser sur des vérifications visuelles (normal-quantile plot) et à ne pas tester. Avec un bémol pour des effectifs "raisonnables", disons de 20 à 50-60 observations, pour lesquels l'interprétation d'un test de normalité peut avoir un sens. Mais pour lesquelles une simple vérification visuelle a tout autant de poids.
Et on n'oublie pas de vérifier les autres assomptions....
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Quel tests statistiques faire dans mon cas?
c@ssoulet, je suis en plein accord avec tes remarques qui, même si elles sont loin de la question qui a suscité la discussion, à savoir est-ce que l'affirmation "données non normales => résidus non normaux" et par ricochet => non pertinence d'un approche paramétrique par modèle linéaire est exacte, sont à mon avis les bonnes questions. En effet, on sait, ce que j'ai déjà mentionné, que ces méthodes sont assez robustes face à la violation de la normalité. Pour le second point que tu soulèves, c'est aussi pour cela que j'avais lancé une discussion sur la validation des méthodes, discussion qui jusqu'ici n'a pas eu beaucoup de succès mais peut-être est-ce le moment de la relancer.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Page 2 sur 2 • 1, 2
Sujets similaires
» Quel type d'analyse faire???
» Choix des tests statistiques
» quel test faire?
» Tests statistiques
» les tests statistiques
» Choix des tests statistiques
» quel test faire?
» Tests statistiques
» les tests statistiques
Page 2 sur 2
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum