Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
ANOVA à 1 et m facteurs, sur mesures répétées et MANOVA
5 participants
Page 1 sur 1
ANOVA à 1 et m facteurs, sur mesures répétées et MANOVA
Bonjour,
Après avoir fait un peu de biblio je me tourne vers vous pour confirmer certains points qui me semblent flou.
1) J'ai lu que l'ANOVA sur mesures répétées (donc sur données appariées?) ne devait plus être utilisé car sacrilège (Source: Comprendre et utiliser les statistiques dans les sciences de la vie de B. Falissard, p. 197), est-ce vrai ou bien une interprétation un peu abusive de certains?
2) La MANOVA consiste uniquement à faire le calcul (inv(X . X') . X . Y et ensuite procéder aux tests de Pillai, Wilks, Hotelling et Roy?
3) Il s'agit plus d'une demande.
3-a: Je n'arrive pas à mettre la main sur la formule général de l'ANOVA à m facteurs. J'ai trouvé celle à 1 et 2 facteurs mais je ne suis pas sur de la généralisation que j'ai pu en faire. Quelqu'un aurait-il un document clair sur la formule d'usage?
3-b: J'ai fait tourné un exemple pour l'ANOVA à 1 facteur et j'arrive à retrouver les résultats de R. Mais pour l'ANOVA à 2 facteurs je n'y arrive pas. En PJ l'exemple que j'utilise et ci-dessous mes résultats en utilisant la syntaxe:
Si je me sers de la formule que l'on peut trouver sur la page wikipédia: https://fr.wikipedia.org/wiki/Analyse_de_la_variance , avec p = 3 nombre de facteurs de A, q = 2 nombre de facteurs de B et r = 20 (nombre d'observations de mon jeu de données?) je ne retrouve pas les même résultats sauf pour SCI (soit la colonne Residuals) à condition de diviser SCI par ddl = (r - p * q) quand l'autre source dont je me sers (Statistique, dictionnaire encyclopédique de Y. Dodge, p.22) dit qu'il faut diviser par ddl = p*q * (n - 1). De plus, le résultat pour le facteur A correspond à celui que l'on obtient pour une ANOVA à 1 facteur (alors que la formule est censée être nettement différente) contrairement à B.
De plus, si je fais tourner une ANOVA à 3 facteurs A, B, C je me rend compte que les résultats pour A correspondent à une ANOVA à 1 facteur A, les résultats de B correspondent à une ANOVA à 2 facteurs A, B.
Je pense que mon souci est que la formule de wikipédia n'est pas adaptée à la configuration de mes données, déjà le paramètre r que je fixe à mon nombre d'observation par défaut ne colle pas à la définition qui est fait et qu'au final je ne comprends pas (r = nombre d'observations subissant le traitement i,j, or r devrait varier d'un croisement à l'autre quand les formules proposées semblent indiquer qu'il est fixe). C'est là où l'on voit que la page wikipédia est très mal rédigée puisque l'exemple qu'ils donnent est du même format que le mien finalement. Quelqu'un aurait donc la version de l'ANOVA pour cette configuration?
4) Enfin, cette partie sur wikipédia m'interpelle:
"Pour identifier les échantillons correspondant, on utilise différents tests «post-hoc» (ou tests de comparaisons multiples, MCP pour Multiple Comparison Test). Ces tests obligent en général à augmenter les risques de l'analyse (en termes de risque statistique). Il s'agit d'une généralisation à k populations du test t de Student de comparaison de moyennes de deux échantillons avec ajustement de l'erreur (FDR, FWER, etc.) Par exemple : les tests LSD de Ficher, les tests de Newman-Keuls, les tests HSD de Tukey, les tests de Bonferroni et Sheffé."
Donc tests post-hoc = tests multiples?
Vous remerciant d'avance pour vos lumières toujours aussi précieuses.
Après avoir fait un peu de biblio je me tourne vers vous pour confirmer certains points qui me semblent flou.
1) J'ai lu que l'ANOVA sur mesures répétées (donc sur données appariées?) ne devait plus être utilisé car sacrilège (Source: Comprendre et utiliser les statistiques dans les sciences de la vie de B. Falissard, p. 197), est-ce vrai ou bien une interprétation un peu abusive de certains?
2) La MANOVA consiste uniquement à faire le calcul (inv(X . X') . X . Y et ensuite procéder aux tests de Pillai, Wilks, Hotelling et Roy?
3) Il s'agit plus d'une demande.
3-a: Je n'arrive pas à mettre la main sur la formule général de l'ANOVA à m facteurs. J'ai trouvé celle à 1 et 2 facteurs mais je ne suis pas sur de la généralisation que j'ai pu en faire. Quelqu'un aurait-il un document clair sur la formule d'usage?
3-b: J'ai fait tourné un exemple pour l'ANOVA à 1 facteur et j'arrive à retrouver les résultats de R. Mais pour l'ANOVA à 2 facteurs je n'y arrive pas. En PJ l'exemple que j'utilise et ci-dessous mes résultats en utilisant la syntaxe:
- Code:
T = read.table('ANOVA m.txt',header=TRUE,sep=' ');aov(X ~ A*B,T)
- Code:
Call:
aov(formula = X ~ A * B, data = T)
Terms:
A B A:B Residuals
Sum of Squares 15.73914 5.69939 33.83242 151.55362
Deg. of Freedom 2 1 2 14
Residual standard error: 3.290176
Estimated effects may be unbalanced
Si je me sers de la formule que l'on peut trouver sur la page wikipédia: https://fr.wikipedia.org/wiki/Analyse_de_la_variance , avec p = 3 nombre de facteurs de A, q = 2 nombre de facteurs de B et r = 20 (nombre d'observations de mon jeu de données?) je ne retrouve pas les même résultats sauf pour SCI (soit la colonne Residuals) à condition de diviser SCI par ddl = (r - p * q) quand l'autre source dont je me sers (Statistique, dictionnaire encyclopédique de Y. Dodge, p.22) dit qu'il faut diviser par ddl = p*q * (n - 1). De plus, le résultat pour le facteur A correspond à celui que l'on obtient pour une ANOVA à 1 facteur (alors que la formule est censée être nettement différente) contrairement à B.
De plus, si je fais tourner une ANOVA à 3 facteurs A, B, C je me rend compte que les résultats pour A correspondent à une ANOVA à 1 facteur A, les résultats de B correspondent à une ANOVA à 2 facteurs A, B.
Je pense que mon souci est que la formule de wikipédia n'est pas adaptée à la configuration de mes données, déjà le paramètre r que je fixe à mon nombre d'observation par défaut ne colle pas à la définition qui est fait et qu'au final je ne comprends pas (r = nombre d'observations subissant le traitement i,j, or r devrait varier d'un croisement à l'autre quand les formules proposées semblent indiquer qu'il est fixe). C'est là où l'on voit que la page wikipédia est très mal rédigée puisque l'exemple qu'ils donnent est du même format que le mien finalement. Quelqu'un aurait donc la version de l'ANOVA pour cette configuration?
4) Enfin, cette partie sur wikipédia m'interpelle:
"Pour identifier les échantillons correspondant, on utilise différents tests «post-hoc» (ou tests de comparaisons multiples, MCP pour Multiple Comparison Test). Ces tests obligent en général à augmenter les risques de l'analyse (en termes de risque statistique). Il s'agit d'une généralisation à k populations du test t de Student de comparaison de moyennes de deux échantillons avec ajustement de l'erreur (FDR, FWER, etc.) Par exemple : les tests LSD de Ficher, les tests de Newman-Keuls, les tests HSD de Tukey, les tests de Bonferroni et Sheffé."
Donc tests post-hoc = tests multiples?
Vous remerciant d'avance pour vos lumières toujours aussi précieuses.
Re: ANOVA à 1 et m facteurs, sur mesures répétées et MANOVA
il y a pas mal d'exemples et beaucoup de references dans ce pdf
http://www.stata.com/manuals13/ranova.pdf
http://www.stata.com/manuals13/ranova.pdf
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: ANOVA à 1 et m facteurs, sur mesures répétées et MANOVA
Salut,
Ah l'ANOVA... Tout le monde pense que c'est simple, mais des qu'on creuse, on se rend compte de la complexite
Pour le point 1, je partage l'avis de Bruno Falissard (en tout cas lorsqu'il ne s'agit pas de plans factoriels), car pour que ton resultat soit valide il faut:
- le meme nombre de sujets par groupe (ou par croisement de modalites pour une ANOVA a plus d'1 variable)
- que toutes tes mesures soient faites au meme temps et sans donnees manquantes
- s'il y a plus de T repetitions, que la correlation entre 2 temps pris au hasard est constante (par exemple, correlation entre T1 et T3= correlation entre T1 et T2)
Enfin, il y a de gros soucis concernant le calcul du nombre de degres de liberte. Dans SAS par exemple, le ddl par defaut est faux, il faut rajouter des options pour le maitriser. Ceci dit, le probleme est le meme avec les modeles mixtes et l'approximation de Sattertwaite par exemple (d'ailleurs, par defaut, la fonction lmer de R ne donne pas de p-value pour la bonne raison que le ddl n'est qu'une approximation, Douglas Bates est assez (trop?) ferme la-dessus.
Pour le point 2, aucune idee. Pour le point 3a, je n'ai pas de documentation, mais est-ce bien raisonnable de vouloir faire une ANOVA a plus de deux facteurs plutot qu'un regression multivariable, qui donne absolument les memes resultats me semble-t-il?
Pour le point 3b, cela vient du type de resultat produit par R. Tu peux obtenir les effets pour des sommes de carres de type I, II ou III, certains etant sensibles a l'ordre dans lequel tu ecris tes variables. Explications ici :
https://mcfromnz.wordpress.com/2011/03/02/anova-type-iiiiii-ss-explained/
Pour le point 4, oui les tests post-hoc sont typiquement un cas de comparaisons multiples pour lequel il faut corriger le seuil de significativite.
Bon courage!
Ayana
Ah l'ANOVA... Tout le monde pense que c'est simple, mais des qu'on creuse, on se rend compte de la complexite
Pour le point 1, je partage l'avis de Bruno Falissard (en tout cas lorsqu'il ne s'agit pas de plans factoriels), car pour que ton resultat soit valide il faut:
- le meme nombre de sujets par groupe (ou par croisement de modalites pour une ANOVA a plus d'1 variable)
- que toutes tes mesures soient faites au meme temps et sans donnees manquantes
- s'il y a plus de T repetitions, que la correlation entre 2 temps pris au hasard est constante (par exemple, correlation entre T1 et T3= correlation entre T1 et T2)
Enfin, il y a de gros soucis concernant le calcul du nombre de degres de liberte. Dans SAS par exemple, le ddl par defaut est faux, il faut rajouter des options pour le maitriser. Ceci dit, le probleme est le meme avec les modeles mixtes et l'approximation de Sattertwaite par exemple (d'ailleurs, par defaut, la fonction lmer de R ne donne pas de p-value pour la bonne raison que le ddl n'est qu'une approximation, Douglas Bates est assez (trop?) ferme la-dessus.
Pour le point 2, aucune idee. Pour le point 3a, je n'ai pas de documentation, mais est-ce bien raisonnable de vouloir faire une ANOVA a plus de deux facteurs plutot qu'un regression multivariable, qui donne absolument les memes resultats me semble-t-il?
Pour le point 3b, cela vient du type de resultat produit par R. Tu peux obtenir les effets pour des sommes de carres de type I, II ou III, certains etant sensibles a l'ordre dans lequel tu ecris tes variables. Explications ici :
https://mcfromnz.wordpress.com/2011/03/02/anova-type-iiiiii-ss-explained/
Pour le point 4, oui les tests post-hoc sont typiquement un cas de comparaisons multiples pour lequel il faut corriger le seuil de significativite.
Bon courage!
Ayana
Ayana- Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009
Re: ANOVA à 1 et m facteurs, sur mesures répétées et MANOVA
Petite contribution :
D'accord avec Ayana sur le point 1.
Point 2, j'ai envie de dire "oui", même si un des tests pourrait suffire (Pillai's test de préférence je crois)
point 3 : j'ai pensé à la même chose, les tests de type 1, 2, 3.
point 4 : D'accord avec Ayana.
Niaboc
D'accord avec Ayana sur le point 1.
Point 2, j'ai envie de dire "oui", même si un des tests pourrait suffire (Pillai's test de préférence je crois)
point 3 : j'ai pensé à la même chose, les tests de type 1, 2, 3.
point 4 : D'accord avec Ayana.
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: ANOVA à 1 et m facteurs, sur mesures répétées et MANOVA
Merci pour vos réponses qui m'ont déjà énormément éclairé plusieurs zones de flous.
Par contre, si je prend l'exemple de wikipédia pour l'anova à deux facteurs:
Sachant les formules suivantes:
r vaut combien selon vous? Non parce que c'est vraiment le point qui me laisse très perplexe en fait...
Par contre, si je prend l'exemple de wikipédia pour l'anova à deux facteurs:
- Code:
Notre exploitant laitier souhaite améliorer la puissance de son analyse en augmentant la taille de son étude. Pour cela, il inclut les données provenant d'une autre exploitation. Les chiffres qui lui sont fournis sont les suivants :
Pour la race A : 22,8 ; 21,7 ; 23,3 ; 23,1 ; 24,1 ; 22,3 et 22,7
Pour la race B : 23,1 ; 22,9 ; 21,9 ; 23,4 et 23,0
Pour la race C : 31,7 ; 33,1 ; 32,5 ; 35,1 ; 32,2 et 32,6
Analyse réalisée avec R :
> produc <- c(20.1, 19.8, 21.3, 20.7, 22.6, 24.1, 23.8, 22.5, 23.4,
24.5, 22.9, 31.2, 31.6, 31.0, 32.1, 31.4, 22.8, 21.7, 23.3, 23.1,
24.1, 22.3, 22.7, 23.1, 22.9, 21.9, 23.4, 23.0, 31.7, 33.1, 32.5,
35.1, 32.2, 32.6)
> race <- as.factor(c("A", "A", "A", "A", "B", "B", "B", "B", "B",
"B", "B", "C", "C", "C", "C", "C", "A", "A", "A", "A", "A", "A",
"A", "B", "B", "B", "B", "B", "C", "C", "C", "C", "C", "C"))
> centre <- as.factor(c(rep("premier", 16), rep("second", 18)))
> anova(lm(produc~race*centre))
Analysis of variance Table
Response: produc
Df Sum Sq Mean Sq F value Pr(>F)
race 2 696.48 348.24 559.6811 < 2.2e-16 ***
centre 1 8.46 8.46 13.6012 0.0009636 ***
race:centre 2 12.23 6.11 9.8267 0.0005847 ***
Residuals 28 17.42 0.62
---
Signif. Codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Sachant les formules suivantes:
r vaut combien selon vous? Non parce que c'est vraiment le point qui me laisse très perplexe en fait...
Re: ANOVA à 1 et m facteurs, sur mesures répétées et MANOVA
Bon, Après moultes recherches je comprends tout juste que les formules de wikipédia sont pour le cas d'un plan équilibré quand mes exemples sont pour des plans déséquilibrés. Par contre j'aime bien ce sujet: http://www.les-mathematiques.net/phorum/read.php?13,590878,593506
Evidemment, je galère à trouver les formules d'usage pour le plan déséquilibré.
NB: L'ANOVA c'est vraiment un truc de connard.
Lors d'une ANOVA à 2 facteurs (sans interaction), la projection des données sur le facteur A n'est pas indépendante de celle sur le facteur B lorsque le plan est désiquilibré.
On introduit alors 2 types de source de variation expliquée par un facteur (somme des carrés) :
- séquentielle : on projette sur A puis sur l'orthogonal de A dans A+B ; les sources de variation SC_A et SC_B dépendent alors de l'ordre des facteurs ; si on met A en premier on interprète SC_B comme la variation restante expliquée par B du fait que A fait déjà partie du modèle
- ajustée : la source de variation SC_A due au facteur A est celle obtenue en faisant la méthode séquentielle avec B en premier (i.e. orthogonal de B dans A+B), et vice-versa pour SC_B (i.e. orthogonal de A dans A+B)
Evidemment, je galère à trouver les formules d'usage pour le plan déséquilibré.
NB: L'ANOVA c'est vraiment un truc de connard.
Re: ANOVA à 1 et m facteurs, sur mesures répétées et MANOVA
Je vais essayer de fouiller chez moi, je dois avoir dans mes cours des tables d'ANOVA pour des types de plans experimentaux que personne n'utilise, il y aura peut-etre ca dedans ;-)
J'avoue que l'enseignement systematique de l'ANOVA a deux facteurs ou a mesures repetees dans tous les modules de stats dans les universites francaises m'a toujours laissee perplexe, car dans la vraie vie, on a bien plus vite fait d'utiliser une bonne vieille regression!
J'avoue que l'enseignement systematique de l'ANOVA a deux facteurs ou a mesures repetees dans tous les modules de stats dans les universites francaises m'a toujours laissee perplexe, car dans la vraie vie, on a bien plus vite fait d'utiliser une bonne vieille regression!
Ayana- Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009
Re: ANOVA à 1 et m facteurs, sur mesures répétées et MANOVA
Quelques remarques concernant le code R utilisé :
1) On trouve dans de nombreux documents l'utilisation de la fonction aov mais celle-ci pose de nombreux problèmes dont le moindre est qu'elle n'est utilisable que dans le cas de groupes équilibrés. Il est toujours préférable d'utiliser la fonction lm.
2) Un point oublié est que R utilise par défaut une somme des carrés de type I, c'est-à-dire celle testant séquentiellement l'entrée des facteur. Il suffit pour s'en convaincre d'inverser l'ordre des facteurs dans la formules d'un modèle à deux facteurs et interaction (sortie de la fonction anova). Pour avoir d'autres sommes des carrés, indépendantes de l'ordre des facteurs, il faut utiliser la fonction Anova (avec une majuscule) du package car.
Maintenant, les Manova sont plus complexes, ne serait-ce que théoriquement et peuvent être considérés comme les duales des analyses discriminantes linéaires. Quant aux Anova à mesures répétées, elle peuvent se baser sur différents modèles, le plus classiques étant celui de la Manova mais de nombreux auteurs préfèrent de plus en plus une approche de type modèles à effets mixtes.
1) On trouve dans de nombreux documents l'utilisation de la fonction aov mais celle-ci pose de nombreux problèmes dont le moindre est qu'elle n'est utilisable que dans le cas de groupes équilibrés. Il est toujours préférable d'utiliser la fonction lm.
2) Un point oublié est que R utilise par défaut une somme des carrés de type I, c'est-à-dire celle testant séquentiellement l'entrée des facteur. Il suffit pour s'en convaincre d'inverser l'ordre des facteurs dans la formules d'un modèle à deux facteurs et interaction (sortie de la fonction anova). Pour avoir d'autres sommes des carrés, indépendantes de l'ordre des facteurs, il faut utiliser la fonction Anova (avec une majuscule) du package car.
Maintenant, les Manova sont plus complexes, ne serait-ce que théoriquement et peuvent être considérés comme les duales des analyses discriminantes linéaires. Quant aux Anova à mesures répétées, elle peuvent se baser sur différents modèles, le plus classiques étant celui de la Manova mais de nombreux auteurs préfèrent de plus en plus une approche de type modèles à effets mixtes.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Sujets similaires
» ANOVA à mesures répétées, test t, MANOVA?
» ANOVA : un ou plusieurs facteurs ? Mesures répétées ?
» Anova à mesures répétées
» Test non-paramétrique, 2 facteurs, mesures répétées.
» Anova à mesures répétées
» ANOVA : un ou plusieurs facteurs ? Mesures répétées ?
» Anova à mesures répétées
» Test non-paramétrique, 2 facteurs, mesures répétées.
» Anova à mesures répétées
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum