Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Anova à 5 facteurs?
2 participants
Page 1 sur 1
Anova à 5 facteurs?
Bonjour,
Je suis novice en statistiques, alors j'espère que ma question sera toutefois pertinente.
Voici un exemple de mes données:
- 4 années d'études (1985, 1995, 2000 et 2005)
- 3 secteurs d'études différents (1, 2 et 3)
- 4 scénarios (BI, H1, H2 et H3) effectués dans chaque secteurs, à chaque année, sur des couples de points
- ma variable réponse (Cout_CUM) qui est la distance entre des couples de points en mesure répétée (Couple_PT) (les scénarios de distance sont calculés pour chaque couple et à chaque année), chaque secteur possède ses couples de points.
(- à cela j'aurais peut-être aimé ajouter une variable de proportion du couvert forestier dans chaque secteur, à chaque année, mais je crois que cette information est contenu dans les données de croisement du secteur avec l'année, mais j'aurais peut-être aimer *contrôler* pour cette variable, qui est différente d'un secteur à l'autre, je ne sais pas si c'est clair, je m,excuse....).
Une petite précision je n'ai pas le même nombre de données de variable réponse pour chaque secteur.
Je voulais effectuer une ANOVA, mais j'ai 5 facteurs (j'ai des Anova à 3 facteurs, mais à plus pas vraiment .... je me questionne si cela est vraiment pertinent....), et je ne sais pas comment traiter mon facteur "Pourcentage de forêt" ....
Je sais que je dois mettre le facteur "Couple_PT" comme terme d'erreur, puisqu'il s'agit de mesures répétées dans le temps.
Je ne suis pas intéressée aux interactions.
De mes lectures, j'ai vu que je pourrais peut-être faire des modèles mixtes mais encore une fois je ne sais pas comment traiter mes données de cette manière, et je ne suis pas certaine d'avoir tout compris ....
Voilà j'espère pouvoir trouver quelques réponses =)
Bonne journée
Je suis novice en statistiques, alors j'espère que ma question sera toutefois pertinente.
Voici un exemple de mes données:
- 4 années d'études (1985, 1995, 2000 et 2005)
- 3 secteurs d'études différents (1, 2 et 3)
- 4 scénarios (BI, H1, H2 et H3) effectués dans chaque secteurs, à chaque année, sur des couples de points
- ma variable réponse (Cout_CUM) qui est la distance entre des couples de points en mesure répétée (Couple_PT) (les scénarios de distance sont calculés pour chaque couple et à chaque année), chaque secteur possède ses couples de points.
(- à cela j'aurais peut-être aimé ajouter une variable de proportion du couvert forestier dans chaque secteur, à chaque année, mais je crois que cette information est contenu dans les données de croisement du secteur avec l'année, mais j'aurais peut-être aimer *contrôler* pour cette variable, qui est différente d'un secteur à l'autre, je ne sais pas si c'est clair, je m,excuse....).
Une petite précision je n'ai pas le même nombre de données de variable réponse pour chaque secteur.
- Code:
Cout_CUM Année Scénario Secteur Couple_PT Pourc_foma
553.913 1985 BI 1 13 74.0
580.812 1985 H1 1 13 74.0
552.848 1985 BI 2 15 81.3
597.871 1985 BI 3 16 86.2
625.173 2000 BI 1 17 10.7
781.752 1995 BI 2 18 14.5
680.214 2005 H3 2 19 9.8
74.313 1985 BI 1 20 74.0
.....
Je voulais effectuer une ANOVA, mais j'ai 5 facteurs (j'ai des Anova à 3 facteurs, mais à plus pas vraiment .... je me questionne si cela est vraiment pertinent....), et je ne sais pas comment traiter mon facteur "Pourcentage de forêt" ....
Je sais que je dois mettre le facteur "Couple_PT" comme terme d'erreur, puisqu'il s'agit de mesures répétées dans le temps.
Je ne suis pas intéressée aux interactions.
De mes lectures, j'ai vu que je pourrais peut-être faire des modèles mixtes mais encore une fois je ne sais pas comment traiter mes données de cette manière, et je ne suis pas certaine d'avoir tout compris ....
Voilà j'espère pouvoir trouver quelques réponses =)
Bonne journée
Delphine.Fa- Nombre de messages : 5
Date d'inscription : 09/04/2014
Re: Anova à 5 facteurs?
D'après ce que j'ai pu lire à date, j'ai quelques pistes.
D'abord je veux tester si les moyennes de coût de distance diffèrent en fonction des scénarios, des secteurs et de l'année.
En fait il s'agit plutôt d'utiliser un modèle mixte avec comme facteurs:
A : Secteurs, facteur fixe, a = 3
B : Scénario, facteur fixe, crossed, b = 4
C(A): Couple_PT, facteur fixe, nested, c = 89 (dans secteur 1), c = 107 (dans secteur 2), c = 33 (dans secteur 3)
D : Pourcentage de forêt, (facteur de régression? de contrôle?), random
Réplications : Année, n = 4 (mais qui doit aussi être une variable de régression? dans ce cas là elle est indirectement fourni par les appariements des couples de points?)
Réponse: Distance de coût sur chacun de mes couples de points (Cout_CUM)
Je ne sais pas si la compréhension de mes facteurs et correcte et j'arrive encore moins à dégager la syntaxe de ce modèle ....
Une piste (ma variable réponse est *Cout_sur_eucli*, je l'ai juste divisée (Cout_CUM) par la distance euclidienne pour standardiser):
Mais je ne sais pas comment bien faire ressortir mes protocoles (nested vs crossed)....
J'ai aussi ensuite le problème des tests post hoc .... TukeyHSD ne semble pas fonctionner ....
Je continue de chercher, mais si quelqu'un a des éléments de réponse je suis preneuse =)
Bonne journée
D'abord je veux tester si les moyennes de coût de distance diffèrent en fonction des scénarios, des secteurs et de l'année.
En fait il s'agit plutôt d'utiliser un modèle mixte avec comme facteurs:
A : Secteurs, facteur fixe, a = 3
B : Scénario, facteur fixe, crossed, b = 4
C(A): Couple_PT, facteur fixe, nested, c = 89 (dans secteur 1), c = 107 (dans secteur 2), c = 33 (dans secteur 3)
D : Pourcentage de forêt, (facteur de régression? de contrôle?), random
Réplications : Année, n = 4 (mais qui doit aussi être une variable de régression? dans ce cas là elle est indirectement fourni par les appariements des couples de points?)
Réponse: Distance de coût sur chacun de mes couples de points (Cout_CUM)
Je ne sais pas si la compréhension de mes facteurs et correcte et j'arrive encore moins à dégager la syntaxe de ce modèle ....
Une piste (ma variable réponse est *Cout_sur_eucli*, je l'ai juste divisée (Cout_CUM) par la distance euclidienne pour standardiser):
- Code:
summary(aov(Cout_sur_eucli ~ Scénario * as.factor(Année) * as.factor(Secteur) + Error(Couple/(as.factor(Année) * Scénario * Pourc_foma))))
Error: Couple
Df Sum Sq Mean Sq
as.factor(Secteur) 1 0.08791 0.08791
Error: Couple:as.factor(Année)
Df Sum Sq Mean Sq
as.factor(Année) 3 19.49 6.496
Error: Couple:Scénario
Df Sum Sq Mean Sq
Scénario 3 14.39 4.797
Error: Couple:Pourc_foma
Df Sum Sq Mean Sq
as.factor(Année) 1 0.1767 0.1767
Error: Couple:as.factor(Année):Scénario
Df Sum Sq Mean Sq
Scénario:as.factor(Année) 9 6.874 0.7638
Error: Couple:as.factor(Année):Pourc_foma
Df Sum Sq Mean Sq
as.factor(Année) 3 3.339 1.113
Error: Couple:Scénario:Pourc_foma
Df Sum Sq Mean Sq
Scénario 3 0.5108 0.1703
Error: Couple:as.factor(Année):Scénario:Pourc_foma
Df Sum Sq Mean Sq
Scénario 3 3.699 1.2332
Scénario:as.factor(Année) 6 1.131 0.1884
Error: Within
Df Sum Sq Mean Sq F value Pr(>F)
Scénario 3 4.908 1.6360 266.153 < 2e-16 ***
as.factor(Année) 3 6.501 2.1668 352.506 < 2e-16 ***
as.factor(Secteur) 2 0.383 0.1915 31.159 3.84e-14 ***
Scénario:as.factor(Année) 9 1.797 0.1997 32.489 < 2e-16 ***
Scénario:as.factor(Secteur) 6 0.082 0.0137 2.221 0.0384 *
as.factor(Année):as.factor(Secteur) 6 0.177 0.0295 4.805 6.85e-05 ***
Scénario:as.factor(Année):as.factor(Secteur) 18 0.114 0.0063 1.026 0.4257
Residuals 3568 21.932 0.0061
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Mais je ne sais pas comment bien faire ressortir mes protocoles (nested vs crossed)....
J'ai aussi ensuite le problème des tests post hoc .... TukeyHSD ne semble pas fonctionner ....
Je continue de chercher, mais si quelqu'un a des éléments de réponse je suis preneuse =)
Bonne journée
Delphine.Fa- Nombre de messages : 5
Date d'inscription : 09/04/2014
Re: Anova à 5 facteurs?
Peut-être mes questions ne sont pas claires =(
Delphine.Fa- Nombre de messages : 5
Date d'inscription : 09/04/2014
Re: Anova à 5 facteurs?
Bonsoir,
oui pas très claire effectivement . tu poses de multiples petites interrogations sans doute parce que tu n'es pas sûre de toi.
Une anova c'est un modèle linéaire donc tu pourrais avoir 15 facteurs que ça ne changerait rien à l'interprétation. Le tout c'est d'avoir le nombre d'observation adéquate car les variables qualitatives sont gourmandes en degré de liberté. Mais vu ton degré de liberté résiduel il semble que tu sois assez tranquille de ce côté là.
Par contre aov est fait pour des plan équilibré. Il faut utiliser lm pour les plan déséquilibrés. Il va falloir aussi vérifier les conditions d'application du modèle dont notamment l'homoscédasticité ce qui dans ton cas va être sans doute problématique vu le nombre de catégories avec les interactions (très peu probable que toutes tes catégories soient homoscédastiques). Cela va peut être t'amener à passer sur un modèle mixte par exemple ou à trouver ne tout cas un moyen de prendre en compte cette hétéroscédasticité. La distribution d'erreur doit être examinée pour voir si tes résidus se distribuent au moins à peu près selon une loi normale. Cela pourrait t'amener à passer sur un glm par exemple. bref pas mal de pistes à envisager et également une question statistiques plus précise devrait t'aider à améliorer ton analyse stat.
oui pas très claire effectivement . tu poses de multiples petites interrogations sans doute parce que tu n'es pas sûre de toi.
Une anova c'est un modèle linéaire donc tu pourrais avoir 15 facteurs que ça ne changerait rien à l'interprétation. Le tout c'est d'avoir le nombre d'observation adéquate car les variables qualitatives sont gourmandes en degré de liberté. Mais vu ton degré de liberté résiduel il semble que tu sois assez tranquille de ce côté là.
Par contre aov est fait pour des plan équilibré. Il faut utiliser lm pour les plan déséquilibrés. Il va falloir aussi vérifier les conditions d'application du modèle dont notamment l'homoscédasticité ce qui dans ton cas va être sans doute problématique vu le nombre de catégories avec les interactions (très peu probable que toutes tes catégories soient homoscédastiques). Cela va peut être t'amener à passer sur un modèle mixte par exemple ou à trouver ne tout cas un moyen de prendre en compte cette hétéroscédasticité. La distribution d'erreur doit être examinée pour voir si tes résidus se distribuent au moins à peu près selon une loi normale. Cela pourrait t'amener à passer sur un glm par exemple. bref pas mal de pistes à envisager et également une question statistiques plus précise devrait t'aider à améliorer ton analyse stat.
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Anova à 5 facteurs?
Merci Nick pour tes pistes, elles m'ont orientée
En effet, je suis partie explorer la piste sur des glmm, c'est ce qui convient le mieux à mes données. J'ai regardé la normalité de mes résidus avec mes valeurs prédites pour mon modèle, il s'avère que forcément c'est pas comme il faut ^^ mais je pense que la structure de mes données notamment celles de 1985 (qui étaient les "contrôles") ont une variabilité très faible comparée à mes autres années. Je vais donc faire le ratio de mes valeurs des autres années sur les valeurs de l'année 1985 pour avoir la référence indirectement. Cela me permet d'éliminer cette année de mon jeu de données dans un premier temps. Puis je pense faire l'analyse de chacun des secteurs séparés pour simplifier et je les rajouterais peut-être après.
Voilà merci bcp tes réponses m'ont orientée =)
Keep going
En effet, je suis partie explorer la piste sur des glmm, c'est ce qui convient le mieux à mes données. J'ai regardé la normalité de mes résidus avec mes valeurs prédites pour mon modèle, il s'avère que forcément c'est pas comme il faut ^^ mais je pense que la structure de mes données notamment celles de 1985 (qui étaient les "contrôles") ont une variabilité très faible comparée à mes autres années. Je vais donc faire le ratio de mes valeurs des autres années sur les valeurs de l'année 1985 pour avoir la référence indirectement. Cela me permet d'éliminer cette année de mon jeu de données dans un premier temps. Puis je pense faire l'analyse de chacun des secteurs séparés pour simplifier et je les rajouterais peut-être après.
Voilà merci bcp tes réponses m'ont orientée =)
Keep going
Delphine.Fa- Nombre de messages : 5
Date d'inscription : 09/04/2014
Sujets similaires
» Analyse résiduelle ANOVA 1 facteur / ANOVA 2 facteurs
» ANOVA 2 et 3 facteurs post hoc
» ANOVA - 2 facteurs avec interaction
» Anova - plusieurs facteurs
» ANOVA deux facteurs
» ANOVA 2 et 3 facteurs post hoc
» ANOVA - 2 facteurs avec interaction
» Anova - plusieurs facteurs
» ANOVA deux facteurs
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum