Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Comparaison de plusieurs Modalités à variables dépendantes
4 participants
Page 1 sur 1
Comparaison de plusieurs Modalités à variables dépendantes
Bonjour à toutes et à tous!!
Je viens quérir votre aide pour un problème de choix d'un test statistique.
Je cherche à savoir si l'épandage d'un fertilisant joue un rôle sur la croissance des plants (en hauteur) qui se développent sur la parcelle.
Il y a donc deux modalités: Fertilisée (F) et Non fertilisée (NF).
Chaque plant à été mesuré à 4 dates différentes que nous nommerons: T1, T2, T3 et T4.
Si on schématise on a donc:
F 1.1 10 40 90 150
F 1.2 12 44 93 149
F 1.3 14 36 98 164
|
F 1.n ... ... ... ...
NF 2.1 16 48 102 156
NF 2.2 8 44 97 149
NF 2.3 10 41 98 154
|
NF 2.n ... ... ... ...
Infos supplémentaire: La distribution des valeurs ne suit pas la loi normale (Shapiro et Q-Q plot), mais l'homoscédasticité est vérifiée (Bartlett).
Mon questionnement est le suivant: Existe-t-il un test statistique permettant de mettre en évidence la présence/absence d'un effet "fertilisant" qui saurait utiliser ces données appariées? Et est-il pertinent de chercher à réfléchir de la sorte.
L'autre solution que j'envisage consisterait à déterminer la croissance de chacun des individus (soit donc: la pente) et de comparer ensuite les modalités grâce à un test de Kruskal Wallis. Toutefois elle ne me permettrait pas de profiter de l'appariement des données.
Je vous remercie par avance pour votre aide!!!
Je viens quérir votre aide pour un problème de choix d'un test statistique.
Je cherche à savoir si l'épandage d'un fertilisant joue un rôle sur la croissance des plants (en hauteur) qui se développent sur la parcelle.
Il y a donc deux modalités: Fertilisée (F) et Non fertilisée (NF).
Chaque plant à été mesuré à 4 dates différentes que nous nommerons: T1, T2, T3 et T4.
Si on schématise on a donc:
Modalité Numéro de plant T1 T2 T3 T4 |
F 1.2 12 44 93 149
F 1.3 14 36 98 164
|
F 1.n ... ... ... ...
NF 2.1 16 48 102 156
NF 2.2 8 44 97 149
NF 2.3 10 41 98 154
|
NF 2.n ... ... ... ...
Infos supplémentaire: La distribution des valeurs ne suit pas la loi normale (Shapiro et Q-Q plot), mais l'homoscédasticité est vérifiée (Bartlett).
Mon questionnement est le suivant: Existe-t-il un test statistique permettant de mettre en évidence la présence/absence d'un effet "fertilisant" qui saurait utiliser ces données appariées? Et est-il pertinent de chercher à réfléchir de la sorte.
L'autre solution que j'envisage consisterait à déterminer la croissance de chacun des individus (soit donc: la pente) et de comparer ensuite les modalités grâce à un test de Kruskal Wallis. Toutefois elle ne me permettrait pas de profiter de l'appariement des données.
Je vous remercie par avance pour votre aide!!!
L'âne à Lyse- Nombre de messages : 2
Date d'inscription : 02/08/2017
Re: Comparaison de plusieurs Modalités à variables dépendantes
Bonjour,
Il y a plusieurs choses qui me viennent en lisant ton sujet.
Oublie le shapiro (trop biaisé comme test), et regarde plutôt ton qqplot et l'histogramme de tes données.
Si ta taille d'échantillon est faible, il sera difficile d'évaluer la normalité de tes données.
Si tu estimes qu'elles ne sont pas normales, tu peux essayer une transformation de tes données et regarder si les données transformées suivent une loi normale (exemple : données log-transformées suivent une loi normale = données log-normales).
Si tu arrives à trouver une transformation qui suit une loi normale, tu peux utiliser ses données transformées pour appliquer une Two-Way ANOVA à données appariées (sur les dates).
Si tu n'y arrives pas, il faudra surement faire une Two-way ANOVA sur les rangs (les rangs de tes données), je ne sais pas s'il y a un test équivalent au two-way anova non-paramétrique.
En effet, le Kruskal-Wallis serait fixé à une date précise (pas apparié).
Fais attention à ton histoire de pente, la pente entre deux dates peut être différente de la pente des deux dates qui suivent, tu peux calculer l'Aire sous la courbe de ta croissance à partir de toutes tes dates et regarder la distribution de ton Aire sous la courbe puis l'analyser en non-apparié.
ps: combien de données as-tu au total ?
Il y a plusieurs choses qui me viennent en lisant ton sujet.
Oublie le shapiro (trop biaisé comme test), et regarde plutôt ton qqplot et l'histogramme de tes données.
Si ta taille d'échantillon est faible, il sera difficile d'évaluer la normalité de tes données.
Si tu estimes qu'elles ne sont pas normales, tu peux essayer une transformation de tes données et regarder si les données transformées suivent une loi normale (exemple : données log-transformées suivent une loi normale = données log-normales).
Si tu arrives à trouver une transformation qui suit une loi normale, tu peux utiliser ses données transformées pour appliquer une Two-Way ANOVA à données appariées (sur les dates).
Si tu n'y arrives pas, il faudra surement faire une Two-way ANOVA sur les rangs (les rangs de tes données), je ne sais pas s'il y a un test équivalent au two-way anova non-paramétrique.
En effet, le Kruskal-Wallis serait fixé à une date précise (pas apparié).
Fais attention à ton histoire de pente, la pente entre deux dates peut être différente de la pente des deux dates qui suivent, tu peux calculer l'Aire sous la courbe de ta croissance à partir de toutes tes dates et regarder la distribution de ton Aire sous la courbe puis l'analyser en non-apparié.
ps: combien de données as-tu au total ?
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Comparaison de plusieurs Modalités à variables dépendantes
Bonjour Zezima!
Avant tout, merci pour ta réponse!
Je dois dire que je n'ai découvert les Q-Q plot que très récemment j'ai bien peur de ne pas avoir le recul nécessaire pour les analyser.
Pour ma part, j'aurai tendance à ne pas considérer la distribution "normale".
Concernant la taille de l'échantillon, chaque modalités regroupe 60 individus (J'aurai effectivement dû le préciser)
La transformation des données est une bonne idée, je vais m'y employer.
Concernant lesdites pentes, je pensai réaliser une courbe de tendance linéaire pour les valeurs des trois premières dates (lorsque les plants sont en croissance régulière) (la quatrième date correspond aux valeurs maximales atteintes pendant la saison). Penses-tu que cela serait pertinent?
L'aire sous la courbe est également une bonne idée, je n'aurai qu'à modifier légèrement ma question.
Avant tout, merci pour ta réponse!
Je dois dire que je n'ai découvert les Q-Q plot que très récemment j'ai bien peur de ne pas avoir le recul nécessaire pour les analyser.
Pour ma part, j'aurai tendance à ne pas considérer la distribution "normale".
Concernant la taille de l'échantillon, chaque modalités regroupe 60 individus (J'aurai effectivement dû le préciser)
La transformation des données est une bonne idée, je vais m'y employer.
Concernant lesdites pentes, je pensai réaliser une courbe de tendance linéaire pour les valeurs des trois premières dates (lorsque les plants sont en croissance régulière) (la quatrième date correspond aux valeurs maximales atteintes pendant la saison). Penses-tu que cela serait pertinent?
L'aire sous la courbe est également une bonne idée, je n'aurai qu'à modifier légèrement ma question.
L'âne à Lyse- Nombre de messages : 2
Date d'inscription : 02/08/2017
Re: Comparaison de plusieurs Modalités à variables dépendantes
D'accord pour la courbe, mais il faut que tu sois convaincu de la modélisation de tes données (ça me semble logique que ce soit monotone, après il faut voir si c'est adapté à du linéaire, je ne connais pas du tout le domaine des plantes).
Il faut également que la variable que tu vas analyser et ton objectif soient fixés en amont (sinon c'est un peu de la triche de faire plusieurs tests pour en quelques sortes la même variable croissance/Aire_de_croissance car tu auras plus de risques d'avoir un test significatif par hasard donc un risque de rejeter ton hypothèse nulle à tort).
Concernant ton QQplot, tu peux le poster si tes données ne sont pas confidentielles, tu as une taille d'échantillon assez conséquente, si le QQplot n'est pas trop moche, tu pourras utiliser un test paramétrique sur tes données brutes.
Les points peuvent ne pas être totalement alignés sur la droite du QQplot et pour autant être issus d'une loi normale (phénomène de kurtosis élevé ou très faible). C'est important de bien choisir la distribution car on peut avoir des gros écarts de puissance (probabilité de rejeter adroitement l'hypothèse nulle) si on fait du non-paramétrique plutôt que du paramétrique.
Concernant le calcul de l'Aire sous la courbe (AUC), fais attention à l'écart de temps entre chaque date, ton calcul en dépendra.
Au niveau des dates que tu as choisi pour évaluer la croissance de tes plantes, tout dépend de ce que tu comptes faire par la suite, si tu évalues au niveau de ces dates, fais attention à ce que le produit soit également efficace à d'autre périodes. Les dates vont également t'indiquer le temps nécessaire pour que ton produit ait un effet significatif, tu le verras au niveau de la modélisation des groupes F versus NF aux différents temps (tu devrais voir un pic où la courbe F s'écarte de la courbe NF si le produit marche bien).
Il faut également que la variable que tu vas analyser et ton objectif soient fixés en amont (sinon c'est un peu de la triche de faire plusieurs tests pour en quelques sortes la même variable croissance/Aire_de_croissance car tu auras plus de risques d'avoir un test significatif par hasard donc un risque de rejeter ton hypothèse nulle à tort).
Concernant ton QQplot, tu peux le poster si tes données ne sont pas confidentielles, tu as une taille d'échantillon assez conséquente, si le QQplot n'est pas trop moche, tu pourras utiliser un test paramétrique sur tes données brutes.
Les points peuvent ne pas être totalement alignés sur la droite du QQplot et pour autant être issus d'une loi normale (phénomène de kurtosis élevé ou très faible). C'est important de bien choisir la distribution car on peut avoir des gros écarts de puissance (probabilité de rejeter adroitement l'hypothèse nulle) si on fait du non-paramétrique plutôt que du paramétrique.
Concernant le calcul de l'Aire sous la courbe (AUC), fais attention à l'écart de temps entre chaque date, ton calcul en dépendra.
Au niveau des dates que tu as choisi pour évaluer la croissance de tes plantes, tout dépend de ce que tu comptes faire par la suite, si tu évalues au niveau de ces dates, fais attention à ce que le produit soit également efficace à d'autre périodes. Les dates vont également t'indiquer le temps nécessaire pour que ton produit ait un effet significatif, tu le verras au niveau de la modélisation des groupes F versus NF aux différents temps (tu devrais voir un pic où la courbe F s'écarte de la courbe NF si le produit marche bien).
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Comparaison de plusieurs Modalités à variables dépendantes
L'histoire de la normalité n'est qu'un tout petit problème ici (et monopolise - je pense - trop de discussion/réflexion; et est par ailleurs notoirement difficile à vérifier, car il faut vérifier pour chaque modalité séparément..).
En revanche, le vrai problème ici est la non-indépendance des données car ce sont les mêmes plantes qui sont mesurées à 4 dates. Il faut s'orienter - comme le dit zezima - sur un modèle à données répétées, soit une ANOVA sur données répétées, soit un modèle linéaire mixte. Il faut d'abord (et surtout) résoudre ce point, je pense.
HTH, Eric.
En revanche, le vrai problème ici est la non-indépendance des données car ce sont les mêmes plantes qui sont mesurées à 4 dates. Il faut s'orienter - comme le dit zezima - sur un modèle à données répétées, soit une ANOVA sur données répétées, soit un modèle linéaire mixte. Il faut d'abord (et surtout) résoudre ce point, je pense.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Comparaison de plusieurs Modalités à variables dépendantes
Bonjour,
un lien pas mal :
https://www.google.fr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=8&ved=0ahUKEwid24PvrLvVAhUIJ8AKHZChD0sQFghjMAc&url=http%3A%2F%2Fwww.pitt.edu%2F~super4%2F33011-34001%2F33151-33161.ppt&usg=AFQjCNEcvlAR1l1yvbb72_APOiSBM1ZFng
Après dans le livre Mixed Effects Models and Extensions in Ecology with R, tu as pas mal d'exemple dont des classiques qui expliquent l'importance de prendre en compte le fait que les mesures sont répétées.
cdlt
un lien pas mal :
https://www.google.fr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=8&ved=0ahUKEwid24PvrLvVAhUIJ8AKHZChD0sQFghjMAc&url=http%3A%2F%2Fwww.pitt.edu%2F~super4%2F33011-34001%2F33151-33161.ppt&usg=AFQjCNEcvlAR1l1yvbb72_APOiSBM1ZFng
Après dans le livre Mixed Effects Models and Extensions in Ecology with R, tu as pas mal d'exemple dont des classiques qui expliquent l'importance de prendre en compte le fait que les mesures sont répétées.
cdlt
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Sujets similaires
» variable modératrice et plusieurs variables dépendantes
» test de normalité sur plusieurs variables
» modèle de Cox à variables dépendantes du temps
» Nb DE VARIABLES DEPENDANTES EN FONCTION DU Nb DE SUJET
» Plan expérimental à deux variables dépendantes
» test de normalité sur plusieurs variables
» modèle de Cox à variables dépendantes du temps
» Nb DE VARIABLES DEPENDANTES EN FONCTION DU Nb DE SUJET
» Plan expérimental à deux variables dépendantes
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum