Comparaison de plusieurs Modalités à variables dépendantes

par L'âne à Lyse Mer 2 Aoû 2017 - 13:59

Bonjour à toutes et à tous!!
Je viens quérir votre aide pour un problème de choix d'un test statistique.

Je cherche à savoir si l'épandage d'un fertilisant joue un rôle sur la croissance des plants (en hauteur) qui se développent sur la parcelle.
Il y a donc deux modalités: Fertilisée (F) et Non fertilisée (NF).
Chaque plant à été mesuré à 4 dates différentes que nous nommerons: T1, T2, T3 et T4.
Si on schématise on a donc:

Modalité Numéro de plant T1 T2 T3 T4

F 1.1 10 40 90 150
F 1.2 12 44 93 149
F 1.3 14 36 98 164
|
F 1.n ... ... ... ...

NF 2.1 16 48 102 156
NF 2.2 8 44 97 149
NF 2.3 10 41 98 154
|
NF 2.n ... ... ... ...

Infos supplémentaire: La distribution des valeurs ne suit pas la loi normale (Shapiro et Q-Q plot), mais l'homoscédasticité est vérifiée (Bartlett).

Mon questionnement est le suivant: Existe-t-il un test statistique permettant de mettre en évidence la présence/absence d'un effet "fertilisant" qui saurait utiliser ces données appariées? Et est-il pertinent de chercher à réfléchir de la sorte.

L'autre solution que j'envisage consisterait à déterminer la croissance de chacun des individus (soit donc: la pente) et de comparer ensuite les modalités grâce à un test de Kruskal Wallis. Toutefois elle ne me permettrait pas de profiter de l'appariement des données.

Je vous remercie par avance pour votre aide!!!

par zezima Mer 2 Aoû 2017 - 14:12

Bonjour,

Il y a plusieurs choses qui me viennent en lisant ton sujet.

Oublie le shapiro (trop biaisé comme test), et regarde plutôt ton qqplot et l'histogramme de tes données.
Si ta taille d'échantillon est faible, il sera difficile d'évaluer la normalité de tes données.
Si tu estimes qu'elles ne sont pas normales, tu peux essayer une transformation de tes données et regarder si les données transformées suivent une loi normale (exemple : données log-transformées suivent une loi normale = données log-normales).

Si tu arrives à trouver une transformation qui suit une loi normale, tu peux utiliser ses données transformées pour appliquer une Two-Way ANOVA à données appariées (sur les dates).
Si tu n'y arrives pas, il faudra surement faire une Two-way ANOVA sur les rangs (les rangs de tes données), je ne sais pas s'il y a un test équivalent au two-way anova non-paramétrique.

En effet, le Kruskal-Wallis serait fixé à une date précise (pas apparié).
Fais attention à ton histoire de pente, la pente entre deux dates peut être différente de la pente des deux dates qui suivent, tu peux calculer l'Aire sous la courbe de ta croissance à partir de toutes tes dates et regarder la distribution de ton Aire sous la courbe puis l'analyser en non-apparié.

ps: combien de données as-tu au total ?

par L'âne à Lyse Mer 2 Aoû 2017 - 14:38

Bonjour Zezima!
Avant tout, merci pour ta réponse!

Je dois dire que je n'ai découvert les Q-Q plot que très récemment j'ai bien peur de ne pas avoir le recul nécessaire pour les analyser. Smile

Comparaison de plusieurs Modalités à variables dépendantes Captur10

Pour ma part, j'aurai tendance à ne pas considérer la distribution "normale".

Concernant la taille de l'échantillon, chaque modalités regroupe 60 individus (J'aurai effectivement dû le préciser) Very Happy

La transformation des données est une bonne idée, je vais m'y employer.

Concernant lesdites pentes, je pensai réaliser une courbe de tendance linéaire pour les valeurs des trois premières dates (lorsque les plants sont en croissance régulière) (la quatrième date correspond aux valeurs maximales atteintes pendant la saison). Penses-tu que cela serait pertinent?
L'aire sous la courbe est également une bonne idée, je n'aurai qu'à modifier légèrement ma question.

par zezima Mer 2 Aoû 2017 - 15:03

D'accord pour la courbe, mais il faut que tu sois convaincu de la modélisation de tes données (ça me semble logique que ce soit monotone, après il faut voir si c'est adapté à du linéaire, je ne connais pas du tout le domaine des plantes).

Il faut également que la variable que tu vas analyser et ton objectif soient fixés en amont (sinon c'est un peu de la triche de faire plusieurs tests pour en quelques sortes la même variable croissance/Aire_de_croissance car tu auras plus de risques d'avoir un test significatif par hasard donc un risque de rejeter ton hypothèse nulle à tort).

Concernant ton QQplot, tu peux le poster si tes données ne sont pas confidentielles, tu as une taille d'échantillon assez conséquente, si le QQplot n'est pas trop moche, tu pourras utiliser un test paramétrique sur tes données brutes.
Les points peuvent ne pas être totalement alignés sur la droite du QQplot et pour autant être issus d'une loi normale (phénomène de kurtosis élevé ou très faible). C'est important de bien choisir la distribution car on peut avoir des gros écarts de puissance (probabilité de rejeter adroitement l'hypothèse nulle) si on fait du non-paramétrique plutôt que du paramétrique.

Concernant le calcul de l'Aire sous la courbe (AUC), fais attention à l'écart de temps entre chaque date, ton calcul en dépendra.

Au niveau des dates que tu as choisi pour évaluer la croissance de tes plantes, tout dépend de ce que tu comptes faire par la suite, si tu évalues au niveau de ces dates, fais attention à ce que le produit soit également efficace à d'autre périodes. Les dates vont également t'indiquer le temps nécessaire pour que ton produit ait un effet significatif, tu le verras au niveau de la modélisation des groupes F versus NF aux différents temps (tu devrais voir un pic où la courbe F s'écarte de la courbe NF si le produit marche bien).

par Eric Wajnberg Mer 2 Aoû 2017 - 16:02

L'histoire de la normalité n'est qu'un tout petit problème ici (et monopolise - je pense - trop de discussion/réflexion; et est par ailleurs notoirement difficile à vérifier, car il faut vérifier pour chaque modalité séparément..).

En revanche, le vrai problème ici est la non-indépendance des données car ce sont les mêmes plantes qui sont mesurées à 4 dates. Il faut s'orienter - comme le dit zezima - sur un modèle à données répétées, soit une ANOVA sur données répétées, soit un modèle linéaire mixte. Il faut d'abord (et surtout) résoudre ce point, je pense.

HTH, Eric.

par droopy Jeu 3 Aoû 2017 - 15:28

Bonjour,

un lien pas mal :
https://www.google.fr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=8&ved=0ahUKEwid24PvrLvVAhUIJ8AKHZChD0sQFghjMAc&url=http%3A%2F%2Fwww.pitt.edu%2F~super4%2F33011-34001%2F33151-33161.ppt&usg=AFQjCNEcvlAR1l1yvbb72_APOiSBM1ZFng

Après dans le livre Mixed Effects Models and Extensions in Ecology with R, tu as pas mal d'exemple dont des classiques qui expliquent l'importance de prendre en compte le fait que les mesures sont répétées.

cdlt

par Contenu sponsorisé

Comparaison de plusieurs Modalités à variables dépendantes

Comparaison de plusieurs Modalités à variables dépendantes

Re: Comparaison de plusieurs Modalités à variables dépendantes

Re: Comparaison de plusieurs Modalités à variables dépendantes

Re: Comparaison de plusieurs Modalités à variables dépendantes

Re: Comparaison de plusieurs Modalités à variables dépendantes

Re: Comparaison de plusieurs Modalités à variables dépendantes

Re: Comparaison de plusieurs Modalités à variables dépendantes