Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Tests et modèles, loi normale
3 participants
Page 1 sur 1
Tests et modèles, loi normale
Bonjour,
Désolée pour ce titre un peu fourre-tout, j'espèce que ce qui suit sera plus compréhensible.
Je cherche à analyser d'influence de différents paramètres (variables qualitatives) sur la taille à un temps t (variable quantitative) de différents individus (plantes).
Mon jeu de données est constitué de la façon suivante :
Individu
Substrat (=substrat de culture des plantes) : terreau/naturel
Site (=site d'origine des populations) : SA/B/V
Génération (=date de récolte des graines) : 1950/2000
Hauteur du plant
J'ai au total six populations de plantes (trois sites d'origine X deux générations à chaque fois) et ces six populations sont cultivées à la fois en terreau et en sol naturel.
J'aimerais savoir quel paramètre (site, génération, sol de culture ou un effet combiné des trois) influe le plus sur la hauteur des individus. Mon jeu de données est relativement important (350 individus).
J'ai d'abord pensé à une ANOVA mais ma variable quantitative ne suit pas une loi normale (même en ayant testé toutes les transformations "simples" : sqrt, log...) et les variances des groupes ne sont pas homogènes (test de Bartlett).
Je ne sais pas trop quoi faire... Dois-je me rabattre sur des tests non paramétriques (kruskal wallis et wilcoxon) ? Utiliser d'autres modèles (glm..) ?
Merci pour votre aide !
Désolée pour ce titre un peu fourre-tout, j'espèce que ce qui suit sera plus compréhensible.
Je cherche à analyser d'influence de différents paramètres (variables qualitatives) sur la taille à un temps t (variable quantitative) de différents individus (plantes).
Mon jeu de données est constitué de la façon suivante :
Individu
Substrat (=substrat de culture des plantes) : terreau/naturel
Site (=site d'origine des populations) : SA/B/V
Génération (=date de récolte des graines) : 1950/2000
Hauteur du plant
J'ai au total six populations de plantes (trois sites d'origine X deux générations à chaque fois) et ces six populations sont cultivées à la fois en terreau et en sol naturel.
J'aimerais savoir quel paramètre (site, génération, sol de culture ou un effet combiné des trois) influe le plus sur la hauteur des individus. Mon jeu de données est relativement important (350 individus).
J'ai d'abord pensé à une ANOVA mais ma variable quantitative ne suit pas une loi normale (même en ayant testé toutes les transformations "simples" : sqrt, log...) et les variances des groupes ne sont pas homogènes (test de Bartlett).
Je ne sais pas trop quoi faire... Dois-je me rabattre sur des tests non paramétriques (kruskal wallis et wilcoxon) ? Utiliser d'autres modèles (glm..) ?
Merci pour votre aide !
leab- Nombre de messages : 4
Date d'inscription : 01/02/2018
Re: Tests et modèles, loi normale
Bonjour,
Je ne pense pas que les tests non paramétriques puissent permettre de répondre à ta question.
Tu tombes dans une problématique de régression multiple. Effectivement, les outils type GLM ou GLMM devraient correspondre à ce que tu cherches à faire et ce que tu exprimes comme problématique de traitement des données.
Par contre, pour la condition sur la normalité, ce sont les erreurs qui doivent suivre une loi normale et non la variable à expliquer en elle-même. ceci étant dit ton principal problème est l'hétéroscédasticité des données. Un modèle mixte devrait te permettre de prendre en compte les variances intra-groupes pour obtenir une meilleur estimation de la contribution des variables à l'explication de la variabilité de la taille.
Nik
Je ne pense pas que les tests non paramétriques puissent permettre de répondre à ta question.
Tu tombes dans une problématique de régression multiple. Effectivement, les outils type GLM ou GLMM devraient correspondre à ce que tu cherches à faire et ce que tu exprimes comme problématique de traitement des données.
Par contre, pour la condition sur la normalité, ce sont les erreurs qui doivent suivre une loi normale et non la variable à expliquer en elle-même. ceci étant dit ton principal problème est l'hétéroscédasticité des données. Un modèle mixte devrait te permettre de prendre en compte les variances intra-groupes pour obtenir une meilleur estimation de la contribution des variables à l'explication de la variabilité de la taille.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Tests et modèles, loi normale
D'accord je vais creuser de ce côté.
Merci beaucoup !
Merci beaucoup !
leab- Nombre de messages : 4
Date d'inscription : 01/02/2018
Re: Tests et modèles, loi normale
Vous dites avoir testé la normalité et l'homoscédasticité, mais ces tests doivent être faits indépendamment dans tous les groupes, c'est-à-dire dans toutes les combinaisons possibles de l'interaction entre sites, générations et sol de culture, c'est à dire dans les 2x2x2=8 groupes indépendamment. C'est ce que vous avez fait ?
Je suis étonné qu'une variable comme la hauteur ne suive pas une loi normale.
HTH, Eric.
Je suis étonné qu'une variable comme la hauteur ne suive pas une loi normale.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Tests et modèles, loi normale
Bonjour,
Effectivement pour la normalité j'avais testé seulement le jeu de données total. Si elle se vérifie dans la plupart des groupes, cela pose toujours problème dans d'autres, et le problème d'hétéroscédasticité est toujours présent.
Après les conseils de Nik j'étais partie sur un modèle mixte avec individu comme variable aléatoire, est-ce que c'est toujours pertinent ?
Effectivement pour la normalité j'avais testé seulement le jeu de données total. Si elle se vérifie dans la plupart des groupes, cela pose toujours problème dans d'autres, et le problème d'hétéroscédasticité est toujours présent.
Après les conseils de Nik j'étais partie sur un modèle mixte avec individu comme variable aléatoire, est-ce que c'est toujours pertinent ?
leab- Nombre de messages : 4
Date d'inscription : 01/02/2018
Re: Tests et modèles, loi normale
Tester le jeu de données total ne rime à rien, car vous mélangez plusieurs lois entre elles. Pas étonnant que vous n'ayez rien de normale et sans homoscédasticité. Vous pouvez donc considérer que la hauteur suit une loi bellement normale.
Une fois que la loi est choisie, oui, un modèle mixte (ANOVA) avec les individus en variable aléatoire est un choix possible (parmi d'autres).
HTH, Eric.
Une fois que la loi est choisie, oui, un modèle mixte (ANOVA) avec les individus en variable aléatoire est un choix possible (parmi d'autres).
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
|
|