Les posteurs les plus actifs de la semaine
clemm
 
Nik
 
Florent Aubry
 


ANOVA GLM LM sur 40 variables Qualitatives

Aller en bas

ANOVA GLM LM sur 40 variables Qualitatives

Message par smalblanc le Mer 18 Juil 2018 - 11:44

Bonjour à tous,

Je souhaiterais réaliser un modèle explicatif d'une variable quantitative (Expression de maladie en %age).
Ma base de données contient 1121 individus et 40 variables.

Pour faire ce test je réalise une ANOVA. Ayant un grand nombre de variables, j'ai fait des ANOVA à un facteur pour chaque.


anova(lm(Expression.MDB~Effeuillage))


Ensuite, j'ai voulu essayé cette méthode:

anova(lm(Expression.MDB~.,MDB))

En utilisant le ".", je ne trouve pas du tout les mêmes résultats. Je n'arrive pas à comprendre ce que ce point prend en compte. Quelqu'un pourrait-il me donner la signification de ce point?

Comment se fait-il que je trouve des résultats complètement différents? Certaines variables non significatives en ANOVA à 1 facteur le deviennent avec la 2e formule.

Ma dernière question est:
Avec ce grand nombre de variables QUALITATIVES, je n'arrive pas à savoir quel test serait le plus pertinent:
- aov(lm(...
- Anova(lm(...#Package "car"
-glm(...
- lm(...

Merci d'avance

smalblanc

Nombre de messages : 9
Date d'inscription : 18/07/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: ANOVA GLM LM sur 40 variables Qualitatives

Message par Nik le Mer 18 Juil 2018 - 12:55

Bonjour,

Il est normal que les résultats soient différents puisque tu prends en compte toutes les variables. C'est le sens du "." : R utilise toute les variables du jeu de données qui ne sont pas utilisées par ailleurs.
Si la finalité est de faire un modèle avec l'ensemble des variables alors les ANOVA à 1 facteurs ne servent à rien sauf à se faire une grossière idée de l'organisation du jeu de données.
Tu as 40 variables avec plusieurs modalités ? ça fait combien de modalité ? A mon avis tu es en train de faire des stats à l'aveugle en espérant que qqchose sorte. Il n'y a rien de mieux pour sortir un modèle aberrant.
Je te conseille par ailleurs de bien vérifier les résidus du modèles et leur conformité aux hypothèses du modèle linéaire.

Il me semble qu'il faudrait passer par une sélection des variables explicatives. Il existe différentes solution pour ce faire.

HTH

Nik

Nik

Nombre de messages : 1582
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: ANOVA GLM LM sur 40 variables Qualitatives

Message par smalblanc le Mer 18 Juil 2018 - 13:10

Bonjour, (Merci pour cette réponse SI rapide)

Alors cela fait plusieurs semaines que je travaille sur ce modèle mais j'avoue être complètement bloquée.

J'ai donc ma variable explicative "Expression Maladie" quantitative exprimée en pourcentage. Vu que se sont des pourcentages de "Présence/Absence", elle suit donc une loi Binomiale.

(Je vient, je pense, de régler le problème concernant le choix de mon modèle. Je ne peut me tourner que vers une GLM.)

Concernant ma base de donnée, au départ j'avais 70 variables et 1121 individus pour expliquer ces maladies (données parcellaires, pratiques culturales et données climatiques).

J'ai au préalable réalisé une sélection de mes variables:
- suppression des variables représentées par plus de 75% des individus
- regroupement de modalités pour certaines variables
- liaison entre variable avec un test exact de Fisher afin de supprimer les variables redondantes ou de les passer en variable supplémentaire

Tout cela m'a permis de n'avoir plus que 36 variables.

En moyenne j'ai 4 modalités par variable soit 144 modalités.

La finalité de mon travail est de trouver des facteurs explicatifs à ma variable Y (Expression Maladie) et de connaître l'importance de chaque variable dans le modèle. Je ne veux pas forcément que toutes les variables soient représentées.

Pensez vous qu'il est possible de faire une GLM avec 36 variables?
Je peux toujours séparer mes variables en 3 blocs (parcelle, pratiques et climat) pour avoir moins de variables dans mes modèles.

Merci beaucoup d'avance.

smalblanc

Nombre de messages : 9
Date d'inscription : 18/07/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: ANOVA GLM LM sur 40 variables Qualitatives

Message par smalblanc le Mer 18 Juil 2018 - 13:21

Pour rapidement décrire ma base de donnée:
Nous avons réalisé des enquêtes auprès de viticulteurs pour essayer de comprendre quel était l'impact des pratiques culturales sur l'expression des maladies du bois dans les vignes. Pour cela, nous disposons des relevés d'expression des maladies par année, par parcelle, sur 3 cépage différents.

J'ai des individus qui correspondent à 1 viticulteur + 1 cépage + 1 année sur une même ligne. Ex: Mr Dupont viticulteur sur une parcelle de Riesling en 2003 = DUPRI2003
Avec 30 viticulteurs, j'ai donc plus de 1100 lignes.

J'ai du prendre un individu par année car mes variables explicatives sont temporelles. Ex: le type de taille à pu changer durant les relevés de 2003 à 2017.

Je me retrouve donc avec 36 variables qualitatives avec respectivement (en moyenne) 4 modalités et pour réellement 30 viticulteurs plus de 1100 lignes.

Je ne sais pas si c'est compréhensible expliqué comme ca ...

smalblanc

Nombre de messages : 9
Date d'inscription : 18/07/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: ANOVA GLM LM sur 40 variables Qualitatives

Message par Nik le Jeu 19 Juil 2018 - 10:06

Bonjour,

Le problème est que tu te retrouves avec un nombre très important de paramètres à estimer et finalement ton nombre de valeur, qui peut paraître très important, se retrouve dilué et tu perds beaucoup en puissance statistique.

Techniquement, tu pourras faire tourner ton GLM (au masculin au passage...Smile) à 40 variables mais les résultats seront fortement discutables à mon avis.

Vous avez été trop gourmand dans le nombre de question à mon avis. Il faut donc sélectionner des variables soit par des hypothèses techniques que toi seul peut connaître (ce n'est pas de la statistique mais bien de l'expertise sur les maladies de la vigne) soit (ou en complément) par une méthode statistique (stepwise, critère d'informations type AIC...).

nik

Nik

Nombre de messages : 1582
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: ANOVA GLM LM sur 40 variables Qualitatives

Message par smalblanc le Jeu 19 Juil 2018 - 11:19

Merci beaucoup pour vos réponses.

Je repars au coeur du problème et je vais m'occuper avant tout chose de ma base de données, des liaisons entre variables et réduire l'échantillon.

Merci encore.

Bonne continuation Very Happy

smalblanc

Nombre de messages : 9
Date d'inscription : 18/07/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: ANOVA GLM LM sur 40 variables Qualitatives

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum