Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Quelle méthode d'analyse choisir ?
2 participants
Page 1 sur 1
Quelle méthode d'analyse choisir ?
Bonjour à tous et à toutes,
Je vais essayer d'être le + explicite possible : je dois réussir à expliquer une variable réponse de type quantitatif (cette variable a été préalablement transformée en log et elle suit donc une loi normale) par (beaucoup) de variables explicatives : une trentaine qualitatives (recodées en 0/1, c'est-à-dire je suis ou non de type X) et 2 quantitatives. (nombre d'observations = 2500 environ)
A noter qu'il existe de la multi-colinéarité dans mes variables explicatives, notamment deux d'entre elles avec une corrélation de 0,70 (un des buts de l'analyse est aussi de savoir si c'est l'effet de l'une ou de l'autre qui explique mon Y).
Ma question est "simple" : quelle type d'analyse semble la + adaptée ? J'ai à ma disposition le logiciel R (et Excel).
Les régressions linéaires (commande lm dans R) que j'ai effectuées me donnent des résultats : 11 coefficients significatifs, mais le R² associé est très faible (de l'ordre de 0.2)
J'ai essayé des analyses de covariances (ANCOVA) (commande aov dans R) : résultats similaires sur les coefficients.
Suis-je dans le vrai avec ces analyses ? Si non, qu'est-ce qui vous semble le + adapté ? (ACM ? ACP ?...)
En espérant avoir été concis, clair, et avoir respecté les consignes du forum
Merci d'avance pour votre aide,
Alex.
Je vais essayer d'être le + explicite possible : je dois réussir à expliquer une variable réponse de type quantitatif (cette variable a été préalablement transformée en log et elle suit donc une loi normale) par (beaucoup) de variables explicatives : une trentaine qualitatives (recodées en 0/1, c'est-à-dire je suis ou non de type X) et 2 quantitatives. (nombre d'observations = 2500 environ)
A noter qu'il existe de la multi-colinéarité dans mes variables explicatives, notamment deux d'entre elles avec une corrélation de 0,70 (un des buts de l'analyse est aussi de savoir si c'est l'effet de l'une ou de l'autre qui explique mon Y).
Ma question est "simple" : quelle type d'analyse semble la + adaptée ? J'ai à ma disposition le logiciel R (et Excel).
Les régressions linéaires (commande lm dans R) que j'ai effectuées me donnent des résultats : 11 coefficients significatifs, mais le R² associé est très faible (de l'ordre de 0.2)
J'ai essayé des analyses de covariances (ANCOVA) (commande aov dans R) : résultats similaires sur les coefficients.
Suis-je dans le vrai avec ces analyses ? Si non, qu'est-ce qui vous semble le + adapté ? (ACM ? ACP ?...)
En espérant avoir été concis, clair, et avoir respecté les consignes du forum
Merci d'avance pour votre aide,
Alex.
Alex83- Nombre de messages : 15
Date d'inscription : 09/01/2017
Re: Quelle méthode d'analyse choisir ?
Vous être classiquement dans un problème de régression, effectivement. Plusieurs remarques :
- lm() ou aov() font en fait le même calcul. Et c'est pour ceci que vous trouvez le même résultat. Toutes ces méthodes (régression, anova, ancova, etc.) représentent ce qu'on appelle le modèle linéaire générale, et il existe sous R une fonction qui fait tout ça pour vous: glm().
- Notez que vous n'avez pas le besoin de recoder (par exemple en 0/1) des variables qualitatives. Vous pouvez les rentrer dans le modèle tel quelle. R recodera ceci pour vous.
- Plus vous rentrez de variables explicatives, plus le R2 diminuera mécaniquement. Une valeur de 0.2 en soit ne représente rien.
- Votre véritable problème est de trier les variables explicatives significatives de celles qui ne le sont pas. Il existe des procédures (même automatisées) qui font ça, basée sur le critère AIC. Il existe des packages sous R pour ça, par exemple.
HTH, Eric.
- lm() ou aov() font en fait le même calcul. Et c'est pour ceci que vous trouvez le même résultat. Toutes ces méthodes (régression, anova, ancova, etc.) représentent ce qu'on appelle le modèle linéaire générale, et il existe sous R une fonction qui fait tout ça pour vous: glm().
- Notez que vous n'avez pas le besoin de recoder (par exemple en 0/1) des variables qualitatives. Vous pouvez les rentrer dans le modèle tel quelle. R recodera ceci pour vous.
- Plus vous rentrez de variables explicatives, plus le R2 diminuera mécaniquement. Une valeur de 0.2 en soit ne représente rien.
- Votre véritable problème est de trier les variables explicatives significatives de celles qui ne le sont pas. Il existe des procédures (même automatisées) qui font ça, basée sur le critère AIC. Il existe des packages sous R pour ça, par exemple.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1237
Date d'inscription : 14/09/2012
Re: Quelle méthode d'analyse choisir ?
Bonjour Eric, bonjour aux autres membres,
Merci pour votre réponse, de qualité et très claire. Il me semblait que l'ajout d'une variable augmentait le R² (ou du moins le laissait stable), la somme des carrées des résidus ne pouvant être que + petite. A ce propos, je sais que c'est "l'éternel débat" mais, avec un R² faible (comme dans mon cas), puis-je tout de même valider mes résultats, donner des conclusions ?
J'en profite pour poser une seconde question : ayant fait deux classes de mes variables quantitatives (valeur haute vs valeur basse), puis-je compléter mes modèles de régressions linéaires par une Analyse des Correspondances Multiples (ACM) ? Ou est-ce que finalement, je vais donner deux fois le même résultat ?
Merci encore pour votre aide,
Alex
Merci pour votre réponse, de qualité et très claire. Il me semblait que l'ajout d'une variable augmentait le R² (ou du moins le laissait stable), la somme des carrées des résidus ne pouvant être que + petite. A ce propos, je sais que c'est "l'éternel débat" mais, avec un R² faible (comme dans mon cas), puis-je tout de même valider mes résultats, donner des conclusions ?
J'en profite pour poser une seconde question : ayant fait deux classes de mes variables quantitatives (valeur haute vs valeur basse), puis-je compléter mes modèles de régressions linéaires par une Analyse des Correspondances Multiples (ACM) ? Ou est-ce que finalement, je vais donner deux fois le même résultat ?
Merci encore pour votre aide,
Alex
Alex83- Nombre de messages : 15
Date d'inscription : 09/01/2017
Re: Quelle méthode d'analyse choisir ?
Oops, vous avez raison, désolé. J'ai écrit trop vite. Le fait est, je n'utilise que très rarement ce critère d'ajustement. Désolé encore.Alex83 a écrit:Il me semblait que l'ajout d'une variable augmentait le R² (ou du moins le laissait stable), la somme des carrées des résidus ne pouvant être que + petite.
Je pense que ce qui compte, c'est la significativité de l'effet des variables explicatives. C'est pour ceci, d'ailleurs, que je ne prête généralement pas d'intéret au R2.Alex83 a écrit: A ce propos, je sais que c'est "l'éternel débat" mais, avec un R² faible (comme dans mon cas), puis-je tout de même valider mes résultats, donner des conclusions ?
Une ACM n'est pas une méthode pour tester l'influence de variables sur une ou plusieurs autres. Par directement, en tout cas. C'est juste une méthode de description. La réponse que j'en envie de vous faire est plutôt pourquoi transformer une variable quantitative en deux classes ? Vous perdez une quantité importante d'information sans gain en retour.Alex83 a écrit:J'en profite pour poser une seconde question : ayant fait deux classes de mes variables quantitatives (valeur haute vs valeur basse), puis-je compléter mes modèles de régressions linéaires par une Analyse des Correspondances Multiples (ACM) ? Ou est-ce que finalement, je vais donner deux fois le même résultat ?
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1237
Date d'inscription : 14/09/2012
Re: Quelle méthode d'analyse choisir ?
Je voulais transformer mes variables quanti en quali pour pouvoir effectuer une ACM, ni plus ni moins, mais il est vrai que l'information contenue dans ces variables va être amoindrie...
Je me permets de vous poser une dernière question : si je garde mes variables explicatives quantitatives tel quel, est-ce que je peux les incorporer à mon modèle de régression linéaire, où sont déjà présente mes variables qualitatives ? Il me semble que oui, mais j'aimerais bien une confirmation (j'imagine juste que l'interprétation des coefficients estimés ne sera pas la même).
Encore une fois merci pour la clarté de vos explications,
Alexis
Je me permets de vous poser une dernière question : si je garde mes variables explicatives quantitatives tel quel, est-ce que je peux les incorporer à mon modèle de régression linéaire, où sont déjà présente mes variables qualitatives ? Il me semble que oui, mais j'aimerais bien une confirmation (j'imagine juste que l'interprétation des coefficients estimés ne sera pas la même).
Encore une fois merci pour la clarté de vos explications,
Alexis
Alex83- Nombre de messages : 15
Date d'inscription : 09/01/2017
Re: Quelle méthode d'analyse choisir ?
Dans un modèle linéaire générale (ANOVA, ANCOVA, régression, etc.), les variables explicatives peuvent être quantitatives ou qualitatives. Vous pouvez mettre ces deux types de variables, ensemble. Aucun problème de ce coté.
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1237
Date d'inscription : 14/09/2012
Re: Quelle méthode d'analyse choisir ?
D'accord Eric, merci encore une fois pour toutes ces précisions. Excellente journée (et très bonne année !).
A bientôt,
Alexis
A bientôt,
Alexis
Alex83- Nombre de messages : 15
Date d'inscription : 09/01/2017
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum