Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
différence entre corrélation et régression multiple
3 participants
Page 1 sur 1
différence entre corrélation et régression multiple
Bonjour, je réalise actuellement des statistiques grâce au logiciel sphinx. Lorsque je fais une analyse de corrélation entre deux variables numériques (variable en abcsisse = A; variable en ordonnée = B), j'obtiens un résultat non significatif avec un coefficient de corrélation r = 0.04. Lorsque je réalise une régression multiple en prenant la même variable à expliquer (=A) avec un ensemble de variables explicatives (20 variables dont ma variable B utilisée précédemment), j'obtiens cette fois-ci un coefficient de corrélation nettement supérieur (r = 0.51) pour ce qui est du lien entre mes variables A et B. La même chose se produit pour d'autres variables (pas de r significatif quand je prends une seule variable mais r élevé si je prends toutes les variables). Comment expliquer ces résultats? Puis-je affirmer pour autant que ma variable B influe positivement et significativement sur ma variable A? Comment écrire le résultat dans un article pour rester fidèle à la réalité?
Désolée, comme vous l'aurez compris je ne suis pas statisticienne... Un grand merci par avance pour vos éclairages et votre aide.
Désolée, comme vous l'aurez compris je ne suis pas statisticienne... Un grand merci par avance pour vos éclairages et votre aide.
ocito- Nombre de messages : 2
Date d'inscription : 12/11/2015
Re: différence entre corrélation et régression multiple
Bonjour,
Je ne sais pas trop où tu en es des définitions des outils que tu utilises mais au moins dans ta façon de présenter cela me parait très confus.
Je ne sais pas ce qu'est une analyse de corrélation (Coef de Pearson ou coef de détermination d'un modèle linéaire?).
Tu ne peux pas comparer les résultats d'un modèle avec 1 variable explicative à un modèle à 20 variables explicatives juste sur la base d'un R² et d'une analyse "à l'oeil". Le processus de sélection d'un modèle est une étape potentiellement longue et avec ses propres techniques à maitriser.
Enfin, pour répondre à ton étonnement, la relation d'une variable à une autre peut effectivement complètement changer dès lors qu'on introduit 1 ou plusieurs variables explicatives supplémentaires. C'est tout l'enjeu de la régression multiple par rapport à la régression linéaire simple.
Nik
Je ne sais pas trop où tu en es des définitions des outils que tu utilises mais au moins dans ta façon de présenter cela me parait très confus.
Je ne sais pas ce qu'est une analyse de corrélation (Coef de Pearson ou coef de détermination d'un modèle linéaire?).
Tu ne peux pas comparer les résultats d'un modèle avec 1 variable explicative à un modèle à 20 variables explicatives juste sur la base d'un R² et d'une analyse "à l'oeil". Le processus de sélection d'un modèle est une étape potentiellement longue et avec ses propres techniques à maitriser.
Enfin, pour répondre à ton étonnement, la relation d'une variable à une autre peut effectivement complètement changer dès lors qu'on introduit 1 ou plusieurs variables explicatives supplémentaires. C'est tout l'enjeu de la régression multiple par rapport à la régression linéaire simple.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: différence entre corrélation et régression multiple
Pour compléter la réponse de Nik, il est absolument nécessaire de se poser la question de la robustesse de ton analyse. Par exemple, si tu fais une régression multiple avec 20 variables indépendantes (selon le domaine, appelées aussi libres ou explicatives), il te faut plusieurs dizaines de mesures pour avoir une chance d'avoir un résultat robuste. De plus, il faut s'assurer que ces variables sont faiblement corrélées entre elles, en première intention en estimant le VIF (Variance Inflation Factor). Il est aussi nécessaire de rechercher des outliers surtout si le rapport nu nombre de mesures au nombre de paramètres à estimer est faible (empiriquement disons entre 5 et 10).
Maintenant pour répondre plus spécifiquement à ta question, les coefficients estimés par une régression multiple sont reliés aux corrélations partielles entre la variable dépendante et la variable indépendante, c'est-à-dire de l'influence linéaire des autres variables dépendantes. Donc, si ta variable explicative est peu corrélée avec les autres variables explicatives, le coefficient ne devrait que peu changer. Ce qui n'est pas ton cas. La raison de cette corrélation peut être l'existence d'une véritable corrélation ou simplement un effet aléatoire parce que la dimension de ton problème (nombre de mesures vs. nombre de coefficients à estimer) conduit à un problème mal conditionné.
Maintenant pour répondre plus spécifiquement à ta question, les coefficients estimés par une régression multiple sont reliés aux corrélations partielles entre la variable dépendante et la variable indépendante, c'est-à-dire de l'influence linéaire des autres variables dépendantes. Donc, si ta variable explicative est peu corrélée avec les autres variables explicatives, le coefficient ne devrait que peu changer. Ce qui n'est pas ton cas. La raison de cette corrélation peut être l'existence d'une véritable corrélation ou simplement un effet aléatoire parce que la dimension de ton problème (nombre de mesures vs. nombre de coefficients à estimer) conduit à un problème mal conditionné.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: différence entre corrélation et régression multiple
Un très grand merci à vous 2 pour vos réponses. Cela m'a bien éclairé. Après vérification, je constate qu'un grand nombre d'observations ont été supprimés lorsque je passe en régression multiple (sans doute parce qu'il manque au moins une donnée à chaque fois; je travaille avec le logiciel sphinx). Donc je vais laisser tomber la régression multiple pour l'analyse en question. En tous cas, merci!
ocito- Nombre de messages : 2
Date d'inscription : 12/11/2015
Sujets similaires
» régression linéaire multiple et corrélation
» Regression et corrélation/causalité entre variables
» lien entre coefficient de correlation et regression linéaire
» régression multiple et régression logistique
» ACP et corrélation entre variables
» Regression et corrélation/causalité entre variables
» lien entre coefficient de correlation et regression linéaire
» régression multiple et régression logistique
» ACP et corrélation entre variables
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum