Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
régression linéaire multiple: problème vif
2 participants
Page 1 sur 1
régression linéaire multiple: problème vif
régression linéaire multiple : problème vif
Bonjour,
Je suis en train de réaliser une régression linéaire multiple, ma première hors encadrement scolaire.
Mon jeu de données : 1 variable à expliquer Y et 50 variables potentiellement explicatives (toutes numériques)
Ma démarche :
- Tout d'abords, ACP sur les 50 variables
- Je retiens 6 axes
- Puis,régression linéaire multiple data_acp=cbind(Y=Y,acp$li), reg1=lm(Y ~ ., data=data_acp)
- régression retenue : reg1=lm(Y~ Axis2+Axis3+Axis4, data=data_acp) car les autres axes n'ont pas leurs coef significatifs et ont une p-value dans l'anova >0.05
- Ensuite, en revenant à mes 50 variables, je sélectionne les 3 variables les plus corrélées pour chaque axe de l'ACP (2,3 et 4)
- je reste sur un modèle à trois variables en testant l'ensemble des possibilités sachant que deux variables corrélées à un même axe ne peuvent être présentes dans un même modèle.
- pour chaque modèle je vérifie : validité des coefficient, les p-values de l'anova pour l'effet des variables explicatives,
shapiro pour la normalité des résidus, Durbin-Watson pour l'autocorrélation d’ordre 1 entre les résidus, le critère du VIF l'indice de multicolinéarité.
Mon problème porte sur le VIF car j'ai un modèle sans constante.
> vif(reg1)
5.711021 4.377415 2.867257
Message d'avis :
In vif.lm(reg1) : No intercept: vifs may not be sensible.
J'ai procédé ainsi (voir Ma démarche) pour justement éviter le problème de multicolinéarité mais j'aimerais savoir si il existe d'autres tests sous R pour identifier ce problème.
Autre question le test de Durbin-Watson est normalement utiliser pour les séries temporelles, est-ce-que ça pose un problème si il n'est pas vérifié ?
Merci,
Thierry
Bonjour,
Je suis en train de réaliser une régression linéaire multiple, ma première hors encadrement scolaire.
Mon jeu de données : 1 variable à expliquer Y et 50 variables potentiellement explicatives (toutes numériques)
Ma démarche :
- Tout d'abords, ACP sur les 50 variables
- Je retiens 6 axes
- Puis,régression linéaire multiple data_acp=cbind(Y=Y,acp$li), reg1=lm(Y ~ ., data=data_acp)
- régression retenue : reg1=lm(Y~ Axis2+Axis3+Axis4, data=data_acp) car les autres axes n'ont pas leurs coef significatifs et ont une p-value dans l'anova >0.05
- Ensuite, en revenant à mes 50 variables, je sélectionne les 3 variables les plus corrélées pour chaque axe de l'ACP (2,3 et 4)
- je reste sur un modèle à trois variables en testant l'ensemble des possibilités sachant que deux variables corrélées à un même axe ne peuvent être présentes dans un même modèle.
- pour chaque modèle je vérifie : validité des coefficient, les p-values de l'anova pour l'effet des variables explicatives,
shapiro pour la normalité des résidus, Durbin-Watson pour l'autocorrélation d’ordre 1 entre les résidus, le critère du VIF l'indice de multicolinéarité.
Mon problème porte sur le VIF car j'ai un modèle sans constante.
> vif(reg1)
5.711021 4.377415 2.867257
Message d'avis :
In vif.lm(reg1) : No intercept: vifs may not be sensible.
J'ai procédé ainsi (voir Ma démarche) pour justement éviter le problème de multicolinéarité mais j'aimerais savoir si il existe d'autres tests sous R pour identifier ce problème.
Autre question le test de Durbin-Watson est normalement utiliser pour les séries temporelles, est-ce-que ça pose un problème si il n'est pas vérifié ?
Merci,
Thierry
Thierry25- Nombre de messages : 8
Age : 39
Localisation : Belfort
Date d'inscription : 07/01/2011
Re: régression linéaire multiple: problème vif
Je pense que tu n'as pas vraiment éviter le problème de multicolinéarité. En fait tu l'as fait jusqu'à l'étape régression linéaire multiple sur les axes de l'ACP, mais après terminés. En effet tu sélectionnes les axes qui expliquent le mieux ta variable Y (sur un critère relativement discutable avec une méthodologie relativement discutable elle aussi, la sélection de variable est un monde relativement vaste) mais après ça tu repars à sélectionner des variables qui sont corrélées aux axes mais ça ne veut pas dire qu'elles ne sont pas corrélées entre elles.
Il existe des techniques comme la régression PLS qui prennent en compte les corrélations entre variables et qui sont utilisées dans des cas ou tu as de très nombreuses variables explicatives. Par contre cela reste une méthode plutôt prédictive et pas vraiment inférentielle.
Il existe des techniques comme la régression PLS qui prennent en compte les corrélations entre variables et qui sont utilisées dans des cas ou tu as de très nombreuses variables explicatives. Par contre cela reste une méthode plutôt prédictive et pas vraiment inférentielle.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: régression linéaire multiple: problème vif
Merci de m'avoir répondu.
Effectivement, je n'élimine pas la multicolinéarité de mon modèle j'espèrais juste l'atténuer par cette méthode. C'est pourquoi je veux vérifier si la multicolinéarité qu'il y a dans mon modèle n'est pas trop importante d'où l'utilisation du VIF.
Toutefois, en étudiant la matrice des corrélations, je n'ai plus de forte corrélations comme j'en avais au départ ... ça aura au moins servi à ça.
Connaitrais-tu un critère autre que le VIF qui soit performant pour un modèle sans constante ? J'ai vu qu'il existait l'indice de conditionnement : racine(vp_max/vp_min) qui doit être <10 mais je le trouve moins restrictif que le VIF.
Effectivement, je n'élimine pas la multicolinéarité de mon modèle j'espèrais juste l'atténuer par cette méthode. C'est pourquoi je veux vérifier si la multicolinéarité qu'il y a dans mon modèle n'est pas trop importante d'où l'utilisation du VIF.
Toutefois, en étudiant la matrice des corrélations, je n'ai plus de forte corrélations comme j'en avais au départ ... ça aura au moins servi à ça.
Connaitrais-tu un critère autre que le VIF qui soit performant pour un modèle sans constante ? J'ai vu qu'il existait l'indice de conditionnement : racine(vp_max/vp_min) qui doit être <10 mais je le trouve moins restrictif que le VIF.
Thierry25- Nombre de messages : 8
Age : 39
Localisation : Belfort
Date d'inscription : 07/01/2011
Sujets similaires
» Régression linéaire multiple
» Régression linéaire multiple
» Regression lineaire multiple
» Régression linéaire et multiple
» Régression linéaire multiple ?
» Régression linéaire multiple
» Regression lineaire multiple
» Régression linéaire et multiple
» Régression linéaire multiple ?
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum