Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Colinéarité variables qualitatives (pour régression logit)
2 participants
Page 1 sur 1
Colinéarité variables qualitatives (pour régression logit)
Bonjour,
Je travaille sur des régressions logistiques (avec R sur une base de 3000 individus) et les résultats que j'obtiens ne sont pas bons :
- les déviances résiduelles me paraissent énormes ;
- même chose pour les AIC ;
- les pseudos R² sont faibles.
Il y a vraisemblablement un problème avec mes variables explicatives et je me demande si certaines ne sont pas colinéaires.
Or toutes mes variables ne sont pas quantitatives et j'ignore quels sont les méthodes pour vérifier s'il y a de le colinéarité au sein de variables qualitatives. Les plots donnent évidemment des points superposés (quatre points pour deux variables à deux modalités par exemple).
J'ai essayé de recourir au VIF en transformant tous mes facteurs en variables numériques discrètes mais cette méthode m'a l'air très douteuse.
D'où ma question : comment vérifier s'il y a colinéarité entre des variables qualitatives ?
Ci-dessous, un exemple de résultat de l'une de mes régression.
Call:
glm(formula = Relations ~ GR5 + Boulot + Communaute + Famille_Q +
Amis_Q + Amis_C + Contact + Age + rev + niv_etude + Couple +
Enfants, family = binomial(logit), data = REG_B)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.7283 0.3013 0.4304 0.6428 1.5313
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.35809 0.27333 -1.310 0.19017
GR5_2 0.01607 0.16530 0.097 0.92257
GR5_3 -0.22314 0.16724 -1.334 0.18213
GR5_4 0.02949 0.16107 0.183 0.85474
GR5_5 -0.07916 0.17896 -0.442 0.65825
Boulot_Autre -0.26753 0.16097 -1.662 0.09652 .
Boulot_Chom -0.49937 0.20060 -2.489 0.01280 *
Communaute_Oui -0.23164 0.11755 -1.971 0.04877 *
Famille_QOui 0.35311 0.13267 2.662 0.00778 **
Amis_QOui 0.34959 0.11460 3.051 0.00228 **
Amis_COui 0.19525 0.11345 1.721 0.08524 .
ContactSouv 0.75932 0.13143 5.778 7.58e-09 ***
ContactOcc 0.51603 0.16197 3.186 0.00144 **
AgeJeune 1.24222 0.28032 4.431 9.36e-06 ***
AgeVieux -0.23539 0.17510 -1.344 0.17884
revMed- 0.39080 0.14806 2.640 0.00830 **
revMed+ 0.44428 0.16165 2.748 0.00599 **
revHaut 0.32041 0.17793 1.801 0.07174 .
niv_etudeSec 0.04259 0.17328 0.246 0.80586
niv_etudeSup 0.36621 0.19272 1.900 0.05740 .
CoupleOui 1.22304 0.11510 10.626 < 2e-16 ***
EnfantsOui 0.41625 0.13000 3.202 0.00137 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2675.4 on 2915 degrees of freedom
Residual deviance: 2363.5 on 2894 degrees of freedom
(90 observations deleted due to missingness)
AIC: 2407.5
Number of Fisher Scoring iterations: 5
Je travaille sur des régressions logistiques (avec R sur une base de 3000 individus) et les résultats que j'obtiens ne sont pas bons :
- les déviances résiduelles me paraissent énormes ;
- même chose pour les AIC ;
- les pseudos R² sont faibles.
Il y a vraisemblablement un problème avec mes variables explicatives et je me demande si certaines ne sont pas colinéaires.
Or toutes mes variables ne sont pas quantitatives et j'ignore quels sont les méthodes pour vérifier s'il y a de le colinéarité au sein de variables qualitatives. Les plots donnent évidemment des points superposés (quatre points pour deux variables à deux modalités par exemple).
J'ai essayé de recourir au VIF en transformant tous mes facteurs en variables numériques discrètes mais cette méthode m'a l'air très douteuse.
D'où ma question : comment vérifier s'il y a colinéarité entre des variables qualitatives ?
Ci-dessous, un exemple de résultat de l'une de mes régression.
Call:
glm(formula = Relations ~ GR5 + Boulot + Communaute + Famille_Q +
Amis_Q + Amis_C + Contact + Age + rev + niv_etude + Couple +
Enfants, family = binomial(logit), data = REG_B)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.7283 0.3013 0.4304 0.6428 1.5313
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -0.35809 0.27333 -1.310 0.19017
GR5_2 0.01607 0.16530 0.097 0.92257
GR5_3 -0.22314 0.16724 -1.334 0.18213
GR5_4 0.02949 0.16107 0.183 0.85474
GR5_5 -0.07916 0.17896 -0.442 0.65825
Boulot_Autre -0.26753 0.16097 -1.662 0.09652 .
Boulot_Chom -0.49937 0.20060 -2.489 0.01280 *
Communaute_Oui -0.23164 0.11755 -1.971 0.04877 *
Famille_QOui 0.35311 0.13267 2.662 0.00778 **
Amis_QOui 0.34959 0.11460 3.051 0.00228 **
Amis_COui 0.19525 0.11345 1.721 0.08524 .
ContactSouv 0.75932 0.13143 5.778 7.58e-09 ***
ContactOcc 0.51603 0.16197 3.186 0.00144 **
AgeJeune 1.24222 0.28032 4.431 9.36e-06 ***
AgeVieux -0.23539 0.17510 -1.344 0.17884
revMed- 0.39080 0.14806 2.640 0.00830 **
revMed+ 0.44428 0.16165 2.748 0.00599 **
revHaut 0.32041 0.17793 1.801 0.07174 .
niv_etudeSec 0.04259 0.17328 0.246 0.80586
niv_etudeSup 0.36621 0.19272 1.900 0.05740 .
CoupleOui 1.22304 0.11510 10.626 < 2e-16 ***
EnfantsOui 0.41625 0.13000 3.202 0.00137 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
(Dispersion parameter for binomial family taken to be 1)
Null deviance: 2675.4 on 2915 degrees of freedom
Residual deviance: 2363.5 on 2894 degrees of freedom
(90 observations deleted due to missingness)
AIC: 2407.5
Number of Fisher Scoring iterations: 5
Pax-M- Nombre de messages : 1
Date d'inscription : 28/08/2014
Re: Colinéarité variables qualitatives (pour régression logit)
Bonjour,
Entre deux variables quantitatives, et notamment les binaires, tu peux faire des tests du chi2 ; si elles sont très corrélées entre elles, tu auras probablement de la colinéarité dans ton modèle.
Entre deux variables quantitatives, et notamment les binaires, tu peux faire des tests du chi2 ; si elles sont très corrélées entre elles, tu auras probablement de la colinéarité dans ton modèle.
statSP- Nombre de messages : 3
Date d'inscription : 27/08/2014
Sujets similaires
» régression sur variables qualitatives et quantitatives
» Colinéarité de facteur en régression multiple
» Choix analyse multivariée pour variables qualitatives
» Regression et colinéarité
» régression et colinéarité
» Colinéarité de facteur en régression multiple
» Choix analyse multivariée pour variables qualitatives
» Regression et colinéarité
» régression et colinéarité
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum