Les posteurs les plus actifs de la semaine
zezima
 
poetschevleesch
 
c@ssoulet
 


3 questions Regression Logistique

Aller en bas

3 questions Regression Logistique

Message par Haxo le Mar 23 Juil 2013 - 16:16

Bonjour tout le monde,

Je suis en train de mettre en place une régression logistique pour prédire une variable binaire.

Question 1: J'ai lu que sur certaines variables continues il était nécessaire d'effectuer une transformation logarithmique. Je n'arrive pas à saisir pourquoi et dans quel cas Question 

Question 2: Disposant de 26 variables (quali ou quanti), je compte d'abord étudier le modèle complet, puis effectuer une sélection de variables (stepwise, forward ou backward). Là où j'ai une interrogation, c'est comment peut-on savoir si il faut incorporer les intéractions entre variables? Simplement du bon sens vis à vis du sujet, ou existe-t-il une manière statistique de le savoir?

Question 3: Dans le même sujet si une intéraction entre deux variables est gardée par sélection mais que l'une des variables individuelles est exclue, est-il raisonnable de garder l'intéraction?

Merci d'avance!

Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par niaboc le Mar 23 Juil 2013 - 16:44

Bonjour,

Question 1: c'est la connaissance "métier" qui peut te le dire.

Question 2: tu peux mettre les intéractions qui te semblent pertinentes dans le modèle et regarder la significativité.

Question 3: je pense que oui, mais je n'ai pas retrouvé de de justification propre.
avatar
niaboc

Nombre de messages : 949
Age : 31
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Haxo le Mar 23 Juil 2013 - 17:00

Merci pour ta réponse Nabioc.

Qu'entends-tu par "c'est la connaissance "métier" qui peut te le dire" ?

Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par niaboc le Mar 23 Juil 2013 - 17:13

ça peut-être par exemple un effet de saturation etc.

Exemple : on sait que la publicité influence les ventes. Hors il y a saturation : au bout d'un certain nombre de visionnage de la publicité, les ventes n'augmentent plus (ou beaucoup moins).
la relation entre les ventes et l'audience est de type logarithmique et dans un modèle on étudierait le log(audience) plutôt que l'audience elle-même.


pour la question 3 je crois même qu'il faille garder l'intéraction, mais aussi la variable seule... mais c'est pareil, je n'ai pas de justification propre.
Peut-être que Nik a une idée, il me semble avoir déjà lu sa prose sur des problématiques de ce style.
avatar
niaboc

Nombre de messages : 949
Age : 31
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Haxo le Mar 23 Juil 2013 - 17:28

Super je comprends mieux maintenant! (enfin je pense)

Si une de mes variables explicatives a une évolution particulière vis à vis de ma variable à expliquée, il est plus fiable d'appliquer à cette variable la transformation nécessaire. J'en déduis que cela peut-être une autre fonction que le log? 

Je vais essayer de retrouver le poste de nik pour les intéractions.

Merci!Very Happy 

Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Haxo le Mar 23 Juil 2013 - 17:36

J'ai une autre question sur ma problématique:Embarassed 

Question 4: J'ai la forte intuition qu'un certain nombre de mes variables seront colinéaires et il semble que cela ne soit pas approprié à la régression logistique. Après plusieurs recherches il apparait que la régression logistique PLS soit adéquate. Pour appliquer cette méthode je n'ai trouver que le package plsRglm. N'est-il pas possible d'utiliser le package pls? Peut-être n'est-il destiné qu'à des variables à expliquer quantitatives? Avez-vous des information sur ce sujet?

Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Haxo le Mer 24 Juil 2013 - 8:00

Une autre intérogation:

Question 5: Selon les variables que j'ai calculé, mes valeurs peuvent prendre des valeurs très eloignées. Par exemple variable 1: de 0 à 2000,
variable 2: de 0.0001 à 0.5 . Est-ce que cela peut poser problème? Je crois que non mais je n'en suis pas sûr.

Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par niaboc le Mer 24 Juil 2013 - 8:44

question 4 : il faut éviter la multicolinéarité car sinon tu peux avoir des problèmes d'interprétation des paramètres.
Je ne connais pas R, je ne pourrais pas t'aider sur ça...

question 5 : non ça ne peut pas poser problème normalement.

le post que je te parlais :
http://statistiques.forumpro.fr/t1941-interaction-entre-2-variables
avatar
niaboc

Nombre de messages : 949
Age : 31
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Haxo le Mer 24 Juil 2013 - 14:04

Merci pour tes réponses Niaboc!

Concernant le possible problème de multicolinéarité, sachant que je dispose de variables quanti et quali je ne peux pas réaliser d'acp, ni d'afm sur données mixtes car la méthode ne supporte que très peu d'individus et j'en dispose de plus de 600 000.
Estce que le recodage de  mes variables quanti en classes pour démontrer la multicolinéarité via une ACM constitue une bonne approche sachant que dans mon scoring j'utiliserai bien mes variables quanti en tant que quanti?

Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par niaboc le Mer 24 Juil 2013 - 17:13

Oui tu pourrais faire ça, mais l'ACM ne va pas te quantifier la colinéarité... donc il sera délicat de dire si deux variables représentées correctement sur le même axe sont complètement dépendantes l'une de l'autre (surtout qu'en ACM la qualité des représentations sur les différents axes est relativement faible).

tu pourrais faire par exemple des tests du Khi deux, 2 à 2.?
avatar
niaboc

Nombre de messages : 949
Age : 31
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Haxo le Jeu 25 Juil 2013 - 10:54

Je m'en doutais un peu.. Merci pour tes précisions.

Peut-être puis-je réaliser une ACP sur mes variables quantitatives pour démontrer qu'il y a de la colinéarité, et réaliser en effet des tests deux à deux de mes variables qualitatives.


Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Haxo le Jeu 25 Juil 2013 - 13:07

Je me demandais, à partir de quel point peut-on considérer que deux variables sont colinéaires? En fonction du coefficient de corrélation je suppose, mais y a-t-il une valeur référence ou un moyen de le déterminer?

Par ailleurs, d'un point de vue théorique est-il possible de réaliser une pls avec des variables quantitatives ET qualitatives? Puisque cette méthode est basée sur l'acp (varibales quanti). Et ce pour prédire une variable binaire?

Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par niaboc le Jeu 25 Juil 2013 - 13:53

@Haxo a écrit:Je me demandais, à partir de quel point peut-on considérer que deux variables sont colinéaires? En fonction du coefficient de corrélation je suppose, mais y a-t-il une valeur référence ou un moyen de le déterminer?

pour le coefficient de corrélation, au dessus de 0.7, 0.8 on considère qu'il y a une forte corrélation. Si les distributions sont normales, tu peux aussi confirmer avec le test de significativité du coefficient de corrélation.

@Haxo a écrit:
Par ailleurs, d'un point de vue théorique est-il possible de réaliser une pls avec des variables quantitatives ET qualitatives? Puisque cette méthode est basée sur l'acp (varibales quanti). Et ce pour prédire une variable binaire?

Je suis pas un spécialiste de la régression PLS, mais comme ça je dirais qu'il ne faut que des variables quantitatives.
avatar
niaboc

Nombre de messages : 949
Age : 31
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Haxo le Ven 2 Aoû 2013 - 14:57

Hello, tout le monde.
Merci Nabioc pour tes conseils.

J'ai finalement utilisé la regression logistique et j'ai de nouveau une question:

Je dispose d"une variable à 4 modalités: 0 enfant/ 1 enfant/ entre 2 et 5 / 6 et plus

Lorsque je réalise un simple graphique de ma variable binaire 1/0 en fonction de ces modalités, j'observe bien que plus le nombre d'enfants est élevé plus le nombre de Y=1 augmente dans mes classes. Jusque là tout va bien.

Mon soucis est que les coefficients attribués aux modalités de cette variables suivent un évolution tout à fait inverse (avec 0 enfant comme modalité de référence, coeff=0):
Code:

NbE1            -0.9236094  0.0390380  -23.659  < 2e-16 ***
NbE2 à 5      -1.2470674  0.0393772  -31.670  < 2e-16 ***
NbE6 et plus  -1.9141706  0.0524295  -36.509  < 2e-16 ***

Sauriez-vous de quoi cela peut venir?

Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Haxo le Ven 2 Aoû 2013 - 14:59

Désolé le tableau n'a pas de titre aux colonnes...:

Code:
                Estimate Std. Error  z value Pr(>|z|)   
(Intercept)  -5.2979550  0.0193589 -273.671  < 2e-16 ***
AgeE[0-2[ans  0.8942635  0.0365635  24.458  < 2e-16 ***
AgeE[2-5[ans  0.3047156  0.0350885    8.684  < 2e-16 ***
AgeE[5-8[ans  -0.1159891  0.0360396  -3.218 0.001289 **
AgeE[8-12[ans -0.1882460  0.0394775  -4.768 1.86e-06 ***
AgeE>=12ans  -0.6205963  0.1664099  -3.729 0.000192 ***
Enc1          1.3410632  0.0349718  38.347  < 2e-16 ***
LPGOPF        1.7794660  0.0233079  76.346  < 2e-16 ***
LPPA          0.8622710  0.0199895  43.136  < 2e-16 ***
NbE1          -0.9236094  0.0390380  -23.659  < 2e-16 ***
NbE2 à 5      -1.2470674  0.0393772  -31.670  < 2e-16 ***
NbE6 et plus  -1.9141706  0.0524295  -36.509  < 2e-16 ***
NbC            0.2275501  0.0015395  147.809  < 2e-16 ***
V30j          0.0315295  0.0008781  35.908  < 2e-16 ***
A30j          0.3028785  0.0315352    9.604  < 2e-16 ***
Press2m        5.4398293  0.0334237  162.754  < 2e-16 ***
O30j          0.0153581  0.0013691  11.218  < 2e-16 ***
C30j          0.3789029  0.0057389  66.024  < 2e-16 ***
ProxF          1.3021638  0.0381010  34.177  < 2e-16 ***
RDER          0.0174558  0.0013046  13.380  < 2e-16 ***
REB            0.1189877  0.0158057    7.528 5.15e-14 ***
RDV            0.0464220  0.0004043  114.822  < 2e-16 ***
RDA            0.0564766  0.0013262  42.585  < 2e-16 ***
RDC            0.0718956  0.0030217  23.793  < 2e-16 ***
RPC            0.0696136  0.0094536    7.364 1.79e-13 ***
RDCM          0.0470214  0.0015733  29.888  < 2e-16 ***
RDR            0.0031204  0.0001946  16.034  < 2e-16 ***

Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par niaboc le Ven 2 Aoû 2013 - 16:49

ceci est forcément du à de la multicolinéarité entre tes variables...
le coefficient est à prendre "toutes choses égales par ailleurs", le toute chose étant les autres variables de ton modèle.

Donc le résultat peut-être en effet contre-intuitif vis à vis de la corrélation de la variable nombre d'enfants et la variable à expliquer.

Cependant il faut faire attention qu'il n'y ai pas de corrélation trop forte entre tes variables. En effet, si 2 variables sont vraiment trop corrélées, tu peux avoir des résultats dont l'interprétation est faussée.

Mais si tu as déjà vérifiée les corrélations auparavant, c'est simplement le "toute chose égale par ailleurs" qui peut expliquer ce résultat.


En espérant mettre bien expliqué!

Niaboc
avatar
niaboc

Nombre de messages : 949
Age : 31
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Haxo le Lun 5 Aoû 2013 - 9:08

Pour la multicolinéarité, j'avais simplement sorti la matrice de corrélation entre mes variabes quantitatives. La variable nombre d'enfant étant qualitative je ne l'ai donc pas testé. Y a t-il moyen de parler de colinéarité avec une variable qualitative?

J'avoue avoir un peu de mal à comprendre le "toutes choses étant égales par ailleurs" de manière pratique.

En transformant toutes mes variables en qualitatif puis en réalisant une ACM je peux effectuer ma regression logistique sur les composantes de l'acm il me semble. Mais comment le modèle attribue-t-il des coefficients aux variables (ici modalités) si l'on l'éxecute sur des facteurs?
Cette procédure pourrait alors régler mes problèmes?

Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par niaboc le Mar 6 Aoû 2013 - 8:17

Attends, ça ne veut pas dire que tes résultats sont faux.

Il faut juste t'assurer que les liens en sont vraiment pas trop importants (pour que le modèle puisse réellement faire la distinction entre les répresseurs).

Le toute chose égale par ailleurs va te permettre de faire la différence entre les effets principaux de ta variable (que tu retrouves via l'interprétation des coefficients) et les effets 'simples' à partir de la corrélation entre le régresseur seul et la variable à expliquer..
avatar
niaboc

Nombre de messages : 949
Age : 31
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Haxo le Mar 6 Aoû 2013 - 12:55

Qu'entends-tu par "Il faut juste t'assurer que les liens en sont vraiment pas trop importants (pour que le modèle puisse réellement faire la distinction entre les répresseurs)" ?

Tu veux parler des liens entre les variables posant problème et la variable à expliquer?

J'ai réaliser la regression logistique avec uniquement la variable à expliquer et lavariable posant problème et les coefficients sont bien inversés comparé au modèle ou j'incorpore toutes les autres variables.

Si j'ai bien compris j'ai bien une erreur avec le fameux "toute chose égale par ailleurs" dans ce cas? Ou alors cela veut-il dire que le simple mixte des variables bouge les coeffs mais queles résultats ne sont pas faux?

Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par niaboc le Mar 6 Aoû 2013 - 14:16

@Haxo a écrit:Ou alors cela veut-il dire que le simple mixte des variables bouge les coeffs mais que les résultats ne sont pas faux?

c'est ça.

Avec un exemple simple :

tu as trois races de poulet : t1 t2 t3
tu as trois types de nourriture : n1 n2 et n3

La variable à expliquer est le poids du poulet.

Imaginons que l'effet réel est que le poulet t3 est plus lourd que le t2 et lui même plus lourd que t1.
Imaginons que l'effet réel est que la nourriture n3 donne un poulet plus lourd que n2, et n2>n1.


Si tu as des corrélations et que :
le poulet t3 est nourri principalement avec n1, alors son poids va être moyen.
Si t2 est nourri qu'avec n3, alors son poids sera fort
si t1 est nourri qu'avec n2, son poids sera moyen faible.

Si tu fais la moyenne des poulets t3 pour avoir l'effet de t3, ça va te dire que ce sont des poulets moyens (tu n'as pas le "toutes nourritures égales par ailleurs"). Si tu prends en compte la nourriture alors le coefficient va changer et le modèle va te dire que t3 est un gros poulet (toutes nourritures égales par ailleurs).



S'il y avait indépendance entre le type de poulet et la nourriture, tu n'aurais pas ce souci de "toutes choses égales par ailleurs", et l'effet principal de la variable serait équivalent à l'effet simple.


Et il faut se méfier des trop fortes corrélations car si le poulet t3 n'est nourri qu'avec du n1, le t2 qu'avec du n3 et le t1 qu'avec du n2, le modèle ne pourra pas différencier l'effet des poulets vis à vis de la nourriture.

En espérant que cet exemple t'aidera dans la compréhension  :-).

remarque : là on est dans un cadre avec des variables qualitatives, mais tu peux faire le même style de raisonnement avec des variables quantitatives.
avatar
niaboc

Nombre de messages : 949
Age : 31
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Haxo le Mar 6 Aoû 2013 - 15:59

Super exemple je vois bien ce que tu veux dire.

Mais dans ce cas cela suppose qu'il y a une interaction entre les variables race et nourriture; dans ce cas il faudrait l'ajouter non?

L'interprétation des Odds ratio par la suite peut donc être contraire aux intuitions de base si je comprends bien.

Autre question, sais-tu si l'analyse de la déviance et du nuage des résidus est quelque chose d'indispensable en régression logistique car j'ai beaucoup de mal à me documenter sur ce sujet et je ne voudrais pas louper une étape importante de l'élaboration de mon modèle?

Merci Niaboc!

Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par niaboc le Mar 6 Aoû 2013 - 20:36

@Haxo a écrit:
Mais dans ce cas cela suppose qu'il y a une interaction entre les variables race et nourriture; dans ce cas il faudrait l'ajouter non?

Nop, les intéractions diraient que le canard de type 3 ne réagit pas de la même façon à la nourriture n1 que le canard de type 2 par exemple...

@Haxo a écrit:
L'interprétation des Odds ratio par la suite peut donc être contraire aux intuitions de base si je comprends bien.

Exactement.

@Haxo a écrit:
Autre question, sais-tu si l'analyse de la déviance et du nuage des résidus est quelque chose d'indispensable en régression logistique car j'ai beaucoup de mal à me documenter sur ce sujet et je ne voudrais pas louper une étape importante de l'élaboration de mon modèle?

Le nuage des résidus standardisés doit suivre une loi normale, à peu de choses près.
Les courbes de lift, la matrice de confusion, les paires concordantes, discordantes peuvent déjà être des bons indicateurs sur la qualité de ta régression.
Tu peux aller te renseigner sur les résidus partiels... ça permet de vérifier que les variables sont bien linéaires vis à vis du logit.
avatar
niaboc

Nombre de messages : 949
Age : 31
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Haxo le Mer 7 Aoû 2013 - 8:23

J'ai tout de même un peu de mal à concevoir que (lorsque je mettrais le modèle en place pour l'utiliser concrètement) une variables (ou modalité) supposé agir positivement sur le fait que Y=1 soit agisse en fait négativement pour le Y=1.

Au niveau des tests que j'ai réalisé (sur mon échantillon de validation et non pas sur l'échantillon ayant permis d'élaborer le modèle), j'ai utilisé la courbe ROC (AUC=0,93) avaec laquelle j'ai déterminée un seuil pour maximiser la sensibilé et la spécificité (87,9%, 87%), un diagramme de fiabilité et le test de Mann Whithney. Mais pour l'instant aucune analyse de la déviance ni des résidus..

Y-at-il quelque chose à dire sur la déviance? Peut-être un moyen de comparer la déviance du modèle null et la déviance résiduelle?
Pour le nuage des résidus standardisés, j'utilise R, connais tu le moyen de le récupérer (là j'avoue ne pas savoir du tout comment faire et je ne trouve guère d'infos)? Je dois écrire un rapport de fin d'étude, donc je ne voudrais pas louper un point important Embarassed 

J'ai également lu que le fait de passer les variables en qualitatif pouvait avoir un effet bénéfique sur le modèle. Sais-tu quelle en est la raison? Y a t-il moyen par la suite de comparer les deux modèles? (variables mixtes vs variables quali) Il me semble que les critères type AIC ne s'utilise que pour les modèles emboités, or ici ce n'est pas le cas.


J'ai un peu bombardé de questions là...
Merci pour tes conseils avisés Nabioc!


Haxo

Nombre de messages : 23
Date d'inscription : 30/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par niaboc le Mer 7 Aoû 2013 - 10:04

@Haxo a écrit:
Y-at-il quelque chose à dire sur la déviance? Peut-être un moyen de comparer la déviance du modèle null et la déviance résiduelle?

oui tu dois avoir un test du khi deux qui doit faire ça je crois.

@Haxo a écrit:
Pour le nuage des résidus standardisés, j'utilise R, connais tu le moyen de le récupérer (là j'avoue ne pas savoir du tout comment faire et je ne trouve guère d'infos)?
Aucune idée... je n'utilise pas R. mais tu peux te les recalculer "a la mano" si tu as le P(Y=1) de chaque individu.

@Haxo a écrit:
J'ai également lu que le fait de passer les variables en qualitatif pouvait avoir un effet bénéfique sur le modèle. Sais-tu quelle en est la raison? Y a t-il moyen par la suite de comparer les deux modèles? (variables mixtes vs variables quali) Il me semble que les critères type AIC ne s'utilise que pour les modèles emboités, or ici ce n'est pas le cas.
ça peut avoir un effet bénéfique s'il existe des corrélations non linéaires entre le logit et la variable à expliquer.
Tu peux comparer les modèles avec l'AIC (du moment que tu as la même variable à expliquer, ça doit être bon).
Tu peux aussi utiliser les tests de Wald, de vraisemblance et du Score pour comparer les modèles entre eux.

@Haxo a écrit:
J'ai un peu bombardé de questions là...
Ce forum est là pour ça Very Happy
Pense à mettre à jour le sujet du topic... ce n'est plus "3 questions"!
avatar
niaboc

Nombre de messages : 949
Age : 31
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: 3 questions Regression Logistique

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum