Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
3 questions Regression Logistique
2 participants
Page 1 sur 1
3 questions Regression Logistique
Bonjour tout le monde,
Je suis en train de mettre en place une régression logistique pour prédire une variable binaire.
Question 1: J'ai lu que sur certaines variables continues il était nécessaire d'effectuer une transformation logarithmique. Je n'arrive pas à saisir pourquoi et dans quel cas
Question 2: Disposant de 26 variables (quali ou quanti), je compte d'abord étudier le modèle complet, puis effectuer une sélection de variables (stepwise, forward ou backward). Là où j'ai une interrogation, c'est comment peut-on savoir si il faut incorporer les intéractions entre variables? Simplement du bon sens vis à vis du sujet, ou existe-t-il une manière statistique de le savoir?
Question 3: Dans le même sujet si une intéraction entre deux variables est gardée par sélection mais que l'une des variables individuelles est exclue, est-il raisonnable de garder l'intéraction?
Merci d'avance!
Je suis en train de mettre en place une régression logistique pour prédire une variable binaire.
Question 1: J'ai lu que sur certaines variables continues il était nécessaire d'effectuer une transformation logarithmique. Je n'arrive pas à saisir pourquoi et dans quel cas
Question 2: Disposant de 26 variables (quali ou quanti), je compte d'abord étudier le modèle complet, puis effectuer une sélection de variables (stepwise, forward ou backward). Là où j'ai une interrogation, c'est comment peut-on savoir si il faut incorporer les intéractions entre variables? Simplement du bon sens vis à vis du sujet, ou existe-t-il une manière statistique de le savoir?
Question 3: Dans le même sujet si une intéraction entre deux variables est gardée par sélection mais que l'une des variables individuelles est exclue, est-il raisonnable de garder l'intéraction?
Merci d'avance!
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
Bonjour,
Question 1: c'est la connaissance "métier" qui peut te le dire.
Question 2: tu peux mettre les intéractions qui te semblent pertinentes dans le modèle et regarder la significativité.
Question 3: je pense que oui, mais je n'ai pas retrouvé de de justification propre.
Question 1: c'est la connaissance "métier" qui peut te le dire.
Question 2: tu peux mettre les intéractions qui te semblent pertinentes dans le modèle et regarder la significativité.
Question 3: je pense que oui, mais je n'ai pas retrouvé de de justification propre.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: 3 questions Regression Logistique
Merci pour ta réponse Nabioc.
Qu'entends-tu par "c'est la connaissance "métier" qui peut te le dire" ?
Qu'entends-tu par "c'est la connaissance "métier" qui peut te le dire" ?
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
ça peut-être par exemple un effet de saturation etc.
Exemple : on sait que la publicité influence les ventes. Hors il y a saturation : au bout d'un certain nombre de visionnage de la publicité, les ventes n'augmentent plus (ou beaucoup moins).
la relation entre les ventes et l'audience est de type logarithmique et dans un modèle on étudierait le log(audience) plutôt que l'audience elle-même.
pour la question 3 je crois même qu'il faille garder l'intéraction, mais aussi la variable seule... mais c'est pareil, je n'ai pas de justification propre.
Peut-être que Nik a une idée, il me semble avoir déjà lu sa prose sur des problématiques de ce style.
Exemple : on sait que la publicité influence les ventes. Hors il y a saturation : au bout d'un certain nombre de visionnage de la publicité, les ventes n'augmentent plus (ou beaucoup moins).
la relation entre les ventes et l'audience est de type logarithmique et dans un modèle on étudierait le log(audience) plutôt que l'audience elle-même.
pour la question 3 je crois même qu'il faille garder l'intéraction, mais aussi la variable seule... mais c'est pareil, je n'ai pas de justification propre.
Peut-être que Nik a une idée, il me semble avoir déjà lu sa prose sur des problématiques de ce style.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: 3 questions Regression Logistique
Super je comprends mieux maintenant! (enfin je pense)
Si une de mes variables explicatives a une évolution particulière vis à vis de ma variable à expliquée, il est plus fiable d'appliquer à cette variable la transformation nécessaire. J'en déduis que cela peut-être une autre fonction que le log?
Je vais essayer de retrouver le poste de nik pour les intéractions.
Merci!
Si une de mes variables explicatives a une évolution particulière vis à vis de ma variable à expliquée, il est plus fiable d'appliquer à cette variable la transformation nécessaire. J'en déduis que cela peut-être une autre fonction que le log?
Je vais essayer de retrouver le poste de nik pour les intéractions.
Merci!
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
J'ai une autre question sur ma problématique:
Question 4: J'ai la forte intuition qu'un certain nombre de mes variables seront colinéaires et il semble que cela ne soit pas approprié à la régression logistique. Après plusieurs recherches il apparait que la régression logistique PLS soit adéquate. Pour appliquer cette méthode je n'ai trouver que le package plsRglm. N'est-il pas possible d'utiliser le package pls? Peut-être n'est-il destiné qu'à des variables à expliquer quantitatives? Avez-vous des information sur ce sujet?
Question 4: J'ai la forte intuition qu'un certain nombre de mes variables seront colinéaires et il semble que cela ne soit pas approprié à la régression logistique. Après plusieurs recherches il apparait que la régression logistique PLS soit adéquate. Pour appliquer cette méthode je n'ai trouver que le package plsRglm. N'est-il pas possible d'utiliser le package pls? Peut-être n'est-il destiné qu'à des variables à expliquer quantitatives? Avez-vous des information sur ce sujet?
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
Une autre intérogation:
Question 5: Selon les variables que j'ai calculé, mes valeurs peuvent prendre des valeurs très eloignées. Par exemple variable 1: de 0 à 2000,
variable 2: de 0.0001 à 0.5 . Est-ce que cela peut poser problème? Je crois que non mais je n'en suis pas sûr.
Question 5: Selon les variables que j'ai calculé, mes valeurs peuvent prendre des valeurs très eloignées. Par exemple variable 1: de 0 à 2000,
variable 2: de 0.0001 à 0.5 . Est-ce que cela peut poser problème? Je crois que non mais je n'en suis pas sûr.
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
question 4 : il faut éviter la multicolinéarité car sinon tu peux avoir des problèmes d'interprétation des paramètres.
Je ne connais pas R, je ne pourrais pas t'aider sur ça...
question 5 : non ça ne peut pas poser problème normalement.
le post que je te parlais :
https://statistiques.forumpro.fr/t1941-interaction-entre-2-variables
Je ne connais pas R, je ne pourrais pas t'aider sur ça...
question 5 : non ça ne peut pas poser problème normalement.
le post que je te parlais :
https://statistiques.forumpro.fr/t1941-interaction-entre-2-variables
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: 3 questions Regression Logistique
Merci pour tes réponses Niaboc!
Concernant le possible problème de multicolinéarité, sachant que je dispose de variables quanti et quali je ne peux pas réaliser d'acp, ni d'afm sur données mixtes car la méthode ne supporte que très peu d'individus et j'en dispose de plus de 600 000.
Estce que le recodage de mes variables quanti en classes pour démontrer la multicolinéarité via une ACM constitue une bonne approche sachant que dans mon scoring j'utiliserai bien mes variables quanti en tant que quanti?
Concernant le possible problème de multicolinéarité, sachant que je dispose de variables quanti et quali je ne peux pas réaliser d'acp, ni d'afm sur données mixtes car la méthode ne supporte que très peu d'individus et j'en dispose de plus de 600 000.
Estce que le recodage de mes variables quanti en classes pour démontrer la multicolinéarité via une ACM constitue une bonne approche sachant que dans mon scoring j'utiliserai bien mes variables quanti en tant que quanti?
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
Oui tu pourrais faire ça, mais l'ACM ne va pas te quantifier la colinéarité... donc il sera délicat de dire si deux variables représentées correctement sur le même axe sont complètement dépendantes l'une de l'autre (surtout qu'en ACM la qualité des représentations sur les différents axes est relativement faible).
tu pourrais faire par exemple des tests du Khi deux, 2 à 2.?
tu pourrais faire par exemple des tests du Khi deux, 2 à 2.?
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: 3 questions Regression Logistique
Je m'en doutais un peu.. Merci pour tes précisions.
Peut-être puis-je réaliser une ACP sur mes variables quantitatives pour démontrer qu'il y a de la colinéarité, et réaliser en effet des tests deux à deux de mes variables qualitatives.
Peut-être puis-je réaliser une ACP sur mes variables quantitatives pour démontrer qu'il y a de la colinéarité, et réaliser en effet des tests deux à deux de mes variables qualitatives.
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
Je me demandais, à partir de quel point peut-on considérer que deux variables sont colinéaires? En fonction du coefficient de corrélation je suppose, mais y a-t-il une valeur référence ou un moyen de le déterminer?
Par ailleurs, d'un point de vue théorique est-il possible de réaliser une pls avec des variables quantitatives ET qualitatives? Puisque cette méthode est basée sur l'acp (varibales quanti). Et ce pour prédire une variable binaire?
Par ailleurs, d'un point de vue théorique est-il possible de réaliser une pls avec des variables quantitatives ET qualitatives? Puisque cette méthode est basée sur l'acp (varibales quanti). Et ce pour prédire une variable binaire?
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
Haxo a écrit:Je me demandais, à partir de quel point peut-on considérer que deux variables sont colinéaires? En fonction du coefficient de corrélation je suppose, mais y a-t-il une valeur référence ou un moyen de le déterminer?
pour le coefficient de corrélation, au dessus de 0.7, 0.8 on considère qu'il y a une forte corrélation. Si les distributions sont normales, tu peux aussi confirmer avec le test de significativité du coefficient de corrélation.
Haxo a écrit:
Par ailleurs, d'un point de vue théorique est-il possible de réaliser une pls avec des variables quantitatives ET qualitatives? Puisque cette méthode est basée sur l'acp (varibales quanti). Et ce pour prédire une variable binaire?
Je suis pas un spécialiste de la régression PLS, mais comme ça je dirais qu'il ne faut que des variables quantitatives.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: 3 questions Regression Logistique
Hello, tout le monde.
Merci Nabioc pour tes conseils.
J'ai finalement utilisé la regression logistique et j'ai de nouveau une question:
Je dispose d"une variable à 4 modalités: 0 enfant/ 1 enfant/ entre 2 et 5 / 6 et plus
Lorsque je réalise un simple graphique de ma variable binaire 1/0 en fonction de ces modalités, j'observe bien que plus le nombre d'enfants est élevé plus le nombre de Y=1 augmente dans mes classes. Jusque là tout va bien.
Mon soucis est que les coefficients attribués aux modalités de cette variables suivent un évolution tout à fait inverse (avec 0 enfant comme modalité de référence, coeff=0):
Sauriez-vous de quoi cela peut venir?
Merci Nabioc pour tes conseils.
J'ai finalement utilisé la regression logistique et j'ai de nouveau une question:
Je dispose d"une variable à 4 modalités: 0 enfant/ 1 enfant/ entre 2 et 5 / 6 et plus
Lorsque je réalise un simple graphique de ma variable binaire 1/0 en fonction de ces modalités, j'observe bien que plus le nombre d'enfants est élevé plus le nombre de Y=1 augmente dans mes classes. Jusque là tout va bien.
Mon soucis est que les coefficients attribués aux modalités de cette variables suivent un évolution tout à fait inverse (avec 0 enfant comme modalité de référence, coeff=0):
- Code:
NbE1 -0.9236094 0.0390380 -23.659 < 2e-16 ***
NbE2 à 5 -1.2470674 0.0393772 -31.670 < 2e-16 ***
NbE6 et plus -1.9141706 0.0524295 -36.509 < 2e-16 ***
Sauriez-vous de quoi cela peut venir?
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
Désolé le tableau n'a pas de titre aux colonnes...:
- Code:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -5.2979550 0.0193589 -273.671 < 2e-16 ***
AgeE[0-2[ans 0.8942635 0.0365635 24.458 < 2e-16 ***
AgeE[2-5[ans 0.3047156 0.0350885 8.684 < 2e-16 ***
AgeE[5-8[ans -0.1159891 0.0360396 -3.218 0.001289 **
AgeE[8-12[ans -0.1882460 0.0394775 -4.768 1.86e-06 ***
AgeE>=12ans -0.6205963 0.1664099 -3.729 0.000192 ***
Enc1 1.3410632 0.0349718 38.347 < 2e-16 ***
LPGOPF 1.7794660 0.0233079 76.346 < 2e-16 ***
LPPA 0.8622710 0.0199895 43.136 < 2e-16 ***
NbE1 -0.9236094 0.0390380 -23.659 < 2e-16 ***
NbE2 à 5 -1.2470674 0.0393772 -31.670 < 2e-16 ***
NbE6 et plus -1.9141706 0.0524295 -36.509 < 2e-16 ***
NbC 0.2275501 0.0015395 147.809 < 2e-16 ***
V30j 0.0315295 0.0008781 35.908 < 2e-16 ***
A30j 0.3028785 0.0315352 9.604 < 2e-16 ***
Press2m 5.4398293 0.0334237 162.754 < 2e-16 ***
O30j 0.0153581 0.0013691 11.218 < 2e-16 ***
C30j 0.3789029 0.0057389 66.024 < 2e-16 ***
ProxF 1.3021638 0.0381010 34.177 < 2e-16 ***
RDER 0.0174558 0.0013046 13.380 < 2e-16 ***
REB 0.1189877 0.0158057 7.528 5.15e-14 ***
RDV 0.0464220 0.0004043 114.822 < 2e-16 ***
RDA 0.0564766 0.0013262 42.585 < 2e-16 ***
RDC 0.0718956 0.0030217 23.793 < 2e-16 ***
RPC 0.0696136 0.0094536 7.364 1.79e-13 ***
RDCM 0.0470214 0.0015733 29.888 < 2e-16 ***
RDR 0.0031204 0.0001946 16.034 < 2e-16 ***
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
ceci est forcément du à de la multicolinéarité entre tes variables...
le coefficient est à prendre "toutes choses égales par ailleurs", le toute chose étant les autres variables de ton modèle.
Donc le résultat peut-être en effet contre-intuitif vis à vis de la corrélation de la variable nombre d'enfants et la variable à expliquer.
Cependant il faut faire attention qu'il n'y ai pas de corrélation trop forte entre tes variables. En effet, si 2 variables sont vraiment trop corrélées, tu peux avoir des résultats dont l'interprétation est faussée.
Mais si tu as déjà vérifiée les corrélations auparavant, c'est simplement le "toute chose égale par ailleurs" qui peut expliquer ce résultat.
En espérant mettre bien expliqué!
Niaboc
le coefficient est à prendre "toutes choses égales par ailleurs", le toute chose étant les autres variables de ton modèle.
Donc le résultat peut-être en effet contre-intuitif vis à vis de la corrélation de la variable nombre d'enfants et la variable à expliquer.
Cependant il faut faire attention qu'il n'y ai pas de corrélation trop forte entre tes variables. En effet, si 2 variables sont vraiment trop corrélées, tu peux avoir des résultats dont l'interprétation est faussée.
Mais si tu as déjà vérifiée les corrélations auparavant, c'est simplement le "toute chose égale par ailleurs" qui peut expliquer ce résultat.
En espérant mettre bien expliqué!
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: 3 questions Regression Logistique
Pour la multicolinéarité, j'avais simplement sorti la matrice de corrélation entre mes variabes quantitatives. La variable nombre d'enfant étant qualitative je ne l'ai donc pas testé. Y a t-il moyen de parler de colinéarité avec une variable qualitative?
J'avoue avoir un peu de mal à comprendre le "toutes choses étant égales par ailleurs" de manière pratique.
En transformant toutes mes variables en qualitatif puis en réalisant une ACM je peux effectuer ma regression logistique sur les composantes de l'acm il me semble. Mais comment le modèle attribue-t-il des coefficients aux variables (ici modalités) si l'on l'éxecute sur des facteurs?
Cette procédure pourrait alors régler mes problèmes?
J'avoue avoir un peu de mal à comprendre le "toutes choses étant égales par ailleurs" de manière pratique.
En transformant toutes mes variables en qualitatif puis en réalisant une ACM je peux effectuer ma regression logistique sur les composantes de l'acm il me semble. Mais comment le modèle attribue-t-il des coefficients aux variables (ici modalités) si l'on l'éxecute sur des facteurs?
Cette procédure pourrait alors régler mes problèmes?
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
Attends, ça ne veut pas dire que tes résultats sont faux.
Il faut juste t'assurer que les liens en sont vraiment pas trop importants (pour que le modèle puisse réellement faire la distinction entre les répresseurs).
Le toute chose égale par ailleurs va te permettre de faire la différence entre les effets principaux de ta variable (que tu retrouves via l'interprétation des coefficients) et les effets 'simples' à partir de la corrélation entre le régresseur seul et la variable à expliquer..
Il faut juste t'assurer que les liens en sont vraiment pas trop importants (pour que le modèle puisse réellement faire la distinction entre les répresseurs).
Le toute chose égale par ailleurs va te permettre de faire la différence entre les effets principaux de ta variable (que tu retrouves via l'interprétation des coefficients) et les effets 'simples' à partir de la corrélation entre le régresseur seul et la variable à expliquer..
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: 3 questions Regression Logistique
Qu'entends-tu par "Il faut juste t'assurer que les liens en sont vraiment pas trop importants (pour que le modèle puisse réellement faire la distinction entre les répresseurs)" ?
Tu veux parler des liens entre les variables posant problème et la variable à expliquer?
J'ai réaliser la regression logistique avec uniquement la variable à expliquer et lavariable posant problème et les coefficients sont bien inversés comparé au modèle ou j'incorpore toutes les autres variables.
Si j'ai bien compris j'ai bien une erreur avec le fameux "toute chose égale par ailleurs" dans ce cas? Ou alors cela veut-il dire que le simple mixte des variables bouge les coeffs mais queles résultats ne sont pas faux?
Tu veux parler des liens entre les variables posant problème et la variable à expliquer?
J'ai réaliser la regression logistique avec uniquement la variable à expliquer et lavariable posant problème et les coefficients sont bien inversés comparé au modèle ou j'incorpore toutes les autres variables.
Si j'ai bien compris j'ai bien une erreur avec le fameux "toute chose égale par ailleurs" dans ce cas? Ou alors cela veut-il dire que le simple mixte des variables bouge les coeffs mais queles résultats ne sont pas faux?
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
Haxo a écrit:Ou alors cela veut-il dire que le simple mixte des variables bouge les coeffs mais que les résultats ne sont pas faux?
c'est ça.
Avec un exemple simple :
tu as trois races de poulet : t1 t2 t3
tu as trois types de nourriture : n1 n2 et n3
La variable à expliquer est le poids du poulet.
Imaginons que l'effet réel est que le poulet t3 est plus lourd que le t2 et lui même plus lourd que t1.
Imaginons que l'effet réel est que la nourriture n3 donne un poulet plus lourd que n2, et n2>n1.
Si tu as des corrélations et que :
le poulet t3 est nourri principalement avec n1, alors son poids va être moyen.
Si t2 est nourri qu'avec n3, alors son poids sera fort
si t1 est nourri qu'avec n2, son poids sera moyen faible.
Si tu fais la moyenne des poulets t3 pour avoir l'effet de t3, ça va te dire que ce sont des poulets moyens (tu n'as pas le "toutes nourritures égales par ailleurs"). Si tu prends en compte la nourriture alors le coefficient va changer et le modèle va te dire que t3 est un gros poulet (toutes nourritures égales par ailleurs).
S'il y avait indépendance entre le type de poulet et la nourriture, tu n'aurais pas ce souci de "toutes choses égales par ailleurs", et l'effet principal de la variable serait équivalent à l'effet simple.
Et il faut se méfier des trop fortes corrélations car si le poulet t3 n'est nourri qu'avec du n1, le t2 qu'avec du n3 et le t1 qu'avec du n2, le modèle ne pourra pas différencier l'effet des poulets vis à vis de la nourriture.
En espérant que cet exemple t'aidera dans la compréhension :-).
remarque : là on est dans un cadre avec des variables qualitatives, mais tu peux faire le même style de raisonnement avec des variables quantitatives.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: 3 questions Regression Logistique
Super exemple je vois bien ce que tu veux dire.
Mais dans ce cas cela suppose qu'il y a une interaction entre les variables race et nourriture; dans ce cas il faudrait l'ajouter non?
L'interprétation des Odds ratio par la suite peut donc être contraire aux intuitions de base si je comprends bien.
Autre question, sais-tu si l'analyse de la déviance et du nuage des résidus est quelque chose d'indispensable en régression logistique car j'ai beaucoup de mal à me documenter sur ce sujet et je ne voudrais pas louper une étape importante de l'élaboration de mon modèle?
Merci Niaboc!
Mais dans ce cas cela suppose qu'il y a une interaction entre les variables race et nourriture; dans ce cas il faudrait l'ajouter non?
L'interprétation des Odds ratio par la suite peut donc être contraire aux intuitions de base si je comprends bien.
Autre question, sais-tu si l'analyse de la déviance et du nuage des résidus est quelque chose d'indispensable en régression logistique car j'ai beaucoup de mal à me documenter sur ce sujet et je ne voudrais pas louper une étape importante de l'élaboration de mon modèle?
Merci Niaboc!
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
Haxo a écrit:
Mais dans ce cas cela suppose qu'il y a une interaction entre les variables race et nourriture; dans ce cas il faudrait l'ajouter non?
Nop, les intéractions diraient que le canard de type 3 ne réagit pas de la même façon à la nourriture n1 que le canard de type 2 par exemple...
Haxo a écrit:
L'interprétation des Odds ratio par la suite peut donc être contraire aux intuitions de base si je comprends bien.
Exactement.
Haxo a écrit:
Autre question, sais-tu si l'analyse de la déviance et du nuage des résidus est quelque chose d'indispensable en régression logistique car j'ai beaucoup de mal à me documenter sur ce sujet et je ne voudrais pas louper une étape importante de l'élaboration de mon modèle?
Le nuage des résidus standardisés doit suivre une loi normale, à peu de choses près.
Les courbes de lift, la matrice de confusion, les paires concordantes, discordantes peuvent déjà être des bons indicateurs sur la qualité de ta régression.
Tu peux aller te renseigner sur les résidus partiels... ça permet de vérifier que les variables sont bien linéaires vis à vis du logit.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: 3 questions Regression Logistique
J'ai tout de même un peu de mal à concevoir que (lorsque je mettrais le modèle en place pour l'utiliser concrètement) une variables (ou modalité) supposé agir positivement sur le fait que Y=1 soit agisse en fait négativement pour le Y=1.
Au niveau des tests que j'ai réalisé (sur mon échantillon de validation et non pas sur l'échantillon ayant permis d'élaborer le modèle), j'ai utilisé la courbe ROC (AUC=0,93) avaec laquelle j'ai déterminée un seuil pour maximiser la sensibilé et la spécificité (87,9%, 87%), un diagramme de fiabilité et le test de Mann Whithney. Mais pour l'instant aucune analyse de la déviance ni des résidus..
Y-at-il quelque chose à dire sur la déviance? Peut-être un moyen de comparer la déviance du modèle null et la déviance résiduelle?
Pour le nuage des résidus standardisés, j'utilise R, connais tu le moyen de le récupérer (là j'avoue ne pas savoir du tout comment faire et je ne trouve guère d'infos)? Je dois écrire un rapport de fin d'étude, donc je ne voudrais pas louper un point important
J'ai également lu que le fait de passer les variables en qualitatif pouvait avoir un effet bénéfique sur le modèle. Sais-tu quelle en est la raison? Y a t-il moyen par la suite de comparer les deux modèles? (variables mixtes vs variables quali) Il me semble que les critères type AIC ne s'utilise que pour les modèles emboités, or ici ce n'est pas le cas.
J'ai un peu bombardé de questions là...
Merci pour tes conseils avisés Nabioc!
Au niveau des tests que j'ai réalisé (sur mon échantillon de validation et non pas sur l'échantillon ayant permis d'élaborer le modèle), j'ai utilisé la courbe ROC (AUC=0,93) avaec laquelle j'ai déterminée un seuil pour maximiser la sensibilé et la spécificité (87,9%, 87%), un diagramme de fiabilité et le test de Mann Whithney. Mais pour l'instant aucune analyse de la déviance ni des résidus..
Y-at-il quelque chose à dire sur la déviance? Peut-être un moyen de comparer la déviance du modèle null et la déviance résiduelle?
Pour le nuage des résidus standardisés, j'utilise R, connais tu le moyen de le récupérer (là j'avoue ne pas savoir du tout comment faire et je ne trouve guère d'infos)? Je dois écrire un rapport de fin d'étude, donc je ne voudrais pas louper un point important
J'ai également lu que le fait de passer les variables en qualitatif pouvait avoir un effet bénéfique sur le modèle. Sais-tu quelle en est la raison? Y a t-il moyen par la suite de comparer les deux modèles? (variables mixtes vs variables quali) Il me semble que les critères type AIC ne s'utilise que pour les modèles emboités, or ici ce n'est pas le cas.
J'ai un peu bombardé de questions là...
Merci pour tes conseils avisés Nabioc!
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: 3 questions Regression Logistique
Haxo a écrit:
Y-at-il quelque chose à dire sur la déviance? Peut-être un moyen de comparer la déviance du modèle null et la déviance résiduelle?
oui tu dois avoir un test du khi deux qui doit faire ça je crois.
Aucune idée... je n'utilise pas R. mais tu peux te les recalculer "a la mano" si tu as le P(Y=1) de chaque individu.Haxo a écrit:
Pour le nuage des résidus standardisés, j'utilise R, connais tu le moyen de le récupérer (là j'avoue ne pas savoir du tout comment faire et je ne trouve guère d'infos)?
ça peut avoir un effet bénéfique s'il existe des corrélations non linéaires entre le logit et la variable à expliquer.Haxo a écrit:
J'ai également lu que le fait de passer les variables en qualitatif pouvait avoir un effet bénéfique sur le modèle. Sais-tu quelle en est la raison? Y a t-il moyen par la suite de comparer les deux modèles? (variables mixtes vs variables quali) Il me semble que les critères type AIC ne s'utilise que pour les modèles emboités, or ici ce n'est pas le cas.
Tu peux comparer les modèles avec l'AIC (du moment que tu as la même variable à expliquer, ça doit être bon).
Tu peux aussi utiliser les tests de Wald, de vraisemblance et du Score pour comparer les modèles entre eux.
Ce forum est là pour çaHaxo a écrit:
J'ai un peu bombardé de questions là...
Pense à mettre à jour le sujet du topic... ce n'est plus "3 questions"!
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Sujets similaires
» régression multiple et régression logistique
» Régression Logistique vs Régression Linéaire
» Régression logistique
» Régression logistique
» Regression logistique
» Régression Logistique vs Régression Linéaire
» Régression logistique
» Régression logistique
» Regression logistique
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
|
|