Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Linear probability model (OLS avec variable dependante 1 é 0
2 participants
Page 1 sur 1
Linear probability model (OLS avec variable dependante 1 é 0
Bonjour à tous,
J'aurais besoin de votre aide car j'ai une question qui me frotte à l'esprit. Je dois faire une régression linéaire et ma variable dépendante est une variable dichotomique tandis que mes variables indépendantes peuvent etre dichotomiques et continue. Dans ce cas de figure, quel est le meilleure modele ? Logit ou linear probability model (=methode OLS avec 1 et 0) ?
Dans le linear probability model, quels sont les hypothèses de bases à verifier ?
Dans le logit, quels sont les hypothèses à vérifier pour valider le modèle ?
Je vous remercie d'avance pour votre aide
Josanche
J'aurais besoin de votre aide car j'ai une question qui me frotte à l'esprit. Je dois faire une régression linéaire et ma variable dépendante est une variable dichotomique tandis que mes variables indépendantes peuvent etre dichotomiques et continue. Dans ce cas de figure, quel est le meilleure modele ? Logit ou linear probability model (=methode OLS avec 1 et 0) ?
Dans le linear probability model, quels sont les hypothèses de bases à verifier ?
Dans le logit, quels sont les hypothèses à vérifier pour valider le modèle ?
Je vous remercie d'avance pour votre aide
Josanche
josanche- Nombre de messages : 14
Date d'inscription : 21/05/2012
Re: Linear probability model (OLS avec variable dependante 1 é 0
Bonjour, concernant ton modèle OLS je n'ai pas la moindre idée de quoi tu parles et comme internet chez moi marche très mal je peux pas jeter un oeil pour voir si tu ne parles pas d'une simple régression linéaire où ta variable dépendante ne prendrait que ses valeurs dans 0,1.
Sinon dans ton cas de figure en effet on fait en général un modèle logit, bon en fait on peut également faire de l'arbre de décision, de la forêt aléatoire, du réseau de neurones ou encore de la régression logistique PLS, ect ect ect.
Concernant les hypothèses d'applications, en théorie il faut que tes variables indépendantes continues confirment l'hypothèse de log-linéarité, chose qui n'est pas évidente à vérifier et que l'on ne fait finalement jamais. Donc soit tu "modalises tes variables continues" et tu fais ta régresson logistique sur ton jeu de données tout qualitatif, soit tu fais un modèle sur des variables qualitatives et continues (sachant que dans le premier cas en général on a de meilleurs performances).
Sinon dans ton cas de figure en effet on fait en général un modèle logit, bon en fait on peut également faire de l'arbre de décision, de la forêt aléatoire, du réseau de neurones ou encore de la régression logistique PLS, ect ect ect.
Concernant les hypothèses d'applications, en théorie il faut que tes variables indépendantes continues confirment l'hypothèse de log-linéarité, chose qui n'est pas évidente à vérifier et que l'on ne fait finalement jamais. Donc soit tu "modalises tes variables continues" et tu fais ta régresson logistique sur ton jeu de données tout qualitatif, soit tu fais un modèle sur des variables qualitatives et continues (sachant que dans le premier cas en général on a de meilleurs performances).
Re: Linear probability model (OLS avec variable dependante 1 é 0
Bonjour,
J'aurais une question concernant vos deux propositions. En clair, vous partez du principe que pour faire une regression dans un modèle LOGIT, il faut avoir soit que des variables indépendantes qualitatives, soit des variables indépendante quantitative ? C'est ce que vous voulez dire ?
Dans mon modèle, j'ai une variable dépendante qualitative binaire et dans les variables indépendantes j'ai principalement que des variables qualitatives binaires. Toutefois, J'ai trois variable indépendante qui sont continue !
Me conseillez-vous de binariser ces variables quantitative continue ? ou je le laisse ainsi pour effectuer ma regression sous le modèle Logit ?
Outre l'hypothèse de log-linéarité, les hypothèses sous le modèle OLS( non-autocorrélation, normalité des erreurs, homoscédasticité) doivent etre vérifié sous le modele Logit ou pas ?
La méthode Linear probability model est un modèle dont la variable dépendante est une variable dichotomique et la regression se fait sous OLS.
J'aurais une question concernant vos deux propositions. En clair, vous partez du principe que pour faire une regression dans un modèle LOGIT, il faut avoir soit que des variables indépendantes qualitatives, soit des variables indépendante quantitative ? C'est ce que vous voulez dire ?
Dans mon modèle, j'ai une variable dépendante qualitative binaire et dans les variables indépendantes j'ai principalement que des variables qualitatives binaires. Toutefois, J'ai trois variable indépendante qui sont continue !
Me conseillez-vous de binariser ces variables quantitative continue ? ou je le laisse ainsi pour effectuer ma regression sous le modèle Logit ?
Outre l'hypothèse de log-linéarité, les hypothèses sous le modèle OLS( non-autocorrélation, normalité des erreurs, homoscédasticité) doivent etre vérifié sous le modele Logit ou pas ?
La méthode Linear probability model est un modèle dont la variable dépendante est une variable dichotomique et la regression se fait sous OLS.
josanche- Nombre de messages : 14
Date d'inscription : 21/05/2012
Re: Linear probability model (OLS avec variable dependante 1 é 0
Non mais par OLS tu entends bien Ordinary Least Square? Si oui alors on parle plus naturellement de régression linéaire, cette dernière étant utilisée surtout pour une variable dépendante continue et non binaire donc à oublier dans ton cas.
Pour revenir à la régression logistique, tu as deux voies à explorer: soit tu régresses ta variable réponse (variable dépendante) sur tes variables explicatives (variables indépendantes) dans leur format tel quel (donc continue et qualitative), soit tu transformes en variable qualitative tout ton jeu de données et tu fais une régression dessus. Dans le premier cas il y a une hypothèse à vérifier que personne ne prend la peine de vérifier donc tu peux l'utiliser sans souci, dans le second cas il n'y a aucune hypothèse juste vérifier que tu as une distribution plus ou moins équilibrée de tes classes.
En rappelant qu'en général la seconde option est reconnue comme plus performante que la première. Pour la transformation en variables qualitatives de tes variables continues, ça va dépendre de ton effectif, en général moi en dessous de 50 observation je binarise, entre 50 et 80 je met en 3 catégories (0 -33 - 66 - 100) et au dessus en 4 classes quelque soit mon nombre d'observations (découpage selon un boxplot).
La corrélation dans un modèle multivarié est à mon sens plus une question de logique que de math, forcément plus tu as de corrélation peu ton nuage de points est étendu et donc forcément n'importe quel classifieur va avoir du mal.
Pour revenir à la régression logistique, tu as deux voies à explorer: soit tu régresses ta variable réponse (variable dépendante) sur tes variables explicatives (variables indépendantes) dans leur format tel quel (donc continue et qualitative), soit tu transformes en variable qualitative tout ton jeu de données et tu fais une régression dessus. Dans le premier cas il y a une hypothèse à vérifier que personne ne prend la peine de vérifier donc tu peux l'utiliser sans souci, dans le second cas il n'y a aucune hypothèse juste vérifier que tu as une distribution plus ou moins équilibrée de tes classes.
En rappelant qu'en général la seconde option est reconnue comme plus performante que la première. Pour la transformation en variables qualitatives de tes variables continues, ça va dépendre de ton effectif, en général moi en dessous de 50 observation je binarise, entre 50 et 80 je met en 3 catégories (0 -33 - 66 - 100) et au dessus en 4 classes quelque soit mon nombre d'observations (découpage selon un boxplot).
La corrélation dans un modèle multivarié est à mon sens plus une question de logique que de math, forcément plus tu as de corrélation peu ton nuage de points est étendu et donc forcément n'importe quel classifieur va avoir du mal.
Re: Linear probability model (OLS avec variable dependante 1 é 0
Bonjour,
Pour une de mes variables indépendante continue, j'ai facilement plus de 500 observations différentes et 500 observations avec que des 0.
Donc, si je comprends bien vos raisonnement et que je pars dans votre deuxième cas, je fais un boxplot et je découpe en décile supposons de 0 à 1( 0,1 - 0,2 juska 1) mais j'aurais le problème que vous dites que la distribution ne sera pas équilibré entre les dix classes car il y a beaucoup de 0. Donc vous me conseillez pour cette variable de la binariser ?
Pour le premier cas ou je fais la regression sur les variables tel quel, ne faut-il pas diminuer la variance de certaines variables indépendante continue, si il y a des valeurs extreme ? Dans le cas du ordinary least square, on ma tjrs dit que lorsque une variable contient des valeurs extreme par exemple de 0 à 500.000 il faut appliquer des log ou des racines sur ces variables ?
Merci encore pour vos réponses
Pour une de mes variables indépendante continue, j'ai facilement plus de 500 observations différentes et 500 observations avec que des 0.
Donc, si je comprends bien vos raisonnement et que je pars dans votre deuxième cas, je fais un boxplot et je découpe en décile supposons de 0 à 1( 0,1 - 0,2 juska 1) mais j'aurais le problème que vous dites que la distribution ne sera pas équilibré entre les dix classes car il y a beaucoup de 0. Donc vous me conseillez pour cette variable de la binariser ?
Pour le premier cas ou je fais la regression sur les variables tel quel, ne faut-il pas diminuer la variance de certaines variables indépendante continue, si il y a des valeurs extreme ? Dans le cas du ordinary least square, on ma tjrs dit que lorsque une variable contient des valeurs extreme par exemple de 0 à 500.000 il faut appliquer des log ou des racines sur ces variables ?
Merci encore pour vos réponses
josanche- Nombre de messages : 14
Date d'inscription : 21/05/2012
Re: Linear probability model (OLS avec variable dependante 1 é 0
Tu peux faire ce que tu veux à tes variables tant que tu intègres ces transformations à ta règle décisionnelle finale et que ça reste cohérent dans ton cas, la régression logistique ne nécessitant officiellement aucune hypothèse ou alors tu peux supprimer tes outliers si tu as l'assurance qu'il s'agit d'erreur et non de cas extrême.
Concernant la modalisation des variables, l'égalité parfaite n'existe pas mais il faut éviter d'avoir un groupe de 50% de l'effectif, dans ton cas oui tu devrais binariser si ça a une valeur informative et cohérente avec ton contexte.
Régression linéaire et régression logistique ça n'a rien à voir, rien que la méthode d'estimation des coefficients est totalement différente.
Concernant la modalisation des variables, l'égalité parfaite n'existe pas mais il faut éviter d'avoir un groupe de 50% de l'effectif, dans ton cas oui tu devrais binariser si ça a une valeur informative et cohérente avec ton contexte.
Régression linéaire et régression logistique ça n'a rien à voir, rien que la méthode d'estimation des coefficients est totalement différente.
Re: Linear probability model (OLS avec variable dependante 1 é 0
Très bien, donc je vais binariser cette variable en question mais j'en d'autres et vous avez également parler de faire un découpage et de créer 4 classes au dela de 80 observations tout en verifiant bien que les classes soit équilibré. DOnc en fait ces 4 classes seront 4 variables indépendantes binaires dans votre modele avec un 1 si l'observation fait partie de la classe en question ou pas, c'est ça ?
J'utilise eviews pour regresser sous le modele logistique et mon programme me retourne ces chiffres
Mean dependent var 0.417925 S.D. dependent var 0.493258
S.E. of regression 0.478303 Akaike info criterion 1.301374
Sum squared resid 1404.668 Schwarz criterion 1.322122
Log likelihood -3988.582 Hannan-Quinn criter. 1.308570
Restr. log likelihood -4185.739 Avg. log likelihood -0.647602
LR statistic (18 df) 394.3138 McFadden R-squared 0.047102
Probability(LR stat) 0.000000
Quel est l'équivalent du R² ajusté dans le modèle logistique pour voir si on a un bon modèle ou les variables independantes permettent d'expliquer la variable dépendante ? Quelles sont les chiffres clés sur lesquels je dois regarder ?
J'utilise eviews pour regresser sous le modele logistique et mon programme me retourne ces chiffres
Mean dependent var 0.417925 S.D. dependent var 0.493258
S.E. of regression 0.478303 Akaike info criterion 1.301374
Sum squared resid 1404.668 Schwarz criterion 1.322122
Log likelihood -3988.582 Hannan-Quinn criter. 1.308570
Restr. log likelihood -4185.739 Avg. log likelihood -0.647602
LR statistic (18 df) 394.3138 McFadden R-squared 0.047102
Probability(LR stat) 0.000000
Quel est l'équivalent du R² ajusté dans le modèle logistique pour voir si on a un bon modèle ou les variables independantes permettent d'expliquer la variable dépendante ? Quelles sont les chiffres clés sur lesquels je dois regarder ?
josanche- Nombre de messages : 14
Date d'inscription : 21/05/2012
Re: Linear probability model (OLS avec variable dependante 1 é 0
Il faut pas forcément que toutes tes variables modalisés aient le même nombre de modalité, à toi de voir en fonction de la cohérence de ton contexte et de tes données.
Pour tes sorties, et bien là je vois que tu as le Rsquare, donc ici c'est une mesure de l'apport de ton modèle avec ses variables par rapport au modèle triviale avec simplement l'intercept.
Sinon pour les autres sorties je t'ai mis en rouge les infos très importantes et en bleu les infos utiles à ma connaissance:
Pour tes sorties, et bien là je vois que tu as le Rsquare, donc ici c'est une mesure de l'apport de ton modèle avec ses variables par rapport au modèle triviale avec simplement l'intercept.
Sinon pour les autres sorties je t'ai mis en rouge les infos très importantes et en bleu les infos utiles à ma connaissance:
Mean dependent var 0.417925 S.D. dependent var 0.493258
S.E. of regression 0.478303 Akaike info criterion 1.301374 (porte le nom de AIC)
Sum squared resid 1404.668 Schwarz criterion 1.322122 (porte le nom de BIC)
Log likelihood -3988.582 Hannan-Quinn criter. 1.308570
Restr. log likelihood -4185.739 Avg. log likelihood -0.647602
LR statistic (18 df) 394.3138 McFadden R-squared 0.047102
Probability(LR stat) 0.000000
josanche- Nombre de messages : 14
Date d'inscription : 21/05/2012
Sujets similaires
» régression linéaire avec variable dépendante retardée
» Simulation d'une variable DÉPENDANTE Y par variables ind. Xn
» Choix de la meilleure variable dépendante
» ACP avant régression linéaire-variable dépendante
» Variance partagée entre variable indépendante et dépendante
» Simulation d'une variable DÉPENDANTE Y par variables ind. Xn
» Choix de la meilleure variable dépendante
» ACP avant régression linéaire-variable dépendante
» Variance partagée entre variable indépendante et dépendante
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum