Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Regression logistique
2 participants
Page 1 sur 1
Regression logistique
Bonjour,
J'effectue une étude dans le domaine immobilier concernant plusieurs projets de développement.
Mon but est de détecter les facteurs ou combinaison de facteur qui font en sorte que certaines propriétés restent invendues.
J’ai à ma disposition les données pour chaque propriété avec la valeur réponse 0 si invendue et 1 si vendue.
Mes facteurs sont entre autres :
• le type de propriété (Villa ou appartement)
• La location (Centre ville, quartier1, quartier2)
• Le prix
• Le prix par square feet
• Nombre de pièces
J’aimerai vos recommandations sur le type d’analyse à appliquer.
Merci !
Sara
J'effectue une étude dans le domaine immobilier concernant plusieurs projets de développement.
Mon but est de détecter les facteurs ou combinaison de facteur qui font en sorte que certaines propriétés restent invendues.
J’ai à ma disposition les données pour chaque propriété avec la valeur réponse 0 si invendue et 1 si vendue.
Mes facteurs sont entre autres :
• le type de propriété (Villa ou appartement)
• La location (Centre ville, quartier1, quartier2)
• Le prix
• Le prix par square feet
• Nombre de pièces
J’aimerai vos recommandations sur le type d’analyse à appliquer.
Merci !
Sara
Dernière édition par olympia24 le Mar 27 Mar 2018 - 6:37, édité 2 fois
olympia24- Nombre de messages : 3
Date d'inscription : 14/01/2017
Re: Regression logistique
Vous voulez expliquer/modéliser une variable binaire 0/1. Vous êtes dans le cadre d'une régression logistique (par dans le cas d'une analyse factorielle, comme le titre de votre post l'indique). Si vous avez assez de données, vous pourrez tester l'influence des différents facteurs que vous listez, mais aussi de leurs éventuelles interactions.
Cordialement, Eric.
Cordialement, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Regression logistique
Bonjour Eric,
Merci pour votre reponse.
Quand vous dites assez de donnees, combien de proprietes devrais-je idealement avoir dans mon etude ?
Merci pour votre reponse.
Quand vous dites assez de donnees, combien de proprietes devrais-je idealement avoir dans mon etude ?
olympia24- Nombre de messages : 3
Date d'inscription : 14/01/2017
Re: Regression logistique
Je n'ai pas d'idée. A votre place je ferais des essais et voir si le modèle peut être ajusté ou non.
Evidement, plus vous avez de données, mieux c'est, notamment pour pouvoir estimer correctement les effets..
Eric.
Evidement, plus vous avez de données, mieux c'est, notamment pour pouvoir estimer correctement les effets..
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Regression logistique
Bonjour,
Ci dessous est un apercu de mes donnees :
sapply(data.raw3, function(x) length(unique(x)))
SOLD_BIN LAUNCH_YEAR COMMUNITY_NAME PROPERTY_NAME
2 5 65 12
SALES_ROOM_CAT SELLING_PRICE
8 5823
TYPE TOTAL_AREA price.sq.ft
2 1506 19881
Quelques variables sont continues (Prix, Size)
Les autres sont convertis en facteur (Annee de construction, nombre de bedrooms, type villa ou apartment, geolocalisation)
Mes questions :
1 - Est-il preferable d'utiliser le prix par square feet comme variable, ou inclure les 2 variables prix et square feet separemment ?
2 - mon but est de savoir quel facteur fait en sorte qu'une certaine propriete a plus de chance d'etre vendue et extraire des insights. Par exemple, un apartment au centre ville a-t'il plus de chance d'etre vendue qu'une villa 5bhk dans un development x ?
En appliquant le modele suivant :
model <- glm(SOLD_BIN ~ LAUNCH_YEAR+SELLING_PRICE+SALES_ROOM_CAT+PROPERTY_NAME+TYPE+TOTAL_AREA, family = binomial, data = data.raw3)
> summary(model)
Call:
glm(formula = SOLD_BIN ~ LAUNCH_YEAR + SELLING_PRICE + SALES_ROOM_CAT +
PROPERTY_NAME + TYPE + TOTAL_AREA, family = binomial, data = data.raw3)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.6953 0.0641 0.3243 0.6116 2.7716
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.511e+03 4.012e+01 37.659 < 2e-16 ***
LAUNCH_YEAR -7.473e-01 1.989e-02 -37.570 < 2e-16 ***
SELLING_PRICE -3.045e-05 1.106e-05 -2.754 0.00589 **
SALES_ROOM_CAT2BR -5.958e-01 5.422e-02 -10.988 < 2e-16 ***
SALES_ROOM_CAT3BR -1.670e+00 6.716e-02 -24.871 < 2e-16 ***
SALES_ROOM_CAT4BR -2.531e+00 1.234e-01 -20.511 < 2e-16 ***
SALES_ROOM_CAT5BR -2.753e+00 1.680e-01 -16.394 < 2e-16 ***
SALES_ROOM_CAT6BR -3.132e+00 3.161e-01 -9.908 < 2e-16 ***
SALES_ROOM_CAT7BR -1.332e+00 4.876e-01 -2.732 0.00630 **
SALES_ROOM_CATStudio -7.099e-01 7.342e-01 -0.967 0.33364
PROPERTY_NAMEP1 -1.444e+00 5.990e-01 -2.411 0.01592 *
PROPERTY_NAMEP2 -2.250e+00 5.986e-01 -3.759 0.00017 ***
PROPERTY_NAMEP3 -2.766e+00 5.990e-01 -4.617 3.89e-06 ***
PROPERTY_NAMEP4 9.431e-01 6.430e-01 1.467 0.14248
PROPERTY_NAMEP5 -2.535e+00 6.012e-01 -4.217 2.47e-05 ***
PROPERTY_NAMEP6 -2.902e-01 7.853e-01 -0.370 0.71169
PROPERTY_NAMEP7 -6.781e+00 6.905e-01 -9.820 < 2e-16 ***
PROPERTY_NAMEP8 -4.056e+00 6.083e-01 -6.668 2.59e-11 ***
PROPERTY_NAMEP9 -1.000e-01 1.168e+00 -0.086 0.93175
PROPERTY_NAMEP10 -3.506e+00 6.208e-01 -5.648 1.62e-08 ***
PROPERTY_NAMEP11 -5.564e+00 6.110e-01 -9.107 < 2e-16 ***
TYPEVilla 3.055e+00 9.208e-02 33.174 < 2e-16 ***
TOTAL_AREA -4.185e-05 3.203e-05 -1.307 0.19128
> anova(model, test="Chisq")
Analysis of Deviance Table
Model: binomial, link: logit
Response: SOLD_BIN
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev Pr(>Chi)
NULL 29505 28710
LAUNCH_YEAR 1 4143.8 29504 24566 < 2.2e-16 ***
SELLING_PRICE 1 26.3 29503 24540 2.973e-07 ***
SALES_ROOM_CAT 7 382.1 29496 24158 < 2.2e-16 ***
PROPERTY_NAME 11 2280.1 29485 21878 < 2.2e-16 ***
TYPE 1 1328.9 29484 20549 < 2.2e-16 ***
TOTAL_AREA 1 1.7 29483 20547 0.1885
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Pouvez-vous m'aider a interpreter ces resultats ?
Les facteurs sont compares a une de leur categorie, par exemple Type est fixe a villa automatiquement, ce qui veut dire que le type villa a plus de chance de rester invendue compare aux apartments, lorsque toutes les autres variables sont fixes ?
Ci dessous est un apercu de mes donnees :
sapply(data.raw3, function(x) length(unique(x)))
SOLD_BIN LAUNCH_YEAR COMMUNITY_NAME PROPERTY_NAME
2 5 65 12
SALES_ROOM_CAT SELLING_PRICE
8 5823
TYPE TOTAL_AREA price.sq.ft
2 1506 19881
Quelques variables sont continues (Prix, Size)
Les autres sont convertis en facteur (Annee de construction, nombre de bedrooms, type villa ou apartment, geolocalisation)
Mes questions :
1 - Est-il preferable d'utiliser le prix par square feet comme variable, ou inclure les 2 variables prix et square feet separemment ?
2 - mon but est de savoir quel facteur fait en sorte qu'une certaine propriete a plus de chance d'etre vendue et extraire des insights. Par exemple, un apartment au centre ville a-t'il plus de chance d'etre vendue qu'une villa 5bhk dans un development x ?
En appliquant le modele suivant :
model <- glm(SOLD_BIN ~ LAUNCH_YEAR+SELLING_PRICE+SALES_ROOM_CAT+PROPERTY_NAME+TYPE+TOTAL_AREA, family = binomial, data = data.raw3)
> summary(model)
Call:
glm(formula = SOLD_BIN ~ LAUNCH_YEAR + SELLING_PRICE + SALES_ROOM_CAT +
PROPERTY_NAME + TYPE + TOTAL_AREA, family = binomial, data = data.raw3)
Deviance Residuals:
Min 1Q Median 3Q Max
-3.6953 0.0641 0.3243 0.6116 2.7716
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.511e+03 4.012e+01 37.659 < 2e-16 ***
LAUNCH_YEAR -7.473e-01 1.989e-02 -37.570 < 2e-16 ***
SELLING_PRICE -3.045e-05 1.106e-05 -2.754 0.00589 **
SALES_ROOM_CAT2BR -5.958e-01 5.422e-02 -10.988 < 2e-16 ***
SALES_ROOM_CAT3BR -1.670e+00 6.716e-02 -24.871 < 2e-16 ***
SALES_ROOM_CAT4BR -2.531e+00 1.234e-01 -20.511 < 2e-16 ***
SALES_ROOM_CAT5BR -2.753e+00 1.680e-01 -16.394 < 2e-16 ***
SALES_ROOM_CAT6BR -3.132e+00 3.161e-01 -9.908 < 2e-16 ***
SALES_ROOM_CAT7BR -1.332e+00 4.876e-01 -2.732 0.00630 **
SALES_ROOM_CATStudio -7.099e-01 7.342e-01 -0.967 0.33364
PROPERTY_NAMEP1 -1.444e+00 5.990e-01 -2.411 0.01592 *
PROPERTY_NAMEP2 -2.250e+00 5.986e-01 -3.759 0.00017 ***
PROPERTY_NAMEP3 -2.766e+00 5.990e-01 -4.617 3.89e-06 ***
PROPERTY_NAMEP4 9.431e-01 6.430e-01 1.467 0.14248
PROPERTY_NAMEP5 -2.535e+00 6.012e-01 -4.217 2.47e-05 ***
PROPERTY_NAMEP6 -2.902e-01 7.853e-01 -0.370 0.71169
PROPERTY_NAMEP7 -6.781e+00 6.905e-01 -9.820 < 2e-16 ***
PROPERTY_NAMEP8 -4.056e+00 6.083e-01 -6.668 2.59e-11 ***
PROPERTY_NAMEP9 -1.000e-01 1.168e+00 -0.086 0.93175
PROPERTY_NAMEP10 -3.506e+00 6.208e-01 -5.648 1.62e-08 ***
PROPERTY_NAMEP11 -5.564e+00 6.110e-01 -9.107 < 2e-16 ***
TYPEVilla 3.055e+00 9.208e-02 33.174 < 2e-16 ***
TOTAL_AREA -4.185e-05 3.203e-05 -1.307 0.19128
> anova(model, test="Chisq")
Analysis of Deviance Table
Model: binomial, link: logit
Response: SOLD_BIN
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev Pr(>Chi)
NULL 29505 28710
LAUNCH_YEAR 1 4143.8 29504 24566 < 2.2e-16 ***
SELLING_PRICE 1 26.3 29503 24540 2.973e-07 ***
SALES_ROOM_CAT 7 382.1 29496 24158 < 2.2e-16 ***
PROPERTY_NAME 11 2280.1 29485 21878 < 2.2e-16 ***
TYPE 1 1328.9 29484 20549 < 2.2e-16 ***
TOTAL_AREA 1 1.7 29483 20547 0.1885
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Pouvez-vous m'aider a interpreter ces resultats ?
Les facteurs sont compares a une de leur categorie, par exemple Type est fixe a villa automatiquement, ce qui veut dire que le type villa a plus de chance de rester invendue compare aux apartments, lorsque toutes les autres variables sont fixes ?
olympia24- Nombre de messages : 3
Date d'inscription : 14/01/2017
Re: Regression logistique
Pour votre première question (Est-il préférable d'utiliser le prix par square feet comme variable, ou inclure les 2 variables prix et square feet séparément ?) il n'y a que vous qui pouvez répondre. Les questions que vous vous posées sont les vôtres.
Le tableau de déviance montre que beaucoup de variables ont des effets fortement significatifs.
Pour les variables quantitatives, il suffit de regarder les coefficients de régression estimés par le modèle. Par exemple, pour SELLING_PRICE, le coefficient de régression obtenu est -3.045e-05 et est donc négatif, ce qui signifie qu'une augmentation de la valeur de cette variable (augmentation du prix, j'imagine) conduit à une diminution significative de SOLD_BIN (diminution de la probabilité de vente, j'imagine, etc.).
Pour les variables qualitatives (facteurs), les modalités de chacune de ces variables sont classées (par défaut) par ordre alphabétique, et la première tient lieu de référence, contre laquelle les effets des autres sont estimés et comparés. Donc je pense, par exemple, que votre interprétation est correcte pour le couple villa/appartement, etc.
HTH, Eric.
Le tableau de déviance montre que beaucoup de variables ont des effets fortement significatifs.
Pour les variables quantitatives, il suffit de regarder les coefficients de régression estimés par le modèle. Par exemple, pour SELLING_PRICE, le coefficient de régression obtenu est -3.045e-05 et est donc négatif, ce qui signifie qu'une augmentation de la valeur de cette variable (augmentation du prix, j'imagine) conduit à une diminution significative de SOLD_BIN (diminution de la probabilité de vente, j'imagine, etc.).
Pour les variables qualitatives (facteurs), les modalités de chacune de ces variables sont classées (par défaut) par ordre alphabétique, et la première tient lieu de référence, contre laquelle les effets des autres sont estimés et comparés. Donc je pense, par exemple, que votre interprétation est correcte pour le couple villa/appartement, etc.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Sujets similaires
» Régression Logistique vs Régression Linéaire
» régression multiple et régression logistique
» REGRESSION LOGISTIQUE
» regression logistique
» Régression logistique
» régression multiple et régression logistique
» REGRESSION LOGISTIQUE
» regression logistique
» Régression logistique
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum