Regression logistique

par olympia24 Mer 28 Fév 2018 - 10:28

Bonjour,

J'effectue une étude dans le domaine immobilier concernant plusieurs projets de développement.
Mon but est de détecter les facteurs ou combinaison de facteur qui font en sorte que certaines propriétés restent invendues.
J’ai à ma disposition les données pour chaque propriété avec la valeur réponse 0 si invendue et 1 si vendue.
Mes facteurs sont entre autres :
• le type de propriété (Villa ou appartement)
• La location (Centre ville, quartier1, quartier2)
• Le prix
• Le prix par square feet
• Nombre de pièces

J’aimerai vos recommandations sur le type d’analyse à appliquer.

Merci !

Sara

par Eric Wajnberg Mer 28 Fév 2018 - 11:19

Vous voulez expliquer/modéliser une variable binaire 0/1. Vous êtes dans le cadre d'une régression logistique (par dans le cas d'une analyse factorielle, comme le titre de votre post l'indique). Si vous avez assez de données, vous pourrez tester l'influence des différents facteurs que vous listez, mais aussi de leurs éventuelles interactions.

Cordialement, Eric.

par olympia24 Mer 28 Fév 2018 - 11:26

Bonjour Eric,

Merci pour votre reponse.
Quand vous dites assez de donnees, combien de proprietes devrais-je idealement avoir dans mon etude ?

par Eric Wajnberg Mer 28 Fév 2018 - 13:54

Je n'ai pas d'idée. A votre place je ferais des essais et voir si le modèle peut être ajusté ou non.

Evidement, plus vous avez de données, mieux c'est, notamment pour pouvoir estimer correctement les effets..

Eric.

par olympia24 Mar 27 Mar 2018 - 7:03

Bonjour,

Ci dessous est un apercu de mes donnees :

sapply(data.raw3, function(x) length(unique(x)))

SOLD_BIN LAUNCH_YEAR COMMUNITY_NAME PROPERTY_NAME
2 5 65 12
SALES_ROOM_CAT SELLING_PRICE
8 5823
TYPE TOTAL_AREA price.sq.ft
2 1506 19881

Quelques variables sont continues (Prix, Size)
Les autres sont convertis en facteur (Annee de construction, nombre de bedrooms, type villa ou apartment, geolocalisation)

Mes questions :
1 - Est-il preferable d'utiliser le prix par square feet comme variable, ou inclure les 2 variables prix et square feet separemment ?
2 - mon but est de savoir quel facteur fait en sorte qu'une certaine propriete a plus de chance d'etre vendue et extraire des insights. Par exemple, un apartment au centre ville a-t'il plus de chance d'etre vendue qu'une villa 5bhk dans un development x ?

En appliquant le modele suivant :
model <- glm(SOLD_BIN ~ LAUNCH_YEAR+SELLING_PRICE+SALES_ROOM_CAT+PROPERTY_NAME+TYPE+TOTAL_AREA, family = binomial, data = data.raw3)

> summary(model)

Call:
glm(formula = SOLD_BIN ~ LAUNCH_YEAR + SELLING_PRICE + SALES_ROOM_CAT +
PROPERTY_NAME + TYPE + TOTAL_AREA, family = binomial, data = data.raw3)

Deviance Residuals:
Min 1Q Median 3Q Max
-3.6953 0.0641 0.3243 0.6116 2.7716

Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 1.511e+03 4.012e+01 37.659 < 2e-16 ***
LAUNCH_YEAR -7.473e-01 1.989e-02 -37.570 < 2e-16 ***
SELLING_PRICE -3.045e-05 1.106e-05 -2.754 0.00589 **
SALES_ROOM_CAT2BR -5.958e-01 5.422e-02 -10.988 < 2e-16 ***
SALES_ROOM_CAT3BR -1.670e+00 6.716e-02 -24.871 < 2e-16 ***
SALES_ROOM_CAT4BR -2.531e+00 1.234e-01 -20.511 < 2e-16 ***
SALES_ROOM_CAT5BR -2.753e+00 1.680e-01 -16.394 < 2e-16 ***
SALES_ROOM_CAT6BR -3.132e+00 3.161e-01 -9.908 < 2e-16 ***
SALES_ROOM_CAT7BR -1.332e+00 4.876e-01 -2.732 0.00630 **
SALES_ROOM_CATStudio -7.099e-01 7.342e-01 -0.967 0.33364
PROPERTY_NAMEP1 -1.444e+00 5.990e-01 -2.411 0.01592 *
PROPERTY_NAMEP2 -2.250e+00 5.986e-01 -3.759 0.00017 ***
PROPERTY_NAMEP3 -2.766e+00 5.990e-01 -4.617 3.89e-06 ***
PROPERTY_NAMEP4 9.431e-01 6.430e-01 1.467 0.14248
PROPERTY_NAMEP5 -2.535e+00 6.012e-01 -4.217 2.47e-05 ***
PROPERTY_NAMEP6 -2.902e-01 7.853e-01 -0.370 0.71169
PROPERTY_NAMEP7 -6.781e+00 6.905e-01 -9.820 < 2e-16 ***
PROPERTY_NAMEP8 -4.056e+00 6.083e-01 -6.668 2.59e-11 ***
PROPERTY_NAMEP9 -1.000e-01 1.168e+00 -0.086 0.93175
PROPERTY_NAMEP10 -3.506e+00 6.208e-01 -5.648 1.62e-08 ***
PROPERTY_NAMEP11 -5.564e+00 6.110e-01 -9.107 < 2e-16 ***
TYPEVilla 3.055e+00 9.208e-02 33.174 < 2e-16 ***
TOTAL_AREA -4.185e-05 3.203e-05 -1.307 0.19128

> anova(model, test="Chisq")
Analysis of Deviance Table

Model: binomial, link: logit

Response: SOLD_BIN

Terms added sequentially (first to last)

Df Deviance Resid. Df Resid. Dev Pr(>Chi)
NULL 29505 28710
LAUNCH_YEAR 1 4143.8 29504 24566 < 2.2e-16 ***
SELLING_PRICE 1 26.3 29503 24540 2.973e-07 ***
SALES_ROOM_CAT 7 382.1 29496 24158 < 2.2e-16 ***
PROPERTY_NAME 11 2280.1 29485 21878 < 2.2e-16 ***
TYPE 1 1328.9 29484 20549 < 2.2e-16 ***
TOTAL_AREA 1 1.7 29483 20547 0.1885
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Pouvez-vous m'aider a interpreter ces resultats ?
Les facteurs sont compares a une de leur categorie, par exemple Type est fixe a villa automatiquement, ce qui veut dire que le type villa a plus de chance de rester invendue compare aux apartments, lorsque toutes les autres variables sont fixes ?

par Eric Wajnberg Mar 27 Mar 2018 - 10:15

Pour votre première question (Est-il préférable d'utiliser le prix par square feet comme variable, ou inclure les 2 variables prix et square feet séparément ?) il n'y a que vous qui pouvez répondre. Les questions que vous vous posées sont les vôtres.

Le tableau de déviance montre que beaucoup de variables ont des effets fortement significatifs.

Pour les variables quantitatives, il suffit de regarder les coefficients de régression estimés par le modèle. Par exemple, pour SELLING_PRICE, le coefficient de régression obtenu est -3.045e-05 et est donc négatif, ce qui signifie qu'une augmentation de la valeur de cette variable (augmentation du prix, j'imagine) conduit à une diminution significative de SOLD_BIN (diminution de la probabilité de vente, j'imagine, etc.).

Pour les variables qualitatives (facteurs), les modalités de chacune de ces variables sont classées (par défaut) par ordre alphabétique, et la première tient lieu de référence, contre laquelle les effets des autres sont estimés et comparés. Donc je pense, par exemple, que votre interprétation est correcte pour le couple villa/appartement, etc.

HTH, Eric.

par Contenu sponsorisé

Regression logistique

Regression logistique

Re: Regression logistique

Re: Regression logistique

Re: Regression logistique

Re: Regression logistique

Re: Regression logistique

Re: Regression logistique