Les posteurs les plus actifs de la semaine
FMarwen
 
mohammedf21
 
fatema
 
SandrineM&M
 
SmooshedPepper
 
alicemkg
 
AdrienC
 


Regression logistique

Aller en bas

Regression logistique

Message par olympia24 le Mer 28 Fév 2018 - 10:28

Bonjour,

J'effectue une étude dans le domaine immobilier concernant plusieurs projets de développement.
Mon but est de détecter les facteurs ou combinaison de facteur qui font en sorte que certaines propriétés restent invendues.
J’ai à ma disposition les données pour chaque propriété avec la valeur réponse 0 si invendue et 1 si vendue.
Mes facteurs sont entre autres :
• le type de propriété (Villa ou appartement)  
• La location (Centre ville, quartier1, quartier2)
• Le prix
• Le prix par square feet
• Nombre de pièces

J’aimerai vos recommandations sur le type d’analyse à appliquer.

Merci !

Sara


Dernière édition par olympia24 le Mar 27 Mar 2018 - 6:37, édité 2 fois

olympia24

Nombre de messages : 3
Date d'inscription : 14/01/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique

Message par Eric Wajnberg le Mer 28 Fév 2018 - 11:19

Vous voulez expliquer/modéliser une variable binaire 0/1. Vous êtes dans le cadre d'une régression logistique (par dans le cas d'une analyse factorielle, comme le titre de votre post l'indique). Si vous avez assez de données, vous pourrez tester l'influence des différents facteurs que vous listez, mais aussi de leurs éventuelles interactions.

Cordialement, Eric.
avatar
Eric Wajnberg

Nombre de messages : 917
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique

Message par olympia24 le Mer 28 Fév 2018 - 11:26

Bonjour Eric,

Merci pour votre reponse.
Quand vous dites assez de donnees, combien de proprietes devrais-je idealement avoir dans mon etude ?

olympia24

Nombre de messages : 3
Date d'inscription : 14/01/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique

Message par Eric Wajnberg le Mer 28 Fév 2018 - 13:54

Je n'ai pas d'idée. A votre place je ferais des essais et voir si le modèle peut être ajusté ou non.

Evidement, plus vous avez de données, mieux c'est, notamment pour pouvoir estimer correctement les effets..

Eric.
avatar
Eric Wajnberg

Nombre de messages : 917
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique

Message par olympia24 le Mar 27 Mar 2018 - 7:03

Bonjour,

Ci dessous est un apercu de mes donnees :

sapply(data.raw3, function(x) length(unique(x)))

     SOLD_BIN    LAUNCH_YEAR    COMMUNITY_NAME   PROPERTY_NAME
            2                   5                        65                           12  
SALES_ROOM_CAT     SELLING_PRICE
           8                         5823
         TYPE     TOTAL_AREA    price.sq.ft
            2            1506               19881

Quelques variables sont continues (Prix, Size)
Les autres sont convertis en facteur (Annee de construction, nombre de bedrooms, type villa ou apartment, geolocalisation)

Mes questions :
1 - Est-il preferable d'utiliser le prix par square feet comme variable, ou inclure les 2 variables prix et square feet separemment ?
2 - mon but est de savoir quel facteur fait en sorte qu'une certaine propriete a plus de chance d'etre vendue et extraire des insights. Par exemple, un apartment au centre ville a-t'il plus de chance d'etre vendue qu'une villa 5bhk dans un development x ?  

En appliquant le modele suivant :
model <- glm(SOLD_BIN ~ LAUNCH_YEAR+SELLING_PRICE+SALES_ROOM_CAT+PROPERTY_NAME+TYPE+TOTAL_AREA, family = binomial, data = data.raw3)

> summary(model)

Call:
glm(formula = SOLD_BIN ~ LAUNCH_YEAR + SELLING_PRICE + SALES_ROOM_CAT +
   PROPERTY_NAME + TYPE + TOTAL_AREA, family = binomial, data = data.raw3)

Deviance Residuals:
   Min       1Q   Median       3Q      Max  
-3.6953   0.0641   0.3243   0.6116   2.7716  

Coefficients:
                                  Estimate Std. Error z value Pr(>|z|)    
(Intercept)                       1.511e+03  4.012e+01  37.659  < 2e-16 ***
LAUNCH_YEAR                      -7.473e-01  1.989e-02 -37.570  < 2e-16 ***
SELLING_PRICE                    -3.045e-05  1.106e-05  -2.754  0.00589 **
SALES_ROOM_CAT2BR                -5.958e-01  5.422e-02 -10.988  < 2e-16 ***
SALES_ROOM_CAT3BR                -1.670e+00  6.716e-02 -24.871  < 2e-16 ***
SALES_ROOM_CAT4BR                -2.531e+00  1.234e-01 -20.511  < 2e-16 ***
SALES_ROOM_CAT5BR                -2.753e+00  1.680e-01 -16.394  < 2e-16 ***
SALES_ROOM_CAT6BR                -3.132e+00  3.161e-01  -9.908  < 2e-16 ***
SALES_ROOM_CAT7BR                -1.332e+00  4.876e-01  -2.732  0.00630 **
SALES_ROOM_CATStudio             -7.099e-01  7.342e-01  -0.967  0.33364    
PROPERTY_NAMEP1      -1.444e+00  5.990e-01  -2.411  0.01592 *  
PROPERTY_NAMEP2 -2.250e+00  5.986e-01  -3.759  0.00017 ***
PROPERTY_NAMEP3 -2.766e+00  5.990e-01  -4.617 3.89e-06 ***
PROPERTY_NAMEP4         9.431e-01  6.430e-01   1.467  0.14248    
PROPERTY_NAMEP5         -2.535e+00  6.012e-01  -4.217 2.47e-05 ***
PROPERTY_NAMEP6      -2.902e-01  7.853e-01  -0.370  0.71169    
PROPERTY_NAMEP7             -6.781e+00  6.905e-01  -9.820  < 2e-16 ***
PROPERTY_NAMEP8          -4.056e+00  6.083e-01  -6.668 2.59e-11 ***
PROPERTY_NAMEP9                -1.000e-01  1.168e+00  -0.086  0.93175    
PROPERTY_NAMEP10             -3.506e+00  6.208e-01  -5.648 1.62e-08 ***
PROPERTY_NAMEP11        -5.564e+00  6.110e-01  -9.107  < 2e-16 ***
TYPEVilla                         3.055e+00  9.208e-02  33.174  < 2e-16 ***
TOTAL_AREA                       -4.185e-05  3.203e-05  -1.307  0.19128

> anova(model, test="Chisq")
Analysis of Deviance Table

Model: binomial, link: logit

Response: SOLD_BIN

Terms added sequentially (first to last)


Df Deviance Resid. Df Resid. Dev Pr(>Chi)
NULL 29505 28710
LAUNCH_YEAR 1 4143.8 29504 24566 < 2.2e-16 ***
SELLING_PRICE 1 26.3 29503 24540 2.973e-07 ***
SALES_ROOM_CAT 7 382.1 29496 24158 < 2.2e-16 ***
PROPERTY_NAME 11 2280.1 29485 21878 < 2.2e-16 ***
TYPE 1 1328.9 29484 20549 < 2.2e-16 ***
TOTAL_AREA 1 1.7 29483 20547 0.1885
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Pouvez-vous m'aider a interpreter ces resultats ?
Les facteurs sont compares a une de leur categorie, par exemple Type est fixe a villa automatiquement, ce qui veut dire que le type villa a plus de chance de rester invendue compare aux apartments, lorsque toutes les autres variables sont fixes ?

olympia24

Nombre de messages : 3
Date d'inscription : 14/01/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique

Message par Eric Wajnberg le Mar 27 Mar 2018 - 10:15

Pour votre première question (Est-il préférable d'utiliser le prix par square feet comme variable, ou inclure les 2 variables prix et square feet séparément ?) il n'y a que vous qui pouvez répondre. Les questions que vous vous posées sont les vôtres.

Le tableau de déviance montre que beaucoup de variables ont des effets fortement significatifs.

Pour les variables quantitatives, il suffit de regarder les coefficients de régression estimés par le modèle. Par exemple, pour SELLING_PRICE, le coefficient de régression obtenu est -3.045e-05 et est donc négatif, ce qui signifie qu'une augmentation de la valeur de cette variable (augmentation du prix, j'imagine) conduit à une diminution significative de SOLD_BIN (diminution de la probabilité de vente, j'imagine, etc.).

Pour les variables qualitatives (facteurs), les modalités de chacune de ces variables sont classées (par défaut) par ordre alphabétique, et la première tient lieu de référence, contre laquelle les effets des autres sont estimés et comparés. Donc je pense, par exemple, que votre interprétation est correcte pour le couple villa/appartement, etc.

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 917
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum