Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Interprétation Regression logistique
3 participants
Page 1 sur 1
Interprétation Regression logistique
Bonjour,
J'effectue une régression logistique (binaire) pour savoir si ma population est favorable ou non à acheter un certain produit.
Ma variable a expliqué est de l'ordre 0/1 où 1 : la personne à l'intention d'acheter le produit, 0 : la personne n'a pas l'intention d'acheter le produit.
Mes variables explicatives sont toutes quali, en classe et binarisé.
J'ai du mal à interpréter et comprendre mes résultats. Je pensais plutôt avoir des résultats à l'opposé, car là c'est ma csp_7 (retraite) qui a le plus de chance d'acheter mon produit, or ce n'est pas très logique. Et mon salaire_5 (très haut salaire) baisse la chance d'acheter mon produit, or comme c'est un produit assez cher ça serait plutôt logique qu'il l'achète.
Est ce que mon code est bon ? (J'ai bien mis event='1' en plus)
Ce que je trouve bizarre c'est dans mon tableau "Estimations par l'analyse du maximum de vraisemblance", le '0' après le nom des variables, à quoi correspond il ? J'ai l'impression qu'il prend en compte la modalité 0 de mes variables, ce qui n'est pas logique.
Et ma dernière question est sur les Odds Ratio, comment peut on les interpréter ? (surtout avec le "0 vs 1")
Merci beaucoup !
H.
J'effectue une régression logistique (binaire) pour savoir si ma population est favorable ou non à acheter un certain produit.
Ma variable a expliqué est de l'ordre 0/1 où 1 : la personne à l'intention d'acheter le produit, 0 : la personne n'a pas l'intention d'acheter le produit.
Mes variables explicatives sont toutes quali, en classe et binarisé.
- Code:
PROC LOGISTIC data = ... OUTMODEL = ...;
CLASS age_1 age_2 age_3 age_4 ass_deces sexe csp_1 csp_2 csp_3 csp_4 csp_5 csp_6 csp_7 csp_8 csp_10 salaire_1 salaire_2 salaire_3 salaire_4 salaire_5 salaire_6 / PARAM=REF ;
MODEL produit (event='1') = age_1 age_2 age_3 age_4 ass_deces sexe csp_1 csp_2 csp_3 csp_4 csp_5 csp_6 csp_7 csp_8 csp_10 salaire_1 salaire_2 salaire_3 salaire_4 salaire_5 salaire_6 / SELECTION=stepwise ;
weight poids;
RUN;
- Code:
Analyse des effets Type 3
Khi-2
Effet DDL de Wald Pr > Khi-2
ass_deces 1 4.9354 0.0263
csp_1 1 4.9967 0.0254
csp_7 1 10.4815 0.0012
salaire_5 1 8.8640 0.0029
Estimations par l'analyse du maximum de vraisemblance
Valeur Erreur Khi-2
Paramètre DDL estimée type de Wald Pr > Khi-2
Intercept 1 -0.7762 0.6102 1.6182 0.2033
ass_deces 0 1 -0.5018 0.2259 4.9354 0.0263
csp_1 0 1 -0.7822 0.3499 4.9967 0.0254
csp_7 0 1 1.0748 0.3320 10.4815 0.0012
salaire_5 0 1 -1.1519 0.3869 8.8640 0.0029
Estimations des rapports de cotes
Valeur
estimée Intervalle de confiance
Effet du point de Wald à 95 %
ass_deces 0 vs 1 0.605 0.389 0.943
csp_1 0 vs 1 0.457 0.230 0.908
csp_7 0 vs 1 2.929 1.528 5.615
salaire_5 0 vs 1 0.316 0.148 0.675
J'ai du mal à interpréter et comprendre mes résultats. Je pensais plutôt avoir des résultats à l'opposé, car là c'est ma csp_7 (retraite) qui a le plus de chance d'acheter mon produit, or ce n'est pas très logique. Et mon salaire_5 (très haut salaire) baisse la chance d'acheter mon produit, or comme c'est un produit assez cher ça serait plutôt logique qu'il l'achète.
Est ce que mon code est bon ? (J'ai bien mis event='1' en plus)
Ce que je trouve bizarre c'est dans mon tableau "Estimations par l'analyse du maximum de vraisemblance", le '0' après le nom des variables, à quoi correspond il ? J'ai l'impression qu'il prend en compte la modalité 0 de mes variables, ce qui n'est pas logique.
Et ma dernière question est sur les Odds Ratio, comment peut on les interpréter ? (surtout avec le "0 vs 1")
Merci beaucoup !
H.
Shudmeyer- Nombre de messages : 30
Date d'inscription : 16/05/2012
Re: Interprétation Regression logistique
Ton code est bon mais c'est la construction de tes variables "class" qui sont étranges.
Ne crée pas une variable par modalité. Fais une seule variable qui comprend plusieurs modalités, l'interprétation sera plus simple
car dans ton cas, l'odd ratio s'interprète (par exemple) csp_7 non retraité (0) a 2.929 fois plus de chance d'acheter le produit que csp_7 retraité (1).
En effet, le modèle a pris ta modalité '0' comme référence sur tes variables "class". Tu peux rajouter l'option (ref='1') à la suite de tes variables ds "class" et tu auras les résultats que tu veux (les signes des coefficients estimés vont être inversés)
donc c'est bien les résultats que tu attendais qui sont sortis... même si les pauvres peuvent avoir l'intention d'acheter ce produit, puisque c'est l'intention qui compte (hihihi, j'suis hilarant...de la baltique)
Ne crée pas une variable par modalité. Fais une seule variable qui comprend plusieurs modalités, l'interprétation sera plus simple
car dans ton cas, l'odd ratio s'interprète (par exemple) csp_7 non retraité (0) a 2.929 fois plus de chance d'acheter le produit que csp_7 retraité (1).
En effet, le modèle a pris ta modalité '0' comme référence sur tes variables "class". Tu peux rajouter l'option (ref='1') à la suite de tes variables ds "class" et tu auras les résultats que tu veux (les signes des coefficients estimés vont être inversés)
donc c'est bien les résultats que tu attendais qui sont sortis... même si les pauvres peuvent avoir l'intention d'acheter ce produit, puisque c'est l'intention qui compte (hihihi, j'suis hilarant...de la baltique)
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Interprétation Regression logistique
Que l'on fasse ma méthode (binarisé les variables) ou la tienne, je suppose que les résultats sont similaire, non ?
Merci pour l'option de la modalité à choisir (les signes changent), et pour te corriger il fallait rajouter l'option (ref='0').
Etant curieux, j'ai voulu tester ta méthode. Mais je me poser une question, au final à la fin pour construire ton équation de score tu dois bien avoir au préhalable binarisé tes variables ?
Je me posais une autre question concernant les modalités de référence. SAS prend par défaut la dernière modalité je crois, je veux donc choisir moi même ma modalité de référence. Quel est le critère pour choisir la "bonne" modalité de référence.
De mémoire, je crois que j'avais entendu qu'il fallait prendre la modalité la plus représenté dans la variable mais je n'en suis pas du tout sur.
Merci en tout cas !
Merci pour l'option de la modalité à choisir (les signes changent), et pour te corriger il fallait rajouter l'option (ref='0').
Etant curieux, j'ai voulu tester ta méthode. Mais je me poser une question, au final à la fin pour construire ton équation de score tu dois bien avoir au préhalable binarisé tes variables ?
Je me posais une autre question concernant les modalités de référence. SAS prend par défaut la dernière modalité je crois, je veux donc choisir moi même ma modalité de référence. Quel est le critère pour choisir la "bonne" modalité de référence.
De mémoire, je crois que j'avais entendu qu'il fallait prendre la modalité la plus représenté dans la variable mais je n'en suis pas du tout sur.
Merci en tout cas !
Shudmeyer- Nombre de messages : 30
Date d'inscription : 16/05/2012
Re: Interprétation Regression logistique
Que l'on fasse ma méthode (binarisé les variables) ou la tienne, je suppose que les résultats sont similaire, non ?
Similairement inversé...
Etant curieux, j'ai voulu tester ta méthode. Mais je me poser une question, au final à la fin pour construire ton équation de score tu dois bien avoir au préhalable binarisé tes variables ?
Si tes variables qualitatives sont dichotomiques alors oui, tu auras une somme d'indicatrice pondérée en fonction des modalités auxquels appartient ton nouvel individu à classer en sachant que pour les modalités de référence le coefficient est automatiquement 0.
Je me posais une autre question concernant les modalités de référence. SAS prend par défaut la dernière modalité je crois, je veux donc choisir moi même ma modalité de référence.
Il me semble que tu l'as toi même écrit, dans la syntaxe CLASS, tu met la modalité de référence pour chacune de tes variables.
Quel est le critère pour choisir la "bonne" modalité de référence.
Algorithmiquement et mathématiquement ça ne change rien puisque les références sont soustraites de la matrice complète (on rappel que pour les variables qualitatives la régression logistique travaille sur le tableau disjonctif complet et donc on a autant de colonnes que de modalités présentes dans toutes les variables), et au final on les retrouve en regardant pour une variable ses colonnes attitrées (ligne avec uniquement des 0).
En pratique tout dépen de ton contexte, en générale on préfère les effets up-régulés car au niveau des odd-ratios c'est plus naturel de dire (par exemple) que l'on a 9 fois plus de risque que 0.2 fois plus de risque (ou 1/0.2 fois moins de risque). Pour moi c'est ça et le coté conventionnel qui joue (par exemple on met toujours les femmes comme modalité de référence dans la variable Sexe).
Re: Interprétation Regression logistique
Que veux tu dire par "Similairement inversé" ?
Et pour l'effet up-régulés, comment savoir facilement qu'on va avoir des odds ratio supérieur à 1 ? Car à part la méthode en testant toutes les modalités je ne vois pas trop.
Merci pour tes réponses
Et pour l'effet up-régulés, comment savoir facilement qu'on va avoir des odds ratio supérieur à 1 ? Car à part la méthode en testant toutes les modalités je ne vois pas trop.
Merci pour tes réponses
Shudmeyer- Nombre de messages : 30
Date d'inscription : 16/05/2012
Re: Interprétation Regression logistique
tu vas avoir des odd ratios supérieurs à 1 sitôt que ton coefficient de ta variable explicative sera supérieur à 0. En effet l'odd-ratio n'est que l'exponentielle du coefficient. Tu peux t'amuser à redémontrer ça, c'est pas trop compliquer. (rappel : exponentielle (0) =1, et est strictement croissante, avec une bijection de ]-inf,+inf[ dans ]0, +inf[.)
par similairement inversé, je pense qu'il veut signifier que c'est analogiquement à l'antipode...
Bien à vous
par similairement inversé, je pense qu'il veut signifier que c'est analogiquement à l'antipode...
Bien à vous
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Interprétation Regression logistique
Bah je ne comprend pas cet effet "inversé", pour moi les méthodes trouvent les mêmes résultats (plus ou moins).
Shudmeyer- Nombre de messages : 30
Date d'inscription : 16/05/2012
Re: Interprétation Regression logistique
Et bien si ta classe à fort risque est la classe de référence (je préviens que j'utilise l'option REF et non EVENT et je crois savoir que la classe de référence est celle indique dans le premier cas et l'autre dans le second cas) tu auras pour OR: a, alors que si tu met en référence ta classe la moins à risque tu auras pour OR: 1/a (façon basique de voir la chose).
Re: Interprétation Regression logistique
Merci pour ces réponses
Malheureusement, j'ai un nouveau probème
Je suis passé maintenant à effectuer une régression logistique non binaire.
Tout va bien, sauf que je ne sais pas comment sortir l'équation de score...
A la base, je voulais faire Y = -0.9397 + 0.5168 * var1 + .. mais pour la suite je bug, car avant grâce à mes variables binarisées ça allait tout seul, mais là comme elles sont en modalité je ne vois pas du tout comment procéder
Malheureusement, j'ai un nouveau probème
Je suis passé maintenant à effectuer une régression logistique non binaire.
Tout va bien, sauf que je ne sais pas comment sortir l'équation de score...
- Code:
Analyse des effets Type 3
Khi-2
Effet DDL de Wald Pr > Khi-2
var1 1 5.0398 0.0248
var2 7 22.9277 0.0018
var3 5 12.4354 0.0293
Estimations par l'analyse du maximum de vraisemblance
Valeur Erreur Khi-2
Paramètre DDL estimée type de Wald Pr > Khi-2
Intercept 1 -0.9397 0.4334 4.7007 0.0302
var1 1 1 0.5168 0.2302 5.0398 0.0248
var2 1 1 0.7797 0.5367 2.1105 0.1463
var2 2 1 -0.6515 0.7474 0.7598 0.3834
var2 4 1 0.5355 0.5130 1.0897 0.2965
var2 5 1 0.1470 0.4803 0.0937 0.7596
var2 6 1 -0.00877 0.4989 0.0003 0.9860
var2 7 1 -1.0365 0.5125 4.0909 0.0431
var2 10 1 -0.6625 0.6722 0.9715 0.3243
var3 1 1 -1.2741 0.5400 5.5670 0.0183
var3 2 1 -1.0443 0.5050 4.2759 0.0387
var3 3 1 -1.1129 0.5175 4.6245 0.0315
var3 4 1 -2.1810 0.7508 8.4389 0.0037
var3 6 1 -2.0171 0.7021 8.2528 0.0041
A la base, je voulais faire Y = -0.9397 + 0.5168 * var1 + .. mais pour la suite je bug, car avant grâce à mes variables binarisées ça allait tout seul, mais là comme elles sont en modalité je ne vois pas du tout comment procéder
Shudmeyer- Nombre de messages : 30
Date d'inscription : 16/05/2012
Re: Interprétation Regression logistique
proposition :
Y = -0.9397+ 0.5168 * (var1 = 1) + 0.7797 *( var2 = 1 ) - 0.6515 *( var2 = 2 ) + 0.5355 *( var2 = 4 )
+ 0.1470 *(var2 = 5) - 0.00877 *( var2 = 6 ) - 1.0365 *( var2 = 7 ) - 0.6625 *( var2 = 10 )
- 1.2741 *(var3 = 1) - 1.0443 *(var3 = 2) - 1.1129 *(var3 = 3) - 2.1810 *(var3 = 4) - 2.0171 *(var3 = 6)
Est-ce de ce genre ou pas du tout ?
Y = -0.9397+ 0.5168 * (var1 = 1) + 0.7797 *( var2 = 1 ) - 0.6515 *( var2 = 2 ) + 0.5355 *( var2 = 4 )
+ 0.1470 *(var2 = 5) - 0.00877 *( var2 = 6 ) - 1.0365 *( var2 = 7 ) - 0.6625 *( var2 = 10 )
- 1.2741 *(var3 = 1) - 1.0443 *(var3 = 2) - 1.1129 *(var3 = 3) - 2.1810 *(var3 = 4) - 2.0171 *(var3 = 6)
Est-ce de ce genre ou pas du tout ?
Shudmeyer- Nombre de messages : 30
Date d'inscription : 16/05/2012
Re: Interprétation Regression logistique
Tu parles de régression logistique polytomique? Si c'est le cas alors sache que là on est pas sur une adaptation direct de la régression logistique binaire au cas multiclasse, il y a application d'un algorithme "bidouille" (un peu comme les SVM avec l'algorithme 1 versus ALL & co). Il y a le choix d'un pivot et la construction de classifiers (si M classes, M-1 classifieurs attendus) qui prédisent la proba d'être plus de la classe k (in 2:M) que de la classe choisie comme pivot (souvent la classe la moins grave).
Je sais que SAS sort directement la classe de prédiction, sous R avec le package vglm j'avais du retrouver moi-même les prédictions et en gros tu regardes si pour chaque cas si ta proba est inférieur ou non à 0.5.
Un document pratique sur la particularité de cette régression: Pratique de la Régression Logistique, Régression Logistique Binaire et Polytomique, R. Rakotomalala
Je sais que SAS sort directement la classe de prédiction, sous R avec le package vglm j'avais du retrouver moi-même les prédictions et en gros tu regardes si pour chaque cas si ta proba est inférieur ou non à 0.5.
Un document pratique sur la particularité de cette régression: Pratique de la Régression Logistique, Régression Logistique Binaire et Polytomique, R. Rakotomalala
Re: Interprétation Regression logistique
Shudmeyer a écrit:proposition :
Y = -0.9397+ 0.5168 * (var1 = 1) + 0.7797 *( var2 = 1 ) - 0.6515 *( var2 = 2 ) + 0.5355 *( var2 = 4 )
+ 0.1470 *(var2 = 5) - 0.00877 *( var2 = 6 ) - 1.0365 *( var2 = 7 ) - 0.6625 *( var2 = 10 )
- 1.2741 *(var3 = 1) - 1.0443 *(var3 = 2) - 1.1129 *(var3 = 3) - 2.1810 *(var3 = 4) - 2.0171 *(var3 = 6)
Est-ce de ce genre ou pas du tout ?
petite précision : il faut comprendre " *(var2=x) " par " *(1 si var2=x, 0 sinon) "
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Interprétation Regression logistique
Oui, mais en mettant juste l'équation que j'ai noté ci-dessous, SAS calcule directement si c'est la bonne modalité qui est retenue pour le calcul.niaboc a écrit:Shudmeyer a écrit:proposition :
Y = -0.9397+ 0.5168 * (var1 = 1) + 0.7797 *( var2 = 1 ) - 0.6515 *( var2 = 2 ) + 0.5355 *( var2 = 4 )
+ 0.1470 *(var2 = 5) - 0.00877 *( var2 = 6 ) - 1.0365 *( var2 = 7 ) - 0.6625 *( var2 = 10 )
- 1.2741 *(var3 = 1) - 1.0443 *(var3 = 2) - 1.1129 *(var3 = 3) - 2.1810 *(var3 = 4) - 2.0171 *(var3 = 6)
Est-ce de ce genre ou pas du tout ?
petite précision : il faut comprendre " *(var2=x) " par " *(1 si var2=x, 0 sinon) "
Par contre j'ai pratiquement que des notes de score négatives, bizarre...
Shudmeyer- Nombre de messages : 30
Date d'inscription : 16/05/2012
Re: Interprétation Regression logistique
Houla tu me fais peur là
Pourquoi il manquerait un exp/1+exp ?
Mon équation me semblait "logique" mais bon après je ne suis pas le plus expert sur les régressions logistiques.
Pourquoi il manquerait un exp/1+exp ?
Mon équation me semblait "logique" mais bon après je ne suis pas le plus expert sur les régressions logistiques.
Shudmeyer- Nombre de messages : 30
Date d'inscription : 16/05/2012
Re: Interprétation Regression logistique
Ben parce que tu as une équation logit... la formule est: P(Y = classe à risque ou à faible risque |Vars) = exp(Intercept + sum Beta_i * Var_i) / (1 + exp(Intercept + sum Beta_i * Var_i))
Re: Interprétation Regression logistique
Ah oui ça je suis d'accord pour calculer la proba.
L'équation que je vous proposais, me sert pour l'instant juste à calculer la note de score et non la probabilité.
L'équation que je vous proposais, me sert pour l'instant juste à calculer la note de score et non la probabilité.
Shudmeyer- Nombre de messages : 30
Date d'inscription : 16/05/2012
Re: Interprétation Regression logistique
Ahh ok mais comme tu parlais de valeurs négatives, ben justement sur ce point rien d'anormal.
Re: Interprétation Regression logistique
Non, ce n'est pas anormal d'avoir des notes négatives. Mais je n'ai que 2 valeurs positives de score, or je trouve ça très peu.
Je ne sais pas si ça montre ou non la bonne ou mauvaise qualité du modèle ou autre chose, mais j'ai surtout connu (dans des précédents score) des scores avec surtout des notes positives.
Je ne sais pas si ça montre ou non la bonne ou mauvaise qualité du modèle ou autre chose, mais j'ai surtout connu (dans des précédents score) des scores avec surtout des notes positives.
Shudmeyer- Nombre de messages : 30
Date d'inscription : 16/05/2012
Re: Interprétation Regression logistique
Il me semble que des indicateurs sur la valeur du modèle il y en a des plus pertinents et plus concret que ça: BIC, AIC, vraisemblance, AUC (pour avoir une valeur de la distribution de tes individus car elle permet de voir celà également), table de confusion ect ect ect.
Re: Interprétation Regression logistique
Tu n'as qu'à ajouter la valeur absolu du score minimum possible à tt le monde... l'important étant plus la différence du score entre les individus, et non pas la valeur du score en lui même.
exemple :
individu score
1 -1.5
2 -1.3
3 0
4 0.5
5 2.5
tu rajoutes 1.5 à tout le monde
individu score
1 0
2 0.2
3 1.5
4 2
5 4
exemple :
individu score
1 -1.5
2 -1.3
3 0
4 0.5
5 2.5
tu rajoutes 1.5 à tout le monde
individu score
1 0
2 0.2
3 1.5
4 2
5 4
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Interprétation Regression logistique
D'accord, merci
Je ne savais si le fait d'avoir des notes négatives donnait un effet négative au score.
Je ne savais si le fait d'avoir des notes négatives donnait un effet négative au score.
Shudmeyer- Nombre de messages : 30
Date d'inscription : 16/05/2012
Re: Interprétation Regression logistique
Ah si, petite remarque !
Le fait d'augmenter tous les scores, fausse la probabilité (écrite par joyeux_lapin13 au dessus)... enfin je crois
Le fait d'augmenter tous les scores, fausse la probabilité (écrite par joyeux_lapin13 au dessus)... enfin je crois
Shudmeyer- Nombre de messages : 30
Date d'inscription : 16/05/2012
Re: Interprétation Regression logistique
mais en fait, je ne comprends pas ta fonction de score.... j'aurai construit le score a partir des probabilité personnellement.
La proba allant de 0 à 1, tu multiplies par 10 et arrondi à l'entier par exemple pour te donner une "note" de 0 à 10 pour tous les individus.
La proba allant de 0 à 1, tu multiplies par 10 et arrondi à l'entier par exemple pour te donner une "note" de 0 à 10 pour tous les individus.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Interprétation Regression logistique
Pour moi la note de score, c'est le résultats de la fonction Y =Intercept + sum Beta_i * Var_i
et après je calcule une probabilité avec la formule :
P = exp(Intercept + sum Beta_i * Var_i) / (1 + exp(Intercept + sum Beta_i * Var_i))
et après je calcule une probabilité avec la formule :
P = exp(Intercept + sum Beta_i * Var_i) / (1 + exp(Intercept + sum Beta_i * Var_i))
Shudmeyer- Nombre de messages : 30
Date d'inscription : 16/05/2012
Sujets similaires
» interprétation régression logistique
» Interprétation résultats: Régression logistique
» Interprétation résultat régression logistique
» Interprétation régression logistique binomiale
» Interprétation de la sortie stepwise Reg logistique sous SAS
» Interprétation résultats: Régression logistique
» Interprétation résultat régression logistique
» Interprétation régression logistique binomiale
» Interprétation de la sortie stepwise Reg logistique sous SAS
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
|
|