Interprétation Regression logistique

par Shudmeyer Jeu 31 Mai 2012 - 13:00

Bonjour,

J'effectue une régression logistique (binaire) pour savoir si ma population est favorable ou non à acheter un certain produit.
Ma variable a expliqué est de l'ordre 0/1 où 1 : la personne à l'intention d'acheter le produit, 0 : la personne n'a pas l'intention d'acheter le produit.
Mes variables explicatives sont toutes quali, en classe et binarisé.

Code:: PROC LOGISTIC data = ... OUTMODEL = ...; CLASS age_1 age_2 age_3 age_4 ass_deces sexe csp_1 csp_2 csp_3 csp_4 csp_5 csp_6 csp_7 csp_8 csp_10 salaire_1 salaire_2 salaire_3 salaire_4 salaire_5 salaire_6 / PARAM=REF ; MODEL produit (event='1') = age_1 age_2 age_3 age_4 ass_deces sexe csp_1 csp_2 csp_3 csp_4 csp_5 csp_6 csp_7 csp_8 csp_10 salaire_1 salaire_2 salaire_3 salaire_4 salaire_5 salaire_6 / SELECTION=stepwise ; weight poids; RUN;

Code:: Analyse des effets Type 3 Khi-2 Effet DDL de Wald Pr > Khi-2 ass_deces 1 4.9354 0.0263 csp_1 1 4.9967 0.0254 csp_7 1 10.4815 0.0012 salaire_5 1 8.8640 0.0029 Estimations par l'analyse du maximum de vraisemblance Valeur Erreur Khi-2 Paramètre DDL estimée type de Wald Pr > Khi-2 Intercept 1 -0.7762 0.6102 1.6182 0.2033 ass_deces 0 1 -0.5018 0.2259 4.9354 0.0263 csp_1 0 1 -0.7822 0.3499 4.9967 0.0254 csp_7 0 1 1.0748 0.3320 10.4815 0.0012 salaire_5 0 1 -1.1519 0.3869 8.8640 0.0029 Estimations des rapports de cotes Valeur estimée Intervalle de confiance Effet du point de Wald à 95 % ass_deces 0 vs 1 0.605 0.389 0.943 csp_1 0 vs 1 0.457 0.230 0.908 csp_7 0 vs 1 2.929 1.528 5.615 salaire_5 0 vs 1 0.316 0.148 0.675

J'ai du mal à interpréter et comprendre mes résultats. Je pensais plutôt avoir des résultats à l'opposé, car là c'est ma csp_7 (retraite) qui a le plus de chance d'acheter mon produit, or ce n'est pas très logique. Et mon salaire_5 (très haut salaire) baisse la chance d'acheter mon produit, or comme c'est un produit assez cher ça serait plutôt logique qu'il l'achète.

Est ce que mon code est bon ? (J'ai bien mis event='1' en plus)
Ce que je trouve bizarre c'est dans mon tableau "Estimations par l'analyse du maximum de vraisemblance", le '0' après le nom des variables, à quoi correspond il ? J'ai l'impression qu'il prend en compte la modalité 0 de mes variables, ce qui n'est pas logique.
Et ma dernière question est sur les Odds Ratio, comment peut on les interpréter ? (surtout avec le "0 vs 1")

Merci beaucoup !

H.

par niaboc Ven 1 Juin 2012 - 8:27

Ton code est bon mais c'est la construction de tes variables "class" qui sont étranges.
Ne crée pas une variable par modalité. Fais une seule variable qui comprend plusieurs modalités, l'interprétation sera plus simple

car dans ton cas, l'odd ratio s'interprète (par exemple) csp_7 non retraité (0) a 2.929 fois plus de chance d'acheter le produit que csp_7 retraité (1).

En effet, le modèle a pris ta modalité '0' comme référence sur tes variables "class". Tu peux rajouter l'option (ref='1') à la suite de tes variables ds "class" et tu auras les résultats que tu veux (les signes des coefficients estimés vont être inversés)

donc c'est bien les résultats que tu attendais qui sont sortis... même si les pauvres peuvent avoir l'intention d'acheter ce produit, puisque c'est l'intention qui compte (hihihi, j'suis hilarant...de la baltique)

par Shudmeyer Ven 1 Juin 2012 - 13:48

Que l'on fasse ma méthode (binarisé les variables) ou la tienne, je suppose que les résultats sont similaire, non ?

Merci pour l'option de la modalité à choisir (les signes changent), et pour te corriger il fallait rajouter l'option (ref='0').

Etant curieux, j'ai voulu tester ta méthode. Mais je me poser une question, au final à la fin pour construire ton équation de score tu dois bien avoir au préhalable binarisé tes variables ?

Je me posais une autre question concernant les modalités de référence. SAS prend par défaut la dernière modalité je crois, je veux donc choisir moi même ma modalité de référence. Quel est le critère pour choisir la "bonne" modalité de référence.
De mémoire, je crois que j'avais entendu qu'il fallait prendre la modalité la plus représenté dans la variable mais je n'en suis pas du tout sur.

Merci en tout cas !

par joyeux_lapin13 Dim 3 Juin 2012 - 17:16

Que l'on fasse ma méthode (binarisé les variables) ou la tienne, je suppose que les résultats sont similaire, non ?

Similairement inversé...

Etant curieux, j'ai voulu tester ta méthode. Mais je me poser une question, au final à la fin pour construire ton équation de score tu dois bien avoir au préhalable binarisé tes variables ?

Si tes variables qualitatives sont dichotomiques alors oui, tu auras une somme d'indicatrice pondérée en fonction des modalités auxquels appartient ton nouvel individu à classer en sachant que pour les modalités de référence le coefficient est automatiquement 0.

Je me posais une autre question concernant les modalités de référence. SAS prend par défaut la dernière modalité je crois, je veux donc choisir moi même ma modalité de référence.

Il me semble que tu l'as toi même écrit, dans la syntaxe CLASS, tu met la modalité de référence pour chacune de tes variables.

Quel est le critère pour choisir la "bonne" modalité de référence.

Algorithmiquement et mathématiquement ça ne change rien puisque les références sont soustraites de la matrice complète (on rappel que pour les variables qualitatives la régression logistique travaille sur le tableau disjonctif complet et donc on a autant de colonnes que de modalités présentes dans toutes les variables), et au final on les retrouve en regardant pour une variable ses colonnes attitrées (ligne avec uniquement des 0).
En pratique tout dépen de ton contexte, en générale on préfère les effets up-régulés car au niveau des odd-ratios c'est plus naturel de dire (par exemple) que l'on a 9 fois plus de risque que 0.2 fois plus de risque (ou 1/0.2 fois moins de risque). Pour moi c'est ça et le coté conventionnel qui joue (par exemple on met toujours les femmes comme modalité de référence dans la variable Sexe).

par Shudmeyer Lun 4 Juin 2012 - 13:52

Que veux tu dire par "Similairement inversé" ?

Et pour l'effet up-régulés, comment savoir facilement qu'on va avoir des odds ratio supérieur à 1 ? Car à part la méthode en testant toutes les modalités je ne vois pas trop.

Merci pour tes réponses Smile

par niaboc Lun 4 Juin 2012 - 14:09

tu vas avoir des odd ratios supérieurs à 1 sitôt que ton coefficient de ta variable explicative sera supérieur à 0. En effet l'odd-ratio n'est que l'exponentielle du coefficient. Tu peux t'amuser à redémontrer ça, c'est pas trop compliquer. (rappel : exponentielle (0) =1, et est strictement croissante, avec une bijection de ]-inf,+inf[ dans ]0, +inf[.)

par similairement inversé, je pense qu'il veut signifier que c'est analogiquement à l'antipode...

Bien à vous geek

par Shudmeyer Lun 4 Juin 2012 - 14:19

Bah je ne comprend pas cet effet "inversé", pour moi les méthodes trouvent les mêmes résultats (plus ou moins).

par joyeux_lapin13 Lun 4 Juin 2012 - 16:44

Et bien si ta classe à fort risque est la classe de référence (je préviens que j'utilise l'option REF et non EVENT et je crois savoir que la classe de référence est celle indique dans le premier cas et l'autre dans le second cas) tu auras pour OR: a, alors que si tu met en référence ta classe la moins à risque tu auras pour OR: 1/a (façon basique de voir la chose).

par Shudmeyer Mer 6 Juin 2012 - 13:59

Merci pour ces réponses Smile

Malheureusement, j'ai un nouveau probème Very Happy

Je suis passé maintenant à effectuer une régression logistique non binaire.
Tout va bien, sauf que je ne sais pas comment sortir l'équation de score...

Code:: Analyse des effets Type 3 Khi-2 Effet DDL de Wald Pr > Khi-2 var1 1 5.0398 0.0248 var2 7 22.9277 0.0018 var3 5 12.4354 0.0293 Estimations par l'analyse du maximum de vraisemblance Valeur Erreur Khi-2 Paramètre DDL estimée type de Wald Pr > Khi-2 Intercept 1 -0.9397 0.4334 4.7007 0.0302 var1 1 1 0.5168 0.2302 5.0398 0.0248 var2 1 1 0.7797 0.5367 2.1105 0.1463 var2 2 1 -0.6515 0.7474 0.7598 0.3834 var2 4 1 0.5355 0.5130 1.0897 0.2965 var2 5 1 0.1470 0.4803 0.0937 0.7596 var2 6 1 -0.00877 0.4989 0.0003 0.9860 var2 7 1 -1.0365 0.5125 4.0909 0.0431 var2 10 1 -0.6625 0.6722 0.9715 0.3243 var3 1 1 -1.2741 0.5400 5.5670 0.0183 var3 2 1 -1.0443 0.5050 4.2759 0.0387 var3 3 1 -1.1129 0.5175 4.6245 0.0315 var3 4 1 -2.1810 0.7508 8.4389 0.0037 var3 6 1 -2.0171 0.7021 8.2528 0.0041

A la base, je voulais faire Y = -0.9397 + 0.5168 * var1 + .. mais pour la suite je bug, car avant grâce à mes variables binarisées ça allait tout seul, mais là comme elles sont en modalité je ne vois pas du tout comment procéder Embarassed

par Shudmeyer Mer 6 Juin 2012 - 14:51

proposition :
Y = -0.9397+ 0.5168 * (var1 = 1) + 0.7797 *( var2 = 1 ) - 0.6515 *( var2 = 2 ) + 0.5355 *( var2 = 4 )
+ 0.1470 *(var2 = 5) - 0.00877 *( var2 = 6 ) - 1.0365 *( var2 = 7 ) - 0.6625 *( var2 = 10 )
- 1.2741 *(var3 = 1) - 1.0443 *(var3 = 2) - 1.1129 *(var3 = 3) - 2.1810 *(var3 = 4) - 2.0171 *(var3 = 6)

Est-ce de ce genre ou pas du tout ?

par joyeux_lapin13 Mer 6 Juin 2012 - 19:01

Tu parles de régression logistique polytomique? Si c'est le cas alors sache que là on est pas sur une adaptation direct de la régression logistique binaire au cas multiclasse, il y a application d'un algorithme "bidouille" (un peu comme les SVM avec l'algorithme 1 versus ALL & co). Il y a le choix d'un pivot et la construction de classifiers (si M classes, M-1 classifieurs attendus) qui prédisent la proba d'être plus de la classe k (in 2:M) que de la classe choisie comme pivot (souvent la classe la moins grave).

Je sais que SAS sort directement la classe de prédiction, sous R avec le package vglm j'avais du retrouver moi-même les prédictions et en gros tu regardes si pour chaque cas si ta proba est inférieur ou non à 0.5.

Un document pratique sur la particularité de cette régression: Pratique de la Régression Logistique, Régression Logistique Binaire et Polytomique, R. Rakotomalala

par niaboc Jeu 7 Juin 2012 - 6:56

Shudmeyer a écrit:proposition :
Y = -0.9397+ 0.5168 * (var1 = 1) + 0.7797 *( var2 = 1 ) - 0.6515 *( var2 = 2 ) + 0.5355 *( var2 = 4 )
+ 0.1470 *(var2 = 5) - 0.00877 *( var2 = 6 ) - 1.0365 *( var2 = 7 ) - 0.6625 *( var2 = 10 )
- 1.2741 *(var3 = 1) - 1.0443 *(var3 = 2) - 1.1129 *(var3 = 3) - 2.1810 *(var3 = 4) - 2.0171 *(var3 = 6)

Est-ce de ce genre ou pas du tout ?

petite précision : il faut comprendre " *(var2=x) " par " *(1 si var2=x, 0 sinon) "

par Shudmeyer Jeu 7 Juin 2012 - 7:34

niaboc a écrit:
Shudmeyer a écrit:proposition :
Y = -0.9397+ 0.5168 * (var1 = 1) + 0.7797 *( var2 = 1 ) - 0.6515 *( var2 = 2 ) + 0.5355 *( var2 = 4 )
+ 0.1470 *(var2 = 5) - 0.00877 *( var2 = 6 ) - 1.0365 *( var2 = 7 ) - 0.6625 *( var2 = 10 )
- 1.2741 *(var3 = 1) - 1.0443 *(var3 = 2) - 1.1129 *(var3 = 3) - 2.1810 *(var3 = 4) - 2.0171 *(var3 = 6)

Est-ce de ce genre ou pas du tout ?

petite précision : il faut comprendre " *(var2=x) " par " *(1 si var2=x, 0 sinon) "

Oui, mais en mettant juste l'équation que j'ai noté ci-dessous, SAS calcule directement si c'est la bonne modalité qui est retenue pour le calcul.

Par contre j'ai pratiquement que des notes de score négatives, bizarre...

par joyeux_lapin13 Jeu 7 Juin 2012 - 7:47

Il me semble qu'il manque un exp/1+exp dans tout ça...

par Shudmeyer Jeu 7 Juin 2012 - 7:53

Houla tu me fais peur là Shocked

Pourquoi il manquerait un exp/1+exp ?

Mon équation me semblait "logique" mais bon après je ne suis pas le plus expert sur les régressions logistiques.

par joyeux_lapin13 Jeu 7 Juin 2012 - 7:55

Ben parce que tu as une équation logit... la formule est: P(Y = classe à risque ou à faible risque |Vars) = exp(Intercept + sum Beta_i * Var_i) / (1 + exp(Intercept + sum Beta_i * Var_i))

par Shudmeyer Jeu 7 Juin 2012 - 8:11

Ah oui ça je suis d'accord pour calculer la proba.
L'équation que je vous proposais, me sert pour l'instant juste à calculer la note de score et non la probabilité.

par joyeux_lapin13 Jeu 7 Juin 2012 - 8:15

Ahh ok mais comme tu parlais de valeurs négatives, ben justement sur ce point rien d'anormal.

par Shudmeyer Jeu 7 Juin 2012 - 8:39

Non, ce n'est pas anormal d'avoir des notes négatives. Mais je n'ai que 2 valeurs positives de score, or je trouve ça très peu.
Je ne sais pas si ça montre ou non la bonne ou mauvaise qualité du modèle ou autre chose, mais j'ai surtout connu (dans des précédents score) des scores avec surtout des notes positives.

par joyeux_lapin13 Jeu 7 Juin 2012 - 9:11

Il me semble que des indicateurs sur la valeur du modèle il y en a des plus pertinents et plus concret que ça: BIC, AIC, vraisemblance, AUC (pour avoir une valeur de la distribution de tes individus car elle permet de voir celà également), table de confusion ect ect ect.

par niaboc Jeu 7 Juin 2012 - 15:55

Tu n'as qu'à ajouter la valeur absolu du score minimum possible à tt le monde... l'important étant plus la différence du score entre les individus, et non pas la valeur du score en lui même.

exemple :
individu score
1 -1.5
2 -1.3
3 0
4 0.5
5 2.5

tu rajoutes 1.5 à tout le monde

individu score
1 0
2 0.2
3 1.5
4 2
5 4

par Shudmeyer Ven 8 Juin 2012 - 7:50

D'accord, merci Smile

Je ne savais si le fait d'avoir des notes négatives donnait un effet négative au score.

par Shudmeyer Ven 8 Juin 2012 - 8:05

Ah si, petite remarque !

Le fait d'augmenter tous les scores, fausse la probabilité (écrite par joyeux_lapin13 au dessus)... enfin je crois Very Happy

par niaboc Ven 8 Juin 2012 - 15:38

mais en fait, je ne comprends pas ta fonction de score.... j'aurai construit le score a partir des probabilité personnellement.

La proba allant de 0 à 1, tu multiplies par 10 et arrondi à l'entier par exemple pour te donner une "note" de 0 à 10 pour tous les individus.

par Shudmeyer Ven 8 Juin 2012 - 15:46

Pour moi la note de score, c'est le résultats de la fonction Y =Intercept + sum Beta_i * Var_i
et après je calcule une probabilité avec la formule :
P = exp(Intercept + sum Beta_i * Var_i) / (1 + exp(Intercept + sum Beta_i * Var_i))

par Contenu sponsorisé

Interprétation Regression logistique

Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique

Re: Interprétation Regression logistique