Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine
Aucun utilisateur

Le Deal du moment : -17%
Casque de réalité virtuelle Meta Quest 2 ...
Voir le deal
249.99 €

Interprétation Regression logistique

3 participants

Aller en bas

Interprétation Regression logistique Empty Interprétation Regression logistique

Message par Shudmeyer Jeu 31 Mai 2012 - 13:00

Bonjour,

J'effectue une régression logistique (binaire) pour savoir si ma population est favorable ou non à acheter un certain produit.
Ma variable a expliqué est de l'ordre 0/1 où 1 : la personne à l'intention d'acheter le produit, 0 : la personne n'a pas l'intention d'acheter le produit.
Mes variables explicatives sont toutes quali, en classe et binarisé.
Code:
PROC LOGISTIC data = ...  OUTMODEL = ...;
    CLASS  age_1 age_2 age_3 age_4 ass_deces sexe csp_1 csp_2 csp_3 csp_4 csp_5 csp_6 csp_7 csp_8 csp_10 salaire_1 salaire_2 salaire_3 salaire_4 salaire_5 salaire_6 / PARAM=REF  ;

    MODEL produit (event='1') = age_1 age_2 age_3 age_4 ass_deces sexe csp_1 csp_2 csp_3 csp_4 csp_5 csp_6 csp_7 csp_8 csp_10 salaire_1 salaire_2 salaire_3 salaire_4 salaire_5 salaire_6  / SELECTION=stepwise ;
weight poids;
RUN;

Code:
                  Analyse des effets Type 3

                                                          Khi-2
                              Effet            DDL      de Wald    Pr > Khi-2

                              ass_deces        1        4.9354        0.0263
                              csp_1            1        4.9967        0.0254
                              csp_7            1      10.4815        0.0012
                              salaire_5        1        8.8640        0.0029


                          Estimations par l'analyse du maximum de vraisemblance

                                            Valeur      Erreur        Khi-2
                Paramètre        DDL    estimée        type      de Wald    Pr > Khi-2

                Intercept        1    -0.7762      0.6102        1.6182        0.2033
                ass_deces    0    1    -0.5018      0.2259        4.9354        0.0263
                csp_1        0    1    -0.7822      0.3499        4.9967        0.0254
                csp_7        0    1      1.0748      0.3320      10.4815        0.0012
                salaire_5    0    1    -1.1519      0.3869        8.8640        0.0029

                                    Estimations des rapports de cotes

                                                        Valeur
                                                        estimée    Intervalle de confiance
                          Effet                        du point        de Wald à 95 %

                          ass_deces    0 vs 1      0.605      0.389          0.943
                          csp_1        0 vs 1      0.457      0.230          0.908
                          csp_7        0 vs 1      2.929      1.528          5.615
                          salaire_5    0 vs 1      0.316      0.148          0.675

J'ai du mal à interpréter et comprendre mes résultats. Je pensais plutôt avoir des résultats à l'opposé, car là c'est ma csp_7 (retraite) qui a le plus de chance d'acheter mon produit, or ce n'est pas très logique. Et mon salaire_5 (très haut salaire) baisse la chance d'acheter mon produit, or comme c'est un produit assez cher ça serait plutôt logique qu'il l'achète.

Est ce que mon code est bon ? (J'ai bien mis event='1' en plus)
Ce que je trouve bizarre c'est dans mon tableau "Estimations par l'analyse du maximum de vraisemblance", le '0' après le nom des variables, à quoi correspond il ? J'ai l'impression qu'il prend en compte la modalité 0 de mes variables, ce qui n'est pas logique.
Et ma dernière question est sur les Odds Ratio, comment peut on les interpréter ? (surtout avec le "0 vs 1")

Merci beaucoup !

H.

Shudmeyer

Nombre de messages : 30
Date d'inscription : 16/05/2012

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par niaboc Ven 1 Juin 2012 - 8:27

Ton code est bon mais c'est la construction de tes variables "class" qui sont étranges.
Ne crée pas une variable par modalité. Fais une seule variable qui comprend plusieurs modalités, l'interprétation sera plus simple

car dans ton cas, l'odd ratio s'interprète (par exemple) csp_7 non retraité (0) a 2.929 fois plus de chance d'acheter le produit que csp_7 retraité (1).

En effet, le modèle a pris ta modalité '0' comme référence sur tes variables "class". Tu peux rajouter l'option (ref='1') à la suite de tes variables ds "class" et tu auras les résultats que tu veux (les signes des coefficients estimés vont être inversés)

donc c'est bien les résultats que tu attendais qui sont sortis... même si les pauvres peuvent avoir l'intention d'acheter ce produit, puisque c'est l'intention qui compte (hihihi, j'suis hilarant...de la baltique)
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par Shudmeyer Ven 1 Juin 2012 - 13:48

Que l'on fasse ma méthode (binarisé les variables) ou la tienne, je suppose que les résultats sont similaire, non ?

Merci pour l'option de la modalité à choisir (les signes changent), et pour te corriger il fallait rajouter l'option (ref='0').

Etant curieux, j'ai voulu tester ta méthode. Mais je me poser une question, au final à la fin pour construire ton équation de score tu dois bien avoir au préhalable binarisé tes variables ?

Je me posais une autre question concernant les modalités de référence. SAS prend par défaut la dernière modalité je crois, je veux donc choisir moi même ma modalité de référence. Quel est le critère pour choisir la "bonne" modalité de référence.
De mémoire, je crois que j'avais entendu qu'il fallait prendre la modalité la plus représenté dans la variable mais je n'en suis pas du tout sur.

Merci en tout cas !

Shudmeyer

Nombre de messages : 30
Date d'inscription : 16/05/2012

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par joyeux_lapin13 Dim 3 Juin 2012 - 17:16

Que l'on fasse ma méthode (binarisé les variables) ou la tienne, je suppose que les résultats sont similaire, non ?

Similairement inversé...

Etant curieux, j'ai voulu tester ta méthode. Mais je me poser une question, au final à la fin pour construire ton équation de score tu dois bien avoir au préhalable binarisé tes variables ?

Si tes variables qualitatives sont dichotomiques alors oui, tu auras une somme d'indicatrice pondérée en fonction des modalités auxquels appartient ton nouvel individu à classer en sachant que pour les modalités de référence le coefficient est automatiquement 0.

Je me posais une autre question concernant les modalités de référence. SAS prend par défaut la dernière modalité je crois, je veux donc choisir moi même ma modalité de référence.

Il me semble que tu l'as toi même écrit, dans la syntaxe CLASS, tu met la modalité de référence pour chacune de tes variables.

Quel est le critère pour choisir la "bonne" modalité de référence.

Algorithmiquement et mathématiquement ça ne change rien puisque les références sont soustraites de la matrice complète (on rappel que pour les variables qualitatives la régression logistique travaille sur le tableau disjonctif complet et donc on a autant de colonnes que de modalités présentes dans toutes les variables), et au final on les retrouve en regardant pour une variable ses colonnes attitrées (ligne avec uniquement des 0).
En pratique tout dépen de ton contexte, en générale on préfère les effets up-régulés car au niveau des odd-ratios c'est plus naturel de dire (par exemple) que l'on a 9 fois plus de risque que 0.2 fois plus de risque (ou 1/0.2 fois moins de risque). Pour moi c'est ça et le coté conventionnel qui joue (par exemple on met toujours les femmes comme modalité de référence dans la variable Sexe).
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 40
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par Shudmeyer Lun 4 Juin 2012 - 13:52

Que veux tu dire par "Similairement inversé" ?

Et pour l'effet up-régulés, comment savoir facilement qu'on va avoir des odds ratio supérieur à 1 ? Car à part la méthode en testant toutes les modalités je ne vois pas trop.

Merci pour tes réponses Smile

Shudmeyer

Nombre de messages : 30
Date d'inscription : 16/05/2012

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par niaboc Lun 4 Juin 2012 - 14:09

tu vas avoir des odd ratios supérieurs à 1 sitôt que ton coefficient de ta variable explicative sera supérieur à 0. En effet l'odd-ratio n'est que l'exponentielle du coefficient. Tu peux t'amuser à redémontrer ça, c'est pas trop compliquer. (rappel : exponentielle (0) =1, et est strictement croissante, avec une bijection de ]-inf,+inf[ dans ]0, +inf[.)

par similairement inversé, je pense qu'il veut signifier que c'est analogiquement à l'antipode...

Bien à vous geek
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par Shudmeyer Lun 4 Juin 2012 - 14:19

Bah je ne comprend pas cet effet "inversé", pour moi les méthodes trouvent les mêmes résultats (plus ou moins).

Shudmeyer

Nombre de messages : 30
Date d'inscription : 16/05/2012

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par joyeux_lapin13 Lun 4 Juin 2012 - 16:44

Et bien si ta classe à fort risque est la classe de référence (je préviens que j'utilise l'option REF et non EVENT et je crois savoir que la classe de référence est celle indique dans le premier cas et l'autre dans le second cas) tu auras pour OR: a, alors que si tu met en référence ta classe la moins à risque tu auras pour OR: 1/a (façon basique de voir la chose).
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 40
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par Shudmeyer Mer 6 Juin 2012 - 13:59

Merci pour ces réponses Smile

Malheureusement, j'ai un nouveau probème Very Happy
Je suis passé maintenant à effectuer une régression logistique non binaire.
Tout va bien, sauf que je ne sais pas comment sortir l'équation de score...

Code:
                        Analyse des effets Type 3

                                        Khi-2
                Effet      DDL      de Wald    Pr > Khi-2

                var1        1        5.0398        0.0248
                var2        7      22.9277        0.0018
                var3          5      12.4354        0.0293


            Estimations par l'analyse du maximum de vraisemblance

                            Valeur      Erreur        Khi-2
  Paramètre      DDL    estimée        type      de Wald    Pr > Khi-2

  Intercept        1    -0.9397      0.4334        4.7007        0.0302
  var1    1      1      0.5168      0.2302        5.0398        0.0248
  var2  1      1      0.7797      0.5367        2.1105        0.1463
  var2  2      1    -0.6515      0.7474        0.7598        0.3834
  var2  4      1      0.5355      0.5130        1.0897        0.2965
  var2  5      1      0.1470      0.4803        0.0937        0.7596
  var2  6      1    -0.00877      0.4989        0.0003        0.9860
  var2  7      1    -1.0365      0.5125        4.0909        0.0431
  var2  10      1    -0.6625      0.6722        0.9715        0.3243
  var3  1      1    -1.2741      0.5400        5.5670        0.0183
  var3  2      1    -1.0443      0.5050        4.2759        0.0387
  var3  3      1    -1.1129      0.5175        4.6245        0.0315
  var3  4      1    -2.1810      0.7508        8.4389        0.0037
  var3  6      1    -2.0171      0.7021        8.2528        0.0041

A la base, je voulais faire Y = -0.9397 + 0.5168 * var1 + .. mais pour la suite je bug, car avant grâce à mes variables binarisées ça allait tout seul, mais là comme elles sont en modalité je ne vois pas du tout comment procéder Embarassed

Shudmeyer

Nombre de messages : 30
Date d'inscription : 16/05/2012

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par Shudmeyer Mer 6 Juin 2012 - 14:51

proposition :
Y = -0.9397+ 0.5168 * (var1 = 1) + 0.7797 *( var2 = 1 ) - 0.6515 *( var2 = 2 ) + 0.5355 *( var2 = 4 )
+ 0.1470 *(var2 = 5) - 0.00877 *( var2 = 6 ) - 1.0365 *( var2 = 7 ) - 0.6625 *( var2 = 10 )
- 1.2741 *(var3 = 1) - 1.0443 *(var3 = 2) - 1.1129 *(var3 = 3) - 2.1810 *(var3 = 4) - 2.0171 *(var3 = 6)

Est-ce de ce genre ou pas du tout ?

Shudmeyer

Nombre de messages : 30
Date d'inscription : 16/05/2012

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par joyeux_lapin13 Mer 6 Juin 2012 - 19:01

Tu parles de régression logistique polytomique? Si c'est le cas alors sache que là on est pas sur une adaptation direct de la régression logistique binaire au cas multiclasse, il y a application d'un algorithme "bidouille" (un peu comme les SVM avec l'algorithme 1 versus ALL & co). Il y a le choix d'un pivot et la construction de classifiers (si M classes, M-1 classifieurs attendus) qui prédisent la proba d'être plus de la classe k (in 2:M) que de la classe choisie comme pivot (souvent la classe la moins grave).

Je sais que SAS sort directement la classe de prédiction, sous R avec le package vglm j'avais du retrouver moi-même les prédictions et en gros tu regardes si pour chaque cas si ta proba est inférieur ou non à 0.5.

Un document pratique sur la particularité de cette régression: Pratique de la Régression Logistique, Régression Logistique Binaire et Polytomique, R. Rakotomalala
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 40
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par niaboc Jeu 7 Juin 2012 - 6:56

Shudmeyer a écrit:proposition :
Y = -0.9397+ 0.5168 * (var1 = 1) + 0.7797 *( var2 = 1 ) - 0.6515 *( var2 = 2 ) + 0.5355 *( var2 = 4 )
+ 0.1470 *(var2 = 5) - 0.00877 *( var2 = 6 ) - 1.0365 *( var2 = 7 ) - 0.6625 *( var2 = 10 )
- 1.2741 *(var3 = 1) - 1.0443 *(var3 = 2) - 1.1129 *(var3 = 3) - 2.1810 *(var3 = 4) - 2.0171 *(var3 = 6)

Est-ce de ce genre ou pas du tout ?

petite précision : il faut comprendre " *(var2=x) " par " *(1 si var2=x, 0 sinon) "
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par Shudmeyer Jeu 7 Juin 2012 - 7:34

niaboc a écrit:
Shudmeyer a écrit:proposition :
Y = -0.9397+ 0.5168 * (var1 = 1) + 0.7797 *( var2 = 1 ) - 0.6515 *( var2 = 2 ) + 0.5355 *( var2 = 4 )
+ 0.1470 *(var2 = 5) - 0.00877 *( var2 = 6 ) - 1.0365 *( var2 = 7 ) - 0.6625 *( var2 = 10 )
- 1.2741 *(var3 = 1) - 1.0443 *(var3 = 2) - 1.1129 *(var3 = 3) - 2.1810 *(var3 = 4) - 2.0171 *(var3 = 6)

Est-ce de ce genre ou pas du tout ?

petite précision : il faut comprendre " *(var2=x) " par " *(1 si var2=x, 0 sinon) "
Oui, mais en mettant juste l'équation que j'ai noté ci-dessous, SAS calcule directement si c'est la bonne modalité qui est retenue pour le calcul.

Par contre j'ai pratiquement que des notes de score négatives, bizarre...

Shudmeyer

Nombre de messages : 30
Date d'inscription : 16/05/2012

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par joyeux_lapin13 Jeu 7 Juin 2012 - 7:47

Il me semble qu'il manque un exp/1+exp dans tout ça...
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 40
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par Shudmeyer Jeu 7 Juin 2012 - 7:53

Houla tu me fais peur là Shocked
Pourquoi il manquerait un exp/1+exp ?

Mon équation me semblait "logique" mais bon après je ne suis pas le plus expert sur les régressions logistiques.

Shudmeyer

Nombre de messages : 30
Date d'inscription : 16/05/2012

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par joyeux_lapin13 Jeu 7 Juin 2012 - 7:55

Ben parce que tu as une équation logit... la formule est: P(Y = classe à risque ou à faible risque |Vars) = exp(Intercept + sum Beta_i * Var_i) / (1 + exp(Intercept + sum Beta_i * Var_i))
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 40
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par Shudmeyer Jeu 7 Juin 2012 - 8:11

Ah oui ça je suis d'accord pour calculer la proba.
L'équation que je vous proposais, me sert pour l'instant juste à calculer la note de score et non la probabilité.

Shudmeyer

Nombre de messages : 30
Date d'inscription : 16/05/2012

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par joyeux_lapin13 Jeu 7 Juin 2012 - 8:15

Ahh ok mais comme tu parlais de valeurs négatives, ben justement sur ce point rien d'anormal.
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 40
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par Shudmeyer Jeu 7 Juin 2012 - 8:39

Non, ce n'est pas anormal d'avoir des notes négatives. Mais je n'ai que 2 valeurs positives de score, or je trouve ça très peu.
Je ne sais pas si ça montre ou non la bonne ou mauvaise qualité du modèle ou autre chose, mais j'ai surtout connu (dans des précédents score) des scores avec surtout des notes positives.

Shudmeyer

Nombre de messages : 30
Date d'inscription : 16/05/2012

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par joyeux_lapin13 Jeu 7 Juin 2012 - 9:11

Il me semble que des indicateurs sur la valeur du modèle il y en a des plus pertinents et plus concret que ça: BIC, AIC, vraisemblance, AUC (pour avoir une valeur de la distribution de tes individus car elle permet de voir celà également), table de confusion ect ect ect.
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 40
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par niaboc Jeu 7 Juin 2012 - 15:55

Tu n'as qu'à ajouter la valeur absolu du score minimum possible à tt le monde... l'important étant plus la différence du score entre les individus, et non pas la valeur du score en lui même.

exemple :
individu score
1 -1.5
2 -1.3
3 0
4 0.5
5 2.5

tu rajoutes 1.5 à tout le monde

individu score
1 0
2 0.2
3 1.5
4 2
5 4
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par Shudmeyer Ven 8 Juin 2012 - 7:50

D'accord, merci Smile

Je ne savais si le fait d'avoir des notes négatives donnait un effet négative au score.

Shudmeyer

Nombre de messages : 30
Date d'inscription : 16/05/2012

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par Shudmeyer Ven 8 Juin 2012 - 8:05

Ah si, petite remarque !

Le fait d'augmenter tous les scores, fausse la probabilité (écrite par joyeux_lapin13 au dessus)... enfin je crois Very Happy

Shudmeyer

Nombre de messages : 30
Date d'inscription : 16/05/2012

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par niaboc Ven 8 Juin 2012 - 15:38

mais en fait, je ne comprends pas ta fonction de score.... j'aurai construit le score a partir des probabilité personnellement.

La proba allant de 0 à 1, tu multiplies par 10 et arrondi à l'entier par exemple pour te donner une "note" de 0 à 10 pour tous les individus.
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par Shudmeyer Ven 8 Juin 2012 - 15:46

Pour moi la note de score, c'est le résultats de la fonction Y =Intercept + sum Beta_i * Var_i
et après je calcule une probabilité avec la formule :
P = exp(Intercept + sum Beta_i * Var_i) / (1 + exp(Intercept + sum Beta_i * Var_i))

Shudmeyer

Nombre de messages : 30
Date d'inscription : 16/05/2012

Revenir en haut Aller en bas

Interprétation Regression logistique Empty Re: Interprétation Regression logistique

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum