Re: Besoin d'aide INTERPRETATION REGRESSION LOGISTIQUE

par droopy Mer 28 Oct 2009 - 10:32

kazy13/75 a écrit:Si une variable explicative binaire est à plus de 90% "non" (dc très peu de oui), je suppose qu'elle suppose très explicative ds mon modèle final.

Tout dépend, si ta variable dépendante est elle constituée à 50% de oui et de non, à ce moment la ta variable à 90% de non ne te donnera que peut d'information sur ta variable dépendante puisque dans presque un cas sur deux, tu auras un non qui seras associée soit à un non soit à un oui de ta variable dépendante. Dans ce cas cette variable sera peu discriminante.

kazy13/75 a écrit:Puis je dire : je ne l'intègre pas dans ma reg mais dans l'interprétation finale, en expliquant mon modèle, je préciserai que le fait d'"être non" sur cette variable est important dans la décision.
Je pose cette question car effectivement, après plusieurs recodages de mes autres variables, je constate qu'au step1, c'est tjrs cette var qui est la plus significative...
merci par avance

Ca me semble difficile parce qu'on peut te dire, mais si cette variable explique presque à elle toute seule la variable dépendante, pourquoi ne pas l'avoir intégrer dans le modèle ? parce qu'après tout le but est d'avoir le "meilleur" modèle.
Par contre ça ne t'empêche pas de voir ce qui se passe quand tu ne l'intègres pas en effet.

par kazy13/75 Mer 28 Oct 2009 - 11:04

ok merci pour ces précisions. ps : j'ai bien raison pour forward LR (mdr les stats en anglais pfff). je vais voir ce que cela donne.
encore merci droopy

par kazy13/75 Mer 28 Oct 2009 - 13:36

interprétation des coeff :
dans les variables présentes dans l'équation du modèle, les coeff sont soit + soit -. Ma question est de savoir dans quel sens les coeff peuvent jouer un role d'accord ou de rejet?
Lorsque -, ca joue un role dans le sens d'une acceptation??? ET donc si +, néfaste quant à l'attribution???
merci

par kazy13/75 Mer 28 Oct 2009 - 17:04

en fait, il faut donc interpréter les exponentiels (bi) ou odd ratio. ce qui me gene, c'est comment interpréter cet odd + ou - : si ma variable à deux modalités, sur quelle modalité je peux affirmer tant de %???

par droopy Jeu 29 Oct 2009 - 23:39

En général chez moi un moins ça a plutôt tendance à vouloir dire un effet négatif.

Tu peux très bien tirer des conclusions a partir des deux. Un coeff négatif va dans le sens d'un rejet puisque si tu es négatif tu vas faire diminuer la proba de succès.
Le odd ratio (l'exponentiel des paramètres) est effectivement intéressant puisqu'il mesure un rapport des chances. Un rapport des chances c'est la proba de succès selon une variable diviser par la proba de succès si tu n'as pas cette variable.

Si tu prends l'exemple suivant :

Code:: independante Reponse a b succes 20 60 echec 50 10

Ici le rapport des chances d'avoir un succès si tu es b est de 60/10 et si tu es a elle est de 20/50, donc le rapport des chances de succès si tu es b par rapport à a est de (60/10)/(20/50) = 6/0.4 = 15.

Si tu fais la regression logistique de ce modèle tu auras pour la modalité b une valeur de paramètre égale à 2.7080502 et exp(2.7080502) = 15.

Donc la valeur du paramètre b qui est positive me dit que b est plus lié avec le succès que a, et le odd ratio me dit que le rapport des chances d'avoir un succès en étant b / des chances d'avoir un succès en étant a est de 15.

Si on aurait regarder a par rapport à b on aurait eu un coeff de -2.7080502 et un rapport des chances de 0.0667 (1/15) --> tu en tires les mêmes conclusions que précédement.

Ici il n'est pas question de % de variance expliquée on est pas dans un cas de modèle linéaire, mais dans un GLM.

Tu peux essayer avec ton jeu de donnée en ne prenant qu'une seule variable pour voir si tu retombes sur tes pattes.

par kazy13/75 Ven 30 Oct 2009 - 13:42

Bonjour droopy et merci pour tes explications claires!
De mon coté, suite à différentes lectures, j'ai interpréter les coeff des var explicatives de trois manières :
1) signe + ou - : effectviement comme tu me l'as souligné, ca va ds le sens d'un accord (+) ou d'un rejet (-).

2) Il est possible d’interpréter les coefficients comme une régression simple où les coefficients représenteraient l’impact d’une unité de plus sur le log des chances (ratio des probabilités).

En transformant mathématiquement les coefficients, l’analyse est rendue plus concrète :

Une façon d’interpréter les coefficients est de calculer l’impact sur la probabilité.

La moyenne indique la probabilité. Donc, la probabilité que l’aide soit acceptée est de 58% (accords / nombre de décisions total).

Variation :

∆ prob (phénomène arrive) = b_i* p(1-p)

= 3.583 * 0.58(1-0.58)

= 0.87

Donc une unité de plus envers la radiation (une de mes variables qui est ici oui ou non )augmente de 87% la probabilité d’avoir une aide. SENS DE "une unité"???

3)

- Si bi est négatif, e^bi <1 (e^bi= odds) : l'évènement a moins de chance de se produire par rapport à la modalité de référence de la variable. En d'autres termes, les individus appartenant à la modalité considérée de la variable explicative ont [(1- e^bi)*100] % moins de chance que leur homologue de la modalité de référence de subir l'évènement étudié.

- Si bi est positif, e^bi >1 : l'évènement a plus de chance de se produire par rapport à la modalité de référence de la variable. Autrement dit, les individus appartenant à la modalité considérée de la variable explicative ont donc [(e^bi -1)*100] % plus de chance que leur homologue de la modalité de référence de subir l'évènement étudié.

Donc j'ai par exemple, pour la var "radiation", exp (bi) = 35.996 donc mon rapport de cote est ici de 35??? Dans ton exemple, que sont les réponses a et b? chances de succès d'être b par rapport à a???

merci par avance.

par droopy Ven 30 Oct 2009 - 14:12

1) oui parce que exp(-x) donne quelque chose d'inférieur a 1 donc tu as moins de chance d'avoir un succès et exp(x) donne l'inverse (si x est>0) et exp(0)=1 --> le même rapport des chances.

2) me semble bizarre ton truc ... je ne vois pas trop ou tu veux en venir avec ton truc, je crois que le odds ratio est amplement suffisant.

3)

Si bi est négatif, e^bi <1 (e^bi=
odds) : l'évènement a moins de chance de se produire par rapport à la
modalité de référence de la variable.

Tout a fait.

En d'autres termes, les individus
appartenant à la modalité considérée de la variable explicative ont
[(1- e^bi)*100] % moins de chance que leur homologue de la modalité de référence de subir l'évènement étudié.
- Si bi est positif, e^bi
>1 : l'évènement a plus de chance de se produire par rapport à la
modalité de référence de la variable. Autrement dit, les individus
appartenant à la modalité considérée de la variable explicative ont
donc [(e^bi -1)*100] % plus de chance que leur homologue de la modalité de référence de subir l'évènement étudié.

--> la chance est un rapport de probabilité sur un rapport de probabilité, si avec une pièce truquée tu as une proba de 0.6 de faire face, si avec une autre pièce tu as une proba de 0.5 de faire face, alors le rapport des chances est de faire face avec une pièce truqée par rapport à une pièce normale est de (0.6/0.4)/(0.5/0.5) = 1.5 --> donc tu as 1.5 fois plus de chance de faire face avec ta pièce truquée. Mais tu peux aussi prendre les choses dans l'autre sens, le rapport des chances de faire face avec une pièce non truquée par rapport à une pièce truquée, ici il est de 2/3, donc tu auras moins de chance de faire face avec la pièce non truquée qu'avec la pièce truquée. Ce ne sont pas des pourcentages, tu peux avoir des rapports de chance dépassant les 100%. le rapport de chance varie entre ]0;+Inf

ote]Donc
j'ai par exemple, pour la var "radiation", exp (bi) = 35.996 donc mon
rapport de cote est ici de 35??? Dans ton exemple, que sont les
réponses a et b? chances de succès d'être b par rapport à a???

ici avec la variable radiation tu as 36 fois plus de chance d'observer un succès qu'avec la variable de référence. Ici b et a sont deux modalités d'un facteurs, j'aurai pu prendre les yeux bleus et les yeux noirs, grand-petits, etc.

Regarde ici c'est peut-être plus claire :
http://fr.wikipedia.org/wiki/Odds_ratio

par kazy13/75 Ven 30 Oct 2009 - 14:36

Les odds sont censés etre simple d'interpétation!!! Décidemment, à être trop dans les chiffres, on s'en mêle les pinceaux!!! Smile

Qu'entends tu par "variable de référence" (je l'ai écrit moi-même! dans mon analyse) ??? pour mon odd de 36...

Une question d'ordre générale : en ayant interpéter mon modèle final (var significatives, adéquation, pouvoir prédictif, odds), comment puis-je valider cela? en fait, comme c'est ma première regression log, comment justifier à toute personne que ce modèle est une "bonne" (la meilleure?) prédiction pour la suite???

par droopy Ven 30 Oct 2009 - 15:01

Je crois surtout que plus que les pinceaux emmélés c'est tes idées qui ne sont pas très claires. Un odds de 36 est très élevé puisque que tu as 36x plus de chance de succès ! A choisir je préfère avoir 36x plus de chance d'être intelligent que 0.03.

Ce que j'entends par variable de référence, c'est que lorsque tu utilises des variables catégorielles, toutes les modalités n'ont pas un paramètre estimé, si je reprends mon exemple avec ma modalité a et b, le modèle donne :

Code:: Coefficients: Estimate Std. Error z value Pr(>|z|) (Intercept) -0.9163 0.2646 -3.463 0.000534 *** b 2.7081 0.4320 6.268 3.66e-10 ***

Ici j'ai bien le alpha, et bi associée a la modalité b, mais je n'ai pas de paramètre pour a. Ce qui est normal parce qu'on en a pas bespoin, en effet si je suis un b et ben je ne suis pas un a. En fait le modèle utilise k-1 variables, avec k le nombre de modalité de ta variable.

De toute façon tu as des tests sur les odds ratio donc tu peux te servir de ceux-ci pour justifier le fait que c'est important.

Ici tu vois biens que les p-values associées avec chaque coeff sont très faibles (<0.05) donc les paramètres sont significatifs (différent de 0).

Pour la dernière question, une grande partie de la réponse se trouve dans des discussions qui ont eu lieu il n'y pas très longtemps sur le forum, si je me souviens bien il s'agit de plusieurs posts de amal38. Tu peux aussi regarder du côté de la validation croisée.

comment justifier à toute personne que ce modèle est une "bonne" (la meilleure?) prédiction pour la suite???

La comme ça il n'y en a pas ... Tu pourrais faire des comparaisons de modèle en comparant leurs performances (sur un jeu de données de validation, indépendant) sur différents critères pour pouvoir dire que la regression logistique selon ces critères semblent être ou non la mieux adaptée. Mais de toute façon ce que tu dirais ne serait valable que pour ton jeu de données. Toi tu as choisi la regression logistique qui est un moyen, une analyse parmi tant d'autres.

par kazy13/75 Ven 30 Oct 2009 - 15:24

ok merci beaucoup pour tes explications et de ton tps !!!!!!!!!

par kazy13/75 Mar 3 Nov 2009 - 10:32

Bonjour,
voici une analyse que j'ai faite sur mes prévisions, j'aimerais en avoir un avis (statistiquement parlant) :
ceci correspond à la dernière étape du modèle prédictif et me donne les éléments suivants :

Matrice de confusion	Rejet	Accord	Total
Rejet	67	*108*	175
Accord	19	219	238
Total	106	307	413

J'ai donc ma matrice d'erreur (de confusion) qui est donc cette dernière étape de mon modèle.
"Le taux d’erreur semble être un indicateur synthétique pertinent, il indique (estime) la probabilité de mal classer un individu de la population.

Dans la matrice de confusion (d’erreur), on peut lire que sur les données en apprentissage, le modèle de prédiction réalise 19+108=127 mauvaises prédictions. Le taux d’erreur en resubstitution est de 127/413=30.7% (par complémentarité, le taux de « bonnes prédictions » est de 70%).

Remarque :

Lorsque les classes sont très déséquilibrées, la matrice de confusion et surtout le taux d’erreur peuvent donner une fausse idée de la qualité de l’apprentissage. Cette anomalie est liée au fait que nous voulons absolument que le modèle réalise une affectation (positif ou négatif). Or dans de nombreux domaines où la régression logistique est utilisée, ce qui nous intéresse avant tout, c’est de mesurer la propension à être positif ou négatif. Le taux d’erreur ne peut donc qu’être estimé et non pas calculé avec certitude.

Indicateurs d’efficacité : sensibilité et spécificité

La sensibilité et la spécificité sont souvent exprimées en pourcentage. Ces deux indices sont des probabilités. Leurs valeurs varient donc entre 0 et 1. Un test dont la sensibilité ou la spécificité serait inférieur à 0.5 est moins performant qu’une décision prise au hasard.

La sensibilité est l’estimation (probabilité) d’avoir un résultat positif (aide) lorsque l’assuré est aidé. Ici, S_e = 219/(219+19) = 92%.(valeur retrouvée ds mon tableau de prévision)

La spécificité est l’estimation d’avoir un résultat négatif (pas d’aide) lorsque l’assuré n’est pas aidé. Ici, S_p = 67/(67+108) = 38.3%. (valeur retrouvée ds mon tableau de prévision)

Le rapport de vraisemblance (exprimant les deux chiffres précédents en un seul) exprime le nombre de fois où un résultat de test sera plus (ou moins) vraisemblablement trouvé chez des assurés aidés, par rapport à des non aidés.

Si le test est dichotomique (positif / négatif), il existera 2 types de rapport de vraisemblance, l’un associé à un test positif, l’autre un test négatif.

Ici, le rapport de vraisemblance positif est :

R_v = S_e / (1-S_p)

= 0.92/ (1-0.383)

= 1.5

Le test positif est 1.5 fois plus vraisemblablement obtenu en présence d’une aide qu’en son absence, ou un assuré a 1.5 fois plus de chances d’obtenir du modèle une réponse positive s’il est aidé que dans le cas contraire.

(Plus R_v s’écarte de la valeur 1, plus le test apporte des informations intéressantes.)"

1) mes conclusions sont-elles pertinentes et justes et le "1.5 fois..." me parait léger et peut être pas très parlant pour des non statisticiens. Puis-je aller plus loin que ceci?

2) au final j'ai donc mon équation du modèle qui correspond à l'étude sur mes accords et rejets : pour la suite, je peux donc entrer mes valeurs sur mes prochaines observations sur ce modèle et regarder la proba de succès. Est ce bien cela?

Merci par avance.

par droopy Mar 3 Nov 2009 - 10:48

par curiosité d'où sort toute ces conclusions, car il me semble qu'il s'agit d'un copié coller ajuster avec tes données et les infos sont assez détaillées.

la première question est : comment as-tu calculé le seuil de la proba a partir duquel tu considères un succès ou un échec ? l'as-tu fixé arbitrairement à 0.5?

Ton modèle semble être bon pour prédire le succès quand succès il devrait y avoir (très bonne sensibilité) mais il se plante énormément dans le cas ou il devrait prédire des non succès (très faible spécificité). Il va avoir tendance a trop facilement accorder une aide quand il ne devrait pas y en avoir une --> ça ça peut être un souci.

As-tu essayé de calculer une aire sous la courbe (courbe ROC) ? en le faisant tu auras ainsi l'aire sous la courbe mais aussi une valeur seuil de proba qui te donnera le meilleur compromis entre sensibilité et spécificité, ainsi que ces dernières valeurs.

par kazy13/75 Mar 3 Nov 2009 - 12:27

Bonjour droopy,
oui j'ai copié collé ce que j'ai ds mon rapport (je n'ai pas pris ds un autre doc), j'ai seulement résumé ttes les infos que j'ai pu trouver sur le net à ce sujet en essayant de bien expliquer les choses et retrouver les résultats du modèle de prédiction.

pour ta première question, ce seuil de 0.5 est effectivement arbitrairement choisi (seuil généralement pris, d'apres mes lectures)...

pour ta deuxième partie, je retrouve bien mes conclusions (sensibilité/spécificité). j'ai pu voir qu'il existait l'analyse ROC mais cela est utile pour comparer la performance de plusieurs modèles. or, moi je n'ai qu'un modèle ici (même si j'en ai fait plusieurs auparavant mais recodage des variables a chaque fois pour obtenir celui-ci).

par droopy Mar 3 Nov 2009 - 12:38

Erreur, l'analyse ROC ne permet pas seulement de comparer différents modèles. Elle te permet aussi de connaître le pouvoir de classification de ta régression logistique, notamment en ajustant le seuil ...

voir ce lien (in english et google for the french version) :
http://books.google.fr/books?id=Po0RLQ7USIMC&lpg=PP1&dq=hosmer%20lemeshow&lr=&hl=en&pg=PA160#v=onepage&q=ROC&f=false

par kazy13/75 Mar 3 Nov 2009 - 14:21

ok jvais voir ça. merci bien Smile

par kazy13/75 Jeu 5 Nov 2009 - 15:04

Bonjour,
j'ai finalisé ma reg log : j'obtiens au final mon équation de modèle avec les coeff significatifs retenus.
Ma question est de savoir si maintenant je peux remplacer mes nouvelles valeurs pour chaque variable pour les cas que j'avais appelé en début de ce grand sujet "aides en attente".
Pour rappel, j'ai fait ma reg log sur les cas "accords daide" et les cas "rejets"...puisque cet outil doit me servir d'aide a la decision...
Ou alors devrais-je intégrer ces nouvelles données aux données précédentes et refaire un nouveau modèle de prédiction?
merci par avance.

par droopy Jeu 5 Nov 2009 - 15:08

si je comprends bien tu te demandes si tu peux faire des prédictions avec ton modèle ?

hummmm --> c'était le but non ? Sinon à quoi ça sert de faire un modèle si a chaque fois que tu as de nouvelles données tu dois le recalculer ?

par kazy13/75 Jeu 5 Nov 2009 - 15:13

oui c'était le but! ce dont je crains (j'aurais peut être du mieu expliquer), c'est que si j'ai des données très différentes de celles avec lesquelles j'ai construit mon modèle, il risque d' y avoir trop d'accords ou trop de rejets, en dehors du fait que j'ai deja une tres bonne sensibilité et une faible spécificité...tu vois ce que je veux dire?

par droopy Jeu 5 Nov 2009 - 15:27

Bon je vais faire mon chieur mais je suis à peu près sur d'une chose, tu n'as pas cherché à trouver un seuil qui maximise conjointement la spécificité et la sensibilité ... car avoir un tel déséquilibre dans un modèle n'est pas une bonne chose car du coup ton modèle a tendance a toujours prédire le succès : l'aide. As-tu calculer la courbe ROC de ton modèle ? Elle te donnera pas mal d'information sur celui-ci et notamment sur ça capacité prédictive.

pour ce qui est de ta remarque elle est justifiée dans le sens ou un modèle est calculé sur une gamme de valeurs pour les variables indépendantes et que si tu sors de cette gamme on ne sait pas ce qui se passe et on tombe dans ce qu'on appelle l'extrapolation et la advienne que pourra. Si tu restes dans les clous de ton modèle tu peux être raisonablement tranquille de ce côté la.

Il est aussi possible pour chaque valeur prédite de calculer l'intervalle de confiance de la prédiction.

Je crois aussi que le post est assez long comme ça et que toutes les réponses a tes questions se trouvent dans les différentes références que je t'ai fournies.

par kazy13/75 Jeu 5 Nov 2009 - 15:44

j'ai conscience de mon déséquilibre mais tu as raison, je n'ai pas cherché le seuil qui maximise spéc et sens...je vais m'y attarder un peu plus. Néanmoins, en précisant ce déséquilibre, je précise également que cet outil ne doit pas remplacer l'étude administrative : ce que je veux dire par là, c'est que si on doit accorder à partir de l'étude du dossier "sur papier" et qu'à priori on doit accorder, et d'un autre coté mon modéle me dit aussi accord, là on peut se baser sur ce consensus. maintenant, si refus sur papier mais accord du modèle, c'est là que la dimension "sociale" entre autre de la situation doit primer sur le plan statistique...

Je crois qu'effectivement la courbe ROC peut rendre plus efficace mon modèle.
Encore merci à toi droopy pour ta disponibilité et tes infos précieuses!!!

par droopy Jeu 5 Nov 2009 - 20:37

Le problème de ce désiquilibre c'est qu'ici quand tu acceptes l'aide avec ton modèle tu ne sais pas très bien ce que tu fais, car dans un très grand nombre de cas tu vas accepter l'aide mais derrière cette acceptation tu as de très forte chance que ça ne soit pas le cas. Ici tu as un biais très important. Du coup le modèle en lui même ne te renseigne pas plus que ça surtout quand celui-ci te dit ok pour l'aide. Il vaut mieux un seuil de proba différent de 0.5 mais par exemple avec une spécificité et une sensibilité de 0.75, car la dans 3/4 des cas quelque soit la conclusion de ton modèle tu vas avoir raison.

On est bien d'accord que ton modèle reste une aide a la décision mais autant que cette aide soit la plus "fiable" possible sinon elle ne sert a rien.

Aller ce coup la c'est sur c'est mon dernier commentaire sur ce post.

par lilly74 Lun 30 Nov 2009 - 18:36

Bonjour,
je dois faire une régression logistique sous SAS avec trois variables explicatives.
J'ai trouvé des informations sur les méthodes pas à pas backward et forward, ainsi que sur la "stepwise".
J'ai lu le message de sai3004 sur la méthode qu'il applique:

La technique j'utilise, c'est de faire rentrer manuellement dans le modèle les variables explicatives par ordre de degré de liaison (avec la variable d'intérêt) croissant. Les variables explicatives étant rentrées les unes après les autres.
Pour chaque variable explicative (découpée en classe) je calcule le coefficient de corrélation avec la variable d'intérêt. J'utilise un V de Cramer et un T de Tschuprow en privilégiant le second. Ensuite j'estime le modèle (intercept + V1; V1 étant la variable explicative la plus corrélée à la variable d'intérêt). S'il est valide, j'estime le modèle (intercept + V1 + V2). Et j'apprécie l'apport d'information de la variable V2, en comparant les deux modèles à l'aide des critères usuels (AIC,BIC,-2LogL, D de Somers, les paires concordantes et discordantes...) et je regarde aussi le comportement de la variable V1 (a-t-elle perdue en significativté? ce qui pourrais être la conséquence d'une trop forte corrélation entre V1 et V2). En fonction de tous ça je décide ou non de garder V2, puis j'introduit V3 et ainsi de suite...
C'est en quelque sorte une Stepwise manuelle. Cette technique me permet généralement d'obtenir un meilleur modèle que les méthodes de sélections automatiques.

J'aimerais bien comprendre comment elle fonctionne car j'avoue que, pour l'instant, je suis un peu perdue. Besoin d'aide INTERPRETATION REGRESSION LOGISTIQUE - Page 2 Icon_rolleyes

Auriez-vous la gentillesse de me communiquer une référence ou un lien, svp?
Ce sont des notions nouvelles pour moi (découpage en classes de la variable explicative, V de Cramer, T de Tschuprow...) et je ne voudrais pas appliquer bêtement une méthode sans avoir compris son fonctionnement.
Je vous remercie d'avance. Besoin d'aide INTERPRETATION REGRESSION LOGISTIQUE - Page 2 Icon_biggrin

par droopy Lun 30 Nov 2009 - 20:40

Il faudrait peut être ouvrir un nouveau topic qui soit spécifique à ta question pour éviter de rallonger celui-ci qui est déjà très long et avoir une réponse uniquement adaptée à ton problème.

par lilly74 Lun 30 Nov 2009 - 23:15

Bonjour Droopy,
tu as tout à fait raison... Besoin d'aide INTERPRETATION REGRESSION LOGISTIQUE - Page 2 Icon_redface

par Contenu sponsorisé