Régression logistique / Hosmer and Lemeshow Test

par StatLife Jeu 19 Sep 2013 - 18:21

Bonjour à tous,

Déjà, merci de prendre le temps de lire mon message!

Alors voila, dispose d'une variable dichotomique représentant le fait d'être touché par une maladie ou non. Je souhaite l'expliquer avec un ensemble de 8 variables (2 continues et les autres discrètes). Je dispose d'une échantillon de plus de 2000 observations et il s'agit d'un maladie très fréquente puisque environ 40% de la population est touchée.

Voila le code sas:

proc logistic data =reglog;
class Var1 (ref='2') Var2 (ref="1") Var3(ref="1") Var4 (ref='1') Var5 (ref='1') Var6( ref='1')
/ PARAM=REF ; ;
model Malade( ref="0")= Var1 Var2 Var3 Var4 Var5 Var6 VarC1 VarC2
/ link=glogit SELECTION=stepwise outroc = pourcourbeROC lackfit;
output out = res_previs resdev = devi reschi = pearson predicted= pi_chapeau;
weight poids;
run;

J'entre dans le vif du sujet:
Lorsque je lance le modèle, j'ai 83 % de bien classé ( qu'en pensez vous btw ? ) et j'ai un chi2 à 5 ( DF8 Pr > ChiSq=0.75) et le test de hosmer et lemeshow accepte l'hypothèse de validité du modèle.
En rechanche, "635 observations were deleted due to missing values for the response or explanatory variables"
Il s'avère que la la non réponse concerne Var6 uniquement alors j'ai décidé de considérer la non réponse comme une modalité à part de Var6 afin de pouvoir poursuivre l'étude sur l'ensemble de la population.
Seulement lorsque je fais cela je passe à plus de 30% de mal classés et la validité est rejeté (Hosmer and Lemeshow
Goodness-of-Fit Test Chi-Square 24.8845 DF 8 Pr > ChiSq 0.0016). Si j'enlève Var6 du modèle, on reviens à 18% de mal classés. En revanche le test rejette la validité du modèle (Hosmer and Lemeshow Goodness-of-Fit Test
Chi-Square:20.5063 DF 8 Pr > ChiSq 0.0086)
J'ai lu dans la littérature que ce test est très controversé et qu'il faut mieux s’intéresser aux courbes ROC et matrices de confusion. Qu'en pensez vous?
Aussi lorsque je lance la régression sur une sous population qui m'intéresse, le modèle est mauvais...et il y a moins de non réponse...
J'ai l'impression que la non réponse à Var6 (variable pourtant assez anodine) signifie que le reste des reponses de l'individu est plus chaotique.
Je ne parviens pas à voir clairement ce que je peux conclure de tout ça et j'ai besoin de vos lumières!!!
Quelles études puis je faire pour comprendre le drôle d'effet de Var6?
Tout vos conseils pour que mon modèle soit le mieux possible sont évidement les bienvenus également !!

Je vous souhaite une excellente journée, merci d'être allé jusqu'au bout du message !!

Pierre

par droopy Ven 20 Sep 2013 - 13:27

salut,

83% de bien classé ça ne veut pas dire grand chose en soit. Ce qui est intéressant c'est effectivement de calculer la matrice de confusion et de calculer ensuite la sensibilité et spécificité pour voir comment se répartisse les biens classés. Tu as aussi les autres statistiques que tu évoquais comme l'AUC mais aussi le kappa.

La non réponse n'est en fait pas une réelle modalité parce qu'elle peut renfermer tout et n'importe quoi. Je ne sais pas ce qu'en pense mes collègues qui font de la régression logistique en tant que stat médical, mais j'aurais tendance à virer les ces individus de l'analyse.
Effectivement ce test est très controversé.
Tu peux aussi faire une validation croisée pour voir comment se comporte ton taux de bon classement.

par StatLife Ven 20 Sep 2013 - 13:52

Bonjour Droopy, merci pour ta réponse!

Okay, jvais me replonger dans mes cours pour me rafraichir la mémoire et analyser matrice de confusion, sensibilité, spécificité, AUC et le kappa.

En attendant, ce qui m'embête avec cette histoire de non-réponse...c'est que j'ai intégré la Var6 au modèle parce cela me semblait intéressant...mais cela n'avait rien d'automatique. A l'inverse si je ne l'avais pas mise, j'aurai eu un modèle moisi sans savoir pourquoi...c'est un peu un coup de chance que j'ai eu nan?
Les enlever...Okay...mais j'enlève tout de même un tiers des enquêtés pour une non réponse sur une variable anodine...puis ça fait un peut bricolage!
Voila c'est ça l’impression que j'ai juste maintenant: mon modèle c'est du bricolage je dois faire pleins de concessions pour qu'il marche. Peut être que mes données sont pas évidentes à modéliser...mais avoir des données non modèlisable c'est un peu un résultat en soi tu ne penses pas ?

Je me lance dans la validation croisée en tout cas pour voir ce que ça donne

Merci encore

Pierre

par droopy Ven 20 Sep 2013 - 13:57

ce qu'y fait bricolage c'est de considérer une modalité qui ne veut tout dire et rien dire à la fois. Qu'est-ce que t'apporte comme information que le modèle soit "meilleur" quand tu intègres l'information : "ne se prononce pas" ... est-ce que ça t'éclaire plus sur la question ?

Si tu veux conserver ces enquêtes alors perso je considérais ces ne se prononcent pas comme des données manquantes et je regarderais du côté des analyses qui justement gèrent ces données manquantes. Comme ça tu conserves tes enquêtes et tes réponses aux autres questions et leurs effets sur la variable a expliquer mais tu n'intègres pas une absence d'information dans tes conclusions.

par StatLife Lun 23 Sep 2013 - 18:56

Okay, merci beaucoup pour tes explications droopy !

Bonne continuation

Pierre

par Contenu sponsorisé

Régression logistique / Hosmer and Lemeshow Test

Régression logistique / Hosmer and Lemeshow Test

Re: Régression logistique / Hosmer and Lemeshow Test

Re: Régression logistique / Hosmer and Lemeshow Test

Re: Régression logistique / Hosmer and Lemeshow Test

Re: Régression logistique / Hosmer and Lemeshow Test

Re: Régression logistique / Hosmer and Lemeshow Test