Les posteurs les plus actifs de la semaine
Eric Wajnberg
 
SandrineM&M
 
smalblanc
 
zezima
 
Nik
 
louiv
 
charlie77
 
c@ssoulet
 
sebastien93
 
svditte
 


Régression Logistique

Aller en bas

Régression Logistique

Message par Khroutchev le Lun 10 Avr 2017 - 7:36

Bonjour,
je présente mon problème :
je souhaite réaliser une régression logistique et pour ce faire j'ai réaliser des analyse univariées sur mes variables.
J'ai donc sélectionné les variables qui sont possiblement des "facteurs d'interaction".
Puis j'en arrive à l'analyse multivariée, j'ai deux question précises :
J'ai réalisé une sélection de variables en utilisant la méthode du backward selection (descendante).
Pour ce faire, j'ai éliminé une à une les variables qui avaient une trop forte p_value (tout en regardant que les coefficients - beta - ne varient pas trop).
Ma première question est la suivante : Quel est le seuil à partir duquel on juge que les coefficients estimés varient "trop" ? 0.20 ? 0.15 ? Et donc dans ce cas là, on conserve la variable qu'on souhaitait retirer même si sa p_value est très forte.

Exemple, lorsque je supprime la variable statut_tabac (qui est composé des sous-variables indicatrices tabac_1 et tabac_2) :

Code:

/*Modèle complet*/                                                                                                                                                                                            
proc logistic data=projet.Bonami;                                                                                                                                                                              
class Hta groupe_bis revasc diabete Class_SEVERITY_0_H4 ;                                                                                                                                                      
model evol_binaire(ref="1") = Hta groupe_bis revasc tabac1 tabac2 diabete Class_SEVERITY_0_H4;                                                                                                                
test tabac1,tabac2;                                                                                                                                                                                            
run;
(résultats voir SAS2.png)

le modèle une fois les variables tabac_1 et tabac_2 supprimées :
Code :

Code:

/* Modèle sans tabac*/      
                                                                                                                                                                                  
proc logistic data=projet.Bonami;
                                                                                                                                                                            
class Hta groupe_bis revasc diabete Class_SEVERITY_0_H4 ;
                                                                                                                                                    
model evol_binaire(ref="1") = Hta groupe_bis revasc diabete Class_SEVERITY_0_H4;
                                                                                                                              
run;
(résultats voir SAS3.png)

Puis une fois le modèle complet obtenu, je dois vérifier les interactions entre mes variables restantes ? Et là, je ne sais pas comment m'y prendre. Test de Wald ?
Est-ce que je dois tester une à une les interactions entre chaque couple de variable ? Ou est-ce que je lance le modèle complet avec les interactions et j'enlève une à une les interactions avec les plus fortes p_values ?

Je vous joins mon code :

Code:

proc logistic data=projet.Bonami;
                                                                                                                                                                           
class Hta groupe_bis revasc Class_SEVERITY_0_H4 ;
                                                                                                                                                           
model evol_binaire(ref="1") = Hta groupe_bis revasc tabac1 tabac2 Class_SEVERITY_0_H4                                                                                                                         
groupe_bis*Hta groupe_bis*revasc groupe_bis*tabac1 groupe_bis*tabac2 groupe_bis*Class_SEVERITY_0_H4 ;
                                                                                                       
test tabac1,tabac2;         
                                                                                                                                                                                 
run;

Merci pour votre aide !

Fichiers joints
SAS2.png Vous n'avez pas la permission de télécharger les fichiers joints.(16 Ko) Téléchargé 1 fois
SAS3.png Vous n'avez pas la permission de télécharger les fichiers joints.(13 Ko) Téléchargé 0 fois

Khroutchev

Nombre de messages : 30
Date d'inscription : 24/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Régression Logistique

Message par Nik le Lun 10 Avr 2017 - 8:24

Bonjour,

Pour d’ores et déjà résumer mon avis globalement : tu as à mon avis mal engagé les choses. Mais tu es dans un domaine (la sélection de modèle) où beaucoup de choses restent encore de l'ordre du débat.

je souhaite réaliser une régression logistique et pour ce faire j'ai réaliser des analyse univariées sur mes variables.
J'ai donc sélectionné les variables qui sont possiblement des "facteurs d'interaction".
Sélectionné comment ? On ne sélectionne pas des variables à partir de relation univariée avec la réponse car tu pourrais louper des variables qui contribuent peu ou pas au premier ordre mais qui sont déterminante dès lors qu'elles sont en interaction avec d'autres variables.
[quote]
Puis j'en arrive à l'analyse multivariée, j'ai deux question précises :
J'ai réalisé une sélection de variables en utilisant la méthode du backward selection (descendante).
Pour ce faire, j'ai éliminé une à une les variables qui avaient une trop forte p_value (tout en regardant que les coefficients - beta - ne varient pas trop).

Mon avis personnel est que la sélection sur p-value est une erreur. Je suis plutôt partisan des outils basés sur les critères d'information et avant même cela, il est bien plus facile de construire des modèles à tester et qui représentent des hypothèse scientifiques raisonnables et interprétables plutôt que de confier à un algo le soin de déterminer ce qui scientifiquement interprétable ou pas.
[quote]
Ma première question est la suivante : Quel est le seuil à partir duquel on juge que les coefficients estimés varient "trop" ? 0.20 ? 0.15 ? Et donc dans ce cas là, on conserve la variable qu'on souhaitait retirer même si sa p_value est très forte.
Ces questions se posent uniquement quand on passe par la p-value. Les tests associés aux p-values n'ont souvent que peu de sens donc le questionnement sur quel est le seuil pertinent a tout aussi peu de sens.

Nik

Nik

Nombre de messages : 1573
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Régression Logistique

Message par Khroutchev le Lun 10 Avr 2017 - 9:09

Je te remercie pour la réponse.

Khroutchev

Nombre de messages : 30
Date d'inscription : 24/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Régression Logistique

Message par AmySYH le Jeu 4 Mai 2017 - 11:47

Bonjour j'interviens peut etre tardivement...
Mais pour le test des interaction pourquoi ne compares tu pas dans un premier temps un modèle avec interactions prises en compte et un modèle sans interaction ? Ce sont deux modèles emboités, donc un rapport de vraisemblances devrait normalement être adéquat ? Cela te permettrait dans un premier temps de voir si ton modèle prenant en compte les interactions est plus pertinent que ton modèle sans prise en compte des interactions. Cela te permettrait de te faire une idée générale dans un premier temps.

Comment as tu choisi de procéder au final ?

Sinon je laisse autrui me corriger s'ils ont d'autres avis ! =)

AmySYH

Nombre de messages : 1
Date d'inscription : 04/05/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Régression Logistique

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum