Les posteurs les plus actifs de la semaine
gg
Méthode de sélection de covariables Vote_lcapMéthode de sélection de covariables Voting_barMéthode de sélection de covariables Vote_rcap 
kadstat
Méthode de sélection de covariables Vote_lcapMéthode de sélection de covariables Voting_barMéthode de sélection de covariables Vote_rcap 
Particule
Méthode de sélection de covariables Vote_lcapMéthode de sélection de covariables Voting_barMéthode de sélection de covariables Vote_rcap 
Felhaus
Méthode de sélection de covariables Vote_lcapMéthode de sélection de covariables Voting_barMéthode de sélection de covariables Vote_rcap 
c@ssoulet
Méthode de sélection de covariables Vote_lcapMéthode de sélection de covariables Voting_barMéthode de sélection de covariables Vote_rcap 
Ferouis
Méthode de sélection de covariables Vote_lcapMéthode de sélection de covariables Voting_barMéthode de sélection de covariables Vote_rcap 
zezima
Méthode de sélection de covariables Vote_lcapMéthode de sélection de covariables Voting_barMéthode de sélection de covariables Vote_rcap 
Djimbo
Méthode de sélection de covariables Vote_lcapMéthode de sélection de covariables Voting_barMéthode de sélection de covariables Vote_rcap 
elodiev69
Méthode de sélection de covariables Vote_lcapMéthode de sélection de covariables Voting_barMéthode de sélection de covariables Vote_rcap 


Méthode de sélection de covariables

Aller en bas

Méthode de sélection de covariables Empty Méthode de sélection de covariables

Message par zezima le Mar 18 Avr 2017 - 7:18

Bonjour,

Je suis en train de m'intéresser aux régressions logistiques et leurs améliorations via le Lasso, Bolasso, Group lasso..., je suis assez novice donc j'aimerais avoir votre avis sur la question.

Mon but est d'effectuer une régression logistique à partir d'une variable à expliquer binaire qui devra être expliqué parmi un groupe de 36 covariables numériques continues (prédire la toxicité à partir de ces 36 covariables). Au final la régression sélectionnera les variables à introduire dans le modèle prédictif de toxicité.

-Mon premier problème est qu'il y a beaucoup trop de variables est que je veux donc sélectionner les variables ayant le plus d'intérêt (ayant une probabilité élevée d'être un facteur prédictif de toxicité).
-Mon second problème est qu'il y a beaucoup de corrélations par groupes de variables.

J'ai donc regardé au niveau des améliorations de la régression logistique et du Lasso, il est précisé que le Lasso n'est pas très robuste face à de fortes corrélations entre les covariables et pas robuste nomplus lorsqu'il y a beaucoup de covariables par rapport à l'effectif.

Cependant j'ai vu qu'il existait le Group Lasso qui permet de gérer les sous-groupes de covariables corrélées.
Il existe également l'Elastic Net qui gère très bien les corrélations entre covariables mais pas spécifiquement aux groupes de covariables.

Je ne sais pas laquelle de ces deux méthodes (ou une autre méthode) est la plus adaptée pour ma problématique.
Je pense qu'il faut regarder au niveau du corrélogramme des covariables mais comment définir que nous sommes plus en présence de corrélations entre groupes de covariables plutôt qu'en présence de corrélations entre covariables ?

Merci d'avance.
zezima
zezima

Nombre de messages : 915
Date d'inscription : 26/02/2013

Revenir en haut Aller en bas

Revenir en haut


 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum