Les posteurs les plus actifs de la semaine
joyeux_lapin13
 
zeu
 
gg
 
schlebe
 
zezima
 
Yacouba_KONE
 
rayanes159
 
noviceST
 
Eric Wajnberg
 
Nik
 


Choix prédicteurs - reg.log - classes déséquilibrées

Voir le sujet précédent Voir le sujet suivant Aller en bas

Choix prédicteurs - reg.log - classes déséquilibrées

Message par HDKalit le Mar 9 Avr 2013 - 16:42

Bonsoir tout le monde,

Je me pose une question concernant le choix des prédicteurs pour mon analyse.
Je cherche à faire une "simple" régression logistique mais pour prédire un événement "rare" (enfin 0.5% de positifs).

Le sujet du sur(sous) échantillonnage a déjà été traité (et personne n'est vraiment d'accord Very Happy) mais là c'est plus sur le choix des prédicteurs.
En effet j'ai 34 variables dans mon jeu de données, bien sur certaines sont fortement liées entre elles et je les enlève de mon étude.

En revanche en réalisant par exemple un test de Kruskal Wallis je n'obtiens aucune variable explicative qui influe réellement sur ma variable à prédire (rejet de H0 à chaque fois avec une p-value très très petite).

Mais justement est-ce vraiment un bon moyen de savoir sur quelles variables explicatives partir (vu la taille de mon échantillon je préfère éviter de partir sur un modèle avec toutes les variables en explicatives)? Ne pourrais-je pas faire un tirage aléatoire sur mon jeu de données (en respectant les proportions dans ma variable à prédire) et faire des arbres de décisions pour savoir quelles variables discriminent le plus ma variable à prédire?

Bien entendu je suis parti sur une régression logistique du fait de mon jeu de données (variables continues et catégorielles, variable à prédire catégorielle et pas de lien linéaire entre ma variable à prédire et mes potentiels prédicteurs).

En gros j'ai vu un peu partout le problème des classes déséquilibrées mais pas le problème des tests réalisé en amont pour exclure (diminuer en tout cas) le nombre de variables ...
Ici forcément aucune variable ne va réellement influer sur le fait d'être positif ou non, en revanche une combinaison (interaction) a des chances de le faire ...

Avez vous des suggestions sur ce problème?

Bien cordialement,

KaliHD

HDKalit

Nombre de messages : 85
Date d'inscription : 10/01/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix prédicteurs - reg.log - classes déséquilibrées

Message par niaboc le Mar 9 Avr 2013 - 17:59

si tu as un gros échantillon, tu peux essayer d'équilibrer un peu mieux (transforme le 0.5 en, au moins, 10%) à l'aide d'un tirage aléatoire.

Tu peux essayer une méthode de sélection de variables (stepwise).

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix prédicteurs - reg.log - classes déséquilibrées

Message par HDKalit le Mer 10 Avr 2013 - 8:07

Oui l'équilibrage est une solution mais pas forcément une "bonne" solution pour la prédiction (tendance à perdre en précision même si on augmente la sensibilité).

Après peut être que tu en parlais pour une sélection de variables?

Pour stepwise je sais pas, j'ai pas très bien saisi. Sous R (que j'utilise) j'utilise une méthode de sélection de modèle pas à pas (fonction step), je pense que ça doit être la même chose?
Si c'est le cas malheureusement le résultat - même si il est meilleur en terme d'AIC (critère à minimiser) - ne me convient pas "trop" car j'ai l'impression d'avoir un modèle trop complexe et trop de variables.

Oui c'est ça j'aimerai diminuer la complexité de mon modèle en diminuant sensiblement le nombre de variables explicatives mais je n'arrive pas à trouver un critère pour garder les plus significative puisque chacune me renvoie un rejet de Ho pour le test de kruskal wallis.

Cordialement,

KaliHD

HDKalit

Nombre de messages : 85
Date d'inscription : 10/01/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix prédicteurs - reg.log - classes déséquilibrées

Message par niaboc le Mer 10 Avr 2013 - 10:34

HDKalit a écrit:Oui l'équilibrage est une solution mais pas forcément une "bonne" solution pour la prédiction (tendance à perdre en précision même si on augmente la sensibilité).

si tu as beaucoup de données, tu ne perdras pas beaucoup en précision je pense.

HDKalit a écrit:
Pour stepwise je sais pas, j'ai pas très bien saisi. Sous R (que j'utilise) j'utilise une méthode de sélection de modèle pas à pas (fonction step), je pense que ça doit être la même chose?

je n'utilise pas R, mais je suppose que oui.

HDKalit a écrit:
Si c'est le cas malheureusement le résultat - même si il est meilleur en terme d'AIC (critère à minimiser) - ne me convient pas "trop" car j'ai l'impression d'avoir un modèle trop complexe et trop de variables.
Pour un régression pas à pas, il regarde la significativité des variables dans le modèle. Si tu en veux moins, il suffirait de changer le seuil de significativité (mettre le risque à 2.5% au lieu de 5% par exemple)

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Choix prédicteurs - reg.log - classes déséquilibrées

Message par Contenu sponsorisé Aujourd'hui à 11:31


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum