Choix prédicteurs - reg.log - classes déséquilibrées

par HDKalit Mar 9 Avr 2013 - 16:42

Bonsoir tout le monde,

Je me pose une question concernant le choix des prédicteurs pour mon analyse.
Je cherche à faire une "simple" régression logistique mais pour prédire un événement "rare" (enfin 0.5% de positifs).

Le sujet du sur(sous) échantillonnage a déjà été traité (et personne n'est vraiment d'accord Very Happy

) mais là c'est plus sur le choix des prédicteurs.
En effet j'ai 34 variables dans mon jeu de données, bien sur certaines sont fortement liées entre elles et je les enlève de mon étude.

En revanche en réalisant par exemple un test de Kruskal Wallis je n'obtiens aucune variable explicative qui influe réellement sur ma variable à prédire (rejet de H0 à chaque fois avec une p-value très très petite).

Mais justement est-ce vraiment un bon moyen de savoir sur quelles variables explicatives partir (vu la taille de mon échantillon je préfère éviter de partir sur un modèle avec toutes les variables en explicatives)? Ne pourrais-je pas faire un tirage aléatoire sur mon jeu de données (en respectant les proportions dans ma variable à prédire) et faire des arbres de décisions pour savoir quelles variables discriminent le plus ma variable à prédire?

Bien entendu je suis parti sur une régression logistique du fait de mon jeu de données (variables continues et catégorielles, variable à prédire catégorielle et pas de lien linéaire entre ma variable à prédire et mes potentiels prédicteurs).

En gros j'ai vu un peu partout le problème des classes déséquilibrées mais pas le problème des tests réalisé en amont pour exclure (diminuer en tout cas) le nombre de variables ...
Ici forcément aucune variable ne va réellement influer sur le fait d'être positif ou non, en revanche une combinaison (interaction) a des chances de le faire ...

Avez vous des suggestions sur ce problème?

Bien cordialement,

KaliHD

par niaboc Mar 9 Avr 2013 - 17:59

si tu as un gros échantillon, tu peux essayer d'équilibrer un peu mieux (transforme le 0.5 en, au moins, 10%) à l'aide d'un tirage aléatoire.

Tu peux essayer une méthode de sélection de variables (stepwise).

par HDKalit Mer 10 Avr 2013 - 8:07

Oui l'équilibrage est une solution mais pas forcément une "bonne" solution pour la prédiction (tendance à perdre en précision même si on augmente la sensibilité).

Après peut être que tu en parlais pour une sélection de variables?

Pour stepwise je sais pas, j'ai pas très bien saisi. Sous R (que j'utilise) j'utilise une méthode de sélection de modèle pas à pas (fonction step), je pense que ça doit être la même chose?
Si c'est le cas malheureusement le résultat - même si il est meilleur en terme d'AIC (critère à minimiser) - ne me convient pas "trop" car j'ai l'impression d'avoir un modèle trop complexe et trop de variables.

Oui c'est ça j'aimerai diminuer la complexité de mon modèle en diminuant sensiblement le nombre de variables explicatives mais je n'arrive pas à trouver un critère pour garder les plus significative puisque chacune me renvoie un rejet de Ho pour le test de kruskal wallis.

Cordialement,

KaliHD

par niaboc Mer 10 Avr 2013 - 10:34

HDKalit a écrit:Oui l'équilibrage est une solution mais pas forcément une "bonne" solution pour la prédiction (tendance à perdre en précision même si on augmente la sensibilité).

si tu as beaucoup de données, tu ne perdras pas beaucoup en précision je pense.

HDKalit a écrit:
Pour stepwise je sais pas, j'ai pas très bien saisi. Sous R (que j'utilise) j'utilise une méthode de sélection de modèle pas à pas (fonction step), je pense que ça doit être la même chose?

je n'utilise pas R, mais je suppose que oui.

HDKalit a écrit:
Si c'est le cas malheureusement le résultat - même si il est meilleur en terme d'AIC (critère à minimiser) - ne me convient pas "trop" car j'ai l'impression d'avoir un modèle trop complexe et trop de variables.

Pour un régression pas à pas, il regarde la significativité des variables dans le modèle. Si tu en veux moins, il suffirait de changer le seuil de significativité (mettre le risque à 2.5% au lieu de 5% par exemple)

par Contenu sponsorisé

Choix prédicteurs - reg.log - classes déséquilibrées

Choix prédicteurs - reg.log - classes déséquilibrées

Re: Choix prédicteurs - reg.log - classes déséquilibrées

Re: Choix prédicteurs - reg.log - classes déséquilibrées

Re: Choix prédicteurs - reg.log - classes déséquilibrées

Re: Choix prédicteurs - reg.log - classes déséquilibrées