Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Choix prédicteurs - reg.log - classes déséquilibrées
2 participants
Page 1 sur 1
Choix prédicteurs - reg.log - classes déséquilibrées
Bonsoir tout le monde,
Je me pose une question concernant le choix des prédicteurs pour mon analyse.
Je cherche à faire une "simple" régression logistique mais pour prédire un événement "rare" (enfin 0.5% de positifs).
Le sujet du sur(sous) échantillonnage a déjà été traité (et personne n'est vraiment d'accord ) mais là c'est plus sur le choix des prédicteurs.
En effet j'ai 34 variables dans mon jeu de données, bien sur certaines sont fortement liées entre elles et je les enlève de mon étude.
En revanche en réalisant par exemple un test de Kruskal Wallis je n'obtiens aucune variable explicative qui influe réellement sur ma variable à prédire (rejet de H0 à chaque fois avec une p-value très très petite).
Mais justement est-ce vraiment un bon moyen de savoir sur quelles variables explicatives partir (vu la taille de mon échantillon je préfère éviter de partir sur un modèle avec toutes les variables en explicatives)? Ne pourrais-je pas faire un tirage aléatoire sur mon jeu de données (en respectant les proportions dans ma variable à prédire) et faire des arbres de décisions pour savoir quelles variables discriminent le plus ma variable à prédire?
Bien entendu je suis parti sur une régression logistique du fait de mon jeu de données (variables continues et catégorielles, variable à prédire catégorielle et pas de lien linéaire entre ma variable à prédire et mes potentiels prédicteurs).
En gros j'ai vu un peu partout le problème des classes déséquilibrées mais pas le problème des tests réalisé en amont pour exclure (diminuer en tout cas) le nombre de variables ...
Ici forcément aucune variable ne va réellement influer sur le fait d'être positif ou non, en revanche une combinaison (interaction) a des chances de le faire ...
Avez vous des suggestions sur ce problème?
Bien cordialement,
KaliHD
Je me pose une question concernant le choix des prédicteurs pour mon analyse.
Je cherche à faire une "simple" régression logistique mais pour prédire un événement "rare" (enfin 0.5% de positifs).
Le sujet du sur(sous) échantillonnage a déjà été traité (et personne n'est vraiment d'accord ) mais là c'est plus sur le choix des prédicteurs.
En effet j'ai 34 variables dans mon jeu de données, bien sur certaines sont fortement liées entre elles et je les enlève de mon étude.
En revanche en réalisant par exemple un test de Kruskal Wallis je n'obtiens aucune variable explicative qui influe réellement sur ma variable à prédire (rejet de H0 à chaque fois avec une p-value très très petite).
Mais justement est-ce vraiment un bon moyen de savoir sur quelles variables explicatives partir (vu la taille de mon échantillon je préfère éviter de partir sur un modèle avec toutes les variables en explicatives)? Ne pourrais-je pas faire un tirage aléatoire sur mon jeu de données (en respectant les proportions dans ma variable à prédire) et faire des arbres de décisions pour savoir quelles variables discriminent le plus ma variable à prédire?
Bien entendu je suis parti sur une régression logistique du fait de mon jeu de données (variables continues et catégorielles, variable à prédire catégorielle et pas de lien linéaire entre ma variable à prédire et mes potentiels prédicteurs).
En gros j'ai vu un peu partout le problème des classes déséquilibrées mais pas le problème des tests réalisé en amont pour exclure (diminuer en tout cas) le nombre de variables ...
Ici forcément aucune variable ne va réellement influer sur le fait d'être positif ou non, en revanche une combinaison (interaction) a des chances de le faire ...
Avez vous des suggestions sur ce problème?
Bien cordialement,
KaliHD
HDKalit- Nombre de messages : 85
Date d'inscription : 10/01/2013
Re: Choix prédicteurs - reg.log - classes déséquilibrées
si tu as un gros échantillon, tu peux essayer d'équilibrer un peu mieux (transforme le 0.5 en, au moins, 10%) à l'aide d'un tirage aléatoire.
Tu peux essayer une méthode de sélection de variables (stepwise).
Tu peux essayer une méthode de sélection de variables (stepwise).
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Choix prédicteurs - reg.log - classes déséquilibrées
Oui l'équilibrage est une solution mais pas forcément une "bonne" solution pour la prédiction (tendance à perdre en précision même si on augmente la sensibilité).
Après peut être que tu en parlais pour une sélection de variables?
Pour stepwise je sais pas, j'ai pas très bien saisi. Sous R (que j'utilise) j'utilise une méthode de sélection de modèle pas à pas (fonction step), je pense que ça doit être la même chose?
Si c'est le cas malheureusement le résultat - même si il est meilleur en terme d'AIC (critère à minimiser) - ne me convient pas "trop" car j'ai l'impression d'avoir un modèle trop complexe et trop de variables.
Oui c'est ça j'aimerai diminuer la complexité de mon modèle en diminuant sensiblement le nombre de variables explicatives mais je n'arrive pas à trouver un critère pour garder les plus significative puisque chacune me renvoie un rejet de Ho pour le test de kruskal wallis.
Cordialement,
KaliHD
Après peut être que tu en parlais pour une sélection de variables?
Pour stepwise je sais pas, j'ai pas très bien saisi. Sous R (que j'utilise) j'utilise une méthode de sélection de modèle pas à pas (fonction step), je pense que ça doit être la même chose?
Si c'est le cas malheureusement le résultat - même si il est meilleur en terme d'AIC (critère à minimiser) - ne me convient pas "trop" car j'ai l'impression d'avoir un modèle trop complexe et trop de variables.
Oui c'est ça j'aimerai diminuer la complexité de mon modèle en diminuant sensiblement le nombre de variables explicatives mais je n'arrive pas à trouver un critère pour garder les plus significative puisque chacune me renvoie un rejet de Ho pour le test de kruskal wallis.
Cordialement,
KaliHD
HDKalit- Nombre de messages : 85
Date d'inscription : 10/01/2013
Re: Choix prédicteurs - reg.log - classes déséquilibrées
HDKalit a écrit:Oui l'équilibrage est une solution mais pas forcément une "bonne" solution pour la prédiction (tendance à perdre en précision même si on augmente la sensibilité).
si tu as beaucoup de données, tu ne perdras pas beaucoup en précision je pense.
HDKalit a écrit:
Pour stepwise je sais pas, j'ai pas très bien saisi. Sous R (que j'utilise) j'utilise une méthode de sélection de modèle pas à pas (fonction step), je pense que ça doit être la même chose?
je n'utilise pas R, mais je suppose que oui.
Pour un régression pas à pas, il regarde la significativité des variables dans le modèle. Si tu en veux moins, il suffirait de changer le seuil de significativité (mettre le risque à 2.5% au lieu de 5% par exemple)HDKalit a écrit:
Si c'est le cas malheureusement le résultat - même si il est meilleur en terme d'AIC (critère à minimiser) - ne me convient pas "trop" car j'ai l'impression d'avoir un modèle trop complexe et trop de variables.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Sujets similaires
» Regression logistique sur classes désequilibrées
» Modèle prédictif à K classes
» Regression: modèles significatifs, mais prédicteurs non!
» Analyses sur données déséquilibrées
» Significativité de mes classes de distance ?
» Modèle prédictif à K classes
» Regression: modèles significatifs, mais prédicteurs non!
» Analyses sur données déséquilibrées
» Significativité de mes classes de distance ?
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum