Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Regression logistique sur classes désequilibrées
5 participants
Page 1 sur 1
Regression logistique sur classes désequilibrées
Bonjour,
J'ai un soucis et je travaille sous R
Au fait j'ai un échantillon de 4442 observations.
Je dois prédire une variable cible binaire (oui/non) via la régression logistique. Le soucis, les classes sont déséquilibrées (oui=700 et non=3742). Quand je fais ma prédiction, elle est très mauvaise. Je me rends compte qu'il faut équilibrer ma variable de telle sorte que la classe oui soit représentative.
Pouvez vous svp me faire des suggestions en me proposant un code R? Merci par avance
J'ai un soucis et je travaille sous R
Au fait j'ai un échantillon de 4442 observations.
Je dois prédire une variable cible binaire (oui/non) via la régression logistique. Le soucis, les classes sont déséquilibrées (oui=700 et non=3742). Quand je fais ma prédiction, elle est très mauvaise. Je me rends compte qu'il faut équilibrer ma variable de telle sorte que la classe oui soit représentative.
Pouvez vous svp me faire des suggestions en me proposant un code R? Merci par avance
conakry- Nombre de messages : 6
Date d'inscription : 04/07/2017
Re: Regression logistique sur classes désequilibrées
Je ne comprends pas. Par équilibré, vous voulez dire autant de oui que de non, donc une probabilité à 50%? Evidement, la régression logistique peut s'appliquer pour modéliser des probabilités qui peuvent différer de 50%, sans quoi cette méthode de régression ne présenterait aucun intérêt!
Ou bien je n'ai pas compris votre question.
Eric.
Ou bien je n'ai pas compris votre question.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Regression logistique sur classes désequilibrées
Si tu pensais qu'il y aurait plus de "oui" peut-être que ton échantillon est biaisé (échantillon trop faible, mauvaises observations...)
Coco- Nombre de messages : 57
Date d'inscription : 23/03/2017
Re: Regression logistique sur classes désequilibrées
Ou juste que la proportion de oui est plus élevée, et c'est ce que la régression logistique cherche à modéliser. C'était ma réponse.Coco a écrit:Si tu pensais qu'il y aurait plus de "oui" peut-être que ton échantillon est biaisé (échantillon trop faible, mauvaises observations...)
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Regression logistique sur classes désequilibrées
Dans le cas où les classes sont très déséquilibrées (sur des données de santé ou fraude bancaire par exemple) nous pouvons nous retrouver avec une répartition 95% - 5% pour la variable cible.
Dans ce cas, je rejoins l'idée ou il est préférable de rééquilibrer l'échantillon d'appprentissage. Sinon on sous apprend le comportement des individus qui nous intéresse réellement.
Qu'en pensez-vous ?
Dans ce cas, je rejoins l'idée ou il est préférable de rééquilibrer l'échantillon d'appprentissage. Sinon on sous apprend le comportement des individus qui nous intéresse réellement.
Qu'en pensez-vous ?
Coxtox- Nombre de messages : 21
Date d'inscription : 17/05/2016
Re: Regression logistique sur classes désequilibrées
Je continue à ne pas complètement comprendre cette discussion. La régression logistique est faite pour modéliser un pourcentage. Par construction, donc, ce pourcentage n'a bien évidement pas l'obligation d'être toujours et fixement à 50%. Du coup, si on n'est pas à 50% il y aura plus de cas oui que non, ou réciproquement. Si c'est cela que le mot déséquilibré veut dire, alors il n'y évidement rien à rééquilibrer. Si on reprend l'exemple des données de fraude bancaire, on peut évidement tâcher de comprendre ce qui influence la probabilité de frauder, même si dans l'échantillon il n'y a pas 50% des cas de fraude, heureusement (!).
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Regression logistique sur classes désequilibrées
Ce que je souhaite mettre en avant c'est que lorsque l'on se place dans un cas de discrimination binaire, une classe est souvent bcp plus représentée que l'autre. Or ce qui nous intéresse c'est d'identifier (de pouvoir prédire)les individus appartenant à la classe sous représentée (fraudeurs ou malades).
Si nous prenons dans notre échantillon d'apprentissage un échantillon représentatif (avec le déséquilibre des positifss/négatifs) et que l'on mesure les performances de notre modèle sur celui-ci, le meilleur classifieur prédira toujours la classe majoritaire pour assurer un faible taux d'erreur...
C'est pour cette raison que je parle de rééquilibrage des classes dans l'échantillon d'apprentissage
Si nous prenons dans notre échantillon d'apprentissage un échantillon représentatif (avec le déséquilibre des positifss/négatifs) et que l'on mesure les performances de notre modèle sur celui-ci, le meilleur classifieur prédira toujours la classe majoritaire pour assurer un faible taux d'erreur...
C'est pour cette raison que je parle de rééquilibrage des classes dans l'échantillon d'apprentissage
Coxtox- Nombre de messages : 21
Date d'inscription : 17/05/2016
Re: Regression logistique sur classes désequilibrées
Absolument pas. Dans une régression logistique, la loi de distribution des données est binomiale. L'erreur de classification est connue, elle est proportionnelle à l'erreur standard du pourcentage estimé. Si ce pourcentage vaut p, et que l'échantillon en ce point est n, l'erreur standard vaut sqrt(p*(1-p)/n) qui diminue si on s'écarte de 0.5. Donc c'est même le contraire, l'erreur de classification va diminuer si on s'écarte de 0.5. Par exemple, s'il n'y a que des oui, ou que des non, p=0.0 et (1-p)=1.0, et l'erreur standard vaut donc zéro. On classera dans ce cas tout les points dans la bonne classe, par définition.Coxtox a écrit:Si nous prenons dans notre échantillon d'apprentissage un échantillon représentatif (avec le déséquilibre des positifss/négatifs) et que l'on mesure les performances de notre modèle sur celui-ci, le meilleur classifieur prédira toujours la classe majoritaire pour assurer un faible taux d'erreur..
Encore une fois, une régression logistique cherche à modéliser un pourcentage, et celui-ci n'a pas l'obligation d'être à 50% pour que l'ajustement soit correct, et les classifications à venir également.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Regression logistique sur classes désequilibrées
Bonjour,
Petite demande de clarification. Parles-tu de prediction a l'aide d'un modele logistique ou de methodes de classification de type machine learning? Car les notions d'echantillon d'apprentissage et de classifieur se retrouvent plutot en machine learning, et dans ce cas, pour tes problemes de classes plus larges, il existe des methodes de ponderation pour tenir compte de ces desequilibres.
En revanche, si tu t'interesses a une regression logistique (estimation par maximum de vraisemblance), alors Eric a parfaitement raison.
Ayana
Petite demande de clarification. Parles-tu de prediction a l'aide d'un modele logistique ou de methodes de classification de type machine learning? Car les notions d'echantillon d'apprentissage et de classifieur se retrouvent plutot en machine learning, et dans ce cas, pour tes problemes de classes plus larges, il existe des methodes de ponderation pour tenir compte de ces desequilibres.
En revanche, si tu t'interesses a une regression logistique (estimation par maximum de vraisemblance), alors Eric a parfaitement raison.
Ayana
Ayana- Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009
Re: Regression logistique sur classes désequilibrées
Effectivement je parlais plus des méthodes d'apprentissage statistiques (boosting, svm, rf ..). Il est vrai que par réflexe j'ai tendance à rééquilibrer mes classes alors que pour une régression logistique ce réequilibrage n'a pas d'utilité.
Je le faisais également pour des modèles logistiques pénalisés (ridge/lasso) or on pénalise la log-vraissemblance ...
Merci pour cette précision en tout cas !
Je le faisais également pour des modèles logistiques pénalisés (ridge/lasso) or on pénalise la log-vraissemblance ...
Merci pour cette précision en tout cas !
Coxtox- Nombre de messages : 21
Date d'inscription : 17/05/2016
Sujets similaires
» Choix prédicteurs - reg.log - classes déséquilibrées
» Méthode de régression sur variable >2 classes
» régression multiple et régression logistique
» Régression Logistique vs Régression Linéaire
» régression logistique
» Méthode de régression sur variable >2 classes
» régression multiple et régression logistique
» Régression Logistique vs Régression Linéaire
» régression logistique
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum