Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Le deal à ne pas rater :
Pokémon Évolutions Prismatiques : coffrets et dates de sortie de ...
Voir le deal

Regression logistique sur classes désequilibrées

5 participants

Aller en bas

Regression logistique sur classes désequilibrées Empty Regression logistique sur classes désequilibrées

Message par conakry Dim 27 Aoû 2017 - 22:08

Bonjour,

J'ai un soucis et je travaille sous R
Au fait j'ai un échantillon de 4442 observations.
Je dois prédire une variable cible binaire (oui/non) via la régression logistique. Le soucis, les classes sont déséquilibrées (oui=700 et non=3742). Quand je fais ma prédiction, elle est très mauvaise. Je me rends compte qu'il faut équilibrer ma variable de telle sorte que la classe oui soit représentative.
Pouvez vous svp me faire des suggestions en me proposant un code R? Merci par avance

conakry

Nombre de messages : 6
Date d'inscription : 04/07/2017

Revenir en haut Aller en bas

Regression logistique sur classes désequilibrées Empty Re: Regression logistique sur classes désequilibrées

Message par Eric Wajnberg Lun 28 Aoû 2017 - 5:53

Je ne comprends pas. Par équilibré, vous voulez dire autant de oui que de non, donc une probabilité à 50%? Evidement, la régression logistique peut s'appliquer pour modéliser des probabilités qui peuvent différer de 50%, sans quoi cette méthode de régression ne présenterait aucun intérêt!

Ou bien je n'ai pas compris votre question.

Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Regression logistique sur classes désequilibrées Empty Re: Regression logistique sur classes désequilibrées

Message par Coco Lun 28 Aoû 2017 - 11:34

Si tu pensais qu'il y aurait plus de "oui" peut-être que ton échantillon est biaisé (échantillon trop faible, mauvaises observations...)
Coco
Coco

Nombre de messages : 57
Date d'inscription : 23/03/2017

Revenir en haut Aller en bas

Regression logistique sur classes désequilibrées Empty Re: Regression logistique sur classes désequilibrées

Message par Eric Wajnberg Lun 28 Aoû 2017 - 15:49

Coco a écrit:Si tu pensais qu'il y aurait plus de "oui" peut-être que ton échantillon est biaisé (échantillon trop faible, mauvaises observations...)
Ou juste que la proportion de oui est plus élevée, et c'est ce que la régression logistique cherche à modéliser. C'était ma réponse.

Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Regression logistique sur classes désequilibrées Empty Re: Regression logistique sur classes désequilibrées

Message par Coxtox Ven 10 Nov 2017 - 14:11

Dans le cas où les classes sont très déséquilibrées (sur des données de santé ou fraude bancaire par exemple) nous pouvons nous retrouver avec une répartition 95% - 5% pour la variable cible.

Dans ce cas, je rejoins l'idée ou il est préférable de rééquilibrer l'échantillon d'appprentissage. Sinon on sous apprend le comportement des individus qui nous intéresse réellement.

Qu'en pensez-vous ?


Coxtox

Nombre de messages : 21
Date d'inscription : 17/05/2016

Revenir en haut Aller en bas

Regression logistique sur classes désequilibrées Empty Re: Regression logistique sur classes désequilibrées

Message par Eric Wajnberg Ven 10 Nov 2017 - 15:43

Je continue à ne pas complètement comprendre cette discussion. La régression logistique est faite pour modéliser un pourcentage. Par construction, donc, ce pourcentage n'a bien évidement pas l'obligation d'être toujours et fixement à 50%. Du coup, si on n'est pas à 50% il y aura plus de cas oui que non, ou réciproquement. Si c'est cela que le mot déséquilibré veut dire, alors il n'y évidement rien à rééquilibrer. Si on reprend l'exemple des données de fraude bancaire, on peut évidement tâcher de comprendre ce qui influence la probabilité de frauder, même si dans l'échantillon il n'y a pas 50% des cas de fraude, heureusement (!).

Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Regression logistique sur classes désequilibrées Empty Re: Regression logistique sur classes désequilibrées

Message par Coxtox Ven 10 Nov 2017 - 16:01

Ce que je souhaite mettre en avant c'est que lorsque l'on se place dans un cas de discrimination binaire, une classe est souvent bcp plus représentée que l'autre. Or ce qui nous intéresse c'est d'identifier (de pouvoir prédire)les individus appartenant à la classe sous représentée (fraudeurs ou malades).

Si nous prenons dans notre échantillon d'apprentissage un échantillon représentatif (avec le déséquilibre des positifss/négatifs) et que l'on mesure les performances de notre modèle sur celui-ci, le meilleur classifieur prédira toujours la classe majoritaire pour assurer un faible taux d'erreur...

C'est pour cette raison que je parle de rééquilibrage des classes dans l'échantillon d'apprentissage


Coxtox

Nombre de messages : 21
Date d'inscription : 17/05/2016

Revenir en haut Aller en bas

Regression logistique sur classes désequilibrées Empty Re: Regression logistique sur classes désequilibrées

Message par Eric Wajnberg Ven 10 Nov 2017 - 17:10

Coxtox a écrit:Si nous prenons dans notre échantillon d'apprentissage un échantillon représentatif (avec le déséquilibre des positifss/négatifs) et que l'on mesure les performances de notre modèle sur celui-ci, le meilleur classifieur prédira toujours la classe majoritaire pour assurer un faible taux d'erreur..
Absolument pas. Dans une régression logistique, la loi de distribution des données est binomiale. L'erreur de classification est connue, elle est proportionnelle à l'erreur standard du pourcentage estimé. Si ce pourcentage vaut p, et que l'échantillon en ce point est n, l'erreur standard vaut sqrt(p*(1-p)/n) qui diminue si on s'écarte de 0.5. Donc c'est même le contraire, l'erreur de classification va diminuer si on s'écarte de 0.5. Par exemple, s'il n'y a que des oui, ou que des non, p=0.0 et (1-p)=1.0, et l'erreur standard vaut donc zéro. On classera dans ce cas tout les points dans la bonne classe, par définition.

Encore une fois, une régression logistique cherche à modéliser un pourcentage, et celui-ci n'a pas l'obligation d'être à 50% pour que l'ajustement soit correct, et les classifications à venir également.

HTH, Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Regression logistique sur classes désequilibrées Empty Re: Regression logistique sur classes désequilibrées

Message par Ayana Ven 10 Nov 2017 - 17:44

Bonjour,

Petite demande de clarification. Parles-tu de prediction a l'aide d'un modele logistique ou de methodes de classification de type machine learning? Car les notions d'echantillon d'apprentissage et de classifieur se retrouvent plutot en machine learning, et dans ce cas, pour tes problemes de classes plus larges, il existe des methodes de ponderation pour tenir compte de ces desequilibres.
En revanche, si tu t'interesses a une regression logistique (estimation par maximum de vraisemblance), alors Eric a parfaitement raison.

Ayana
Ayana
Ayana

Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009

Revenir en haut Aller en bas

Regression logistique sur classes désequilibrées Empty Re: Regression logistique sur classes désequilibrées

Message par Coxtox Lun 13 Nov 2017 - 10:16

Effectivement je parlais plus des méthodes d'apprentissage statistiques (boosting, svm, rf ..). Il est vrai que par réflexe j'ai tendance à rééquilibrer mes classes alors que pour une régression logistique ce réequilibrage n'a pas d'utilité.

Je le faisais également pour des modèles logistiques pénalisés (ridge/lasso) or on pénalise la log-vraissemblance ...

Merci pour cette précision en tout cas !

Coxtox

Nombre de messages : 21
Date d'inscription : 17/05/2016

Revenir en haut Aller en bas

Regression logistique sur classes désequilibrées Empty Re: Regression logistique sur classes désequilibrées

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum