Les posteurs les plus actifs de la semaine
Eric Wajnberg
 
niaboc
 
c@ssoulet
 
vae
 
Catz
 
cicino
 
Coco
 
droopy
 
Anny_Nina
 


Regression logistique sur classes désequilibrées

Voir le sujet précédent Voir le sujet suivant Aller en bas

Regression logistique sur classes désequilibrées

Message par conakry le Dim 27 Aoû 2017 - 22:08

Bonjour,

J'ai un soucis et je travaille sous R
Au fait j'ai un échantillon de 4442 observations.
Je dois prédire une variable cible binaire (oui/non) via la régression logistique. Le soucis, les classes sont déséquilibrées (oui=700 et non=3742). Quand je fais ma prédiction, elle est très mauvaise. Je me rends compte qu'il faut équilibrer ma variable de telle sorte que la classe oui soit représentative.
Pouvez vous svp me faire des suggestions en me proposant un code R? Merci par avance

conakry

Nombre de messages : 6
Date d'inscription : 04/07/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique sur classes désequilibrées

Message par Eric Wajnberg le Lun 28 Aoû 2017 - 5:53

Je ne comprends pas. Par équilibré, vous voulez dire autant de oui que de non, donc une probabilité à 50%? Evidement, la régression logistique peut s'appliquer pour modéliser des probabilités qui peuvent différer de 50%, sans quoi cette méthode de régression ne présenterait aucun intérêt!

Ou bien je n'ai pas compris votre question.

Eric.
avatar
Eric Wajnberg

Nombre de messages : 715
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique sur classes désequilibrées

Message par Coco le Lun 28 Aoû 2017 - 11:34

Si tu pensais qu'il y aurait plus de "oui" peut-être que ton échantillon est biaisé (échantillon trop faible, mauvaises observations...)
avatar
Coco

Nombre de messages : 27
Date d'inscription : 23/03/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique sur classes désequilibrées

Message par Eric Wajnberg le Lun 28 Aoû 2017 - 15:49

Coco a écrit:Si tu pensais qu'il y aurait plus de "oui" peut-être que ton échantillon est biaisé (échantillon trop faible, mauvaises observations...)
Ou juste que la proportion de oui est plus élevée, et c'est ce que la régression logistique cherche à modéliser. C'était ma réponse.

Eric.
avatar
Eric Wajnberg

Nombre de messages : 715
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique sur classes désequilibrées

Message par Coxtox le Ven 10 Nov 2017 - 14:11

Dans le cas où les classes sont très déséquilibrées (sur des données de santé ou fraude bancaire par exemple) nous pouvons nous retrouver avec une répartition 95% - 5% pour la variable cible.

Dans ce cas, je rejoins l'idée ou il est préférable de rééquilibrer l'échantillon d'appprentissage. Sinon on sous apprend le comportement des individus qui nous intéresse réellement.

Qu'en pensez-vous ?


Coxtox

Nombre de messages : 21
Date d'inscription : 17/05/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique sur classes désequilibrées

Message par Eric Wajnberg le Ven 10 Nov 2017 - 15:43

Je continue à ne pas complètement comprendre cette discussion. La régression logistique est faite pour modéliser un pourcentage. Par construction, donc, ce pourcentage n'a bien évidement pas l'obligation d'être toujours et fixement à 50%. Du coup, si on n'est pas à 50% il y aura plus de cas oui que non, ou réciproquement. Si c'est cela que le mot déséquilibré veut dire, alors il n'y évidement rien à rééquilibrer. Si on reprend l'exemple des données de fraude bancaire, on peut évidement tâcher de comprendre ce qui influence la probabilité de frauder, même si dans l'échantillon il n'y a pas 50% des cas de fraude, heureusement (!).

Eric.
avatar
Eric Wajnberg

Nombre de messages : 715
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique sur classes désequilibrées

Message par Coxtox le Ven 10 Nov 2017 - 16:01

Ce que je souhaite mettre en avant c'est que lorsque l'on se place dans un cas de discrimination binaire, une classe est souvent bcp plus représentée que l'autre. Or ce qui nous intéresse c'est d'identifier (de pouvoir prédire)les individus appartenant à la classe sous représentée (fraudeurs ou malades).

Si nous prenons dans notre échantillon d'apprentissage un échantillon représentatif (avec le déséquilibre des positifss/négatifs) et que l'on mesure les performances de notre modèle sur celui-ci, le meilleur classifieur prédira toujours la classe majoritaire pour assurer un faible taux d'erreur...

C'est pour cette raison que je parle de rééquilibrage des classes dans l'échantillon d'apprentissage


Coxtox

Nombre de messages : 21
Date d'inscription : 17/05/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique sur classes désequilibrées

Message par Eric Wajnberg le Ven 10 Nov 2017 - 17:10

Coxtox a écrit:Si nous prenons dans notre échantillon d'apprentissage un échantillon représentatif (avec le déséquilibre des positifss/négatifs) et que l'on mesure les performances de notre modèle sur celui-ci, le meilleur classifieur prédira toujours la classe majoritaire pour assurer un faible taux d'erreur..
Absolument pas. Dans une régression logistique, la loi de distribution des données est binomiale. L'erreur de classification est connue, elle est proportionnelle à l'erreur standard du pourcentage estimé. Si ce pourcentage vaut p, et que l'échantillon en ce point est n, l'erreur standard vaut sqrt(p*(1-p)/n) qui diminue si on s'écarte de 0.5. Donc c'est même le contraire, l'erreur de classification va diminuer si on s'écarte de 0.5. Par exemple, s'il n'y a que des oui, ou que des non, p=0.0 et (1-p)=1.0, et l'erreur standard vaut donc zéro. On classera dans ce cas tout les points dans la bonne classe, par définition.

Encore une fois, une régression logistique cherche à modéliser un pourcentage, et celui-ci n'a pas l'obligation d'être à 50% pour que l'ajustement soit correct, et les classifications à venir également.

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 715
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique sur classes désequilibrées

Message par Ayana le Ven 10 Nov 2017 - 17:44

Bonjour,

Petite demande de clarification. Parles-tu de prediction a l'aide d'un modele logistique ou de methodes de classification de type machine learning? Car les notions d'echantillon d'apprentissage et de classifieur se retrouvent plutot en machine learning, et dans ce cas, pour tes problemes de classes plus larges, il existe des methodes de ponderation pour tenir compte de ces desequilibres.
En revanche, si tu t'interesses a une regression logistique (estimation par maximum de vraisemblance), alors Eric a parfaitement raison.

Ayana
avatar
Ayana

Nombre de messages : 461
Localisation : Londres
Date d'inscription : 18/08/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique sur classes désequilibrées

Message par Coxtox le Lun 13 Nov 2017 - 10:16

Effectivement je parlais plus des méthodes d'apprentissage statistiques (boosting, svm, rf ..). Il est vrai que par réflexe j'ai tendance à rééquilibrer mes classes alors que pour une régression logistique ce réequilibrage n'a pas d'utilité.

Je le faisais également pour des modèles logistiques pénalisés (ridge/lasso) or on pénalise la log-vraissemblance ...

Merci pour cette précision en tout cas !

Coxtox

Nombre de messages : 21
Date d'inscription : 17/05/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression logistique sur classes désequilibrées

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum