Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Le Deal du moment :
Pokémon Évolutions Prismatiques : ...
Voir le deal

classe déséquilibrée régression logistique

5 participants

Page 1 sur 2 1, 2  Suivant

Aller en bas

classe déséquilibrée régression logistique Empty classe déséquilibrée régression logistique

Message par niaboc Jeu 31 Jan 2013 - 12:57

Bonjour,

quelques petites questions qui concernent la régression logistique :

dans le cadre d'une régression logistique, quels sont les biais que peuvent entraîner une classe déséquilibrée (en l'occurence peu de "positif")?
A partir de quel pourcentage les biais deviennent-ils trop important pour valider le modèle? <10%de positif?

il y a un déséquilibre sur la variable binaire à expliquer, mais les données sont exhaustives? peut-on garder ce déséquilibre ou essayer de se retrouver à 50% de positif et autant de négatif? Sachant qu'on perd l'information complète que l'on a sur les données d'origine.

Merci
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par droopy Ven 1 Fév 2013 - 19:55

Bonjour,

Le déséquilibre peut engendrer une plus grande incertitude sur les paramètres, parce que si tu as moins de cas alors le moindre >0 de plus et la donne peut changer.
Après tout dépend de l'utilisation que tu as de la régression logistique.

cdlt
droopy
droopy

Nombre de messages : 1156
Date d'inscription : 04/09/2009

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par niaboc Sam 2 Fév 2013 - 18:57

droopy a écrit:Bonjour,

Le déséquilibre peut engendrer une plus grande incertitude sur les paramètres, parce que si tu as moins de cas alors le moindre >0 de plus et la donne peut changer.

cdlt


Même si le nombre de 1 et de 0 dans l'échantillon est représentatif de la population totale?
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par droopy Sam 2 Fév 2013 - 19:29

Si tes 0 et 1 sont clairement distingués le long de tes variables environnementales ça devrait aller. Sinon une autre conséquence connue, c'est que ton modèle va avoir tendance à donner des probabilités faibles et par exemple considérer que si p(x)>0.5 alors x = 1 ne sera pas approprié.

cdlt
droopy
droopy

Nombre de messages : 1156
Date d'inscription : 04/09/2009

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par niaboc Sam 2 Fév 2013 - 20:33

oui, j'ai changé le seuil à partir de la courbe de Roc et/ou les courbes de densité des proba en sortie.

et sais-tu à partir de quel pourcentage ce biais devient-ils trop important pour valider le modèle? <10%de positif?

Connais-tu d'autres biais que cela peut engendrer?

Merci
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par droopy Sam 2 Fév 2013 - 20:41

En fait c'est mon point de vue, mais je pense que donner un seuil n'a pas trop de sens, ce qui compte a mon avis c'est un nombre d'individus. Si ton nombre de positifs est vraiment trop faible alors tu ne pourras pas tirer de conclusions pertinentes. Après il te faudrait jeter un oeil dans les bouquins de refs sur la regression logistique pour vérifier tout ceci.

Ca risque aussi d'avoir des conséquences sur des statistiques comme le kappa, le taux de bon classement général, la sensibilité, etc.
droopy
droopy

Nombre de messages : 1156
Date d'inscription : 04/09/2009

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par joyeux_lapin13 Dim 3 Fév 2013 - 8:16

Euh... attention lorsqu'on touche au seuil de décision... on parle là d'un seuil neutre vis à vis d'hypothèses probabilistes, pas d'un simple cutoff qu'on bouge comme pour un classifieur basé sur la fonction de Fisher ou encore sur une fonction distance lambda...

Autant certains peuvent trouver ça plus ou moins astucieux, autant pour d'autres ça peut choquer énormément et j'en ai fait les frais il y a quelques mois...
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 41
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par niaboc Dim 3 Fév 2013 - 16:22

Qu'est ce que tu veux dire par là?

Que le seuil est 0,5 et que de le changer n'a pas vraiment de sens, d'un point de vue statistique?

Que le changement permet d'améliorer les résultats sur l'échantillon de construction du modèle, mais que sur un nouvel échantillon ce seuil n'a pas vraiment de seuil?
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par joyeux_lapin13 Dim 3 Fév 2013 - 16:41

Que le seuil est 0,5 et que de le changer n'a pas vraiment de sens, d'un point de vue statistique?

Exactement.

Il vaut mieux encore se tourner vers un nouvel outil, peut-être voir du coté des régressions logistiques pénalisées ou PLS qui sont adaptées en cas de déséquilibres présents au sein des données.
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 41
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par droopy Lun 4 Fév 2013 - 14:23

Tout est affaire d'objectifs. Si tu as un déséquilibre fort comme c'est le cas ici, alors un seuil de 0.5 n'a pas de sens.
Quelle mésaventure as-tu eu ?
droopy
droopy

Nombre de messages : 1156
Date d'inscription : 04/09/2009

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par niaboc Lun 4 Fév 2013 - 22:42

droopy a écrit:Tout est affaire d'objectifs. Si tu as un déséquilibre fort comme c'est le cas ici, alors un seuil de 0.5 n'a pas de sens.
Quelle mésaventure as-tu eu ?

Tu veux parler de Joyeux lapin quand il dit qu'il en a fait les frais y'a quelque mois??
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par FS Mar 5 Fév 2013 - 15:13

Il faut faire attention avec les seuils, je ne sais pas si c'est le cas pour la régression logistique mais pour un bayésien naïf les probas renvoyées ne sont pas du tout uniforme (soit très prés de 0 ou de 1 ) du coup le seuil est difficile à placer et surtout très sensible.

En revanche ce qui marche bien avec les arbres ce n'est pas de modifier le seuil, mais directement la valeur initiale de segmentation avec tes fréquences attendues.
Plus d'info sur google -> "entropie décentrée"

FS

Nombre de messages : 163
Date d'inscription : 25/04/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par niaboc Mar 5 Fév 2013 - 17:07

FS a écrit:En revanche ce qui marche bien avec les arbres ce n'est pas de modifier le seuil, mais directement la valeur initiale de segmentation avec tes fréquences attendues.
Plus d'info sur google -> "entropie décentrée"

oui, et ça se joue directement sur la constante du modèle. Mais dans mon cas, j'ai les bonnes fréquences attendues... c'est juste qu'il existe un déséquilibre "naturel".
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par Nik Mar 5 Fév 2013 - 19:13

Salut,

mes 2 sous à la discussions...

Si je comprends bien Joyeux lapin, et alors je le rejoins sur ce point, c'est que le seuil de 0.5 n'a pas été fixé selon un plan équilibré ou non entre les 0 et les 1 mais bien parce que 0..5 est le point d'incertitude maximale en théorie probabiliste (le Bayésien ou d'autres théories n'y échappent pas).
Si on change ce seuil, alors on remet en cause beaucoup beaucoup de chose de la théorie des probabilité. L'entropie en est d'ailleurs un exemple.

Si c'est pour changer le seuil alors autant ne pas considérer de seuil du tout.

Nik

Nombre de messages : 1606
Date d'inscription : 23/05/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par joyeux_lapin13 Mer 6 Fév 2013 - 8:02

C'est exactement ça Nik (et puis je ne pense pas que j'aurais trouvé les mots pour exprimer aussi parfaitement mon point de vue sur le fait de toucher au saint-seuil de 0.5 sur ce type d'outil d'analyse donc ton intervention tombe à pic!).

Désolé (Droopy) de ne pas avoir répondu plus tôt mais je suis assez débordé avec la gestion du forum et les divers projets qu'on essaie de mettre en place afin d'en faire un espace d'échange inédit, surtout qu'il est évident que ce forum offre des possibilités immenses et avec AD et Orkadess on a beaucoup d'ambitions le concernant (même si le fait que ça avance très très très lentement empêche de voir l'investissement de chacun...).
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 41
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par droopy Mer 6 Fév 2013 - 8:26

Si je comprends bien Joyeux lapin, et alors je le rejoins sur ce point, c'est que le seuil de 0.5 n'a pas été fixé selon un plan équilibré ou non entre les 0 et les 1 mais bien parce que 0..5 est le point d'incertitude maximale en théorie probabiliste (le Bayésien ou d'autres théories n'y échappent pas).
Ca c'est dans le cas ou le système à l'équilibre à une proba de 0.5 de passer d'un état à l'autre. Ici ce n'est pas le cas, non pas à cause d'un problème d'échantillonnage mais bien à cause d'une structure dans le jeu de données. Si une maladie X à une prévalence connue de 0.1 dans la population, quelle serait la valeur d'un seuil à 0.5 ?

Après je suis totu à fait d'accord que la valeur seuil n'a probablement pas de sens. Mais ce seuil n'est qu'une partie de la question originelle sur l'effet d'un désiquilibre entre les 0 et les 1 dans une régression logistique.

Je pense encore une fois qu'une partie de cette discussion dépend des objectifs de départ de l'utilisation de la régression logistique. Est-elle employée de manière inférentielle pour tester l'effet de variables explicatives ? Ou est-elle employée pour prédire, discriminer deux états ? Les effets à considérer du déséquilibre dépendra bien aussi de la réponse à cette question.

Cdlt
droopy
droopy

Nombre de messages : 1156
Date d'inscription : 04/09/2009

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par niaboc Mer 6 Fév 2013 - 9:44

[quote="droopy"]
Est-elle employée de manière inférentielle pour tester l'effet de variables explicatives ? Ou est-elle employée pour prédire, discriminer deux états ? Les effets à considérer du déséquilibre dépendra bien aussi de la réponse à cette question.
Cdlt

Elle est employée des deux manière.

Les variables explicatives sont crées, mais des indicateurs sont également créés à partir du tableau de classement (qui dépend donc du seuil)...
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par FS Mer 6 Fév 2013 - 10:14

niaboc a écrit:
oui, et ça se joue directement sur la constante du modèle. Mais dans mon cas, j'ai les bonnes fréquences attendues... c'est juste qu'il existe un déséquilibre "naturel".

bah y'a pas de constante sur un model à base d'arbre.

[quote="niaboc"]
droopy a écrit:
Est-elle employée de manière inférentielle pour tester l'effet de variables explicatives ? Ou est-elle employée pour prédire, discriminer deux états ? Les effets à considérer du déséquilibre dépendra bien aussi de la réponse à cette question.
Cdlt

Elle est employée des deux manière.

Les variables explicatives sont crées, mais des indicateurs sont également créés à partir du tableau de classement (qui dépend donc du seuil)...

Alors tu peux très bien utiliser deux modèles, un explicatif pour comprendre le comportement des variables, un autre prédictif pour optimiser le classement même en cas déséquilibré.

Effectivement tout dépend de ton objectif, généralement mes 'prestataires' s'en tapent de l'explicatif, ils check juste si ca correspond à leur avis d'expert, après c'est les résultats qu'ils jugent.

FS

Nombre de messages : 163
Date d'inscription : 25/04/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par Nik Mer 6 Fév 2013 - 10:24

On s'est pas bien compris droopy car tu parles de cas très pratique (de "l'art" que constitue la pratique des stats Very Happy ).
Le seuil de 0.5 n'a pas été fixé au départ selon des règles en liaison avec les données mais bien parce que c'est le point de bascule dans l'intervalle [0,1]. Et c'est uniquement pour ça que c'est 0.5. En terme de proba, un évènement peu probable a peu de chance de se produire donc si on doit juger et finalement classer en oui/non comme les probas aiment alors on dira toujours cet évènement ne vas pas arriver. C'est le cas du virus ebola à l'échelle mondiale par exemple.
Maintenant, en terme de pratique et pragmatisme, changer ce seuil correspond plutôt à rééchelonner les probas observées sur l'intervalle [0,1] pour éviter qu'elles ne restent sur un intervalle du style [0.001,0.08]. Après tout dépend comment tu vois les choses mais en ce qui me concerne on garde toujours le seuil de 0.5 comme point de bascule et on ne fait que contextualiser la donnée pour rentrer dans le cadre théorique.

En tout cas, c'était ce que j'entrevoyais dans le message de joyeux lapin mais je me trompe peut être Smile.

Donc on peut changer le seuil tant qu'on a bien les idées claires sur ce qu'on est en train de faire.

Les effets à considérer du déséquilibre dépendra bien aussi de la réponse à cette question.
voilà. Smile

Nik

Nombre de messages : 1606
Date d'inscription : 23/05/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par niaboc Mer 6 Fév 2013 - 10:57

[quote="FS"]
niaboc a écrit:
bah y'a pas de constante sur un model à base d'arbre.


je suis sur une régression logistique, donc y'a constante.


Par ailleurs merci à tous pour toutes vos réponses, et vos points de vues différents qui ne font qu'enrichir ma base de connaissances :-)
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par joyeux_lapin13 Mer 6 Fév 2013 - 11:29

Je suis totalement d'accords Nik, changer le seuil ça revient grossièrement à mettre une pondération absolument non justifiable sur la décision de la règle construite. Après ce que je faisais pour ma part c'est donner les performances pour le seuil 0.5 et mettre à titre purement informatif le seuil qui aurait optimiser les performances pour justifier le fait qu'il serait judicieux de partir sur un autre outil type SVM/NNET/ADA/... ou autre en dépit d'un apprentissage LOOCV qui n'évite pas toujours le sur-apprentissage selon le noyau mais bon ça restait dans un cadre pur règle de classification mais ceci dit un p'tit bootstrap sur le modèle conçu et tu pouvais étudier globalement l'apport des variables au modèle.

Après un retour d'expérience non négligeable, pour être un passionné de l'utilisation de la régression logistique PLS (package plsRglm sous R) au travers de laquelle je faisais la même manip', il se trouve que dans 99% des cas le seuil optimisant les performances avec cet outil est celui à 0.5 et que dans 80% des cas la régression PLS fait beaucoup mieux que la régression logistique standard.
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 41
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par FS Mer 6 Fév 2013 - 12:05

niaboc a écrit:
je suis sur une régression logistique, donc y'a constante.

C'était un message subliminal pour dire de mettre au placard les modèles paramétriques Twisted Evil

FS

Nombre de messages : 163
Date d'inscription : 25/04/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par droopy Mer 6 Fév 2013 - 12:33

joyeux_lapin13 a écrit:Je suis totalement d'accords Nik, changer le seuil ça revient grossièrement à mettre une pondération absolument non justifiable sur la décision de la règle construite. Après ce que je faisais pour ma part c'est donner les performances pour le seuil 0.5 et mettre à titre purement informatif le seuil qui aurait optimiser les performances pour justifier le fait qu'il serait judicieux de partir sur un autre outil type SVM/NNET/ADA/...
Je ne partage pas ce point de vue. Il n'est en aucun cas question de pondération et c'est encore une fois justifiable selon l'objectif poursuivit. D'ailleurs dans le livre de Hosmer et Lemeshow pp. 157-, il est clairement dit que la classification (avec un seuil à 0.5 mais pas seulement) est sensible à la taille relative des deux groupes (0 et 1) et favorisent toujours la classification dans le groupe le plus large, un fait qui est indépendant du fit du modèle.
classe déséquilibrée régression logistique 1302060134254213

joyeux_lapin13 a écrit:Après un retour d'expérience non négligeable, pour être un passionné de l'utilisation de la régression logistique PLS (package plsRglm sous R) au travers de laquelle je faisais la même manip', il se trouve que dans 99% des cas le seuil optimisant les performances avec cet outil est celui à 0.5 et que dans 80% des cas la régression PLS fait beaucoup mieux que la régression logistique standard.
J'ai envie de dire heureusement. Pourquoi ? Parce que dans la pls il y a des critères d'optimisation qu'y sont différents de la logistique. Comparons ce qui est comparable. La pls n'est pas une méthode inférentielle mais prédictive qui permet de s'affranchir de certaines contraintes qu'on rencontre en modélisation classique. Il est donc presque "attendu" que son pouvoir prédictif soit comparable. Par contre ce qui m'intéresserait de savoir, c'est si à partir d'un exemple clair de déséquilibre qui est lié à la structure du jeu de données alors tu observes le même phénomène.

Cdlt
droopy
droopy

Nombre de messages : 1156
Date d'inscription : 04/09/2009

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par Nik Mer 6 Fév 2013 - 13:29

non il ne s'agit pas d'une pondération dans ce que j'évoquais. On se rapproche plus d'une probabilité conditionnelle. Si je reprend l'exemple d'une maladie dite rare comme ebola. Hors épisode d'épidémie, cette maladie est effectivement rare et la probabilité de la déclarer est très faible. Elle est quasi-nulle pour un européen mais déjà plus forte pour un africain. Elle va augmenter drastiquement en période d'épidémie. A chacun de ces contextes la distribution de la prévalence change et on ne vas pas juger le degré de la prévalence de la même manière. Ainsi 0.01 pourra un coup être une prévalence forte ou faible dans un autre contexte.

Ce qui merdique c'est bien la classification quel que soit le seuil. Personnellement, je ne fais pas de classfication, je reste avec la proba estimée.
Ce qui reste non-résolu c'est le problème du déséquilibre. Mais là il y a quand même un pb de définition du plan d'expérience que la régression n'est pas apte à prendre en compte.

Nik

Nombre de messages : 1606
Date d'inscription : 23/05/2008

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par droopy Mer 6 Fév 2013 - 14:29

Nik a écrit:Mais là il y a quand même un pb de définition du plan d'expérience que la régression n'est pas apte à prendre en compte.
Dans l'exemple que tu donnes il serait ou le pb de plan d'expérience ? Concrètement je ne vois pas.
droopy
droopy

Nombre de messages : 1156
Date d'inscription : 04/09/2009

Revenir en haut Aller en bas

classe déséquilibrée régression logistique Empty Re: classe déséquilibrée régression logistique

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Page 1 sur 2 1, 2  Suivant

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum