Méthode de scoring

par Shudmeyer Lun 4 Juin 2012 - 16:16

Bonjour,

En ce moment je suis en train d'effectuer un scoring avec comme méthode la régression logistique.
J'aimerais la comparer avec une seconde méthode de scoring, je sais qu'il existe l'analyse discriminante comme méthode, mais j'ai peu de données.
Que me conseillerez-vous comme méthode de scoring pour un faible échantillon ?

Merci d'avance !

H.

par Shudmeyer Mer 6 Juin 2012 - 7:54

Bonjour,

Après quelques recherches je suis tombé sur le bootstrap, qui est une méthode de rééchantillonage. Pour agrandir mon échantillon et effectuer de nouveau ma régression logistique mais avec plus d'individus.
Pensez-vous que cela est faisable ?

J'ai vu par ailleurs que la procédure surveyselect effectue cela assez facilement sur SAS.
Est-ce que vous connaissez cette méthode ? Est-ce une bonne méthode ?

H.

par joyeux_lapin13 Mer 6 Juin 2012 - 20:44

Je te conseille de nous expliquer ce que tu entends exactement par "méthode de scoring" en fait car là au vu de ta première demande j'ai l'impression qu'il y a confusion.

Je sais que sur le net il traine un vocabulaire professionnel qui est séduisant mais bien souvent à significations multiples.

Si jamais tu entends par méthode de scoring la construction de modèle de prédiction, modélisation, classification, alors dans le cas de variable réponse binaire il existe énormément de méthodes et même celles qui appartiennent à la famille des apprentissages statistiques sont utilisables même pour de faible échantillon grâce au LOOCV.

par Shudmeyer Jeu 7 Juin 2012 - 7:44

Pour moi une méthode de scoring est une méthode de prédiction. Afin par exemple de mettre une note aux individus pour voir ceux qui sont les plus susceptible à adhérer à la variable à expliquer (par exemple : être intéressé ou non à un produit, dans un cadre marketing).

La régression logistique est pour moi une méthode de scoring par exemple.

Mais comme je le disais au dessus, je cherche une méthode le plus adapté possible aux petits échantillons.
C'est pour ça que j'avais pensé à la méthode de bootstrap pour augmenter mon échantillon (mais je ne connais vraiment pas cette méthode).

Quelles méthodes sont possibles dans mon cas ? Le bootstrap est il possible ?

Qu'est ce que le LOOCV ? Smile

par joyeux_lapin13 Jeu 7 Juin 2012 - 7:54

Reste alors à savoir ce que tu appelles faible échantillon, combien?

Pour les outils de modélisation il y a: régression logistique PLS et l'analyse discriminante (même on tend à dire que cet outil est à cheval avec l'apprentissage statistique). Pour les outils de classification (et donc lié à l'apprentissage statistique): réseau de neurones, adaboosting, SVM, KNN, ect ect ect bref il y en a un paquet, sauf que pour ces outils là il te faut quand même un minimum de patient malgré l'usage de validation LOOCV (leave-one-out, version particulière de la corss-validation et justement adapté aux faibles échantillons).

Reste donc à savoir combien tu as de patients.

par Shudmeyer Jeu 7 Juin 2012 - 8:33

Mon échantillon est constitué de 786 individus et pour ma variable à expliquer, il y a 100 individus ayant la modalité 1 (la modalité que j'essaye d'expliquer) et 686 la modalité 2.

par joyeux_lapin13 Jeu 7 Juin 2012 - 9:15

Et tu appelles ça un échantillon faible... tu peux lancer sur ce type de données toutes les méthodos que tu veux, oublie le LOOCV mais fait directement de la cross-validation quitte à en faire plusieurs pour voir la robustesse de tes résultats.

Après évidemment il y a un déséquilibre, mais pour beaucoup il peut se justifier voir même être préféré selon le contexte (dans un contexte biomédicale on veut souvent que la répartition des stades pathologiques soient en rapport avec la réalité quitte à avoir un énorme déséquilibre, là aussi c'est un point avec lequelle j'adhère moyen mais bon des gens qui sont dans le système depuis bien plus longtemps que moi ne jurent que par ça...)

par Shudmeyer Jeu 7 Juin 2012 - 9:57

Oui, là où je suis on me dit que c'est un faible échantillon et qu'il faudrait vraiment que je trouve une méthode pour faible échantillon.

Donc je pensais "agrandir" mon échantillon via le bootstrap...

par joyeux_lapin13 Jeu 7 Juin 2012 - 12:17

Je suis pas sur de te suivre sur le bootstrap mais je n'ai pas la prétention de savoir toutes les applications possibles.

En général le bootstrap tu t'en sers pour calculer tes intervalles de confiance sur tout ce que tu veux. Par exemple, tu veux regarder si tes coefficients rejètent statistiquement la nullité, pour celà tu fais B sous-échantillons construit par bootstrap et tu fais B régression logistique sur tes B sous-échantillons puis tu fais tes IC sur les différentes valeurs prises par tes/ton coefficient(s).

Il me semble que dans ton cas ça peut d'ailleurs créer une généralisation des résultats dangereuses notamment à cause du fait que ce sont des tirages avec remise... bref de ce que je sais, dans ton cas (qui suppose qu'on est en présence d'échantillon faible) il devrait s'agir plus d'adapter la construction de règle décisionnel plutôt que de simuler la réalité (bien le souci du contexte biomédical, on a de trop faibles échantillons et aucune solution sauf de faire avec....), pour celà soit on fait du trainig set - testing set, de la cross validation (voir leave-one-out si très très faible échantillon) ou bien on assume que sa base de données est fait pour entrainer et qu'on testera sur un nouveau jeu de données tout neuf.

Maintenant si tu vas au bout de ton idée je suis extrêmement curieux de lire ton retour sur une tel application.

Concernant la procédure SURVEYSELECT j'avais cru comprendre que c'était une adaptation de la proc PROWER à la régression logistique (cette dernière ne permettant que de monter une analyse du nombre de sujets nécessaires).

par Shudmeyer Jeu 7 Juin 2012 - 13:07

Non mais je propose le bootstrap car j'en ai entendu parler mais je ne sais pas du tout s'il est possible de l'appliquer à mon cas.

Qu'est ce que le training set - testing set ? C'est faire la régression sur un échantillon apprentissage et regarder les résultats sur un échantillon test ?
Si oui, d'après certaines personnes qui me suivent, je ne peux pas effectuer ce genre de chose parce que je n'ai pas assez de données, et alors j'utilise tout mon échantillon pour effectuer ma régression (sans test alors).

Et qu'est ce que la cross validation ?

Mon but est juste d'effectuer une méthode de scoring pour "petit échantillon".

par joyeux_lapin13 Jeu 7 Juin 2012 - 13:42

Ca reste une méthode très connu de l'apprentissage statistique et tu devrais peut-etre regarder directement sur le web... bref plus directement la cross-validation consiste à diviser ton échantillon en k groupe et à estimer un modèle sur k-1 groupe puis le tester sur le kème. Après il y a plusieurs façon d'évaluer l'erreur global avec cette méthode.

Concernant le training - testing set ça revient à déterminer un % de ton jeu qui servira à apprendre et le reste à valider, en général on prend 2/3 pour apprendre, 1/3 pour tester. La aussi certain disent qu'il ne faut regarder que l'erreur sur le jeu tester, d'autres sur les 2 sans les confondre ou encore d'autres de moyenner les 2 taux d'erreurs.

Bon vraiment je te conseil d'aller chercher de la doc car là on est sur des choses classiques.

par Shudmeyer Jeu 7 Juin 2012 - 13:56

Les 2 méthodes que tu me présente se ressemblent beaucoup. Mais elles sont surtout des méthodes pour valider le modèle.

Personnellement, je cherchais plus une méthode pour effectuer le scoring (la validation je la ferais derrière). La 1ere méthode que j'ai effectué est une régression logistique. Je cherche maintenant une 2eme méthode (je sais qu'il existe les arbres, les neuronnes...) pour voir ce que ça donne avec une seconde méthode. Sauf, comme j'ai peu de données, je voulais savoir s'il existait une méthode qui est la meilleure concernant les petits échantillons.
On m'a conseillé, de voir avec les scores en biostats pourquoi pas, car apparemment il y aurait peu de données en biostats. Sauf que je ne connais pas du tout ce domaine.

Désolé, de tout réexpliquer de nouveau Very Happy

(Oui, je sais c'est compliqué ce que je cherche Embarassed

)

par cmoi Jeu 7 Juin 2012 - 14:13

Alu,

Le bootstrap est également une technique de rééchantillonnage aléatoire. Elle consiste à tirer aléatoirement un nombre d'individu parmis le lot d'individu que tu as. C'est toi qui décide du nombre. par exemple sous R :
truc <- sample( 1:1000, size=10000, replace=TRUE )
te permet de stocker dans l'objet truc 10 000 échantillons parmis le lot d'échantillon 1:1000. Le replace=TRUE signifie qu'après avoir tiré un échantillon du lot, tu le remet dans le lot, et ainsi tu peux aboutir à un lot d'échantillon plus grand que le lot initial.
Pour ta problématique il ne me semble pas nécessaire d'augmenter la taille de ton échantillon. Et le fait de l'augmenter peut apporter plus de problème qu'en résoudre, c'est pourquoi en général on l'utilise quand on a pas le choix !

Pour ta méthode, dans mon domaine on l'appelle pas le scoring mais la modélisation. Tu as en effet plein de techniques te permettant la modélisation (GLM, GAM, RF, ANN, SVM, CART, ABT, FDA, ...). Ils essayent de prédire ta classe à deux modalités en fonction de variables explicatives. Ton nombre d'échantillonnage est largement suffisant pour ces techniques. Je travail fréquemment avec moins de 100 individus qui ont la modalité d'intérêt.
Pour info mon domaine est la biostatistique en bureau d'étude dans l'environnement, et en l'occurrence j'utilise la modélisation pour prédire la présence et l'absence d'espèce animale ou végétale. J'ai donc une variable à expliquer à deux modalités : présence (1) ou absence (0) et des variables explicatives comme la température, l'altitude, ...

par Shudmeyer Jeu 7 Juin 2012 - 14:43

Merci pour ton message !

Bon, comme tu le dis, je ne vais peut être pas m'interesser plus longtemps au bootstrap.
Par contre toutes les méthodes que tu énumères ne me disent vraiment rien, surtout que je travail sous SAS et non sous R.
Je vais alors regarder les techniques de modélisation.

par cmoi Jeu 7 Juin 2012 - 14:59

Mauvais choix pour SAS Very Happy

J'ai fait un tout petit peu de SAS et proc GLM est intégré. Les autres également je pense. Dans tout les cas c'est une excellente raison d'abandonner SAS et passer à R !!

Dans tout les cas, en stat tu essais de faire Y~a1X1+a2X2+..., donc tu cherches à expliquer Y (ta variable à deux modalités) en fonction de plusieurs variables explicatives (les X1, X2, ...).

Sinon un petit glossaire peut vraiment être utile pour googliser les acronymes que je t'ai donné :
GLM : Generalized Linear Model
GAM : Generalized Adaptive Model
RF : Random Forest
ANN : Artificial Neural Network
SVM : Support Vector Machine
CART : Classification And Regression Tree
ABT : Aggregated Boosted Trees
FDA : Factorial Discriminant Analysis.

par joyeux_lapin13 Jeu 7 Juin 2012 - 15:48

Le replace=TRUE signifie qu'après avoir tiré un échantillon du lot, tu le remet dans le lot, et ainsi tu peux aboutir à un lot d'échantillon plus grand que le lot initial.

C'est ce que je voulais dire par le fait que c'est dangereux car en rien tu simules la réalité en faisant ça, tu cherches juste à mettre des doublons qui peuvent amener de grosses erreurs sur des méthodes comme les SVM pour ne citer que eux (et tendre vers le sur-apprentissage). C'est dire, même les algorithmes d'imputation de données manquantes, malgré tout leur bon sens (mathématique) et toute leur complexité sont très souvent mis de coté tout simplement.

Sinon en effet, SAS n'est pas très étoffé pour ce type de modélisation, ormi les régressions logistiques, l'analyse discriminante de Fisher et les modèles GAM il me semble qu'il ne propose rien d'autres (ormi quelque variante futile).

par lamisse Jeu 14 Mar 2013 - 17:42

svp, comment écrire la fonction scoring a fin de déterminer les classes

par FS Ven 15 Mar 2013 - 10:11

Selon l'outil ou le modèle que tu utilise tu peux directement avoir la classe au lieu du score, sinon c'est à toi de déterminer le seuil du score pour affecter la classe.

par Contenu sponsorisé

Méthode de scoring

Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring

Re: Méthode de scoring