Les posteurs les plus actifs de la semaine
Volivoile
regression - Choix regression pour prediction  Vote_lcapregression - Choix regression pour prediction  Voting_barregression - Choix regression pour prediction  Vote_rcap 
Eric Wajnberg
regression - Choix regression pour prediction  Vote_lcapregression - Choix regression pour prediction  Voting_barregression - Choix regression pour prediction  Vote_rcap 
Schwarzlowe
regression - Choix regression pour prediction  Vote_lcapregression - Choix regression pour prediction  Voting_barregression - Choix regression pour prediction  Vote_rcap 
droopy
regression - Choix regression pour prediction  Vote_lcapregression - Choix regression pour prediction  Voting_barregression - Choix regression pour prediction  Vote_rcap 
Jeric
regression - Choix regression pour prediction  Vote_lcapregression - Choix regression pour prediction  Voting_barregression - Choix regression pour prediction  Vote_rcap 
mimran
regression - Choix regression pour prediction  Vote_lcapregression - Choix regression pour prediction  Voting_barregression - Choix regression pour prediction  Vote_rcap 
hipgl
regression - Choix regression pour prediction  Vote_lcapregression - Choix regression pour prediction  Voting_barregression - Choix regression pour prediction  Vote_rcap 
gtoubonstras
regression - Choix regression pour prediction  Vote_lcapregression - Choix regression pour prediction  Voting_barregression - Choix regression pour prediction  Vote_rcap 


Choix regression pour prediction

Aller en bas

regression - Choix regression pour prediction  Empty Choix regression pour prediction

Message par HDKalit le Mer 29 Mai 2013 - 17:20

Bonjour/Bonsoir tout le monde,

Suite à mon dernier sujet j'ai un petit peu évolué sur la problématique.
Je suis toujours sur le même type de données (des personnes qui sont venues chez un client sans jamais acheter) et je souhaite "prédire" parmi ces personnes lesquelles vont acheter ou alors vont venir très souvent sans jamais acheter (2 comportements extrêmes).

N'ayant pas très bien compris les outils de type classification/description/etc. - même si le fait d'avoir 2 classes complètement opposées me paraissait plutôt de ce registre là - je suis parti sur de la prédiction avec les méthodes de régressions.

Les données:
- 200,000 personnes qui n'achètent pas à la période K-1
- environ 6000 vont passer à l'achat à la période K
- environ 6000 viennent très souvent à la période K (sans acheter)
- j'ai des variables quantitatives/qualitatives du style : première fois qu'il est venu chez le client, combien de fois il est venu chez le client, dernière fois qu'il est venu chez le client, etc.

Toujours dans l'idée d'adopter une stratégie différente suivante ces 2 sous populations je pars sur de la prédiction en séparant les 2 classes. En gros j'essaie de prédire d'une part le fait d'acheter ou non, et d'autre part le fait de venir souvent ou pas.

Sur les personnes qui reviennent souvent j'ai essayé de faire une régression linéaire simple d'une variable "Nbr de visite" par rapport à d'autres variables (Nbr de visite dans le passé, comment elle est arrivée chez le client, nombre de visite moyen chez le client, etc.) mais j'ai un R2 vraiment très faible (0.15) donc bon un modèle qui n'explique que 15% de la variabilité (en gros c'est ça non?) ça me paraissait pas intéressant.
De plus le QQ plot des résidus studentisés me montre clairement que je ne suis pas dans le cadre linéaire (courbe en S très aplatie ne dépassant jamais la diagonale) et le VIF est très élevé pour certaines variables. Donc à priori trop colinéarité si j'ai bien suivi.

Du coup j'ai cru comprendre que la régression PLS était intéressante dans ce cas mais je ne la connais pas trop (voir pas du tout) ou alors je pensais transformer ma variable quantitative à prédire en une variable qualitative de type binaire (une personne vient très souvent si elle vient plus de 3 fois en 1 mois par exemple) et d'essayer de prédire cela en utilisant une régression logistique (qui devrait mieux marcher vu qu'il n'y a pas de linéarité et vu la forme du QQ-plot - si ça donne bien un signe de lien logit? -) en supprimant certaines variables explicatives qui sont trop fortement liées (linéairement elles) entre elles?

Après bien entendu j'aurai voulu faire ce qu'on appelle du scoring mais est-ce à partir de la courbe ROC que l'on fait cela?

Que me conseillez vous? La démarche est elle la bonne? Encore une fois je ne suis pas très calé dans ces méthodes là donc je suis preneur de tout conseil (et je ne prendrai pas mal si jamais on me dit que je fais n'importe quoi pour l'instant Smile).

Cordialement,

KhaliHD

HDKalit

Nombre de messages : 85
Date d'inscription : 10/01/2013

Revenir en haut Aller en bas

regression - Choix regression pour prediction  Empty Re: Choix regression pour prediction

Message par FS le Ven 31 Mai 2013 - 9:51

Salut,
j'avais commencé à te répondre sur l'autre topic, mais je voulais prendre le temps de faire un long blabla et ça arrivera pas tout de suite (ptet ce week end si cette foutu pluie s’arrête pas ) Rolling Eyes
surtout que j'ai vu passer un ou deux autre topic sur le même sujet, ça vaut le coup de centraliser tout ça.

pour faire vite quand même, oubli la régression (dans un premier temps)
la régression te répondra au problème : "combien d'achat va effectuer mon visiteur ?".
commence 'petit' avec "le visiteur va t'il effectuer un achat" la réponse est binaire, c'est donc de la classification. si les résultats s’avère bon tu pourra commencer prédire combien.

le scoring : c'est pas la courbe roc qui te donne le score, c'est elle qui est construite à partir des score afin d'évaluer la performance du modèle.
en fait un model de classification te renvoie à la fois la classe (0/1) mais aussi le score, en quelque sorte la "proba" d’appartenir à cette classe. (score 0.6 -> classe 1)
un score est donc en faite plus "souple" à utiliser car il permet de déterminer le seuil de décision de la classe, et ce seuil dépend de ta problématique Wink



FS

Nombre de messages : 163
Date d'inscription : 25/04/2008

Revenir en haut Aller en bas

regression - Choix regression pour prediction  Empty Re: Choix regression pour prediction

Message par HDKalit le Ven 31 Mai 2013 - 10:08

FS a écrit:Salut,
j'avais commencé à te répondre sur l'autre topic, mais je voulais prendre le temps de faire un long blabla et ça arrivera pas tout de suite (ptet ce week end si cette foutu pluie s’arrête pas ) Rolling Eyes
surtout que j'ai vu passer un ou deux autre topic sur le même sujet, ça vaut le coup de centraliser tout ça.

pour faire vite quand même, oubli la régression (dans un premier temps)
la régression te répondra au problème : "combien d'achat va effectuer mon visiteur ?".
commence 'petit' avec "le visiteur va t'il effectuer un achat" la réponse est binaire, c'est donc de la classification. si les résultats s’avère bon tu pourra commencer prédire combien.

le scoring : c'est pas la courbe roc qui te donne le score, c'est elle qui est construite à partir des score afin d'évaluer la performance du modèle.
en fait un model de classification te renvoie à la fois la classe (0/1) mais aussi le score, en quelque sorte la "proba" d’appartenir à cette classe. (score 0.6 -> classe 1)
un score est donc en faite plus "souple" à utiliser car il permet de déterminer le seuil de décision de la classe, et ce seuil dépend de ta problématique Wink



Salut FS,

Volontiers pour une réponse plus poussée en lien avec les autres topics, c'est très sympa Smile

Quand je parle de régression, j'incluais aussi dedans la régression logistique qui me donne un score (si j'ai bien suivi) qui elle du coup me sert à construire ma courbe ROC? Je me mélange un peu avec toutes ces nouvelles notions je dois dire.

Donc toi tu me conseilles de partir sur une problématique de classification (du coup un k-means, une CAH ou quelque chose dans le genre?) mais c'est là où je bloque un peu. En gros je ne vois pas comment elle me renvoie ma classe. J'ai plus l'impression qu'elle renvoie 2 classes (si on lui donne k = 2 par exemple dans le k-means) mais ça ne différencie pas forcément les acheteurs des non acheteurs si?
Et je ne vois pas en quoi elle me donne également un score du coup (i.e. la proba d'appartenir à la classe)?

Pour le seuil j'ai cru comprendre qu'effectivement ça dépendait fortement de la problématique et des objectifs fixés (taux de mauvais classement, etc.).

J'avoue être perdu. J'ai l'impression que la régression logistique répond à ce que tu appelles classification et que donc tu me conseilles d'utiliser mais j'ai l'impression que tu me parles d'autre chose Smile

En tout cas merci!!!

Cordialement,

Khalid

HDKalit

Nombre de messages : 85
Date d'inscription : 10/01/2013

Revenir en haut Aller en bas

regression - Choix regression pour prediction  Empty Re: Choix regression pour prediction

Message par FS le Ven 31 Mai 2013 - 10:36

Ha ha oui Laughing
y'a un gros quiproquo dans les termes, mais au moins je crois que ça t'a amener à la bonne réflexion :

alors vite fais, je te laisse googler pour plus de précision.

Apprentissage supervisé : l'outil standard du data mining, on chercher à prédire des données en fonction d'une variable bien précise (supervisé donc)
autre terme courant : machine learning, supervised learning ...
algo : regression logistique, regression linéaire, arbre de décision ...


Apprentissage non supervisé : il n'y a pas d'apriori ou du critères spécifique sur les données à prédire, c'est donc utiles pour faire de la description
autre terme : Custering, segmentation
c'est la qu'il y'a quiproquo car en Francais Classification = clustering
en Anglais Classification = méthode supervisé.
les algos : k-means, cah, kohonen ...

Maintenant il y'a aussi une distinction entre :
Régression : ce qu'il faut prédire est une variable continue
Classification : ce qu'il faut prédire est une variable discrète (binaire ou non)

donc régression logistique = Classification supervisé

cheers










FS

Nombre de messages : 163
Date d'inscription : 25/04/2008

Revenir en haut Aller en bas

regression - Choix regression pour prediction  Empty Re: Choix regression pour prediction

Message par HDKalit le Ven 31 Mai 2013 - 10:59

FS a écrit:Ha ha oui Laughing
y'a un gros quiproquo dans les termes, mais au moins je crois que ça t'a amener à la bonne réflexion :

alors vite fais, je te laisse googler pour plus de précision.

Apprentissage supervisé : l'outil standard du data mining, on chercher à prédire des données en fonction d'une variable bien précise (supervisé donc)
autre terme courant : machine learning, supervised learning ...
algo : regression logistique, regression linéaire, arbre de décision ...


Apprentissage non supervisé : il n'y a pas d'apriori ou du critères spécifique sur les données à prédire, c'est donc utiles pour faire de la description
autre terme : Custering, segmentation
c'est la qu'il y'a quiproquo car en Francais Classification = clustering
en Anglais Classification = méthode supervisé.
les algos : k-means, cah, kohonen ...

Maintenant il y'a aussi une distinction entre :
Régression : ce qu'il faut prédire est une variable continue
Classification : ce qu'il faut prédire est une variable discrète (binaire ou non)

donc régression logistique = Classification supervisé

cheers










cheers cheers cheers Effectivement gros quiproquo!

Mais comme tu dis ça m'a permis aussi de me poser les bonnes questions, c'est jamais inutile surtout que niveau vocabulaire stat je suis pas très au point Very Happy

Donc je vais faire de la classification supervisée avec une régression logistique Smile Smile

Encore merci je vais creuser le sujet!!

Khalid

HDKalit

Nombre de messages : 85
Date d'inscription : 10/01/2013

Revenir en haut Aller en bas

regression - Choix regression pour prediction  Empty Re: Choix regression pour prediction

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum