Description ou plutôt étude du comportement général

par HDKalit Ven 17 Mai 2013 - 8:38

Bonjour tout le monde,

Voilà je ne m'y connais pas très bien dans les méthodes de classification (supervisée ou non, descriptive ou prédictive) mais voici ce que j'aimerai faire :

- j'ai des données sur 200,000 personnes qui sont des "prospects" (en gros ils n'ont jamais acheté de produit chez un client mais qui sont déjà venus chez le client) à la période K-1
- parmi ces 200,000 environ 6,000 vont acheter un produit chez le client à la période K
- j'essaie de déterminer le "comportement" de ces 6,000 personnes par rapport aux autres (qui n'achètent pas à la période K)
- j'ai des variables quantitatives/qualitatives du style : première fois qu'il est venu chez le client, combien de fois il est venu chez le client, dernière fois qu'il est venu chez le client, etc.

L'idée étant de m'intéresser aux individus qui auraient ce comportement pour adopter une stratégie différente sur eux à l'avenir (en gros dans une période future sur ceux qui sont des "prospects" et qui auraient un comportement similaire à celui trouvé juste avant, faire une stratégie commerciale différente).

J'avoue ne pas savoir comment trouver un comportement du style "les personnes qui ne sont venus que moins de 3 fois et dont la dernière visite remonte à moins de 3 mois et ... " sont globalement les 6,000 personnes du dessus?
J'ai pensé à une ACM (ou ACP) ou à une CAH uniquement sur les 6000 pour voir un peu ce qui se passe. Mais je suis pas convaincu du bienfondé de ma démarche?

J'ai également fait un arbre de décision avec les 6000 et 6000 qui n'achètent pas en K mais l'arbre se stop après 2 noeuds et ça reste proche du 50/50. Idem pas convaincu de ma démarche.

Si quelqu'un avait une idée, un conseil ou autre je suis preneur!

Cordialement,

KhaliHD

par niaboc Ven 17 Mai 2013 - 12:17

Je serais parti sur un arbre de décision aussi. Après si ça ne marche pas, c'est peut-être qu'il n'y a pas de solution à ta problématique... où que tu ne te poses pas les bonnes questions?

peut-être essayer d'approfondir ta problématique d'une manière qualitative au préalable.

par HDKalit Ven 17 Mai 2013 - 13:11

Humpf ... possible qu'effectivement il n'y ait pas de solution à la problématique Sad

Les indicateurs ont été choisit au préalable d'un point de vue métier et j'ai enlever de l'étude les indicateurs qui n'apportaient pas d'informations supplémentaires par rapport à d'autres (forte corrélation).

L'arbre me paraissait la meilleure option.

Peut être qu'une ACM me donnerait un "profil" exploitable? Mais que prendre dans mon étude? Uniquement ceux qui ont acheté ou également (à proportion égale) des personnes qui n'ont pas acheté?

Bien cordialement,

KhaliHD

par FS Ven 17 Mai 2013 - 14:59

Salut,
sache que ta démarche est correcte, mais il possible qu'elle soit un peu maladroite.
Que donne le clustering ? vois tu une différence de ta cible entre les cluster ? vois tu au moins une variable qui semble corrélé avec ta cible ?
si oui l'arbre de décision devrait au moins faire mieux que le hasard.
attention a ton clustering à propos de l’échelle des variables, il vaut mieux tout normaliser avant. pareil pour l'acp.

Si ton arbre s’arrête au bout de 2 nœuds il y'a sûrement un problème de paramétrage.
regarde bien les paramètres, tu peux tout simplement avoir défini une profondeur maximum trop courte, ou un nombre d'individu dans les feuilles trop important (du coup ca split plus) ou encore un seuil de split par adapté.

essaye différents paramètres même au pif si tu comprend pas tous les paramètres c'est pas bien grave, hésite pas non plus à entrer en surapprentissage (utilise le même jeu de donnée pour l'apprentissage et la validation) juste pour voir comment le modèle réagit, si même en surapprentissage le modèle est pourri y'a de forte chance que tu puisse rien tirer de tes données .

HDKalit a écrit:
Les indicateurs ont été choisit au préalable d'un point de vue métier et j'ai enlever de l'étude les indicateurs qui n'apportaient pas d'informations supplémentaires par rapport à d'autres (forte corrélation).

NON (enfin pour le clustering et acp oui) mais pour un modèle non paramétrique de type arbre faut pas hésité à envoyer du lourd, t'es pas sur un plan d'expérience ni sur une étude, t'es dans la fouille de donnée alors faut balancer la data, la torturer, envoyer chier les experts métiers (il seront utile pour interpréter ensuite mais pas pour le construire).
hésite pas non plus à partir des données brutes et à construire toi même des indicateurs, même les plus improbables. (attention si tu te lance la dedans avec des données temporelle car ça peut être très pointu et prendre beaucoup de temps)
un arbre par construction va virer tout ce qui n'apporte aucune information, enlève ensuite au fur à mesure celles qui n'apparaissent jamais dans l'arbre pour gagner un peu en performance.

HDKalit a écrit:Humpf ... possible qu'effectivement il n'y ait pas de solution à la problématique

Il manque un point important dans ta problématique, c'est la qualité de la prédiction à obtenir.
parfois faire tout petit mieux que le hasard peut être avoir gros impact au final.
et aussi parce qu'il ne faut pas oublier de raisonner en terme de score, peut importe que tu arrive à classer tous les individus, peut être qu’être bon sur les 2-3 % meilleurs scores est largement suffisant pour un ciblage marketing.
donc ne vise pas trop haut, vise ce que tu as besoin.

bon courage.

(tu peux quand même faire une acp hein, le truc c'est que tu risque de découvrir des comportements que tout le monde s'en tape car il ne répondent pas à la problématique)

par HDKalit Ven 17 Mai 2013 - 15:45

Bonjour,

Tout d'abord merci pour cette réponse, ça me redonne un peu de "moral".

FS a écrit:Salut,
sache que ta démarche est correcte, mais il possible qu'elle soit un peu maladroite.
Que donne le clustering ? vois tu une différence de ta cible entre les cluster ? vois tu au moins une variable qui semble corrélé avec ta cible ?
si oui l'arbre de décision devrait au moins faire mieux que le hasard.
attention a ton clustering à propos de l’échelle des variables, il vaut mieux tout normaliser avant. pareil pour l'acp.

Quand tu parles de clustering tu parles de faire une CAH (ou k-means) sur les datas (pas uniquement celles où il y a des acheteurs) avec plusieurs tirages aléatoires pour observer si les "acheteurs" se retrouvent globalement dans les même classes?

Pour le moment je ne vois pas de variable corrélée avec ma cible ... mais je n'ai pas fait de classif'. C'est justement avec une méthode de classif' que je pourrais voir des corrélations? Je pense notamment à l'ACM pour voir les "ressemblances" entre variables?

Pour la normalisation en fait vu que j'ai des variables quanti. et variables quali. j'avais entrepris de découper mes variables quantitatives en classes en gardant à l'oeil de ne pas avoir trop de modalités et surtout des effectifs équilibrés dans ces modalités. Est-ce une bonne façon de procéder?

Si ton arbre s’arrête au bout de 2 nœuds il y'a sûrement un problème de paramétrage.
regarde bien les paramètres, tu peux tout simplement avoir défini une profondeur maximum trop courte, ou un nombre d'individu dans les feuilles trop important (du coup ca split plus) ou encore un seuil de split par adapté.

Niveau paramètres j'étais parti sur ceux "de base" du logiciel R. Je vais essayer de bidouiller tout ça pour aller un peu plus loin.

essaye différents paramètres même au pif si tu comprend pas tous les paramètres c'est pas bien grave, hésite pas non plus à entrer en surapprentissage (utilise le même jeu de donnée pour l'apprentissage et la validation) juste pour voir comment le modèle réagit, si même en surapprentissage le modèle est pourri y'a de forte chance que tu puisse rien tirer de tes données .

Je vois de quoi tu veux parler. Je n'ai pas testé encore. Mais j'avoue avoir des difficultés à comprendre comment retester "mes règles" (ou mon modèle) dans une classification ... autant je vois pour des modèles prédictifs, autant là je ne vois pas le côté prédictif sur la classif.

HDKalit a écrit:
Les indicateurs ont été choisit au préalable d'un point de vue métier et j'ai enlever de l'étude les indicateurs qui n'apportaient pas d'informations supplémentaires par rapport à d'autres (forte corrélation).
NON (enfin pour le clustering et acp oui) mais pour un modèle non paramétrique de type arbre faut pas hésité à envoyer du lourd, t'es pas sur un plan d'expérience ni sur une étude, t'es dans la fouille de donnée alors faut balancer la data, la torturer, envoyer chier les experts métiers (il seront utile pour interpréter ensuite mais pas pour le construire).
hésite pas non plus à partir des données brutes et à construire toi même des indicateurs, même les plus improbables. (attention si tu te lance la dedans avec des données temporelle car ça peut être très pointu et prendre beaucoup de temps)
un arbre par construction va virer tout ce qui n'apporte aucune information, enlève ensuite au fur à mesure celles qui n'apparaissent jamais dans l'arbre pour gagner un peu en performance.

Merci. C'est une bonne information ça. Mais j'avais au préalable fait avec les datas brutes et déjà c'était pas joli joli (enfin pas plus de 2 noeuds). Pour les données temporelles idem qu'au dessus, j'ai crée des modalités du type "visite il y a moins d'1 mois", "visite il y a moins de 2 mois", etc. en gardant toujours un nombre de modalités correcte et des effectifs assez bien répartis. C'est d'ailleurs peut être une erreur ...

HDKalit a écrit:Humpf ... possible qu'effectivement il n'y ait pas de solution à la problématique
Il manque un point important dans ta problématique, c'est la qualité de la prédiction à obtenir.
parfois faire tout petit mieux que le hasard peut être avoir gros impact au final.
et aussi parce qu'il ne faut pas oublier de raisonner en terme de score, peut importe que tu arrive à classer tous les individus, peut être qu’être bon sur les 2-3 % meilleurs scores est largement suffisant pour un ciblage marketing.
donc ne vise pas trop haut, vise ce que tu as besoin.

Là en terme de qualité de prédiction c'est pas très "fin". On espère juste réussir à "virer" 20% de personnes qui ne seront pas acheteuses de plus que la perte engendrée sur le chiffre d'affaire de la campagne commerciale. Donc en gros si on vire 40% des personnes qui n'ont jamais acheté et que on voit une baisse de 20% du chiffre d'affaire sur la campagne on est toujours bon.
Du coup je ne sais pas trop formaliser cela ... très délicat.

Pour le scoring là tu m'interpelles. Comment définir ses classes de scores justement? Je vois l'idée sous jacente mais pas le formalisme stat derrière.
J'ai regardé des documents sur internet mais je n'ai jamais vu comment on créait ces classes de scores.

Comme au dessus j'ai du mal à voir avec la classification comment faire du scoring d'ailleurs. Avec une régression logistique par exemple je vois à peu près (sauf la création du score) mais là ...
Peut-être aussi que je m'embrouille complètement entre toutes ces notions somme toute assez nouvelle pour moi ...

bon courage.

(tu peux quand même faire une acp hein, le truc c'est que tu risque de découvrir des comportements que tout le monde s'en tape car il ne répondent pas à la problématique)

Merci en tout cas!

Oui pour l'acp (ou acm) effectivement j'avais déjà eu l'expérience de montrer quelque chose dont tout le monde se tape Very Happy

... c'est d'ailleurs très désagréable ...

Encore merci pour ton post,

Cordialement,

KhaliHD

par HDKalit Lun 27 Mai 2013 - 15:27

Je fais un petit up sur cette problématique et surtout sur l’éclaircissement des points ci-dessus.

Encore désolé pour le vocabulaire que je n'ai pas dans l'analyse de données, vraiment (trop?) nouveau ^^

Cordialement et en vous remerciant encore pour l'aide apportée,

KhaliHD

par Qualitative Mar 28 Mai 2013 - 16:04

Bonjour,

Je pense que si tu as une variable à prédire (arrêtez moi si je me trompe) tu peux faire du scoring (mais je n'ai pas encore vu comment on le construit exactement).

En revanche si tu veux voir pour une variable pour de la classification, il faut (de ce que j'ai compris de FS) regarder les valeurs de ta variable cible suivant les clusters?
Mais pour la classif' la encore je ne suis pas la mieux placée mais je dirai qu'il faut faire attention à des effets d'échelles (d'où le fait de normaliser) et après suivant la taille de ton jeu de données peut être faire un échantillonnage?

J'espère avoir pu t'aider un peu (à mon avis FS semble plus à même de répondre à tes questions là), je regarderai ce fil car il m'intéresse donc si tu pouvais nous tenir au courant ça serait sympa Smile

Bien cordialement,

Qualitative

par Contenu sponsorisé

Description ou plutôt étude du comportement général

Description ou plutôt étude du comportement général

Re: Description ou plutôt étude du comportement général

Re: Description ou plutôt étude du comportement général

Re: Description ou plutôt étude du comportement général

Re: Description ou plutôt étude du comportement général

Re: Description ou plutôt étude du comportement général

Re: Description ou plutôt étude du comportement général

Re: Description ou plutôt étude du comportement général