Prédiction d'achat internet

par Haxo Jeu 30 Mai 2013 - 15:15

Bonjour tout le monde,

Avant tout je remercie les personnes qui pourraient m'apporter leur conseil ou bien m'expliquer que je me trompe de direction.

Je travail en ce moment sur un projet pour une marque de jouets pour enfants effectuant ses ventes via internet.

Je souhaiterais réaliser un scoring permettant de prédire si un individu va effectuer un achat ou non en fonction de données de navigation (nombre de visites, de clics, récence de la dernière commande...) et de variables non comportementales (sexe, age, zone géographique, nombre d'enfants...).

Ma variable à prédire est donc qualitative et je dispose pour cela d'un nombre conséquent de variables quantitatives et qualitatives. Je dispose également d'un nombre d'individus important (plusieurs millions).

Avant de me lancer dans un modèle de prédiction sans trop savoir quelle méthode utiliser j'ai quelques intérrogations:

- En faisant de nombreuse recherches il semble que les méthodes adaptées à mon sujet soient: la régression logistique, les arbres de décision ou encore les réseau de neurones. Comment puis-je savoir laquelle de ces méthode correspond le mieux à mon objectif?
Si les 3 sont équivalentes, est-il judicieux d'effectuer les trois dans le but d'en comparer les résultats pour ainsi choisir le modèle optimal? (et cela est-il possible?)

- Disposant de nombreuses variables, j'aurais voulu savoir si la sélection des variables discriminantes effectuée par des méthode backward/forward/stepwise est suffisante ou il est préférable de passer par des analyses préliminaires telle qu'une analyse facorielle (dans mon cas une AFCM puisque mes variables sont quali et quanti?).
Si oui quelles peuvent-elles être? AFCM, ANOVA à un facteur (variable par variable) ...

-Enfin utilisant le logiciel R, je ne peux me permettre d'importer mes millions d'individus. Je pensais prélever un échantillon de 100 000 personnes correspondant aux proportions du total de mes individus (sexe, zone géo, nb d'enfants...).
Cela est-il nécessaire, ou puis-je me contenter de tirer 100 000 personnes au hasard?

Merci à vous,

par damgui Mar 4 Juin 2013 - 9:52

Bonjour,

Pour moi la meilleure méthode pour prédire une variable achat/pas achat est la régression logistique. Après tu peux aussi prédire un taux de conversion ou un montant d'achat. Dans ces 2 derniers cas c'est la régression qu'il faudra choisir.

Pour l'analyse de données regarde du coté de l'AFM, une analyse qui prend en compte des groupes de variables et des données quali et quanti.

Pour l'échantillon, il est préférable de faire un sondage par quotas. Les résultats seront plus précis.

par Haxo Mar 4 Juin 2013 - 10:33

Bonjour damgui et merci pour cette première réponse!

En effet, je comptais me diriger vers la regression logistique finalement, et plus en particulier vers la regression logistique PLS qui d'après ce que j'ai lu permet d'éviter d'incorporer des variables colinéaires ce qui complexifierait le modèle sans apporter d'informations supplémentaires.
Mis à part cet effet de multicolinéarité pris en compte par la PLS, peux-tu m'expliquer pour quelles raisons selon toi la regression logistique est la méthode la plus adaptée?

J'ai également lu que pour utiliser la regression logistique il fallait que mes variables aient une distribution normale. Est-ce vrai? Faut-il alors normaliser toutes les variables? Et de quelle manière?

Je vais me pencher sur l'AFM pour mon étude préliminaire et sur le sondage par quotas pour mon échantillonage.

Merci beaucoup,

par droopy Mar 4 Juin 2013 - 11:40

Il y pas mal d'autres méthodes que la régression logistique. Tu as toute la famille des analyses discriminantes et puis celle aussi des arbres de classification. Perso, comme l'objectif est très prédictif, je partirais sur du random forest ou du boosting regression tree.

Pour ce qui est de la normalité des variables, ça fait partie des légendes urbaines. Pour s'en convaincre, il suffit de se dire que la régression logistique comme de nombreux modèles permet de prendre en compte des variables qualitatives qui ne seront jamais "normale", même une fois transformée en indicatrice.

par HDKalit Mar 4 Juin 2013 - 16:08

Bonjour,

Le sujet m'intéressant je me permets de m’immiscer dans la conversation Smile

@droopy: de ce que j'ai vu j'ai plus l'impression que les arbres de classification étaient intéressants en terme de temps de calcul mais avaient le désavantage de recalculer les probas à chaque nœud en ne tenant plus compte du nœud précédent.
Du coup la régression logistique me parait plus intéressante sur ce point (en supposant que les variables ne soient pas trop liées entre elles ... quoi que une PLS puisse faire l'affaire).

En revanche je vais de ce pas me renseigner sur les random forest & boosting regression tree que je ne connais pas du tout.

Pour la "normalité", complètement d'accord avec droopy. C'est même un faux problème.

Bien cordialement,

Khalid

par FS Mer 5 Juin 2013 - 9:44

Il n'ya pas de meilleur modèle, le meilleur c'est celui qui arrive le mieux à prédire tes données.
Cependant les méthodes basées sur les modèles ensembliste (agrégation de plusieurs modèles: random forest, gradient boosting...) donnent de bon résultat car ils sont réputés pour être peu sensible au sur apprentissage, donc ils peuvent "avaler" un grand nombre de données en restant robuste.
Le problème c'est qu'ils sont difficilement interprétables (par un humain) contrairement à une régression logistique ou un arbre simple qu'on peut montrer et expliquer au premier venu.

Pour ce qui de la normalité, on s'en fout, le but c'est pas de vérifier des hypothèses et encore moins d'expliquer un phénomène, le but c'est de prédire et c'est tout, rien de plus, quelque soit la forme merdique des données.
Un autre avantage sur les modèles à base d'arbre c'est qu'il ne sont pas linéaire, ils découpent l'espace en sous ensemble, ainsi on peut recoder les variables discrètes en numérique sans passer par la case binarisation Smile

(ce qui garanti pas de meilleurs résultats !!)

Haxo a écrit:
-Enfin utilisant le logiciel R, je ne peux me permettre d'importer mes millions d'individus. Je pensais prélever un échantillon de 100 000 personnes correspondant aux proportions du total de mes individus (sexe, zone géo, nb d'enfants...).
Cela est-il nécessaire, ou puis-je me contenter de tirer 100 000 personnes au hasard?

le mieux c'est de te mettre le plus proche d'une situation réelle, donc si tu as des données temporelle essaye de prédire le mois le plus récent avec les données des mois précédents.
ça évitera les grosse erreur du type prédire le "passé" grâce au données du "futur".

*edit: un random forest ça peut prendre des plombes a faire tourner, surtout si l'arbre est profond.

par HDKalit Mer 5 Juin 2013 - 9:48

FS a écrit:Il n'ya pas de meilleur modèle, le meilleur c'est celui qui arrive le mieux à prédire tes données.
Cependant les méthodes basées sur les modèles ensembliste (agrégation de plusieurs modèles: random forest, gradient boosting...) donnent de bon résultat car ils sont réputés pour être peu sensible au sur apprentissage, donc ils peuvent "avaler" un grand nombre de données en restant robuste.
Le problème c'est qu'ils sont difficilement interprétables (par un humain) contrairement à une régression logistique ou un arbre simple qu'on peut montrer et expliquer au premier venu.

Pour ce qui de la normalité, on s'en fout, le but c'est pas de vérifier des hypothèses et encore moins d'expliquer un phénomène, le but c'est de prédire et c'est tout, rien de plus, quelque soit la forme merdique des données.
Un autre avantage sur les modèles à base d'arbre c'est qu'il ne sont pas linéaire, ils découpent l'espace en sous ensemble, ainsi on peut recoder les variables discrètes en numérique sans passer par la case binarisation (ce qui garanti pas de meilleurs résultats !!)

Haxo a écrit:
-Enfin utilisant le logiciel R, je ne peux me permettre d'importer mes millions d'individus. Je pensais prélever un échantillon de 100 000 personnes correspondant aux proportions du total de mes individus (sexe, zone géo, nb d'enfants...).
Cela est-il nécessaire, ou puis-je me contenter de tirer 100 000 personnes au hasard?

le mieux c'est de te mettre le plus proche d'une situation réelle, donc si tu as des données temporelle essaye de prédire le mois le plus récent avec les données des mois précédents.
ça évitera les grosse erreur du type prédire le "passé" grâce au données du "futur".

*edit: un random forest ça peut prendre des plombes a faire tourner, surtout si l'arbre est profond.

Thx pour les explications.

Effectivement de ce que j'ai vu depuis hier ça a l'air assez "robuste" mais surtout lourd aussi bien en temps CPU que pour l'interprétation devant un public non stateux.

Khalid

par Haxo Mer 5 Juin 2013 - 11:06

Merci beaucoup pour toutes les explications que vous apportez!

Je voudrais effectuer une PLS et utiliser les random forest et/ou boosting regression tree. Est-il possible de comparer les résultats de la PLS et des arbres?

par droopy Mer 5 Juin 2013 - 11:44

Tu as pas mal d'indicateur pour comparer le "goodness of fit" des méthodes. Tu as tout ce qui est sensibilité, specificité, AUC, True Skill Statistic, Kappa, etc.

par Contenu sponsorisé

Prédiction d'achat internet

Prédiction d'achat internet

Re: Prédiction d'achat internet

Re: Prédiction d'achat internet

Re: Prédiction d'achat internet

Re: Prédiction d'achat internet

Re: Prédiction d'achat internet

Re: Prédiction d'achat internet

Re: Prédiction d'achat internet

Re: Prédiction d'achat internet

Re: Prédiction d'achat internet