Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Prédiction d'achat internet
5 participants
Page 1 sur 1
Prédiction d'achat internet
Bonjour tout le monde,
Avant tout je remercie les personnes qui pourraient m'apporter leur conseil ou bien m'expliquer que je me trompe de direction.
Je travail en ce moment sur un projet pour une marque de jouets pour enfants effectuant ses ventes via internet.
Je souhaiterais réaliser un scoring permettant de prédire si un individu va effectuer un achat ou non en fonction de données de navigation (nombre de visites, de clics, récence de la dernière commande...) et de variables non comportementales (sexe, age, zone géographique, nombre d'enfants...).
Ma variable à prédire est donc qualitative et je dispose pour cela d'un nombre conséquent de variables quantitatives et qualitatives. Je dispose également d'un nombre d'individus important (plusieurs millions).
Avant de me lancer dans un modèle de prédiction sans trop savoir quelle méthode utiliser j'ai quelques intérrogations:
- En faisant de nombreuse recherches il semble que les méthodes adaptées à mon sujet soient: la régression logistique, les arbres de décision ou encore les réseau de neurones. Comment puis-je savoir laquelle de ces méthode correspond le mieux à mon objectif?
Si les 3 sont équivalentes, est-il judicieux d'effectuer les trois dans le but d'en comparer les résultats pour ainsi choisir le modèle optimal? (et cela est-il possible?)
- Disposant de nombreuses variables, j'aurais voulu savoir si la sélection des variables discriminantes effectuée par des méthode backward/forward/stepwise est suffisante ou il est préférable de passer par des analyses préliminaires telle qu'une analyse facorielle (dans mon cas une AFCM puisque mes variables sont quali et quanti?).
Si oui quelles peuvent-elles être? AFCM, ANOVA à un facteur (variable par variable) ...
-Enfin utilisant le logiciel R, je ne peux me permettre d'importer mes millions d'individus. Je pensais prélever un échantillon de 100 000 personnes correspondant aux proportions du total de mes individus (sexe, zone géo, nb d'enfants...).
Cela est-il nécessaire, ou puis-je me contenter de tirer 100 000 personnes au hasard?
Merci à vous,
Avant tout je remercie les personnes qui pourraient m'apporter leur conseil ou bien m'expliquer que je me trompe de direction.
Je travail en ce moment sur un projet pour une marque de jouets pour enfants effectuant ses ventes via internet.
Je souhaiterais réaliser un scoring permettant de prédire si un individu va effectuer un achat ou non en fonction de données de navigation (nombre de visites, de clics, récence de la dernière commande...) et de variables non comportementales (sexe, age, zone géographique, nombre d'enfants...).
Ma variable à prédire est donc qualitative et je dispose pour cela d'un nombre conséquent de variables quantitatives et qualitatives. Je dispose également d'un nombre d'individus important (plusieurs millions).
Avant de me lancer dans un modèle de prédiction sans trop savoir quelle méthode utiliser j'ai quelques intérrogations:
- En faisant de nombreuse recherches il semble que les méthodes adaptées à mon sujet soient: la régression logistique, les arbres de décision ou encore les réseau de neurones. Comment puis-je savoir laquelle de ces méthode correspond le mieux à mon objectif?
Si les 3 sont équivalentes, est-il judicieux d'effectuer les trois dans le but d'en comparer les résultats pour ainsi choisir le modèle optimal? (et cela est-il possible?)
- Disposant de nombreuses variables, j'aurais voulu savoir si la sélection des variables discriminantes effectuée par des méthode backward/forward/stepwise est suffisante ou il est préférable de passer par des analyses préliminaires telle qu'une analyse facorielle (dans mon cas une AFCM puisque mes variables sont quali et quanti?).
Si oui quelles peuvent-elles être? AFCM, ANOVA à un facteur (variable par variable) ...
-Enfin utilisant le logiciel R, je ne peux me permettre d'importer mes millions d'individus. Je pensais prélever un échantillon de 100 000 personnes correspondant aux proportions du total de mes individus (sexe, zone géo, nb d'enfants...).
Cela est-il nécessaire, ou puis-je me contenter de tirer 100 000 personnes au hasard?
Merci à vous,
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: Prédiction d'achat internet
Bonjour,
Pour moi la meilleure méthode pour prédire une variable achat/pas achat est la régression logistique. Après tu peux aussi prédire un taux de conversion ou un montant d'achat. Dans ces 2 derniers cas c'est la régression qu'il faudra choisir.
Pour l'analyse de données regarde du coté de l'AFM, une analyse qui prend en compte des groupes de variables et des données quali et quanti.
Pour l'échantillon, il est préférable de faire un sondage par quotas. Les résultats seront plus précis.
Pour moi la meilleure méthode pour prédire une variable achat/pas achat est la régression logistique. Après tu peux aussi prédire un taux de conversion ou un montant d'achat. Dans ces 2 derniers cas c'est la régression qu'il faudra choisir.
Pour l'analyse de données regarde du coté de l'AFM, une analyse qui prend en compte des groupes de variables et des données quali et quanti.
Pour l'échantillon, il est préférable de faire un sondage par quotas. Les résultats seront plus précis.
Re: Prédiction d'achat internet
Bonjour damgui et merci pour cette première réponse!
En effet, je comptais me diriger vers la regression logistique finalement, et plus en particulier vers la regression logistique PLS qui d'après ce que j'ai lu permet d'éviter d'incorporer des variables colinéaires ce qui complexifierait le modèle sans apporter d'informations supplémentaires.
Mis à part cet effet de multicolinéarité pris en compte par la PLS, peux-tu m'expliquer pour quelles raisons selon toi la regression logistique est la méthode la plus adaptée?
J'ai également lu que pour utiliser la regression logistique il fallait que mes variables aient une distribution normale. Est-ce vrai? Faut-il alors normaliser toutes les variables? Et de quelle manière?
Je vais me pencher sur l'AFM pour mon étude préliminaire et sur le sondage par quotas pour mon échantillonage.
Merci beaucoup,
En effet, je comptais me diriger vers la regression logistique finalement, et plus en particulier vers la regression logistique PLS qui d'après ce que j'ai lu permet d'éviter d'incorporer des variables colinéaires ce qui complexifierait le modèle sans apporter d'informations supplémentaires.
Mis à part cet effet de multicolinéarité pris en compte par la PLS, peux-tu m'expliquer pour quelles raisons selon toi la regression logistique est la méthode la plus adaptée?
J'ai également lu que pour utiliser la regression logistique il fallait que mes variables aient une distribution normale. Est-ce vrai? Faut-il alors normaliser toutes les variables? Et de quelle manière?
Je vais me pencher sur l'AFM pour mon étude préliminaire et sur le sondage par quotas pour mon échantillonage.
Merci beaucoup,
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: Prédiction d'achat internet
Il y pas mal d'autres méthodes que la régression logistique. Tu as toute la famille des analyses discriminantes et puis celle aussi des arbres de classification. Perso, comme l'objectif est très prédictif, je partirais sur du random forest ou du boosting regression tree.
Pour ce qui est de la normalité des variables, ça fait partie des légendes urbaines. Pour s'en convaincre, il suffit de se dire que la régression logistique comme de nombreux modèles permet de prendre en compte des variables qualitatives qui ne seront jamais "normale", même une fois transformée en indicatrice.
Pour ce qui est de la normalité des variables, ça fait partie des légendes urbaines. Pour s'en convaincre, il suffit de se dire que la régression logistique comme de nombreux modèles permet de prendre en compte des variables qualitatives qui ne seront jamais "normale", même une fois transformée en indicatrice.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Prédiction d'achat internet
Bonjour,
Le sujet m'intéressant je me permets de m’immiscer dans la conversation
@droopy: de ce que j'ai vu j'ai plus l'impression que les arbres de classification étaient intéressants en terme de temps de calcul mais avaient le désavantage de recalculer les probas à chaque nœud en ne tenant plus compte du nœud précédent.
Du coup la régression logistique me parait plus intéressante sur ce point (en supposant que les variables ne soient pas trop liées entre elles ... quoi que une PLS puisse faire l'affaire).
En revanche je vais de ce pas me renseigner sur les random forest & boosting regression tree que je ne connais pas du tout.
Pour la "normalité", complètement d'accord avec droopy. C'est même un faux problème.
Bien cordialement,
Khalid
Le sujet m'intéressant je me permets de m’immiscer dans la conversation
@droopy: de ce que j'ai vu j'ai plus l'impression que les arbres de classification étaient intéressants en terme de temps de calcul mais avaient le désavantage de recalculer les probas à chaque nœud en ne tenant plus compte du nœud précédent.
Du coup la régression logistique me parait plus intéressante sur ce point (en supposant que les variables ne soient pas trop liées entre elles ... quoi que une PLS puisse faire l'affaire).
En revanche je vais de ce pas me renseigner sur les random forest & boosting regression tree que je ne connais pas du tout.
Pour la "normalité", complètement d'accord avec droopy. C'est même un faux problème.
Bien cordialement,
Khalid
HDKalit- Nombre de messages : 85
Date d'inscription : 10/01/2013
Re: Prédiction d'achat internet
Il n'ya pas de meilleur modèle, le meilleur c'est celui qui arrive le mieux à prédire tes données.
Cependant les méthodes basées sur les modèles ensembliste (agrégation de plusieurs modèles: random forest, gradient boosting...) donnent de bon résultat car ils sont réputés pour être peu sensible au sur apprentissage, donc ils peuvent "avaler" un grand nombre de données en restant robuste.
Le problème c'est qu'ils sont difficilement interprétables (par un humain) contrairement à une régression logistique ou un arbre simple qu'on peut montrer et expliquer au premier venu.
Pour ce qui de la normalité, on s'en fout, le but c'est pas de vérifier des hypothèses et encore moins d'expliquer un phénomène, le but c'est de prédire et c'est tout, rien de plus, quelque soit la forme merdique des données.
Un autre avantage sur les modèles à base d'arbre c'est qu'il ne sont pas linéaire, ils découpent l'espace en sous ensemble, ainsi on peut recoder les variables discrètes en numérique sans passer par la case binarisation (ce qui garanti pas de meilleurs résultats !!)
le mieux c'est de te mettre le plus proche d'une situation réelle, donc si tu as des données temporelle essaye de prédire le mois le plus récent avec les données des mois précédents.
ça évitera les grosse erreur du type prédire le "passé" grâce au données du "futur".
*edit: un random forest ça peut prendre des plombes a faire tourner, surtout si l'arbre est profond.
Cependant les méthodes basées sur les modèles ensembliste (agrégation de plusieurs modèles: random forest, gradient boosting...) donnent de bon résultat car ils sont réputés pour être peu sensible au sur apprentissage, donc ils peuvent "avaler" un grand nombre de données en restant robuste.
Le problème c'est qu'ils sont difficilement interprétables (par un humain) contrairement à une régression logistique ou un arbre simple qu'on peut montrer et expliquer au premier venu.
Pour ce qui de la normalité, on s'en fout, le but c'est pas de vérifier des hypothèses et encore moins d'expliquer un phénomène, le but c'est de prédire et c'est tout, rien de plus, quelque soit la forme merdique des données.
Un autre avantage sur les modèles à base d'arbre c'est qu'il ne sont pas linéaire, ils découpent l'espace en sous ensemble, ainsi on peut recoder les variables discrètes en numérique sans passer par la case binarisation (ce qui garanti pas de meilleurs résultats !!)
Haxo a écrit:
-Enfin utilisant le logiciel R, je ne peux me permettre d'importer mes millions d'individus. Je pensais prélever un échantillon de 100 000 personnes correspondant aux proportions du total de mes individus (sexe, zone géo, nb d'enfants...).
Cela est-il nécessaire, ou puis-je me contenter de tirer 100 000 personnes au hasard?
le mieux c'est de te mettre le plus proche d'une situation réelle, donc si tu as des données temporelle essaye de prédire le mois le plus récent avec les données des mois précédents.
ça évitera les grosse erreur du type prédire le "passé" grâce au données du "futur".
*edit: un random forest ça peut prendre des plombes a faire tourner, surtout si l'arbre est profond.
FS- Nombre de messages : 163
Date d'inscription : 25/04/2008
Re: Prédiction d'achat internet
FS a écrit:Il n'ya pas de meilleur modèle, le meilleur c'est celui qui arrive le mieux à prédire tes données.
Cependant les méthodes basées sur les modèles ensembliste (agrégation de plusieurs modèles: random forest, gradient boosting...) donnent de bon résultat car ils sont réputés pour être peu sensible au sur apprentissage, donc ils peuvent "avaler" un grand nombre de données en restant robuste.
Le problème c'est qu'ils sont difficilement interprétables (par un humain) contrairement à une régression logistique ou un arbre simple qu'on peut montrer et expliquer au premier venu.
Pour ce qui de la normalité, on s'en fout, le but c'est pas de vérifier des hypothèses et encore moins d'expliquer un phénomène, le but c'est de prédire et c'est tout, rien de plus, quelque soit la forme merdique des données.
Un autre avantage sur les modèles à base d'arbre c'est qu'il ne sont pas linéaire, ils découpent l'espace en sous ensemble, ainsi on peut recoder les variables discrètes en numérique sans passer par la case binarisation (ce qui garanti pas de meilleurs résultats !!)Haxo a écrit:
-Enfin utilisant le logiciel R, je ne peux me permettre d'importer mes millions d'individus. Je pensais prélever un échantillon de 100 000 personnes correspondant aux proportions du total de mes individus (sexe, zone géo, nb d'enfants...).
Cela est-il nécessaire, ou puis-je me contenter de tirer 100 000 personnes au hasard?
le mieux c'est de te mettre le plus proche d'une situation réelle, donc si tu as des données temporelle essaye de prédire le mois le plus récent avec les données des mois précédents.
ça évitera les grosse erreur du type prédire le "passé" grâce au données du "futur".
*edit: un random forest ça peut prendre des plombes a faire tourner, surtout si l'arbre est profond.
Thx pour les explications.
Effectivement de ce que j'ai vu depuis hier ça a l'air assez "robuste" mais surtout lourd aussi bien en temps CPU que pour l'interprétation devant un public non stateux.
Khalid
HDKalit- Nombre de messages : 85
Date d'inscription : 10/01/2013
Re: Prédiction d'achat internet
Merci beaucoup pour toutes les explications que vous apportez!
Je voudrais effectuer une PLS et utiliser les random forest et/ou boosting regression tree. Est-il possible de comparer les résultats de la PLS et des arbres?
Je voudrais effectuer une PLS et utiliser les random forest et/ou boosting regression tree. Est-il possible de comparer les résultats de la PLS et des arbres?
Haxo- Nombre de messages : 23
Date d'inscription : 30/05/2013
Re: Prédiction d'achat internet
Tu as pas mal d'indicateur pour comparer le "goodness of fit" des méthodes. Tu as tout ce qui est sensibilité, specificité, AUC, True Skill Statistic, Kappa, etc.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Sujets similaires
» prédiction en régression
» Problème prediction
» choix du modèle de prédiction
» prédiction d'une variable quantitative
» moindres carrés pondérés - IC prédiction
» Problème prediction
» choix du modèle de prédiction
» prédiction d'une variable quantitative
» moindres carrés pondérés - IC prédiction
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum