Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
analyse de Cluster sur des données mixtes
3 participants
Page 1 sur 1
analyse de Cluster sur des données mixtes
Bonjour,
j'ai une présentation à faire ce vendredi pour un entretien d'embauche et je suis bloqué. En fait il s'agit de faire une Analyse de Cluster sur un jeu de données que j'ai Joint (Kaffee.csv), dans lequel il y a des variables numeriques et categorielle.
En fait il s'agit d'un magasin qui vend plusieurs marque de Cafés et on aimerait donc savoir quels groupes de Clients y vont et quels sont les mesures donc en prendre une fois ces groupes connus.
J'ai essayé de calculer la matrice de distance Avec et sans Transformation des données, mais j'obtiens aucun Resultat ou alors des resultats qui ne me semblent bon.
Ci-dessous la description des variables:
- qte (quantité): qté des paquets achetés, ayant pr valeurs: 1 (un paquet), 2 (deux paquets), 3 (au moins trois paquets)
- Prix (Prix de vente du paquet de café): 1 (jusqu'à 6,50 euro), 2 (entre 6,50 et 8,50 euro) et 3 (plus de 8,50 euro)
- Numero: Numero du domicile
- marque (marque des Cafés achetés) : 1 (Tosa_premium), 2 (Tosa_autre), 3 (Aldi), 4 (Aldi_autre), 5 (Lidl), 6 (Lidl_autre), 7 (Leclerc), 8 (Leclerc_autre) et 9 (autre_marque)
- duree (Periode entre l'achat actuel et le prochain (mesuré en jours))
- Age (Age de la personne qui gère le domicile): 1 (jusk´qu'à 24 ans), 2 (entre 25 et 39 ans), 3 (entre 40 et 49 ans), 4 (entre 50 et 59 ans), 5 (au moins 60 ans)
- classe (classe des personnes vivant dans le domicile): 1 (classe superieure), 2 (classe superieure moyenne), 3 (classe moyenne), 4 (classe inferieure moyenne) et 5 (classe inferieure)
-revenu (revenu mensuel par domicile en Euro): 1 (au plus 1499) , 2 (entre 1500 et 2499), 3 (entre 2500 et 3499) , et 4 (au moins 3500)
- nbre_pers (nbre de personnes vivant dans le domicile)
- prbew (conscient du prix): 1 (pas conscient), 2 (un peu conscient), 3 (conscient), et 4 (vraiment conscient)
- niv_formation ( Niveau d'etude de la personne dirigeant le domicile): 1 (college), 2 (brevet), 3 (Bacc / universite)
- fidelite (fidele à la marque): 1 (fidele) , 2 (pas fidele)
La tâche est de sortir les differents groupes de Clusters et donner un concept Marketing pour chaque groupe.
Merci d'avance pour chaque contribution
Data Never sleep
Cedric
j'ai une présentation à faire ce vendredi pour un entretien d'embauche et je suis bloqué. En fait il s'agit de faire une Analyse de Cluster sur un jeu de données que j'ai Joint (Kaffee.csv), dans lequel il y a des variables numeriques et categorielle.
En fait il s'agit d'un magasin qui vend plusieurs marque de Cafés et on aimerait donc savoir quels groupes de Clients y vont et quels sont les mesures donc en prendre une fois ces groupes connus.
J'ai essayé de calculer la matrice de distance Avec et sans Transformation des données, mais j'obtiens aucun Resultat ou alors des resultats qui ne me semblent bon.
Ci-dessous la description des variables:
- qte (quantité): qté des paquets achetés, ayant pr valeurs: 1 (un paquet), 2 (deux paquets), 3 (au moins trois paquets)
- Prix (Prix de vente du paquet de café): 1 (jusqu'à 6,50 euro), 2 (entre 6,50 et 8,50 euro) et 3 (plus de 8,50 euro)
- Numero: Numero du domicile
- marque (marque des Cafés achetés) : 1 (Tosa_premium), 2 (Tosa_autre), 3 (Aldi), 4 (Aldi_autre), 5 (Lidl), 6 (Lidl_autre), 7 (Leclerc), 8 (Leclerc_autre) et 9 (autre_marque)
- duree (Periode entre l'achat actuel et le prochain (mesuré en jours))
- Age (Age de la personne qui gère le domicile): 1 (jusk´qu'à 24 ans), 2 (entre 25 et 39 ans), 3 (entre 40 et 49 ans), 4 (entre 50 et 59 ans), 5 (au moins 60 ans)
- classe (classe des personnes vivant dans le domicile): 1 (classe superieure), 2 (classe superieure moyenne), 3 (classe moyenne), 4 (classe inferieure moyenne) et 5 (classe inferieure)
-revenu (revenu mensuel par domicile en Euro): 1 (au plus 1499) , 2 (entre 1500 et 2499), 3 (entre 2500 et 3499) , et 4 (au moins 3500)
- nbre_pers (nbre de personnes vivant dans le domicile)
- prbew (conscient du prix): 1 (pas conscient), 2 (un peu conscient), 3 (conscient), et 4 (vraiment conscient)
- niv_formation ( Niveau d'etude de la personne dirigeant le domicile): 1 (college), 2 (brevet), 3 (Bacc / universite)
- fidelite (fidele à la marque): 1 (fidele) , 2 (pas fidele)
La tâche est de sortir les differents groupes de Clusters et donner un concept Marketing pour chaque groupe.
Merci d'avance pour chaque contribution
Data Never sleep
Cedric
cedsoft- Nombre de messages : 23
Date d'inscription : 01/12/2014
Re: analyse de Cluster sur des données mixtes
Il y a plusieurs méthodes possibles pour faire de la classification, de la discrimination et donc du clustering sur des données qualitatives ou semi-quantitatives multivariées, mais il n'est pas simple de résumer ceci ici.
Et puis, juste par curiosité : Si quelqu'un vous donne une solution ici, c'est vous qui passez l'entretien d'embauche. Comment pouvez-vous "vendre" un savoir que vous ne possédez apparemment pas, et qu'il semble difficile d'acquérir et de maîtriser d'ici vendredi ? Quelque chose m'échappe semble t-il ici.
HTH, Eric.
Et puis, juste par curiosité : Si quelqu'un vous donne une solution ici, c'est vous qui passez l'entretien d'embauche. Comment pouvez-vous "vendre" un savoir que vous ne possédez apparemment pas, et qu'il semble difficile d'acquérir et de maîtriser d'ici vendredi ? Quelque chose m'échappe semble t-il ici.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: analyse de Cluster sur des données mixtes
Bjr Eric,
il ne s'agit po de macher tout et que j'avale car celà ne m'aiderait po. J'ai deja eu à travailler là dessus, juste que je n'ai po mentionné ce que j'ai eu à faire jusq'ici. Bon, j'explique:
- j'ai analysé les données et constater qu'il n'y a que 3 Variables numeriques: qte,prix et nbre_pers. Les autres étant catégorielles.
- j'ai donc eclaté chaque variable categorielle selon le nombre de classe qu'elle comporte pour avoir des Variables binaires, ce qui me donne en tout 41 Variables au total au lieu de 12 comme au epart. Ensuite j'ai standardisé à l'aide de la fonction scale de R les variables numeriques
-Ensuite j'ai utilisé kmeansvar pour avoir les differents cluster et justement là, je ne suis po satisfait des resultats que j'ai trouvés en variant meme le nombre de N de cluster. Etant donné que le kmeans demande le nombre de cluster en entrée, j'ai essayé d'utiliser le gap_statistic ou la silhouette pour determiner le nombre optimal de cluster, mais à ce niveau le programme me renvoie toujours des Warnings, raison pour laquelle, j'ai fait varier le nombre de cluster pour voir.
- J'ai essayé auss la methode hierarchique, mais deja, le programme renvoie des Warning lorsque les distances sont calculés.
-J'ai eu à utliser la fonction gower qui s'applique aussi sur tout type de données, mais elle ne marche po avec tout mon jeu de donnée car soit disant qu'il est très grand.
Donc voilà en gros, ce que j'ai pu faire jusqu'ici.
Merci
il ne s'agit po de macher tout et que j'avale car celà ne m'aiderait po. J'ai deja eu à travailler là dessus, juste que je n'ai po mentionné ce que j'ai eu à faire jusq'ici. Bon, j'explique:
- j'ai analysé les données et constater qu'il n'y a que 3 Variables numeriques: qte,prix et nbre_pers. Les autres étant catégorielles.
- j'ai donc eclaté chaque variable categorielle selon le nombre de classe qu'elle comporte pour avoir des Variables binaires, ce qui me donne en tout 41 Variables au total au lieu de 12 comme au epart. Ensuite j'ai standardisé à l'aide de la fonction scale de R les variables numeriques
-Ensuite j'ai utilisé kmeansvar pour avoir les differents cluster et justement là, je ne suis po satisfait des resultats que j'ai trouvés en variant meme le nombre de N de cluster. Etant donné que le kmeans demande le nombre de cluster en entrée, j'ai essayé d'utiliser le gap_statistic ou la silhouette pour determiner le nombre optimal de cluster, mais à ce niveau le programme me renvoie toujours des Warnings, raison pour laquelle, j'ai fait varier le nombre de cluster pour voir.
- J'ai essayé auss la methode hierarchique, mais deja, le programme renvoie des Warning lorsque les distances sont calculés.
-J'ai eu à utliser la fonction gower qui s'applique aussi sur tout type de données, mais elle ne marche po avec tout mon jeu de donnée car soit disant qu'il est très grand.
Donc voilà en gros, ce que j'ai pu faire jusqu'ici.
Merci
cedsoft- Nombre de messages : 23
Date d'inscription : 01/12/2014
Re: analyse de Cluster sur des données mixtes
J'avoue ne pas tout comprendre.
Comment éclater chaque variable catégorielle selon le nombre de classes qu'elle comporte pour avoir des variables binaires, et surtout, à quoi cela sert? Ceci semble aboutir à une perte sensible d'information.
Quels sont les warning que vous obtenez, et pourquoi?
Le mot "po'' veut-il dire "pas"? Pas clair.
Eric.
Comment éclater chaque variable catégorielle selon le nombre de classes qu'elle comporte pour avoir des variables binaires, et surtout, à quoi cela sert? Ceci semble aboutir à une perte sensible d'information.
Quels sont les warning que vous obtenez, et pourquoi?
Le mot "po'' veut-il dire "pas"? Pas clair.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: analyse de Cluster sur des données mixtes
desolé, "po" veut dire justement "pas".
je voulais dire par eclater une variable categorielle, la decomposer. Par exple si on a une variable categorielle qui a les valeur 1 pour bon, 2 pour moyen,3 pour mauvais alors je cree 3 variables binaire que je nomme arbitrairement Var1_bon, Var2_moyen, Var3_mauvais et partout où les valeurs correspondantes se situent dans la la variable d'origine, je mets un 1 et partout ailleurs un 0. Je fais de meme pour les les deux autres avariables.
En decomposant ainsi, je pense que j'aurai des infos assez preciser pour pouvoir constituer des groupes. De plus si je les plutot les valeurs 1,2,3 je pense que lord des calculs le chiffre 3 par exple aura plus de poids que 1 ou 2, alors que ce n'est pas le cas.
En executant la ligne de code as.matrix(daisy(donnee[1:10000,],metric="gower"))
le warnings que j'obtiens est le suivant:
Error: could not allow the size of the vector 186.9 MB
Futhermore: Warning:
In daisy(df[1:7000, ], metric = "gower") :
binary variable(s) 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41 treated as interval scaled
Cordialement
je voulais dire par eclater une variable categorielle, la decomposer. Par exple si on a une variable categorielle qui a les valeur 1 pour bon, 2 pour moyen,3 pour mauvais alors je cree 3 variables binaire que je nomme arbitrairement Var1_bon, Var2_moyen, Var3_mauvais et partout où les valeurs correspondantes se situent dans la la variable d'origine, je mets un 1 et partout ailleurs un 0. Je fais de meme pour les les deux autres avariables.
En decomposant ainsi, je pense que j'aurai des infos assez preciser pour pouvoir constituer des groupes. De plus si je les plutot les valeurs 1,2,3 je pense que lord des calculs le chiffre 3 par exple aura plus de poids que 1 ou 2, alors que ce n'est pas le cas.
En executant la ligne de code as.matrix(daisy(donnee[1:10000,],metric="gower"))
le warnings que j'obtiens est le suivant:
Error: could not allow the size of the vector 186.9 MB
Futhermore: Warning:
In daisy(df[1:7000, ], metric = "gower") :
binary variable(s) 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41 treated as interval scaled
Cordialement
cedsoft- Nombre de messages : 23
Date d'inscription : 01/12/2014
Re: analyse de Cluster sur des données mixtes
Ok pour le codage binaire. C'est un choix possible.
Pour le premier warning, vous argumentez un objet gros pour la capacité de mémoire de R. Voir - par exemple - ici.
Le deuxième warning ne me dit rien. Il semble qu'il vienne de la fonction daisy() que je ne connais pas. Je ne peux donc pas vous aider sur ce point.
Eric.
Pour le premier warning, vous argumentez un objet gros pour la capacité de mémoire de R. Voir - par exemple - ici.
Le deuxième warning ne me dit rien. Il semble qu'il vienne de la fonction daisy() que je ne connais pas. Je ne peux donc pas vous aider sur ce point.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: analyse de Cluster sur des données mixtes
j'ai pu utiliser finalement la fonction kmeansvar(...)$Cluster qui me donne la repartition des variables dans des Clusters mais lorsque je calcule l'homogeneité des Clusters, j'obtiens 37%, pourcentage très bas. Donc du coup, je ne sais po si ca vaut toujours la peine de standardiser les variables codées en binaire pour voir si le Resultat peut etre
amelioré.
Cordialement
amelioré.
Cordialement
cedsoft- Nombre de messages : 23
Date d'inscription : 01/12/2014
Re: analyse de Cluster sur des données mixtes
Pourquoi continuer à écrire "po" ? Tu n'es pas un bébé, et ça n'abrège que tellement peut que c'est ridicule ..
Tu sais écrire en bon français, fais-le.
Cordialement.
Tu sais écrire en bon français, fais-le.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: analyse de Cluster sur des données mixtes
désolé, c'est juste que je m'en rend pas compte.... J'essayerai tout de meme d'eviter cela...
Cordialement
Cordialement
cedsoft- Nombre de messages : 23
Date d'inscription : 01/12/2014
Re: analyse de Cluster sur des données mixtes
Oui, pour ton entretien d'embauche, c'est mieux
Bonne réussite !
Bonne réussite !
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Sujets similaires
» Données manquantes et modèles mixtes
» modèles à effets mixtes
» modèles mixtes - intérêt?
» Regression statistique avec multiples variables mixtes
» cluster randomisation
» modèles à effets mixtes
» modèles mixtes - intérêt?
» Regression statistique avec multiples variables mixtes
» cluster randomisation
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum