analyse de Cluster sur des données mixtes

par cedsoft Mer 8 Nov 2017 - 14:32

Bonjour,

j'ai une présentation à faire ce vendredi pour un entretien d'embauche et je suis bloqué. En fait il s'agit de faire une Analyse de Cluster sur un jeu de données que j'ai Joint (Kaffee.csv), dans lequel il y a des variables numeriques et categorielle.

En fait il s'agit d'un magasin qui vend plusieurs marque de Cafés et on aimerait donc savoir quels groupes de Clients y vont et quels sont les mesures donc en prendre une fois ces groupes connus.

J'ai essayé de calculer la matrice de distance Avec et sans Transformation des données, mais j'obtiens aucun Resultat ou alors des resultats qui ne me semblent bon.

Ci-dessous la description des variables:

- qte (quantité): qté des paquets achetés, ayant pr valeurs: 1 (un paquet), 2 (deux paquets), 3 (au moins trois paquets)
- Prix (Prix de vente du paquet de café): 1 (jusqu'à 6,50 euro), 2 (entre 6,50 et 8,50 euro) et 3 (plus de 8,50 euro)
- Numero: Numero du domicile
- marque (marque des Cafés achetés) : 1 (Tosa_premium), 2 (Tosa_autre), 3 (Aldi), 4 (Aldi_autre), 5 (Lidl), 6 (Lidl_autre), 7 (Leclerc), 8 (Leclerc_autre) et 9 (autre_marque)
- duree (Periode entre l'achat actuel et le prochain (mesuré en jours))
- Age (Age de la personne qui gère le domicile): 1 (jusk´qu'à 24 ans), 2 (entre 25 et 39 ans), 3 (entre 40 et 49 ans), 4 (entre 50 et 59 ans), 5 (au moins 60 ans)
- classe (classe des personnes vivant dans le domicile): 1 (classe superieure), 2 (classe superieure moyenne), 3 (classe moyenne), 4 (classe inferieure moyenne) et 5 (classe inferieure)
-revenu (revenu mensuel par domicile en Euro): 1 (au plus 1499) , 2 (entre 1500 et 2499), 3 (entre 2500 et 3499) , et 4 (au moins 3500)
- nbre_pers (nbre de personnes vivant dans le domicile)
- prbew (conscient du prix): 1 (pas conscient), 2 (un peu conscient), 3 (conscient), et 4 (vraiment conscient)
- niv_formation ( Niveau d'etude de la personne dirigeant le domicile): 1 (college), 2 (brevet), 3 (Bacc / universite)
- fidelite (fidele à la marque): 1 (fidele) , 2 (pas fidele)

La tâche est de sortir les differents groupes de Clusters et donner un concept Marketing pour chaque groupe.

Merci d'avance pour chaque contribution

Data Never sleep

Cedric

par Eric Wajnberg Mer 8 Nov 2017 - 16:54

Il y a plusieurs méthodes possibles pour faire de la classification, de la discrimination et donc du clustering sur des données qualitatives ou semi-quantitatives multivariées, mais il n'est pas simple de résumer ceci ici.

Et puis, juste par curiosité : Si quelqu'un vous donne une solution ici, c'est vous qui passez l'entretien d'embauche. Comment pouvez-vous "vendre" un savoir que vous ne possédez apparemment pas, et qu'il semble difficile d'acquérir et de maîtriser d'ici vendredi ? Quelque chose m'échappe semble t-il ici.

HTH, Eric.

par cedsoft Mer 8 Nov 2017 - 18:03

Bjr Eric,

il ne s'agit po de macher tout et que j'avale car celà ne m'aiderait po. J'ai deja eu à travailler là dessus, juste que je n'ai po mentionné ce que j'ai eu à faire jusq'ici. Bon, j'explique:

- j'ai analysé les données et constater qu'il n'y a que 3 Variables numeriques: qte,prix et nbre_pers. Les autres étant catégorielles.
- j'ai donc eclaté chaque variable categorielle selon le nombre de classe qu'elle comporte pour avoir des Variables binaires, ce qui me donne en tout 41 Variables au total au lieu de 12 comme au epart. Ensuite j'ai standardisé à l'aide de la fonction scale de R les variables numeriques
-Ensuite j'ai utilisé kmeansvar pour avoir les differents cluster et justement là, je ne suis po satisfait des resultats que j'ai trouvés en variant meme le nombre de N de cluster. Etant donné que le kmeans demande le nombre de cluster en entrée, j'ai essayé d'utiliser le gap_statistic ou la silhouette pour determiner le nombre optimal de cluster, mais à ce niveau le programme me renvoie toujours des Warnings, raison pour laquelle, j'ai fait varier le nombre de cluster pour voir.
- J'ai essayé auss la methode hierarchique, mais deja, le programme renvoie des Warning lorsque les distances sont calculés.
-J'ai eu à utliser la fonction gower qui s'applique aussi sur tout type de données, mais elle ne marche po avec tout mon jeu de donnée car soit disant qu'il est très grand.

Donc voilà en gros, ce que j'ai pu faire jusqu'ici.

Merci

par Eric Wajnberg Mer 8 Nov 2017 - 19:55

J'avoue ne pas tout comprendre.

Comment éclater chaque variable catégorielle selon le nombre de classes qu'elle comporte pour avoir des variables binaires, et surtout, à quoi cela sert? Ceci semble aboutir à une perte sensible d'information.

Quels sont les warning que vous obtenez, et pourquoi?

Le mot "po'' veut-il dire "pas"? Pas clair.

Eric.

par cedsoft Mer 8 Nov 2017 - 20:38

desolé, "po" veut dire justement "pas".

je voulais dire par eclater une variable categorielle, la decomposer. Par exple si on a une variable categorielle qui a les valeur 1 pour bon, 2 pour moyen,3 pour mauvais alors je cree 3 variables binaire que je nomme arbitrairement Var1_bon, Var2_moyen, Var3_mauvais et partout où les valeurs correspondantes se situent dans la la variable d'origine, je mets un 1 et partout ailleurs un 0. Je fais de meme pour les les deux autres avariables.

En decomposant ainsi, je pense que j'aurai des infos assez preciser pour pouvoir constituer des groupes. De plus si je les plutot les valeurs 1,2,3 je pense que lord des calculs le chiffre 3 par exple aura plus de poids que 1 ou 2, alors que ce n'est pas le cas.

En executant la ligne de code as.matrix(daisy(donnee[1:10000,],metric="gower"))

le warnings que j'obtiens est le suivant:

Error: could not allow the size of the vector 186.9 MB
Futhermore: Warning:
In daisy(df[1:7000, ], metric = "gower") :
binary variable(s) 4, 5, 6, 7, 8, 9, 10, 11, 12, 13, 14, 15, 16, 17, 18, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35, 36, 37, 38, 39, 40, 41 treated as interval scaled

Cordialement

par Eric Wajnberg Jeu 9 Nov 2017 - 13:12

Ok pour le codage binaire. C'est un choix possible.

Pour le premier warning, vous argumentez un objet gros pour la capacité de mémoire de R. Voir - par exemple - ici.

Le deuxième warning ne me dit rien. Il semble qu'il vienne de la fonction daisy() que je ne connais pas. Je ne peux donc pas vous aider sur ce point.

Eric.

par cedsoft Jeu 9 Nov 2017 - 13:28

j'ai pu utiliser finalement la fonction kmeansvar(...)$Cluster qui me donne la repartition des variables dans des Clusters mais lorsque je calcule l'homogeneité des Clusters, j'obtiens 37%, pourcentage très bas. Donc du coup, je ne sais po si ca vaut toujours la peine de standardiser les variables codées en binaire pour voir si le Resultat peut etre
amelioré.

Cordialement

par gg Jeu 9 Nov 2017 - 16:13

Pourquoi continuer à écrire "po" ? Tu n'es pas un bébé, et ça n'abrège que tellement peut que c'est ridicule ..
Tu sais écrire en bon français, fais-le.

Cordialement.

par cedsoft Jeu 9 Nov 2017 - 16:44

désolé, c'est juste que je m'en rend pas compte.... J'essayerai tout de meme d'eviter cela...

Cordialement

par gg Ven 10 Nov 2017 - 8:48

Oui, pour ton entretien d'embauche, c'est mieux Very Happy

Bonne réussite !

par Contenu sponsorisé

analyse de Cluster sur des données mixtes

analyse de Cluster sur des données mixtes

Re: analyse de Cluster sur des données mixtes

Re: analyse de Cluster sur des données mixtes

Re: analyse de Cluster sur des données mixtes

Re: analyse de Cluster sur des données mixtes

Re: analyse de Cluster sur des données mixtes

Re: analyse de Cluster sur des données mixtes

Re: analyse de Cluster sur des données mixtes

Re: analyse de Cluster sur des données mixtes

Re: analyse de Cluster sur des données mixtes

Re: analyse de Cluster sur des données mixtes