Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
ACM CAH (données qualitatives & grosse base de données)
4 participants
Page 1 sur 1
ACM CAH (données qualitatives & grosse base de données)
Bonjour,
après avoir réalisé une ACM sur des données qualitatives. J'aimerais réaliser une typologie mais la CAH n'est pas adapaté à un grand nombre de données. Quelle autre méthode peut-être utilisée ? Je souligne le faite que mes variables étaient à la base mixte (quanti et quali). Cepandant pour réaliser l'ACM, j'ai du transformer mes deux variables quantitatives en qualitatives.
J'aimerais donc juste savoir quelle méthode utilisé pour "typer" des individus avec un nombre important de données et des variables exclusivement qualitatives ?
après avoir réalisé une ACM sur des données qualitatives. J'aimerais réaliser une typologie mais la CAH n'est pas adapaté à un grand nombre de données. Quelle autre méthode peut-être utilisée ? Je souligne le faite que mes variables étaient à la base mixte (quanti et quali). Cepandant pour réaliser l'ACM, j'ai du transformer mes deux variables quantitatives en qualitatives.
J'aimerais donc juste savoir quelle méthode utilisé pour "typer" des individus avec un nombre important de données et des variables exclusivement qualitatives ?
Khroutchev- Nombre de messages : 32
Date d'inscription : 24/05/2013
Re: ACM CAH (données qualitatives & grosse base de données)
Salut, pour les grande base de données il y'a deux stratégies simple à mettre en oeuvre :
- Faire la CAH sur un échantillon de tes données (quelque milliers d'individus), puis pour classer l’ensemble les individus appliquer les k-means à partir des centroïds issues de la CAH (en prenant un individu de chaque groupe)
- A l'inverse commencer par les k-means avec un très grand nombre de cluster (plusieurs centaine /millier) et terminer avec une CAH.
- Faire la CAH sur un échantillon de tes données (quelque milliers d'individus), puis pour classer l’ensemble les individus appliquer les k-means à partir des centroïds issues de la CAH (en prenant un individu de chaque groupe)
- A l'inverse commencer par les k-means avec un très grand nombre de cluster (plusieurs centaine /millier) et terminer avec une CAH.
FS- Nombre de messages : 163
Date d'inscription : 25/04/2008
Re: ACM CAH (données qualitatives & grosse base de données)
Ok c'est cool merci
Khroutchev- Nombre de messages : 32
Date d'inscription : 24/05/2013
Re: ACM CAH (données qualitatives & grosse base de données)
FS a écrit:
- Faire la CAH sur un échantillon de tes données (quelque milliers d'individus), puis pour classer l’ensemble les individus appliquer les k-means à partir des centroïds issues de la CAH (en prenant un individu de chaque groupe)
- A l'inverse commencer par les k-means avec un très grand nombre de cluster (plusieurs centaine /millier) et terminer avec une CAH.
La deuxième solution est plus souvent employée... et tu peux même refaire une k-means après la cah pour consolider tes partitions.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: ACM CAH (données qualitatives & grosse base de données)
FS a écrit:Salut, pour les grande base de données il y'a deux stratégies simple à mettre en oeuvre :
- Faire la CAH sur un échantillon de tes données (quelque milliers d'individus), puis pour classer l’ensemble les individus appliquer les k-means à partir des centroïds issues de la CAH (en prenant un individu de chaque groupe)
Alors là ça m'intéresse, pourquoi est-il censé n'utiliser que des échantillons de sa base de donnée pour réaliser sa CAH ?
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: ACM CAH (données qualitatives & grosse base de données)
Car le temps de calcul explose, une CAH est très gourmand en calcul alors qu'un k-means est très rapide.
Un échantillon (aléatoire) est suffisant pour décrire tes données (cf. cours de sondage) et donc pour initialiser correctement les centres pour lancer le k-means.
Un échantillon (aléatoire) est suffisant pour décrire tes données (cf. cours de sondage) et donc pour initialiser correctement les centres pour lancer le k-means.
FS- Nombre de messages : 163
Date d'inscription : 25/04/2008
Re: ACM CAH (données qualitatives & grosse base de données)
FS a écrit:Car le temps de calcul explose, une CAH est très gourmand en calcul alors qu'un k-means est très rapide.
Un échantillon (aléatoire) est suffisant pour décrire tes données (cf. cours de sondage) et donc pour initialiser correctement les centres pour lancer le k-means.
En vérifiant quand même si l'échantillon reste représentatif de l'ensemble de la population.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: ACM CAH (données qualitatives & grosse base de données)
Oui bien sur, j'avais pas pensé que ça pouvait prendre du temps à faire tourner.
Comme quand on fait tourner une boucle de tests de fisher.exact, c'est horrible
Comme quand on fait tourner une boucle de tests de fisher.exact, c'est horrible
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: ACM CAH (données qualitatives & grosse base de données)
Alors du coup, comment on fait pour vérifier si l'échantillon est représentatif de la population ?
Existe-il un test ? Ou tout simplement avec un plot ?
Existe-il un test ? Ou tout simplement avec un plot ?
Khroutchev- Nombre de messages : 32
Date d'inscription : 24/05/2013
Re: ACM CAH (données qualitatives & grosse base de données)
tu peux faire des tests de moyennes, de proportion, test du khi deux sur les différentes variable quantitatives/qualitatives.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: ACM CAH (données qualitatives & grosse base de données)
Tu connais, par hasard le code sous R, pour faire de tels tests ? Ou faut-il tout simplement calculer les moyennes, proportion ... par variable ?
Khroutchev- Nombre de messages : 32
Date d'inscription : 24/05/2013
Re: ACM CAH (données qualitatives & grosse base de données)
chisq.test(varnumeric,varcategorielle)
pour le Chi2
pour le Chi2
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Sujets similaires
» Logiciel de base de données
» Base de données exercice
» Où trouver une base de données pourméthodes nonparamétriques
» cherche base de données URGENT
» Bootstrap - grande base de données
» Base de données exercice
» Où trouver une base de données pourméthodes nonparamétriques
» cherche base de données URGENT
» Bootstrap - grande base de données
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
|
|