Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
classification:sur les données ou les coordonnées de l'ACP?
2 participants
Page 1 sur 1
classification:sur les données ou les coordonnées de l'ACP?
Bonjour,
j'aurais une question peut-être un peu bizarre, mais sa m'embete alors je me lance.
J'effectue une étude sur la santé à différents niveaux géographiques en France. Je dois donc classifier les individus selon plusieurs pathologies/maladies. Je commence donc des ACP sur les taux de mortalité que j'ai dans ma base de donnée pour me donner une idée des données, puis j'effectue des classifications CAH avec mes données (taux de mortalité).
Mon responsable de stage m'a alors dit que ce que j'avais fait était étrange car j'avais effectué les classifications directement sur les données de ma base (les taux de mortalité donc), alors qu'elle a toujours vu qu'il fallait faire les classifications avec les coordonnées des données obtenues avec l'ACP.
J'ai essayé les deux méthodes, et elle donne presque la même chose. Par exemple, si j'ai un groupe d'une cinquantaine d'individus, 4 ou 5 individus vont changer de classe entre les deux méthodes. Mais cela m'embete quand même.
J'ai mis en fichier joint les deux nuages de point apres classification pour chaque méthode, l'un avec les données brutes utilisés pour classifier, l'autre avec les coordonnées obtenues avec l'ACP.
Voila, je ne sais pas trop quoi faire, quelle méthode choisir et pourquoi? personnellement j'aurais tendance à penser que prendre les coordonnées de l'ACP pourraient éviter des problèmes en cas d'unité de mesures différentes entre les variables?
Merci de votre aide!
j'aurais une question peut-être un peu bizarre, mais sa m'embete alors je me lance.
J'effectue une étude sur la santé à différents niveaux géographiques en France. Je dois donc classifier les individus selon plusieurs pathologies/maladies. Je commence donc des ACP sur les taux de mortalité que j'ai dans ma base de donnée pour me donner une idée des données, puis j'effectue des classifications CAH avec mes données (taux de mortalité).
Mon responsable de stage m'a alors dit que ce que j'avais fait était étrange car j'avais effectué les classifications directement sur les données de ma base (les taux de mortalité donc), alors qu'elle a toujours vu qu'il fallait faire les classifications avec les coordonnées des données obtenues avec l'ACP.
J'ai essayé les deux méthodes, et elle donne presque la même chose. Par exemple, si j'ai un groupe d'une cinquantaine d'individus, 4 ou 5 individus vont changer de classe entre les deux méthodes. Mais cela m'embete quand même.
J'ai mis en fichier joint les deux nuages de point apres classification pour chaque méthode, l'un avec les données brutes utilisés pour classifier, l'autre avec les coordonnées obtenues avec l'ACP.
Voila, je ne sais pas trop quoi faire, quelle méthode choisir et pourquoi? personnellement j'aurais tendance à penser que prendre les coordonnées de l'ACP pourraient éviter des problèmes en cas d'unité de mesures différentes entre les variables?
Merci de votre aide!
- Fichiers joints
furinax- Nombre de messages : 2
Date d'inscription : 14/05/2014
Re: classification:sur les données ou les coordonnées de l'ACP?
bonjour,
Effectivement si certaines variables ont des variances plus élevées, elles vont fortement contribuer au calcul de la distance utilisée ensuite pour la CAH.
Ensuite, le plan d'ACP permet d'avoir un espace euclidien orthonormé et donc permet un calcul de la distance euclidienne. Si tu pars des données brutes, rien ne t'assure que tu as bien un repère orthonormé. Ton calcul de distance est donc faussé à la matrice de passage (entre le repère défini par les données brutes et le repère orthonormé) près.
Nik
Effectivement si certaines variables ont des variances plus élevées, elles vont fortement contribuer au calcul de la distance utilisée ensuite pour la CAH.
Ensuite, le plan d'ACP permet d'avoir un espace euclidien orthonormé et donc permet un calcul de la distance euclidienne. Si tu pars des données brutes, rien ne t'assure que tu as bien un repère orthonormé. Ton calcul de distance est donc faussé à la matrice de passage (entre le repère défini par les données brutes et le repère orthonormé) près.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Sujets similaires
» coordonnées des variables
» ANOVA sur des coordonnées de DACP
» Calcul coordonnées des variables en ACP
» Récupérer coordonnées dans ACP FactomineR
» ACM CAH (données qualitatives & grosse base de données)
» ANOVA sur des coordonnées de DACP
» Calcul coordonnées des variables en ACP
» Récupérer coordonnées dans ACP FactomineR
» ACM CAH (données qualitatives & grosse base de données)
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum