Les posteurs les plus actifs de la semaine
Eric Wajnberg
classification:sur les données ou les coordonnées de l'ACP? Vote_lcapclassification:sur les données ou les coordonnées de l'ACP? Voting_barclassification:sur les données ou les coordonnées de l'ACP? Vote_rcap 


classification:sur les données ou les coordonnées de l'ACP?

Aller en bas

classification:sur les données ou les coordonnées de l'ACP? Empty classification:sur les données ou les coordonnées de l'ACP?

Message par furinax le Mer 11 Juin 2014 - 13:18

Bonjour,

j'aurais une question peut-être un peu bizarre, mais sa m'embete alors je me lance.

J'effectue une étude sur la santé à différents niveaux géographiques en France. Je dois donc classifier les individus selon plusieurs pathologies/maladies. Je commence donc des ACP sur les taux de mortalité que j'ai dans ma base de donnée pour me donner une idée des données, puis j'effectue des classifications CAH avec mes données (taux de mortalité).

Mon responsable de stage m'a alors dit que ce que j'avais fait était étrange car j'avais effectué les classifications directement sur les données de ma base (les taux de mortalité donc), alors qu'elle a toujours vu qu'il fallait faire les classifications avec les coordonnées des données obtenues avec l'ACP.

J'ai essayé les deux méthodes, et elle donne presque la même chose. Par exemple, si j'ai un groupe d'une cinquantaine d'individus, 4 ou 5 individus vont changer de classe entre les deux méthodes. Mais cela m'embete quand même.

J'ai mis en fichier joint les deux nuages de point apres classification pour chaque méthode, l'un avec les données brutes utilisés pour classifier, l'autre avec les coordonnées obtenues avec l'ACP.

Voila, je ne sais pas trop quoi faire, quelle méthode choisir et pourquoi? personnellement j'aurais tendance à penser que prendre les coordonnées de l'ACP pourraient éviter des problèmes en cas d'unité de mesures différentes entre les variables?

Merci de votre aide!
Fichiers joints
classification:sur les données ou les coordonnées de l'ACP? Attachment
comparaison.docx Vous n'avez pas la permission de télécharger les fichiers joints.(19 Ko) Téléchargé 3 fois

furinax

Nombre de messages : 2
Date d'inscription : 14/05/2014

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

classification:sur les données ou les coordonnées de l'ACP? Empty Re: classification:sur les données ou les coordonnées de l'ACP?

Message par Nik le Mer 11 Juin 2014 - 16:03

bonjour,

Effectivement si certaines variables ont des variances plus élevées, elles vont fortement contribuer au calcul de la distance utilisée ensuite pour la CAH.
Ensuite, le plan d'ACP permet d'avoir un espace euclidien orthonormé et donc permet un calcul de la distance euclidienne. Si tu pars des données brutes, rien ne t'assure que tu as bien un repère orthonormé. Ton calcul de distance est donc faussé à la matrice de passage (entre le repère défini par les données brutes et le repère orthonormé) près.

Nik

Nik

Nombre de messages : 1605
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum