Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
CAH combinée avec ACP : que faire des individus supplémentai
5 participants
Page 1 sur 1
CAH combinée avec ACP : que faire des individus supplémentai
Salut,
Actuellement j'essaie de classifier un ensemble de territoires. J'ai effectué une ACP pour récupérer les composantes principales et les insérer dans la CAH. Pour l'ACP, j'ai mis en individus supplémentaires des territoires qui avaient des valeurs extrêmes dans la contribution à la constructions des axes de l'ACP (CTR >0.4 et/ou >0.2). Ces individus ont la caractéristique d'être des territoires dit rural profond. Ma question est la suivante : pour procéder à la CAH dois-je mettre ces territoires en individus supplémentaires (ie je leur affecte une pondération nulle) ou bien j'utilise leurs coordonnées factorielles de l'ACP? Le résultat sera bien différent au niveau des classes obtenues. De plus, cela déterminera la stabilité des axes et des classes obtenues avec ou sans les individus supplémentaires.
Actuellement j'essaie de classifier un ensemble de territoires. J'ai effectué une ACP pour récupérer les composantes principales et les insérer dans la CAH. Pour l'ACP, j'ai mis en individus supplémentaires des territoires qui avaient des valeurs extrêmes dans la contribution à la constructions des axes de l'ACP (CTR >0.4 et/ou >0.2). Ces individus ont la caractéristique d'être des territoires dit rural profond. Ma question est la suivante : pour procéder à la CAH dois-je mettre ces territoires en individus supplémentaires (ie je leur affecte une pondération nulle) ou bien j'utilise leurs coordonnées factorielles de l'ACP? Le résultat sera bien différent au niveau des classes obtenues. De plus, cela déterminera la stabilité des axes et des classes obtenues avec ou sans les individus supplémentaires.
Northman- Nombre de messages : 3
Date d'inscription : 18/06/2013
Re: CAH combinée avec ACP : que faire des individus supplémentai
Une question préliminaire :
Pourquoi faire la CAH sur les ordinations sur les axes d'une ACP ? Pourquoi ne pas la faire sur les données d'origine. Ca parait compliqué (et probablement inutile) d’insérer une ACP au milieu des calculs. Il y a quelque chose qui m'échappe.
Eric.
Pourquoi faire la CAH sur les ordinations sur les axes d'une ACP ? Pourquoi ne pas la faire sur les données d'origine. Ca parait compliqué (et probablement inutile) d’insérer une ACP au milieu des calculs. Il y a quelque chose qui m'échappe.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: CAH combinée avec ACP : que faire des individus supplémentai
Bonjour,
l'ACP avant la CAH n'est pas aberrant. Ca peut réduire le temps de calcul et ça réduit également le "bruit statistique".
Et pour les individus supplémentaires, tu peux faire la CAH sans ces derniers, et les réattribuer à un groupe a posteriori (tu te calcules une distance au centre des classes par exemple).
Niaboc
l'ACP avant la CAH n'est pas aberrant. Ca peut réduire le temps de calcul et ça réduit également le "bruit statistique".
Et pour les individus supplémentaires, tu peux faire la CAH sans ces derniers, et les réattribuer à un groupe a posteriori (tu te calcules une distance au centre des classes par exemple).
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: CAH combinée avec ACP : que faire des individus supplémentai
Si ont met tout les axes de l'ACP, on retombe par définition sur exactement la même information que celle d'origine, avec la même dimensionnalité, etc. On ne gagne rien, et la CAH sera la même.
Ca ne vaut le coup que si on ne prend pas tous les axes, mais il faut alors une raison et une justification pour ceci. C'est ma question.
Eric.
Ca ne vaut le coup que si on ne prend pas tous les axes, mais il faut alors une raison et une justification pour ceci. C'est ma question.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: CAH combinée avec ACP : que faire des individus supplémentai
Salut,
Merci pour ces réponses. Mon intention était bien de prendre uniquement en compte les axes significatifs (2 ou 3 selon le nombre point aberrants retirés de l'ACP).
Bonne journée
JL
Merci pour ces réponses. Mon intention était bien de prendre uniquement en compte les axes significatifs (2 ou 3 selon le nombre point aberrants retirés de l'ACP).
Bonne journée
JL
Northman- Nombre de messages : 3
Date d'inscription : 18/06/2013
Re: CAH combinée avec ACP : que faire des individus supplémentai
Bonjour,
Il me semble que l'intérêt d'une analyse multivariée dans ce cadre est de fournir en entrée de la CAH un jeu de données dans un repère euclidien ce qui n'est jamais le cas des données brutes.
Certains algorithme de classification vont être sensible à la distance en entrée (notamment s'il s'agit d'une métrique ou non) tel que Ward et d'autres moins.
Tout dépend de ce qu'on cherche à faire (comme toujours...). Pour ma part je préfère rester dans un espace euclidien autant que possible car nous raisonnons de base comme ça.
Nik
Il me semble que l'intérêt d'une analyse multivariée dans ce cadre est de fournir en entrée de la CAH un jeu de données dans un repère euclidien ce qui n'est jamais le cas des données brutes.
Certains algorithme de classification vont être sensible à la distance en entrée (notamment s'il s'agit d'une métrique ou non) tel que Ward et d'autres moins.
Tout dépend de ce qu'on cherche à faire (comme toujours...). Pour ma part je préfère rester dans un espace euclidien autant que possible car nous raisonnons de base comme ça.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: CAH combinée avec ACP : que faire des individus supplémentai
Une ACP ne change pas la base orthonormée de l'espace dans lequel les points sont localisés. Il ne s'agit que de rotations. Faire une ACP ne change rien à cet égard.
Le seul intérêt (éventuel, et je ne suis pas vraiment convaincu) est de réduire la dimensionnalité du problème, mais on perd de l'information, inutilement selon moi. Et, dans ce cas, que veux dire "les axes significatifs" ? Y a t'il une procédure de test derrière ? Ou bien est-ce juste décidé sur la forme de l’éboulis des valeurs propres ?
Tour ceci n'est pas très clair ici, je pense.
Eric.
Le seul intérêt (éventuel, et je ne suis pas vraiment convaincu) est de réduire la dimensionnalité du problème, mais on perd de l'information, inutilement selon moi. Et, dans ce cas, que veux dire "les axes significatifs" ? Y a t'il une procédure de test derrière ? Ou bien est-ce juste décidé sur la forme de l’éboulis des valeurs propres ?
Tour ceci n'est pas très clair ici, je pense.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: CAH combinée avec ACP : que faire des individus supplémentai
Sauf que la base de la donnée brute na aucune raison d'être orthonormée par défaut et donc la distance ne sera probablement pas métrique. Ce qui peut déformer la classification faite par certains algorithmes.Une ACP ne change pas la base orthonormée de l'espace dans lequel les points sont localisés. Il ne s'agit que de rotations. Faire une ACP ne change rien à cet égard.
La réduction de la dimensionnalité n'est une perte d'info que marginale étant donné que jsutement la recherche des axes principaux se fait sur un critère d'information maximale.
HTH
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: CAH combinée avec ACP : que faire des individus supplémentai
J'imaginais une métrique euclidienne, effectivement. C'est tout de même celle la plus utilisée en classification, et notamment lorsqu'on part sur une ACP.
La perte d'info en ne prenant que les premiers axes de l'ACP n'est peut-être pas énorme, mais elle reste inutile, je pense.
Eric.
La perte d'info en ne prenant que les premiers axes de l'ACP n'est peut-être pas énorme, mais elle reste inutile, je pense.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: CAH combinée avec ACP : que faire des individus supplémentai
Bonjour,
1°) le choix du nombre d'axes se fait sur la VP >1 et/ ou quand la VP est <1 sur la significativité de l'axe (son sens).
2°) Pourquoi recourir une ACP puis à une CAH? Pcq je m'appuie sur un résultat théorique démographique qui est celui de la transition sanitaire ou épidémiologique. J'examine les causes de mortalité et l'espérance de vie des territoires. Des profils différents de causes de mortalité et d'espérance de vie sont le résultat d'une dynamique de santé, socio démographique ou économique différentes. Certains territoires sont en avance sur d'autres. J'ai donc besoin de faire apparaitre une structure (et si possible qu'elle soit stable) pour valider ce que l'on constate au niveau du résultat théorique. Le choix des premiers axes conduit malheureusement à une perte d'info .
Bonne journée
1°) le choix du nombre d'axes se fait sur la VP >1 et/ ou quand la VP est <1 sur la significativité de l'axe (son sens).
2°) Pourquoi recourir une ACP puis à une CAH? Pcq je m'appuie sur un résultat théorique démographique qui est celui de la transition sanitaire ou épidémiologique. J'examine les causes de mortalité et l'espérance de vie des territoires. Des profils différents de causes de mortalité et d'espérance de vie sont le résultat d'une dynamique de santé, socio démographique ou économique différentes. Certains territoires sont en avance sur d'autres. J'ai donc besoin de faire apparaitre une structure (et si possible qu'elle soit stable) pour valider ce que l'on constate au niveau du résultat théorique. Le choix des premiers axes conduit malheureusement à une perte d'info .
Bonne journée
Northman- Nombre de messages : 3
Date d'inscription : 18/06/2013
Re: CAH combinée avec ACP : que faire des individus supplémentai
Bonjour,
Certains auteurs ne sont pas d'accord avec cette pratique qui consiste à ne retenir que les x premiers axes, arguant que tu risques de passer à côté de certains clusters qui ne serait pas visible sur ces axes, et que par conséquent regrouper des individus qui en fait appartiennent à deux groupes différents (Legendre et Legenre 1998, Numerical Ecology).
Allant dans ce sens, les auteurs de la librairie ade4 ont programmé une fonction pour calculer une matrice de distance à partir des analyses multivariées, et ils ne repartent pas des coordonnées sur les x premiers axes mais du tableau issu de la transformation du jeu de données (qui dépend du type d'analyse mis en place).
cdlt
Certains auteurs ne sont pas d'accord avec cette pratique qui consiste à ne retenir que les x premiers axes, arguant que tu risques de passer à côté de certains clusters qui ne serait pas visible sur ces axes, et que par conséquent regrouper des individus qui en fait appartiennent à deux groupes différents (Legendre et Legenre 1998, Numerical Ecology).
Allant dans ce sens, les auteurs de la librairie ade4 ont programmé une fonction pour calculer une matrice de distance à partir des analyses multivariées, et ils ne repartent pas des coordonnées sur les x premiers axes mais du tableau issu de la transformation du jeu de données (qui dépend du type d'analyse mis en place).
cdlt
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: CAH combinée avec ACP : que faire des individus supplémentai
Dans une ACP, les valeurs propres peuvent être toutes inférieures à 1 ou toute supérieures à 1. Ce ne sont en fait que des variances. Je comprends donc que vous faites plutôt une ACP normée, ce qui change un peu les choses, mais vous n'avez nulle part précisé ceci dans vos post précédents.Northman a écrit:1°) le choix du nombre d'axes se fait sur la VP >1 et/ ou quand la VP est <1 sur la significativité de l'axe (son sens).
Tout ceci est probablement très intéressant mais n'explique en rien pourquoi insérer une ACP avant la CAH. En quoi une éventuelle structure, éventuellement produite par l'ACP, permettrait de valider la théorie. Et - je le répète - je continue à ne pas saisir l’intérêt de faire la CAH sur des données dont on mettrait de cote une partie de l'information.Northman a écrit:2°) Pourquoi recourir une ACP puis à une CAH? Pcq je m'appuie sur un résultat théorique démographique qui est celui de la transition sanitaire ou épidémiologique. J'examine les causes de mortalité et l'espérance de vie des territoires. Des profils différents de causes de mortalité et d'espérance de vie sont le résultat d'une dynamique de santé, socio démographique ou économique différentes. Certains territoires sont en avance sur d'autres. J'ai donc besoin de faire apparaitre une structure (et si possible qu'elle soit stable) pour valider ce que l'on constate au niveau du résultat théorique. Le choix des premiers axes conduit malheureusement à une perte d'info .
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Sujets similaires
» Faire le choix des individus supplémentaires
» peu d'individus mais beaucoup de mesure que faire??
» Dendrogramme avec poids sur les individus
» Que faire lors d'une distribution non-normale avec KS-test
» Caractériser des classes d'individus
» peu d'individus mais beaucoup de mesure que faire??
» Dendrogramme avec poids sur les individus
» Que faire lors d'une distribution non-normale avec KS-test
» Caractériser des classes d'individus
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum