CAH sur données initiales ou pas?

par niaboc Dim 17 Mai 2009 - 18:30

Bonjour,

Est-il préférable de réaliser une classification ascendante hiérarchique après une analyse factorielle (avec les coordonnées des axes factorielles) ou sur les données initiales?... et pourquoi?

merci

par Invité Lun 18 Mai 2009 - 7:24

La réponse est : ça dépend ...

Si tu l'as fait sur tes données brutes, alors les colonnes ou lignes de ton tableau initial avec de fortes valeurs risques d'avoir le plus de poids dans ta CAH, même si elles peuvent être peu informatives. Il me semble ne pas dire de bêtises en disant que la CAH est sensible à la variance des variables de départ. Donc si tu as une espèces fortement abondante dans tes relevés avec des variations inter-relevés et quelques espèces rares, alors ton analyse va être principalement du aux variations d'abondance de ton espèce. De plus tu vas comparer des relevés (lignes) avec des effectifs différents.
Imaginons le cas suivant :
tu as une ligne avec les effectifs suivant :
3 3 10 3 7 5 8 5 1 2
et une autre ligne avec les effectifs suivant :
30 30 100 30 70 50 80 50 10 20

la distance euclidienne entre les deux vaut : 154.6

et une troisième ligne :
7 7 0 7 3 5 2 5 9 8

distance entre la première et la troisième ligne : 17.3

Les deux premières lignes vont donc apparaître très dissimilaires, alors que la 1 et la 3ème ligne vont apparaitre beaucoup plus proches.
Le truc c'est que la deuxième ligne est la première ligne multipliée par 10, donc elles ont les mêmes distributions, mais elles vont apparaître éloignées par ce que leurs effectifs le sont ... Alors qu'on peut penser que l'info contenue dans ces deux lignes est la même.

Donc si tes colonnes ne sont pas dans les mêmes unités, ou n'ont pas les mêmes variances, ou ne mesure pas la même chose, alors je partirai plutôt sur une CAH après une analyse factorielle.

Je te conseille de mettre la main sur ce livre, pour tout ce qui est des CAH c'est une référence :
http://www.amazon.fr/Finding-Groups-Data-Introduction-Analysis/dp/0471735787/ref=sr_11_1?ie=UTF8&qid=1242631478&sr=11-1

micros

par niaboc Lun 18 Mai 2009 - 16:26

Merci pour ta réponse... mais en utilisant des données centrées réduites ça enlèverait le problème que t'as soulevé non?

et sinon pourquoi en utilisant les données initiales on obtient des classes 'achement désiquilibrées? avec des grosses classes et des toutes petites?
(alors qu'en utilisant les coordonnées de l'analyse factorielle on obtient des classes plus homogène en volume)

par Invité Lun 18 Mai 2009 - 16:31

re,

c'est sûremen propre à ton jeu de données ... alors difficile de te répondre ce qui est sur c'est que les groupes bougent très souvent enter une CAH sur données brutes et une autre sur des axes. Quelle analyse tu pratiques au juste sur tes données ? ACP, AFC, ACM, Hill & Smith ?

Centrée réduire, ça te permettrait d'atténuer les différences (des distances moins grandes) mais ça ne changerai pas trop le problème.

micros

par niaboc Lun 18 Mai 2009 - 17:17

J'ai fait une ACM sur mes données. Mais le problème de classes trop inégales sur les données initiales n'est pas propre à moi. Il est vrai que je m'en suis rendu compte sur mon jeu de données, mais en recherchant des réponses à mes questions sur internet j'ai vu que ce problème ne m'arrivait pas qu'à moi. Cependant je n'arrive pas concrètement à comprendre "pourquoi en utilisant les données initiales on obtient des classes 'achement désiquilibrées"...

par Invité Mar 19 Mai 2009 - 8:53

re,

j'ai du mal a voir comment tu as pu calculer une matrice de distance à partir d'un tableau qui renferme des données catégorielles ? Tu as passé les catégories en numérique et tu as calculé des distance dessus ? ou tu as calculé une matrice de distance à partir du tableau disjonctif ? tu as calculé un indice de similarité de type Gower par exemple et établi une matrice de distance la dessus ?

Une CAH n'est pas faite pour donner des classes équilibrées en sortie, elle regroupe les individus selon leur similarité, alors plus tu as d'individus similaires plus grands seront tes groupes.

2 possibilités (parmi plein d'autres) :
1- caculer une matrice de dissimilarité avec une distance de Gower et faire la CAH dessus :
avec R :
require(cluster)
da <- daisy(tab,metric="gower")
h1 <- hclust(da,method="ward")

2- passer par l'ACM :
acm1 <- dudi.acm(tab) # a toi de choisir le nombre d'axes
d1 <- dist.dudi(acm1)
h2 <- hclust(d1)

A toi de choisir. Perso j'aime bien passer par une ACM, les axes sont orthogonaux, les individus seront regroupées par rapport à la similarité de leur modalités.

La première approche calcule d'abord la dissimilarité entre les individus, je crois ne pas dire de conneries, en disant que celle-ci va de 0 à 1. Dans le cas ou tu n'as que des variables catégorilles, le calcul de simmilairté de Gower entre deux individus est comparable à un indice de Jaccard (à vérifier).

Ce sont deux stratégires différentes, à toi de voir. Il en existe surement beaucoup d'autres. La classification n'est pas une science exacte. Le tout est de savoir ce que l'on fait quand on utilise une méthode plutôt qu'une autre.

micros

par niaboc Mar 19 Mai 2009 - 18:59

ok, merci pour tes réponses

par niaboc Mar 19 Mai 2009 - 19:24

et pour calculer une matrice de distance à partir d'un tableau qui renferme des données catégorielles j'ai effectivement as calculé une matrice de distance à partir du tableau disjonctif.

par Invité Jeu 21 Mai 2009 - 14:25

perso je ne ferais pas ça ... je calculerais plutôt une matrice de dissimilarité qu'une matrice de distance euclidienne sur le tableau disjonctif. Je préfère la solution de l'acm et de la matrice de distance sur les coordonnées des axes.

micros

par Contenu sponsorisé

CAH sur données initiales ou pas?

CAH sur données initiales ou pas?

Re: CAH sur données initiales ou pas?

Re: CAH sur données initiales ou pas?

Re: CAH sur données initiales ou pas?

Re: CAH sur données initiales ou pas?

Re: CAH sur données initiales ou pas?

Re: CAH sur données initiales ou pas?

Re: CAH sur données initiales ou pas?

Re: CAH sur données initiales ou pas?

Re: CAH sur données initiales ou pas?