Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
CAH sur données initiales ou pas?
Page 1 sur 1
CAH sur données initiales ou pas?
Bonjour,
Est-il préférable de réaliser une classification ascendante hiérarchique après une analyse factorielle (avec les coordonnées des axes factorielles) ou sur les données initiales?... et pourquoi?
merci
Est-il préférable de réaliser une classification ascendante hiérarchique après une analyse factorielle (avec les coordonnées des axes factorielles) ou sur les données initiales?... et pourquoi?
merci
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: CAH sur données initiales ou pas?
La réponse est : ça dépend ...
Si tu l'as fait sur tes données brutes, alors les colonnes ou lignes de ton tableau initial avec de fortes valeurs risques d'avoir le plus de poids dans ta CAH, même si elles peuvent être peu informatives. Il me semble ne pas dire de bêtises en disant que la CAH est sensible à la variance des variables de départ. Donc si tu as une espèces fortement abondante dans tes relevés avec des variations inter-relevés et quelques espèces rares, alors ton analyse va être principalement du aux variations d'abondance de ton espèce. De plus tu vas comparer des relevés (lignes) avec des effectifs différents.
Imaginons le cas suivant :
tu as une ligne avec les effectifs suivant :
3 3 10 3 7 5 8 5 1 2
et une autre ligne avec les effectifs suivant :
30 30 100 30 70 50 80 50 10 20
la distance euclidienne entre les deux vaut : 154.6
et une troisième ligne :
7 7 0 7 3 5 2 5 9 8
distance entre la première et la troisième ligne : 17.3
Les deux premières lignes vont donc apparaître très dissimilaires, alors que la 1 et la 3ème ligne vont apparaitre beaucoup plus proches.
Le truc c'est que la deuxième ligne est la première ligne multipliée par 10, donc elles ont les mêmes distributions, mais elles vont apparaître éloignées par ce que leurs effectifs le sont ... Alors qu'on peut penser que l'info contenue dans ces deux lignes est la même.
Donc si tes colonnes ne sont pas dans les mêmes unités, ou n'ont pas les mêmes variances, ou ne mesure pas la même chose, alors je partirai plutôt sur une CAH après une analyse factorielle.
Je te conseille de mettre la main sur ce livre, pour tout ce qui est des CAH c'est une référence :
http://www.amazon.fr/Finding-Groups-Data-Introduction-Analysis/dp/0471735787/ref=sr_11_1?ie=UTF8&qid=1242631478&sr=11-1
micros
Si tu l'as fait sur tes données brutes, alors les colonnes ou lignes de ton tableau initial avec de fortes valeurs risques d'avoir le plus de poids dans ta CAH, même si elles peuvent être peu informatives. Il me semble ne pas dire de bêtises en disant que la CAH est sensible à la variance des variables de départ. Donc si tu as une espèces fortement abondante dans tes relevés avec des variations inter-relevés et quelques espèces rares, alors ton analyse va être principalement du aux variations d'abondance de ton espèce. De plus tu vas comparer des relevés (lignes) avec des effectifs différents.
Imaginons le cas suivant :
tu as une ligne avec les effectifs suivant :
3 3 10 3 7 5 8 5 1 2
et une autre ligne avec les effectifs suivant :
30 30 100 30 70 50 80 50 10 20
la distance euclidienne entre les deux vaut : 154.6
et une troisième ligne :
7 7 0 7 3 5 2 5 9 8
distance entre la première et la troisième ligne : 17.3
Les deux premières lignes vont donc apparaître très dissimilaires, alors que la 1 et la 3ème ligne vont apparaitre beaucoup plus proches.
Le truc c'est que la deuxième ligne est la première ligne multipliée par 10, donc elles ont les mêmes distributions, mais elles vont apparaître éloignées par ce que leurs effectifs le sont ... Alors qu'on peut penser que l'info contenue dans ces deux lignes est la même.
Donc si tes colonnes ne sont pas dans les mêmes unités, ou n'ont pas les mêmes variances, ou ne mesure pas la même chose, alors je partirai plutôt sur une CAH après une analyse factorielle.
Je te conseille de mettre la main sur ce livre, pour tout ce qui est des CAH c'est une référence :
http://www.amazon.fr/Finding-Groups-Data-Introduction-Analysis/dp/0471735787/ref=sr_11_1?ie=UTF8&qid=1242631478&sr=11-1
micros
Invité- Invité
Re: CAH sur données initiales ou pas?
Merci pour ta réponse... mais en utilisant des données centrées réduites ça enlèverait le problème que t'as soulevé non?
et sinon pourquoi en utilisant les données initiales on obtient des classes 'achement désiquilibrées? avec des grosses classes et des toutes petites?
(alors qu'en utilisant les coordonnées de l'analyse factorielle on obtient des classes plus homogène en volume)
et sinon pourquoi en utilisant les données initiales on obtient des classes 'achement désiquilibrées? avec des grosses classes et des toutes petites?
(alors qu'en utilisant les coordonnées de l'analyse factorielle on obtient des classes plus homogène en volume)
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: CAH sur données initiales ou pas?
re,
c'est sûremen propre à ton jeu de données ... alors difficile de te répondre ce qui est sur c'est que les groupes bougent très souvent enter une CAH sur données brutes et une autre sur des axes. Quelle analyse tu pratiques au juste sur tes données ? ACP, AFC, ACM, Hill & Smith ?
Centrée réduire, ça te permettrait d'atténuer les différences (des distances moins grandes) mais ça ne changerai pas trop le problème.
micros
c'est sûremen propre à ton jeu de données ... alors difficile de te répondre ce qui est sur c'est que les groupes bougent très souvent enter une CAH sur données brutes et une autre sur des axes. Quelle analyse tu pratiques au juste sur tes données ? ACP, AFC, ACM, Hill & Smith ?
Centrée réduire, ça te permettrait d'atténuer les différences (des distances moins grandes) mais ça ne changerai pas trop le problème.
micros
Invité- Invité
Re: CAH sur données initiales ou pas?
J'ai fait une ACM sur mes données. Mais le problème de classes trop inégales sur les données initiales n'est pas propre à moi. Il est vrai que je m'en suis rendu compte sur mon jeu de données, mais en recherchant des réponses à mes questions sur internet j'ai vu que ce problème ne m'arrivait pas qu'à moi. Cependant je n'arrive pas concrètement à comprendre "pourquoi en utilisant les données initiales on obtient des classes 'achement désiquilibrées"...
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: CAH sur données initiales ou pas?
re,
j'ai du mal a voir comment tu as pu calculer une matrice de distance à partir d'un tableau qui renferme des données catégorielles ? Tu as passé les catégories en numérique et tu as calculé des distance dessus ? ou tu as calculé une matrice de distance à partir du tableau disjonctif ? tu as calculé un indice de similarité de type Gower par exemple et établi une matrice de distance la dessus ?
Une CAH n'est pas faite pour donner des classes équilibrées en sortie, elle regroupe les individus selon leur similarité, alors plus tu as d'individus similaires plus grands seront tes groupes.
2 possibilités (parmi plein d'autres) :
1- caculer une matrice de dissimilarité avec une distance de Gower et faire la CAH dessus :
avec R :
require(cluster)
da <- daisy(tab,metric="gower")
h1 <- hclust(da,method="ward")
2- passer par l'ACM :
acm1 <- dudi.acm(tab) # a toi de choisir le nombre d'axes
d1 <- dist.dudi(acm1)
h2 <- hclust(d1)
A toi de choisir. Perso j'aime bien passer par une ACM, les axes sont orthogonaux, les individus seront regroupées par rapport à la similarité de leur modalités.
La première approche calcule d'abord la dissimilarité entre les individus, je crois ne pas dire de conneries, en disant que celle-ci va de 0 à 1. Dans le cas ou tu n'as que des variables catégorilles, le calcul de simmilairté de Gower entre deux individus est comparable à un indice de Jaccard (à vérifier).
Ce sont deux stratégires différentes, à toi de voir. Il en existe surement beaucoup d'autres. La classification n'est pas une science exacte. Le tout est de savoir ce que l'on fait quand on utilise une méthode plutôt qu'une autre.
micros
j'ai du mal a voir comment tu as pu calculer une matrice de distance à partir d'un tableau qui renferme des données catégorielles ? Tu as passé les catégories en numérique et tu as calculé des distance dessus ? ou tu as calculé une matrice de distance à partir du tableau disjonctif ? tu as calculé un indice de similarité de type Gower par exemple et établi une matrice de distance la dessus ?
Une CAH n'est pas faite pour donner des classes équilibrées en sortie, elle regroupe les individus selon leur similarité, alors plus tu as d'individus similaires plus grands seront tes groupes.
2 possibilités (parmi plein d'autres) :
1- caculer une matrice de dissimilarité avec une distance de Gower et faire la CAH dessus :
avec R :
require(cluster)
da <- daisy(tab,metric="gower")
h1 <- hclust(da,method="ward")
2- passer par l'ACM :
acm1 <- dudi.acm(tab) # a toi de choisir le nombre d'axes
d1 <- dist.dudi(acm1)
h2 <- hclust(d1)
A toi de choisir. Perso j'aime bien passer par une ACM, les axes sont orthogonaux, les individus seront regroupées par rapport à la similarité de leur modalités.
La première approche calcule d'abord la dissimilarité entre les individus, je crois ne pas dire de conneries, en disant que celle-ci va de 0 à 1. Dans le cas ou tu n'as que des variables catégorilles, le calcul de simmilairté de Gower entre deux individus est comparable à un indice de Jaccard (à vérifier).
Ce sont deux stratégires différentes, à toi de voir. Il en existe surement beaucoup d'autres. La classification n'est pas une science exacte. Le tout est de savoir ce que l'on fait quand on utilise une méthode plutôt qu'une autre.
micros
Invité- Invité
Re: CAH sur données initiales ou pas?
ok, merci pour tes réponses
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: CAH sur données initiales ou pas?
et pour calculer une matrice de distance à partir d'un tableau qui renferme des données catégorielles j'ai effectivement as calculé une matrice de distance à partir du tableau disjonctif.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: CAH sur données initiales ou pas?
perso je ne ferais pas ça ... je calculerais plutôt une matrice de dissimilarité qu'une matrice de distance euclidienne sur le tableau disjonctif. Je préfère la solution de l'acm et de la matrice de distance sur les coordonnées des axes.
micros
micros
Invité- Invité
Sujets similaires
» valeurs initiales modèle logistique
» ACM CAH (données qualitatives & grosse base de données)
» données anthropométriques
» Représentativité de données
» HELP Données ACP AFC ACM
» ACM CAH (données qualitatives & grosse base de données)
» données anthropométriques
» Représentativité de données
» HELP Données ACP AFC ACM
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum