Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Classification R : inertie totale et h$height
2 participants
Page 1 sur 1
Classification R : inertie totale et h$height
Bonjour,
J'essaye de réaliser une classification sur un tableau contenant 3 variables, mon tableau est le suivant :
Je travaille avec les distances euclidiennes, et la méthode de ward :
J'ai cru comprendre qu'avec la méthode de Ward :
- le regroupement entre deux classes se fait de façon à minimiser l'augmentation de l'inertie intra-classe
- les "hauteurs" du dendrogramme correspondent à la perte d'inertie interclasse due au regroupement.
Je me disais qu'en sommant les "hauteurs" (=pertes d'inerties) de tous les regroupements, je devais retrouver l'inertie totale (qui est la somme des variances des 3 variables considérées).
Mais cela ne marche pas...
Avez-vous une idée du moment où le raisonnement est faux ?
Merci par avance pour votre aide !
J'essaye de réaliser une classification sur un tableau contenant 3 variables, mon tableau est le suivant :
- Code:
> tab
Ain 435.00 485 568.82
Aisne 420.00 455 500.00
Allier 400.00 440 450.00
Alpes maritimes 397.00 408 500.00
Ardeche 400.00 420 488.00
Ardennes 405.00 425 445.00
Ariege 376.25 430 450.00
Aube 496.25 580 610.00
Aude 390.00 410 460.00
Aveyron 428.00 465 465.00
Je travaille avec les distances euclidiennes, et la méthode de ward :
- Code:
e1_dist=dist(tab,method = "euclidean")
e1_ward=hclust(d=e1_dist,method="ward")
J'ai cru comprendre qu'avec la méthode de Ward :
- le regroupement entre deux classes se fait de façon à minimiser l'augmentation de l'inertie intra-classe
- les "hauteurs" du dendrogramme correspondent à la perte d'inertie interclasse due au regroupement.
Je me disais qu'en sommant les "hauteurs" (=pertes d'inerties) de tous les regroupements, je devais retrouver l'inertie totale (qui est la somme des variances des 3 variables considérées).
Mais cela ne marche pas...
- Code:
> sum(e1_ward$height)
[1] 837.0216
> var(tab)[1,1]+var(tab)[2,2]+var(tab)[3,3]
[1] 6817.569
Avez-vous une idée du moment où le raisonnement est faux ?
Merci par avance pour votre aide !
atmadja- Nombre de messages : 5
Date d'inscription : 20/05/2012
Re: Classification R : inertie totale et h$height
L'inertie est à prendre au sens des barycentres.
Sur ce site: http://www.jybaudot.fr/Classif/agregcah.html
D'ailleurs, comme précisé sur ce site, on continuant on débouche directement sur le thm de Huygens qui est une base de l'analyse canonique de Fisher!
La méthode de Ward : c’est la méthode la plus courante. Elle consiste à réunir les deux clusters dont le regroupement fera le moins baisser l’inertie interclasse. C’est la distance de Ward qui est utilisée pour cela : la distance entre deux classes est celle de leurs barycentres au carré, pondérée par les effectifs des deux clusters. On suppose tout de même l’existence de distances euclidiennes entre observations. Cette technique tend à regrouper ensemble les petites classes. Sur SAS, METHOD=WARD.
Sur ce site: http://www.jybaudot.fr/Classif/agregcah.html
C’est fait ? Reprenons. Mais abandonnons le balai pour un nuage de points. On mesure l’inertie totale comme la somme des carrés des distances des points par rapport au centre de gravité.
Donc, inertie = nombre d’observations × variance ou, si l’on dispose de plusieurs variables, n × somme de leurs variances (cette somme étant la trace de la matrice des variances-covariances).
D'ailleurs, comme précisé sur ce site, on continuant on débouche directement sur le thm de Huygens qui est une base de l'analyse canonique de Fisher!
Re: Classification R : inertie totale et h$height
Bonjour,
Merci pour votre réponse.
Quand vous précisez que l’inertie totale = somme des carrés des distances des points par rapport au centre de gravité, ne faut-il pas pondérer par le poids de chaque point ?
Si tous les points ont un poids d'1/n, alors l'inertie totale correspond à la variance ?
Enfin, je ne comprends pas toujours pas pourquoi la somme des distances de Ward ne donnent pas l'inertie totale ?
Merci pour votre aide,
Merci pour votre réponse.
Quand vous précisez que l’inertie totale = somme des carrés des distances des points par rapport au centre de gravité, ne faut-il pas pondérer par le poids de chaque point ?
Si tous les points ont un poids d'1/n, alors l'inertie totale correspond à la variance ?
Enfin, je ne comprends pas toujours pas pourquoi la somme des distances de Ward ne donnent pas l'inertie totale ?
Merci pour votre aide,
atmadja- Nombre de messages : 5
Date d'inscription : 20/05/2012
Re: Classification R : inertie totale et h$height
Ceci en p.21 t'aide t'il: http://www.ceremade.dauphine.fr/~touati/EDOGEST-seminaires/Classification.pdf
La méthode de Ward travaille sur l'inertie inter-classe, on s'attendrait à ce que finalement inter inter-classe = inertie totale - inertie intra-classe (thm de Huygens)
Désolé pour les explications peu approfondis ou redondantes, il est tard...
La méthode de Ward travaille sur l'inertie inter-classe, on s'attendrait à ce que finalement inter inter-classe = inertie totale - inertie intra-classe (thm de Huygens)
Désolé pour les explications peu approfondis ou redondantes, il est tard...
Re: Classification R : inertie totale et h$height
Rebonsoir,
En effet, j'avais déjà parcouru ce document, il est très intéressant.
A la fin de tous les regroupements, je suppose qu'il n'y a plus du tout d'inertie inter-classes et que toute l'inertie est intra-classe.
Comme la distance de Ward correspond à la perte d'inertie inter-classe (ou au gain d'inertie intra-classes) , la somme des distances de Ward devrait donner l'inertie totale.
Mon problème est que je ne retrouve pas l'égalité entre :
inertie totale = somme des variances
inertie totale = somme des distances de Ward
En effet, j'avais déjà parcouru ce document, il est très intéressant.
A la fin de tous les regroupements, je suppose qu'il n'y a plus du tout d'inertie inter-classes et que toute l'inertie est intra-classe.
Comme la distance de Ward correspond à la perte d'inertie inter-classe (ou au gain d'inertie intra-classes) , la somme des distances de Ward devrait donner l'inertie totale.
Mon problème est que je ne retrouve pas l'égalité entre :
inertie totale = somme des variances
inertie totale = somme des distances de Ward
atmadja- Nombre de messages : 5
Date d'inscription : 20/05/2012
Re: Classification R : inertie totale et h$height
Ce document: http://pbil.univ-lyon1.fr/R/pdf/stage7.pdf p.34 propose une manière de retrouver la somme des "height".
Re: Classification R : inertie totale et h$height
Bonjour,
Grâce à ce document, j'ai pu mieux comprendre comment les différents paliers du dendrogramme sont calculés (p. 38).
J'ai également trouvé sur ce cours iml.univ-mrs.fr/~reboul/ADD4-MAB.pdf une partie ou l'auteur parle de la somme des distances de Ward qui donne l'inertie: diapo 36
Il faut donner à hclust la distance euclidienne au carré , la commande hclust$height renvoie 2*n*inertie
Maintenant je me demande juste pourquoi :
- il faut utiliser la distance euclidienne au carré
- il y a un facteur 2*nombre individus...
Grâce à ce document, j'ai pu mieux comprendre comment les différents paliers du dendrogramme sont calculés (p. 38).
J'ai également trouvé sur ce cours iml.univ-mrs.fr/~reboul/ADD4-MAB.pdf une partie ou l'auteur parle de la somme des distances de Ward qui donne l'inertie: diapo 36
Il faut donner à hclust la distance euclidienne au carré , la commande hclust$height renvoie 2*n*inertie
Maintenant je me demande juste pourquoi :
- il faut utiliser la distance euclidienne au carré
- il y a un facteur 2*nombre individus...
atmadja- Nombre de messages : 5
Date d'inscription : 20/05/2012
Re: Classification R : inertie totale et h$height
La je peux pas t'aider... par expérience de SAS je sais que souvent les programmeurs appliquent des normes sur leur résultat bien que ça ne soit pas toujours logique, sans dire que c'est le cas ici, ça peut être une explication.
Content que tu aies pu avancer sur le sujet avec ce document surtout que ton topic a été laissé longtemps en suspens.
Content que tu aies pu avancer sur le sujet avec ce document surtout que ton topic a été laissé longtemps en suspens.
Re: Classification R : inertie totale et h$height
Merci pour votre aide !
atmadja- Nombre de messages : 5
Date d'inscription : 20/05/2012
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum