Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine
Aucun utilisateur

Le Deal du moment :
Jeux, jouets et Lego : le deuxième à ...
Voir le deal

Classification R : inertie totale et h$height

2 participants

Aller en bas

Classification R : inertie totale et h$height Empty Classification R : inertie totale et h$height

Message par atmadja Dim 20 Mai 2012 - 16:46

Bonjour,

J'essaye de réaliser une classification sur un tableau contenant 3 variables, mon tableau est le suivant :

Code:

> tab
Ain              435.00    485  568.82
Aisne            420.00    455  500.00
Allier            400.00    440  450.00
Alpes maritimes  397.00    408  500.00
Ardeche          400.00    420  488.00
Ardennes        405.00    425  445.00
Ariege          376.25    430  450.00
Aube            496.25    580  610.00
Aude            390.00    410  460.00
Aveyron        428.00    465  465.00

Je travaille avec les distances euclidiennes, et la méthode de ward :
Code:

e1_dist=dist(tab,method = "euclidean")
e1_ward=hclust(d=e1_dist,method="ward")

J'ai cru comprendre qu'avec la méthode de Ward :
- le regroupement entre deux classes se fait de façon à minimiser l'augmentation de l'inertie intra-classe
- les "hauteurs" du dendrogramme correspondent à la perte d'inertie interclasse due au regroupement.

Je me disais qu'en sommant les "hauteurs" (=pertes d'inerties) de tous les regroupements, je devais retrouver l'inertie totale (qui est la somme des variances des 3 variables considérées).
Mais cela ne marche pas...

Code:

> sum(e1_ward$height)
[1] 837.0216
> var(tab)[1,1]+var(tab)[2,2]+var(tab)[3,3]
[1] 6817.569

Avez-vous une idée du moment où le raisonnement est faux ?

Merci par avance pour votre aide !

atmadja

Nombre de messages : 5
Date d'inscription : 20/05/2012

Revenir en haut Aller en bas

Classification R : inertie totale et h$height Empty Re: Classification R : inertie totale et h$height

Message par joyeux_lapin13 Lun 21 Mai 2012 - 20:17

L'inertie est à prendre au sens des barycentres.

La méthode de Ward : c’est la méthode la plus courante. Elle consiste à réunir les deux clusters dont le regroupement fera le moins baisser l’inertie interclasse. C’est la distance de Ward qui est utilisée pour cela : la distance entre deux classes est celle de leurs barycentres au carré, pondérée par les effectifs des deux clusters. On suppose tout de même l’existence de distances euclidiennes entre observations. Cette technique tend à regrouper ensemble les petites classes. Sur SAS, METHOD=WARD.

Sur ce site: http://www.jybaudot.fr/Classif/agregcah.html

C’est fait ? Reprenons. Mais abandonnons le balai pour un nuage de points. On mesure l’inertie totale comme la somme des carrés des distances des points par rapport au centre de gravité.

Donc, inertie = nombre d’observations × variance ou, si l’on dispose de plusieurs variables, n × somme de leurs variances (cette somme étant la trace de la matrice des variances-covariances).

D'ailleurs, comme précisé sur ce site, on continuant on débouche directement sur le thm de Huygens qui est une base de l'analyse canonique de Fisher!
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 40
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Classification R : inertie totale et h$height Empty Re: Classification R : inertie totale et h$height

Message par atmadja Lun 21 Mai 2012 - 20:34

Bonjour,

Merci pour votre réponse.

Quand vous précisez que l’inertie totale = somme des carrés des distances des points par rapport au centre de gravité, ne faut-il pas pondérer par le poids de chaque point ?

Si tous les points ont un poids d'1/n, alors l'inertie totale correspond à la variance ?

Enfin, je ne comprends pas toujours pas pourquoi la somme des distances de Ward ne donnent pas l'inertie totale ?

Merci pour votre aide,

atmadja

Nombre de messages : 5
Date d'inscription : 20/05/2012

Revenir en haut Aller en bas

Classification R : inertie totale et h$height Empty Re: Classification R : inertie totale et h$height

Message par joyeux_lapin13 Lun 21 Mai 2012 - 20:49

Ceci en p.21 t'aide t'il: http://www.ceremade.dauphine.fr/~touati/EDOGEST-seminaires/Classification.pdf

La méthode de Ward travaille sur l'inertie inter-classe, on s'attendrait à ce que finalement inter inter-classe = inertie totale - inertie intra-classe (thm de Huygens)

Désolé pour les explications peu approfondis ou redondantes, il est tard...

joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 40
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Classification R : inertie totale et h$height Empty Re: Classification R : inertie totale et h$height

Message par atmadja Lun 21 Mai 2012 - 21:10

Rebonsoir,

En effet, j'avais déjà parcouru ce document, il est très intéressant.

A la fin de tous les regroupements, je suppose qu'il n'y a plus du tout d'inertie inter-classes et que toute l'inertie est intra-classe.

Comme la distance de Ward correspond à la perte d'inertie inter-classe (ou au gain d'inertie intra-classes) , la somme des distances de Ward devrait donner l'inertie totale.

Mon problème est que je ne retrouve pas l'égalité entre :
inertie totale = somme des variances
inertie totale = somme des distances de Ward







atmadja

Nombre de messages : 5
Date d'inscription : 20/05/2012

Revenir en haut Aller en bas

Classification R : inertie totale et h$height Empty Re: Classification R : inertie totale et h$height

Message par joyeux_lapin13 Lun 21 Mai 2012 - 21:46

Ce document: http://pbil.univ-lyon1.fr/R/pdf/stage7.pdf p.34 propose une manière de retrouver la somme des "height".
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 40
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Classification R : inertie totale et h$height Empty Re: Classification R : inertie totale et h$height

Message par atmadja Mar 22 Mai 2012 - 13:35

Bonjour,

Grâce à ce document, j'ai pu mieux comprendre comment les différents paliers du dendrogramme sont calculés (p. 38).

J'ai également trouvé sur ce cours iml.univ-mrs.fr/~reboul/ADD4-MAB.pdf une partie ou l'auteur parle de la somme des distances de Ward qui donne l'inertie: diapo 36

Il faut donner à hclust la distance euclidienne au carré , la commande hclust$height renvoie 2*n*inertie

Maintenant je me demande juste pourquoi :
- il faut utiliser la distance euclidienne au carré
- il y a un facteur 2*nombre individus...





atmadja

Nombre de messages : 5
Date d'inscription : 20/05/2012

Revenir en haut Aller en bas

Classification R : inertie totale et h$height Empty Re: Classification R : inertie totale et h$height

Message par joyeux_lapin13 Mar 22 Mai 2012 - 13:39

La je peux pas t'aider... par expérience de SAS je sais que souvent les programmeurs appliquent des normes sur leur résultat bien que ça ne soit pas toujours logique, sans dire que c'est le cas ici, ça peut être une explication.

Content que tu aies pu avancer sur le sujet avec ce document surtout que ton topic a été laissé longtemps en suspens.
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1927
Age : 40
Localisation : Mayotte
Date d'inscription : 21/04/2010

https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Classification R : inertie totale et h$height Empty Re: Classification R : inertie totale et h$height

Message par atmadja Mar 22 Mai 2012 - 13:42

Merci pour votre aide !

atmadja

Nombre de messages : 5
Date d'inscription : 20/05/2012

Revenir en haut Aller en bas

Classification R : inertie totale et h$height Empty Re: Classification R : inertie totale et h$height

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum