AFC et clustering sur pourcentages

par Matth Ven 9 Sep 2016 - 13:47

Bonjour,

Avant toute chose, j'ai lu ce post : https://statistiques.forumpro.fr/t2221-afc-et-pourcentages.

Le fond de mon étude :

J'ai une carte des milieux naturels (MN) type polygones. J'ai plaqué dessus une grille dont les carrés sont numérotés et j'en ai déduit le pourcentage de chaque milieu dans chaque carré.

J'ai donc un tableau avec MN en colonne (27) et N° carré en ligne (4060).

Je souhaite maintenant clusteriser mes carrés. Pour celà, je réalise une afc sur l'ensemble, une table des distances des individus de mon afc et clust (classification hiérarchique) cette table des distances (ce qui se pratique sous R).

Ma question
Cependant, je me demande si il est correct, statistiquement parlant de faire une AFC sur des pourcentages. J'ai lu le post dont j'ai mis le lien ci-dessus qui donne déjà des pistes de réponse.
La différence, c'est que mes données sont comparables (% de m2 de milieu naturels).
De plus, à la 3ème réponse, il est conseillé de faire plutôt une ACP centrée. Or j'ai lu une publi qui le déconseille vivement sur des pourcentages car ces données sont déjà standardisés et elles risquent de n'avoir plus de sens.

Que faire?

Pour info, ma première afc sur mes données donne les résultats suivants :

Total inertia: 4.874

Eigenvalues:
Ax1 Ax2 Ax3 Ax4 Ax5
0.7413 0.5732 0.5078 0.4767 0.3246

Projected inertia (%):
Ax1 Ax2 Ax3 Ax4 Ax5
15.211 11.761 10.419 9.782 6.659

Cumulative projected inertia (%):
Ax1 Ax1:2 Ax1:3 Ax1:4 Ax1:5
15.21 26.97 37.39 47.17 53.83

Merci d'avance!

par Florent Aubry Lun 12 Sep 2016 - 9:35

Qu'entends-tu par "une table des distances des individus de mon afc" ? Et si je comprends bien c'est cette "table des distances" que tu utilises pour faire ton clustering des milieux naturels.

Telle que tu présentes cette table (calculée à partir du tableau initial ligne = carrés, colonnes = milieux), c'est une table de "distances" entre colonnes, donc entre milieux. C'est-à-dire que tu cherches à trouver les milieux qui ont la même répartition spatiale. Est-ce cela ton objectif ? Ta formulation est très ambigüe car en général, ce qu'on appelle "individu", ce sont les lignes, donc les carrés ce qui pourrait laisser supposer que tu essaies finalement de classer les carrés en fonction de leur contenu.

On peut aussi se demander si ce ne serait pas plus astucieux de travailler avec les surfaces réelles, c'est-à-dire qu'à ce moment la somme des colonnes ne serait plus 100, mais cela dépend de la question que tu te poses. L'utilisation de pourcentage peut être l'indice le plus pertinent pour ton problème.

N.B. : Si tu n'arrives pas bien à t'expliquer, mets tes lignes de code R en plus pour illustrer ton propos.

par Matth Mar 13 Sep 2016 - 11:46

Bonjour,

Merci pour la réponse.

Je précise donc.

Les distances dont je parle n'ont rien de spatial. La matrice de distance calcul la ressemblance de chaque individu avec les autres. Plus 2 individus sont semblables (ici en terme de composition en milieu naturel), plus leur distance est petite.

Le clustering se fait en utilisant ces distances avec comme objectif, bien sur de créer des classes, mais aussi d'avoir une distance interclasse la plus grande possible, et une distance intra-classe la plus petite possible.

Voici les lignes de code ci-dessous :

Code:: library(ade4) library(devtools) library(JLutils) library(gplots) varmnsd<-read.csv2("BASE_MN_TOT_SSDOM.csv", header=TRUE, sep=",", dec=".") dim(varmnsd) names(varmnsd) attach(varmn) varmnsd <- varmnsd[,-1] names(varmnsd) #AFC préalable au clust afcsd0 <- dudi.coa(varmnsd) summary(afcsd0) #Dist avant clust distsd0 <- dist(afcsd0$li, method="euclidian") treesd0 <- hclust(distsd0, method = "ward.D") x11(); plot(treesd0) summary(distsd0) best.cutree(treesd0) groupssd0 <- cutree(treesd0, k=3) ?best.cutree gpsd0 <- cbind(groupssd0, varmnsd) ?dist names(gpsd0) gpsd1 <- gpsd0[groupssd0 == "1",] gpsd2 <- gpsd0[groupssd0 == "2",] gpsd3 <- gpsd0[groupssd0 == "3",] write.table(gpsd1, "sd0gp1.csv") write.table(gpsd2, "sd0gp2.csv") write.table(gpsd3, "sd0gp3.csv")

par Florent Aubry Mar 13 Sep 2016 - 13:12

Un premier commentaire à propose de R : Contrairement à ce qu'on lit dans certains manuel, éviter absolument l'utilisation de attach. Cette utilisation, surtout dans des grands scripts, finit par poser plus de problèmes qu'elle n'en résout.

Ta procédure n'est pas ton objectif mais le moyen que tu emploies pour atteindre ton objectif.
Donc, si je résume ton problème, c'est de trouver les carrés qui se ressemblent en termes de % de la surface du milieux. Puisque tes carrés correspondent à une grille spatiale, tu cherche donc la répartition spatiale de zones qui se 'ressemblent'. Ta démarche est de considérer que ton tableau des % peut être considéré comme un tableau de contingence dont tu vas extraire par une analyse factorielle un résumé basé sur des motifs remarquables et qu'ensuite tu classes tes individus à partir de cette nouvelle description de tes données. Pour cela, l'outil est basé sur la distance euclidienne et le critère de Ward.

Maintenant pour répondre à ta question, demandes-toi si 1% du milieu A est comparable à 1% du milieu B ou est-ce que cela à le même sens que de prétendre que 1% du volume d'un électron est équivalent à 1% du volume du soleil. Si tu réponds oui à la question alors l'approche par analyse des correspondances peut avoir un sens (à condition que tous les nombres soient entiers), si c'est non, alors peut-être que l'approche par ACP est plus pertinente même si je ne suis pas pour l'instant convaincu qu'une approche en % soit le meilleur choix et que le fait que les valeurs soient bornées (et non pas 'standardisées') puisqu'elles sont toutes comprises entre 0 et 100 peut poser des problèmes. Et bien entendu, que ce soit pour l'AC ou l'ACP, tes individus (carrés) ne sont pas statistiquement indépendants puisque la somme des colonnes est toujours 100.

Dernière question : qu'est-ce qui t'empêche de faire la classification directement sans passer par une analyse factorielle ?

par Matth Mer 14 Sep 2016 - 8:46

Bonjour Florent,

Merci pour ta réponse.
Pour le attach, c'est un reste de vieux script que je n'utilise pas.

Pour la classification directe, elle est impossible. On doit obligatoirement passer par une matrice de distance qui devient immense avec 27 variables. L'avantage de l'AFC est de synthétiser l'information sur quelques axes et donc de réaliser la matrice des distance sur ces quelques axes, ce qui est beaucoup plus simple.

Pour l'utilisation des %, en fait, savoir si 1% de milieu A vaut 1% de milieu B fait partie de la suite de la question, à savoir l'interprétation des groupes.
Est-ce que ce sont les 75% de milieu A dans les carrés d'un groupe issu du clust sont ce qui le caractérise ou est-ce la présence de 3% du milieu B qui donne au groupe son identité?...

Je n'en suis pas encore là, et ma question est vraiment méthodique.

Plusieurs propositions :

1 cluster le tout (en gros, ça me sort ce qui est dominé par la forêt, l'agriculture et les surfaces rudérales) ; recluster chaque groupe en enlevant le milieu dominant ce qui rendrait mes variables indépendantes

2 cluster le tout sur les valeurs absolues de surface (qui sont également bornées...), ce qui va donner beaucoup d'influence aux milieux dominants et risque de faire disparaître l'information peut être importante contenue par ces milieux marginaux...

Je crois qu'il me faut tester tout ça et beaucoup de temps... La proposition 1 me paraît la plus réaliste pour l'instant. Après AFC ou ACP? L'ACP ne va-t'elle pas favoriser les milieux dominants et donner moins de poids aux autres?

par Florent Aubry Mer 14 Sep 2016 - 10:01

- pour ce qui est l'utilisation d'une analyse factorielle, Ok pour la justification. Maintenant cela signifie aussi que le nombre de dimensions que tu conserves doit donner une image assez fidèle des données initiales.

- entre le choix des % et des surfaces réelles
. l'utilisation des pourcentages conduit à une liaison entre les lignes puisque la somme des valeurs des colonnes doit être 100. Dans cette représentation, les milieux étendus sont généralement représentées par des valeurs faibles presque partout tandis que les milieux resserrés par de fortes valeurs dans quelques carrés et pratiquement zéro dans les autres
. l'utilisation des surfaces réelles peut conduire à une liaison entre colonnes (milieux) ; en effet en partant de l'hypothèse que les milieux ne peuvent pas se superposer, la somme des surface de tous les milieux dans un carré ne peut pas être supérieure à la surface du carré ; si tous les milieux possibles sont présents, la somme de leurs surfaces est la surface du carré, sinon elle est inférieure ; si les milieux peuvent se superposer, alors il y a peu de raisons qu'il existe un lien entre les colonnes ; dans cette représentation, milieu étendu ne signifie pas obligatoirement valeur faible dans le carré, par exemple il peut être étendu sur 90% des carrés et dans chacun occuper, 50% de la surface.

- Analyse des correspondances pu ACP ? Quelques éléments qui peuvent servir de réflexions sur le choix ; bien entendu, les lire quand même avec du recul.
. Analyse des correspondances : lignes et colonnes jouent un rôle symétriques ; l'analyse est basée sur la métrique du khi-2 et l'indépendance au sens statistique du terme des caractères ou en d'autres termes, elle cherche à établir le degré d'indépendance entre les modalités ligne et les modalités colonnes ou en, dans tes termes, elle essaie de répondre à la question qui est de savoir s'il y a N carrés, alors chaque carré contient-il 1 / N % de la surface du milieu ;
l'analyse des correspondances sera sensible aux faibles effectifs et peut entrainer des effets pervers qui sont connus, notamment quand on utilise un test d'indépendance du khi-2 ; en termes de %, cela signifie que tu vas privilégier les milieux étendus ; en termes de surface, ce sera essentiellement les milieux qui occupent peu de surface dans chaque carré, dont les milieux resserrés puisqu'ils occupent qu'une minorité de carrés.
. ACP : l'analyse est centrée sur les colonnes ; normée, elle analyse les corrélations entre milieux, donc l'existence d'un lien linéaire entre l'occupation des milieux et elle donne la force de ce lien ; non normée, elle donnera l'amplitude du lien linéaire ; pour simplifier, on peut considérer qu'il y a la même différence entre ces deux approches qu'entre l'étude du coefficient de corrélation entre deux variables et celle de la pente de la régression ; on peut aussi interpréter les coordonnées des individus comme le poids de ceux-ci dans le lien entre les variables ; donc, plus ou moins, l'ACP normé sera indépendante de la surface réelle du milieux mais s'intéressera surtout à la ressemblance des % d'occupations, l'ACP non normée, quant à elle, privilégiera plutôt les milieux qui conjointement occupent beaucoup de surface dans le carré si on raisonne en termes de surface quelque soit la surface du milieux, ou sont plutôt resserrés conjointement (fort % conjoint de surface).

par Contenu sponsorisé

AFC et clustering sur pourcentages

AFC et clustering sur pourcentages

Re: AFC et clustering sur pourcentages

Re: AFC et clustering sur pourcentages

Re: AFC et clustering sur pourcentages

Re: AFC et clustering sur pourcentages

Re: AFC et clustering sur pourcentages

Re: AFC et clustering sur pourcentages