interprétation matrice de confusion

par le sportif Dim 27 Oct 2013 - 0:13

Bonsoir toute le monde ,
j'ai fait une classification avec la méthode kmeans sur un échantillon de 46 clients dont 21 sont solvables et 25 non solvables
alors le résultat donné par R est comme suit :

Code:: K-means clustering with 2 clusters of sizes 7, 39 Cluster means: VAR1 VAR2 VAR3 VAR4 1 0.32714286 0.06142857 3.891429 0.4514286 2 0.02923077 -0.03102564 1.697179 0.4192308 Clustering vector: [1] 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 1 2 1 1 2 2 [30] 2 2 2 2 2 2 2 2 2 2 1 2 1 2 1 2 1 Within cluster sum of squares by cluster: [1] 4.8756 19.9965 (between_SS / total_SS = 54.0 %)

alors j'ai construit la matrice de confusion pour comparer la classification réelle avec la classification K-means et j'ai trouvé ce qui suit:

Code:: 1 2 S 0 21 NS 7 18

alors je l'est interprété comme suit :
on a
Le taux de bonne classification totale est de : (21+18)/(21+18+7)*100=84,78% la classification est globalement bonne .
Le taux de classification de « S » est : 21/21*100= 100% , les 21 clients sont bons classés en groupe 2 :le groupe 2 est des clients solvables.
Le taux de classification de « NS » est : 18/25 *100=72 % ,18 clients sont biens classées dans le groupe 2 ce qui signifie que le groupe 2 est un groupe de clients non solvables ce qui est impossible car le groupe 2 caractérisera des clients solvables et non solvables à la fois .

en fait je ne sais pas si j'ai bien interprété les résultat mais ce qui est clair est que la classification par kmeans contient une contradiction donc le taux de classification globale doit être mauvais pour affirmer le résultat mais ce n'est pas le cas

Merci de bien vouloir m'aider à bien interpréter les résultats s'il vous plait

par FS Lun 28 Oct 2013 - 8:06

Bonjour,
bien sur que le kmeans contient une "contradiction" car c'est une classification non supervisé or dans ton cas tu cherche à classifier tes individus en fonction du fait qu'ils soient solvable,s tu es donc dans un cadre supervisé.

par droopy Lun 28 Oct 2013 - 9:51

Je partage l'avis de FS. Si tu souhaites réellement distinguer deux groupes prédifinis, il y a pléthore de méthode supervisées pour faire ça.

Sinon pour ce qui est de l'interprétation de la matrice de confusion. Si tu considères ta matrice comme une matrice de confusion alors tu ne peux pas considérer que le groupe 2 correspond à la fois à S et NS, il te faut choisir. Si tu considères que le groupe 1 est le groupe des NS et 2 le groupe de S, alors tu as un taux de bon classement de (21+7)/(21+7+18) = 61%. Le taux de S bien classé est de 100% et le taux de NS bien classé est de 7/(7+18) = 28%. Il y a donc un gros déséquilibre dans le classement des 2 types de personnes (S ou NS).
cdlt

par le sportif Lun 28 Oct 2013 - 18:03

FS a écrit:Bonjour,
bien sur que le kmeans contient une "contradiction" car c'est une classification non supervisé or dans ton cas tu cherche à classifier tes individus en fonction du fait qu'ils soient solvable,s tu es donc dans un cadre supervisé.

droopy a écrit:

Je partage l'avis de FS. Si tu souhaites réellement distinguer deux groupes prédifinis, il y a pléthore de méthode supervisées pour faire ça.

Merci pour les réponse:)Mais dans l'exercice que j'ai il est demandé d'utiliser la méthode kmeans et la méthode hiérarchique ascendante sur les données et puis de les comparer c'est pour cela je l'ai utilisé
par la suite j'ai fait une faute en fait je n'ai pas centré et réduit les données
une fois je l'ai fait j'ai obtenu ce qui suit pour la méthode kmeans

Code:: K-means clustering with 2 clusters of sizes 30, 16 Cluster means: var1 var2 var3 var4 1 0.4347374 0.3920507 0.4599882 0.2375272 2 -0.8151326 -0.7350950 -0.8624779 -0.4453635 Clustering vector: [1] 2 2 2 2 2 2 1 2 2 2 2 2 1 2 1 1 2 1 1 2 2 1 1 1 1 1 1 1 1 1 1 1 1 2 [35] 1 1 1 1 1 1 1 1 1 1 1 1 Within cluster sum of squares by cluster: [1] 76.02435 51.30203 (between_SS / total_SS = 29.3 %) Available components: [1] "cluster" "centers" "totss" "withinss" [5] "tot.withinss" "betweenss" "size"

et j'ai obtenu la table de confusion suivante:

Code:: 1 2 S 6 15 NS 24 1

alors j'ai dit que « S»et « NS » sont dans une faible mesure en chevauchement l’une avec l'autre d’après la table de confusion et le ratio faible de variance intergroupe

(between_SS / total_SS = 29.3 %)
ainsi j'ai calculé la matrice de confusion correspondante à la classification hiérarchique ascendante et j'ai trouvé ce qui suit :

Code:: predite reelle S NS S 1 20 NS 0 25

j'ai dit que «S » est dans une forte mesure en chevauchement avec « NS » car ( (NS predite) )/(total F)=(20/21)= 95,23%
et j'ai donc conclu que la méthode kmeans est meilleure que hclust
Dans quelle mesure mes interprétations sont justes
Merci beaucoup d'avance pour ceux qui puissent m'aider à les corriger

par Contenu sponsorisé

interprétation matrice de confusion

interprétation matrice de confusion

Re: interprétation matrice de confusion

Re: interprétation matrice de confusion

Re: interprétation matrice de confusion

Re: interprétation matrice de confusion