Rapprochement d'un échantillon et de classes déjà existantes

par Donald01 Mer 17 Mai 2017 - 21:21

Bonsoir,

J'aurais une petite question.
A partir d'un premier échantillon, je calcule différents indicateurs qualitatifs(indicateur1, indicateur2, indicateur3). J'utilise par la suite une ACM et une CAH qui me permette d'avoir 4 classes bien distinctes.

Dans un second temps, j'ai en fait un second échantillon beaucoup plus large. Ici le but est de savoir comment se place les individus de ce second échantillon dans les classes réalisées plus tôt.

De prime abord, on pourrait penser qu'il suffit de regrouper tout le monde en un seul échantillon et faire l'ACM puis la classification sur cet échantillon. Pas vraiment, puisque la CAH va regarder entre autre les distances inter-individus donc je ne pourrais pas placer mes individus de l'échantillon 2 dans les classes définies par l'échantillon 1.

On pourrait penser à croiser des statistiques descriptives des différents indicateurs et les classes, et voir si des seuils évidents permettent, une fois ces même indicateurs calculées pour l'échantillon 2, de les attribuer une classes. Ca ne marche pas.

J'avoue que je sèche un peu. J'avais envisagé :
Faire une ACM sur le premier échantillon. Le premier axe étant celui qui explique le mieux l'inertie, retenir les coordonnées des individus sur cet axe. Faire un découpage en quartile de cette variable qui permettrait d'attribuer une classe à chaque individu.

Les variables utilisées lors de l'ACM ont aussi des coordonnées et je retiens celles pour le 1er axe.. Par conséquent, calculer pour chacun des répondants du second échantillon la variable suivante : (coordonnée de l'indicateur 1 utilisée dans la précédent ACM)*indicateur1 du répondant du second échantillon + (coordonnée de l'indicateur 2 utilisée dans la précédent ACM)*indicateur2 du répondant du second échantillon + (coordonnée de l'indicateur 3 utilisée dans la précédent ACM)*indicateur3 du répondant du second échantillon. Cela permettrait de pouvoir classer ensuite chaque individu selon le seuil de quartile des classes utilisées précédemment.

J'avoue ne pas avoir d'autres idées dans la perspective de voir comment les personnes d'un second échantillon se positionnent par rapport à des classes calculées sur un premier échantillon.

par Nik Jeu 18 Mai 2017 - 6:13

Bonjour,

Si tu veux garder ta démarche initiale, il faut projeter tes nouveaux individus en individus supplémentaire sur le plan de ton ACM de référence.
Pour ta classification, tu peux ensuite te baser sur les centroïdes des classes et calculer la distance entre les nouveaux individus et les centroïdes afn de connaitre quelle est la classe la plus proche.

HTH

Nik

par Donald01 Jeu 18 Mai 2017 - 8:32

La question peut sembler naïve mais je connais supplementary pour l'ajout de variables supplémentaires. Mais j'ai du mal à voir comment ajouter des observations supplémentaires.

Les centroïdes seraient calculées pour chaque classe grâce aux coordonnées de l'ACM des observations qui la compose c'est ça?

par Nik Ven 19 Mai 2017 - 7:46

Bonjour,

Pour les individus supplémentaires (sous R) : https://pbil.univ-lyon1.fr/R/pdf/qr8.pdf

Pour les centroïdes, c'est ça effectivement.

Nik

par Donald01 Ven 19 Mai 2017 - 20:59

Je te remercie.

En fait, un des indicateurs que j'utilise est le sens de la trajectoire. Celui-ci est obtenu par Optimal matching avec Traminer sous R. Cette méthode me donne 7 classes.

Autant avec l'ACM, je comprends la méthode. Mais autant pour cet indicateur je n'ai pas d'idée sur comment m'y prendre. Il n'est pas possible là pour le coup de projeter des nouveaux individus, non?

par Donald01 Lun 22 Mai 2017 - 7:32

Pour réaliser l optimal matching, j'ai codé la situation professionnelle des répondants à chaque âge. J'ai relancé loptimal matching sur mon 1er échantillon, et isoler dans différents pfichiers chaque parcours selon l'une des 7 classes auxquelles la personne appartient. Donc un fichier avec avec toutes les personnes de la classe 1, un autre pour toutes les personnes de la classes 2, etc.
Pour le 1er fichier je fais : pam(donnnees1, 1) cest à dire sur les parcours de la classes, je veux le medoid. Il m'affiche sa en première ligne. Je fais pam(donnees2,1) pour refaire La meme chose avec les personnes qui appartiennent à l classe 2, etc. Au final j'ai mes 7 profils types. Je voudrais savoir si vous auriez une idée de comment faire pour comparer un à un les parcours de mon second échantillon aux 7 profils types, et lui attribuer celui dont il est le plus proche?

par Contenu sponsorisé

Rapprochement d'un échantillon et de classes déjà existantes

Rapprochement d'un échantillon et de classes déjà existantes

Re: Rapprochement d'un échantillon et de classes déjà existantes

Re: Rapprochement d'un échantillon et de classes déjà existantes

Re: Rapprochement d'un échantillon et de classes déjà existantes

Re: Rapprochement d'un échantillon et de classes déjà existantes

Re: Rapprochement d'un échantillon et de classes déjà existantes

Re: Rapprochement d'un échantillon et de classes déjà existantes