Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
ACP ou PCoA
3 participants
Page 1 sur 1
ACP ou PCoA
Bonjour à tous,
Dans le cadre de mon mémoire de fin d'études, j'essaie d'obtenir des informations statistiques à partir des réponses obtenues au travers d'un enquête. Pour être brève, j'aimerais effectuer une typologie à partir de données recensées au sein d'une grande ville. J'ai 3 types de réponses, avec lesquelles je fais des cluster :
- La répartition des personnes au sein d'un ménage, leur profession, etc --> données socio-économiques ;
- Le type de cultures rencontrés (puisqu'il s'agit d'agriculteurs) --> données culturales ;
- Les animaux qui sont élevés/possédés par les agriculteurs --> données élevage .
J'effectue donc mes clusters, et j'obtiens des dendrogrammes à partir desquels j'essaie de comprendre comment se répartissent mes échantillons.
Pour ce faire, j'utilise la distance de GOWER (sur le logiciel R) car elle permet de combiner des données quantitatives (nombre d'animaux et nombres de personnes dans le ménage) et binaires (j'ai encodé mes cultures de manière "présence/absence", elles sont donc sous format binaire). J'utilise la fonction hclust qui marche très bien ; j'ai choisi la méthode de WARD.
Et c'est maintenant que mon problème survient : pour mieux comprendre comment WARD a séparé mes groupes et surtout d'où vient la répartition observée, j'effectue une ACP.
Une amie me dit que je ne peux pas faire ça car j'ai utilisé la distance de gower et non la distance euclidienne. Elle m'assure que l'ACP n'est réalisable que si la distance utilisée est euclidienne, que si la distance (dans mon cas Gower) est autre, il faut faire une PCOA.
Je suis sceptique : mes résultats sont cohérents ; je me suis renseignée sur plusieurs sites et j'ai l'impression que la PCOA est réservée à des données de type écologique (ex: répartition d'espèces d'insectes sur une parcelle) ce qui n'est pas mon cas ; je ne comprends pas non plus pourquoi l'ACP ne serait pas valide, et mon cours de stat ne mentionne pas ce cas particulier.
SVP, une bonne âme pour m'éclairer ?!
Merci de m'avoir lue et de me répondre dès que possible, j'aimerais savoir au plus vite ce qu'il en est !
Dans le cadre de mon mémoire de fin d'études, j'essaie d'obtenir des informations statistiques à partir des réponses obtenues au travers d'un enquête. Pour être brève, j'aimerais effectuer une typologie à partir de données recensées au sein d'une grande ville. J'ai 3 types de réponses, avec lesquelles je fais des cluster :
- La répartition des personnes au sein d'un ménage, leur profession, etc --> données socio-économiques ;
- Le type de cultures rencontrés (puisqu'il s'agit d'agriculteurs) --> données culturales ;
- Les animaux qui sont élevés/possédés par les agriculteurs --> données élevage .
J'effectue donc mes clusters, et j'obtiens des dendrogrammes à partir desquels j'essaie de comprendre comment se répartissent mes échantillons.
Pour ce faire, j'utilise la distance de GOWER (sur le logiciel R) car elle permet de combiner des données quantitatives (nombre d'animaux et nombres de personnes dans le ménage) et binaires (j'ai encodé mes cultures de manière "présence/absence", elles sont donc sous format binaire). J'utilise la fonction hclust qui marche très bien ; j'ai choisi la méthode de WARD.
Et c'est maintenant que mon problème survient : pour mieux comprendre comment WARD a séparé mes groupes et surtout d'où vient la répartition observée, j'effectue une ACP.
Une amie me dit que je ne peux pas faire ça car j'ai utilisé la distance de gower et non la distance euclidienne. Elle m'assure que l'ACP n'est réalisable que si la distance utilisée est euclidienne, que si la distance (dans mon cas Gower) est autre, il faut faire une PCOA.
Je suis sceptique : mes résultats sont cohérents ; je me suis renseignée sur plusieurs sites et j'ai l'impression que la PCOA est réservée à des données de type écologique (ex: répartition d'espèces d'insectes sur une parcelle) ce qui n'est pas mon cas ; je ne comprends pas non plus pourquoi l'ACP ne serait pas valide, et mon cours de stat ne mentionne pas ce cas particulier.
SVP, une bonne âme pour m'éclairer ?!
Merci de m'avoir lue et de me répondre dès que possible, j'aimerais savoir au plus vite ce qu'il en est !
PaulineLx- Nombre de messages : 3
Date d'inscription : 26/07/2014
Re: ACP ou PCoA
Bonjour,
tu fais tn acp sur quelles données ? Je vois mal une ACP sur une matrice de distance. Donc si c'est sur les données de départ alors il y a un problème car faire une ACP classique sur des variables qualitatives pose problème. Voir plutôt l'analyse de hill & smith par exemple ou autre analyses multivariée mêlant variables catégorielles et numériques.
nik
tu fais tn acp sur quelles données ? Je vois mal une ACP sur une matrice de distance. Donc si c'est sur les données de départ alors il y a un problème car faire une ACP classique sur des variables qualitatives pose problème. Voir plutôt l'analyse de hill & smith par exemple ou autre analyses multivariée mêlant variables catégorielles et numériques.
nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: ACP ou PCoA
Mes données sont quantitatives. Pourquoi pas d'ACP ??? je ne comprends toujours pas.
PaulineLx- Nombre de messages : 3
Date d'inscription : 26/07/2014
Re: ACP ou PCoA
Ce n'est pas vraiment que tu ne peux pas.
Tu mélanges variables quanti et quali, ok. Mais dans ton analyse les secondes vont avoir une variance beaucoup plus faible que les premières donc elles ne vont pas beaucoup contribuer à l'analyse. C'est simplement une question de poids statistiques des variables. Pour éviter cela, il faut faire une analyse qui permet de prendre en compte cette différence de nature de variable.
Il n'y a aucun lien avec ce que tu as fait à partir de la distance de Gower. Soit tu as mal compris ce que ton amie voulait t'expliquer soit c'est elle qui n'a pas compris.
Au passage, tes données ne sont pas toutes quantitatives. Tu as contourné de manière classique le problème des variables qualitatives par un passage en indicatrice. C'est ce que font toutes les méthodes d'analyses stat.
Enfin, ne t'étonne pas de trouver des regroupements différents si les groupes ne sont pas clairement identifiables au départ car faire une classification via une CAH ou faire une carte factorielle ne fait pas appel au même principe ni aux mêmes calculs.
Nik
Tu mélanges variables quanti et quali, ok. Mais dans ton analyse les secondes vont avoir une variance beaucoup plus faible que les premières donc elles ne vont pas beaucoup contribuer à l'analyse. C'est simplement une question de poids statistiques des variables. Pour éviter cela, il faut faire une analyse qui permet de prendre en compte cette différence de nature de variable.
Il n'y a aucun lien avec ce que tu as fait à partir de la distance de Gower. Soit tu as mal compris ce que ton amie voulait t'expliquer soit c'est elle qui n'a pas compris.
Au passage, tes données ne sont pas toutes quantitatives. Tu as contourné de manière classique le problème des variables qualitatives par un passage en indicatrice. C'est ce que font toutes les méthodes d'analyses stat.
Enfin, ne t'étonne pas de trouver des regroupements différents si les groupes ne sont pas clairement identifiables au départ car faire une classification via une CAH ou faire une carte factorielle ne fait pas appel au même principe ni aux mêmes calculs.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: ACP ou PCoA
Donc ca veut dire que ce que je fais est bon ?
Ok donc tu veux dire que la distance de Gower me permet de tenir compte du fait que j'ai des données quanti et quali (= binaire ducoup, c'est ça je suppose que tu appelles contourner).
Moi ce que je comprends c'est que l'ACP me permet de mieux comprendre le dendrogramme et donc les groupes qui ont été formé via le cluster. Pour le cluster, j'utilise la distance de Gower.
Et donc si je comprends bien ce que tu m'expliques, à partir du moment où je passe à l'analyse en composantes principales, le fait de choisir une distance "euclidienne" ou "de gower" ou n'importe quelle autre, n'influence pas mon résultat c'est bien ça ? l'ACP permet juste de visualiser la manière dont se répartissent mes variables de départ .
Pour mes résultats, ils sont très cohérents : pour les ménages par exemple, j'ai décidé de garder 4 groupes suite à mon cluster. Quand je lui demande de faire l'ACP, je vois ainsi comment ces fameux 4 groupes se répartissent en fonction des variables de départ et j'obtiens une carte des individus dans un graphique de composante principale "dimension 1 * 2". Les données quali ne sont pas "écrasées" par les quanti, en tout cas ça ne ressort pas à l'analyse.
Ok donc tu veux dire que la distance de Gower me permet de tenir compte du fait que j'ai des données quanti et quali (= binaire ducoup, c'est ça je suppose que tu appelles contourner).
Moi ce que je comprends c'est que l'ACP me permet de mieux comprendre le dendrogramme et donc les groupes qui ont été formé via le cluster. Pour le cluster, j'utilise la distance de Gower.
Et donc si je comprends bien ce que tu m'expliques, à partir du moment où je passe à l'analyse en composantes principales, le fait de choisir une distance "euclidienne" ou "de gower" ou n'importe quelle autre, n'influence pas mon résultat c'est bien ça ? l'ACP permet juste de visualiser la manière dont se répartissent mes variables de départ .
Pour mes résultats, ils sont très cohérents : pour les ménages par exemple, j'ai décidé de garder 4 groupes suite à mon cluster. Quand je lui demande de faire l'ACP, je vois ainsi comment ces fameux 4 groupes se répartissent en fonction des variables de départ et j'obtiens une carte des individus dans un graphique de composante principale "dimension 1 * 2". Les données quali ne sont pas "écrasées" par les quanti, en tout cas ça ne ressort pas à l'analyse.
PaulineLx- Nombre de messages : 3
Date d'inscription : 26/07/2014
Re: ACP ou PCoA
nan ...reprenons :
Tu ne peux pas faire une ACP mêlant quali et quanti pour des raisons de poids des variables (les quantitaives prendrons le pas sur les quali quelle que soit la structure réelle des données).
Si tu as fait une ACP normée alors les poids des variables quanti et de chacune des modalité des variables quali est le même. Tu ne respecte donc pas la structure de tes variables.
Pour la distance, tu ne peux pas la choisir dans ton ACP. C'est une distance euclidienne qui sert est utilisée par la méthode. Ton clustering via la CAH est indépendant de tout ça. La distance de Gower est un choix de ta part pour avoir une distance à entrer dans l'algo de Ward. Libre à toi ensuite de "projeter" les résultats du clustering (les groupes) sur le plan de l'ACP mais il n'y a pas de lien mathématique entre les 2.
Donc bilan :
ACP -> non.
Mix des types de variable --> analyse de Hill & Smith (attention, suivant le logiciel utilisé, tu n'as pas à faire les indicatrices par toi même, le logiciel transforme en 0/1 les variables qualitatives de lui même)
Nik
Tu ne peux pas faire une ACP mêlant quali et quanti pour des raisons de poids des variables (les quantitaives prendrons le pas sur les quali quelle que soit la structure réelle des données).
Si tu as fait une ACP normée alors les poids des variables quanti et de chacune des modalité des variables quali est le même. Tu ne respecte donc pas la structure de tes variables.
Pour la distance, tu ne peux pas la choisir dans ton ACP. C'est une distance euclidienne qui sert est utilisée par la méthode. Ton clustering via la CAH est indépendant de tout ça. La distance de Gower est un choix de ta part pour avoir une distance à entrer dans l'algo de Ward. Libre à toi ensuite de "projeter" les résultats du clustering (les groupes) sur le plan de l'ACP mais il n'y a pas de lien mathématique entre les 2.
Donc bilan :
ACP -> non.
Mix des types de variable --> analyse de Hill & Smith (attention, suivant le logiciel utilisé, tu n'as pas à faire les indicatrices par toi même, le logiciel transforme en 0/1 les variables qualitatives de lui même)
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: ACP ou PCoA
Est ce que l analyse de Hill et Smith est l'arme que celle de analyse factorielle des données mixtes ?? Merci et sur quel logiciel puis je le faire??
Khalil2006- Nombre de messages : 1
Date d'inscription : 07/06/2014
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
|
|