Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Analyse factorielle multiple avec FactoMineR
2 participants
Page 1 sur 1
Analyse factorielle multiple avec FactoMineR
Bonjour,
Dans le cadre d'une recherche sur les prédicteurs de la réussite et de l'impact perçu d'étudiants adultes en formation, je dispose d'une base de données comprenant 32 variables indépendantes quantitatives (scores agrégés de multiples échelles de Likert, déjà créés sur base d'ACP) et 13 variables indépendantes qualitatives (la plupart étant dichotomiques). Mes deux variables dépendantes sont (1) une variable dichotomique (réussite/échec), et (2) une variable quantitative (le score moyen d'impact perçu).
Etant donné le nombre important de variables en jeu et le caractère mixte de mes VI, un collègue statisticien m'a conseillé de me tourner vers l'analyse factorielle multiple, en en détournant l'usage premier. De fait, je ne m'intéresse pas directement à la structure factorielle de l'AFM, mais m'en sers pour répartir graphiquement mes VI autour de mes 2 VD. L'AFM prenant en compte l'ensemble de mes variables (y compris mes 2 VD), et les répartissant suivant leurs corrélations (positive ou négative), la proximité de mes flèches (variables quantitatives) et points (modalités des variables qualitatives) par rapport à mes 2 VD me sert à déterminer, parmi mon grand nombre de variables, celles qui sont les plus pertinentes pour expliquer la réussite ou l'impact.
Là où je coince, c'est sur la manière la plus orthodoxe possible de sélectionner mes variables indépendantes suivant leur proximité avec chacune de mes 2 variables dépendantes. Visuellement, je vois bien que certaines droites sont "plutôt proches", tandis que d'autres sont "plutôt éloignées" (et donc faisant un angle de 90° par rapport à ma VD). Mais je ne trouve pas la façon de disposer au moins des corrélations ou cos2 de toutes mes variables entre elles (il y a bien une sortie "corrélations", mais il s'agit des corrélations de chaque variable avec chaque facteur, ce qui ne m'intéresse pas ici).
Je me tourne donc vers vos précieux conseils et avis, tant au niveau de ma méthodologie générale que d'une solution possible pour sélectionner mes variables sans prendre arbitrairement, par exemple, toutes celles situées à + et - 45° par rapport à ma droite VD. Mon objectif étant, vous l'aurez compris, d'élaguer mon grand nombre de variables selon leur pertinence par rapport à mes 2 VD, et d'éviter les problèmes de multicolinéarité et autres postulats exigeants des régressions linéaires ou logistiques.
Je vous remercie d'avance pour vos réflexions, et vous souhaite un bon après-midi !
Ps. Je vous joins 2 graphes pour illustration (j'ai chaque fois encadré la VD), sachant que je compte utiliser les coordonnées pour recréer ultérieurement un graphe unique combinant variables quantitatives et qualitatives.
Dans le cadre d'une recherche sur les prédicteurs de la réussite et de l'impact perçu d'étudiants adultes en formation, je dispose d'une base de données comprenant 32 variables indépendantes quantitatives (scores agrégés de multiples échelles de Likert, déjà créés sur base d'ACP) et 13 variables indépendantes qualitatives (la plupart étant dichotomiques). Mes deux variables dépendantes sont (1) une variable dichotomique (réussite/échec), et (2) une variable quantitative (le score moyen d'impact perçu).
Etant donné le nombre important de variables en jeu et le caractère mixte de mes VI, un collègue statisticien m'a conseillé de me tourner vers l'analyse factorielle multiple, en en détournant l'usage premier. De fait, je ne m'intéresse pas directement à la structure factorielle de l'AFM, mais m'en sers pour répartir graphiquement mes VI autour de mes 2 VD. L'AFM prenant en compte l'ensemble de mes variables (y compris mes 2 VD), et les répartissant suivant leurs corrélations (positive ou négative), la proximité de mes flèches (variables quantitatives) et points (modalités des variables qualitatives) par rapport à mes 2 VD me sert à déterminer, parmi mon grand nombre de variables, celles qui sont les plus pertinentes pour expliquer la réussite ou l'impact.
Là où je coince, c'est sur la manière la plus orthodoxe possible de sélectionner mes variables indépendantes suivant leur proximité avec chacune de mes 2 variables dépendantes. Visuellement, je vois bien que certaines droites sont "plutôt proches", tandis que d'autres sont "plutôt éloignées" (et donc faisant un angle de 90° par rapport à ma VD). Mais je ne trouve pas la façon de disposer au moins des corrélations ou cos2 de toutes mes variables entre elles (il y a bien une sortie "corrélations", mais il s'agit des corrélations de chaque variable avec chaque facteur, ce qui ne m'intéresse pas ici).
Je me tourne donc vers vos précieux conseils et avis, tant au niveau de ma méthodologie générale que d'une solution possible pour sélectionner mes variables sans prendre arbitrairement, par exemple, toutes celles situées à + et - 45° par rapport à ma droite VD. Mon objectif étant, vous l'aurez compris, d'élaguer mon grand nombre de variables selon leur pertinence par rapport à mes 2 VD, et d'éviter les problèmes de multicolinéarité et autres postulats exigeants des régressions linéaires ou logistiques.
Je vous remercie d'avance pour vos réflexions, et vous souhaite un bon après-midi !
Ps. Je vous joins 2 graphes pour illustration (j'ai chaque fois encadré la VD), sachant que je compte utiliser les coordonnées pour recréer ultérieurement un graphe unique combinant variables quantitatives et qualitatives.
- Fichiers joints
Vertongen- Nombre de messages : 3
Date d'inscription : 13/12/2013
Re: Analyse factorielle multiple avec FactoMineR
Concernant la méthodologie, celle-ci sera pertinente tant que les relations entre tes VDs et tes VI sont linéaires. Si la relation est par exemple quadratique, tu passeras à côté. On pourra aussi te faire le reproche que les axes ne sont pas construits sur la base des tes VDs, et que la méthodologie ne cherche pas directement à expliquer les VDs en fonction des VI.
Pour quoi ne pas regarder du côtés des arbres de décisions, et leux extesntions comme les Bossting Regression Tree ou encore les Random Forest ? Peut-être aussi de la pls.
Pour quoi ne pas regarder du côtés des arbres de décisions, et leux extesntions comme les Bossting Regression Tree ou encore les Random Forest ? Peut-être aussi de la pls.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Analyse factorielle multiple avec FactoMineR
Bonjour,
grand merci pour cette réponse, je me renseigne sur l'intérêt des arbres de décision et de la pls par rapport à mon projet.
En effet, cette méthodologie ne cherche pas directement à expliquer les VD en fonction des VI ; l'idée était dans un premier temps d'élaguer mes VI via cette méthode, puis d'éventuellement passer à des régressions avec les "meilleurs prédicteurs" (au sens de plus proches spatialement de mes VD) dans un second temps.
A votre avis, si on assume qu'il n'y a que des relations linéaires, existe-t-il une possibilité de calcul des corrélations (ou d'un indice de proximité spatiale) entre mes VI et mes VD (avec éventuellement un test statistique), tel qu'indiqué dans mon premier message ?
Grand merci d'avance
grand merci pour cette réponse, je me renseigne sur l'intérêt des arbres de décision et de la pls par rapport à mon projet.
En effet, cette méthodologie ne cherche pas directement à expliquer les VD en fonction des VI ; l'idée était dans un premier temps d'élaguer mes VI via cette méthode, puis d'éventuellement passer à des régressions avec les "meilleurs prédicteurs" (au sens de plus proches spatialement de mes VD) dans un second temps.
A votre avis, si on assume qu'il n'y a que des relations linéaires, existe-t-il une possibilité de calcul des corrélations (ou d'un indice de proximité spatiale) entre mes VI et mes VD (avec éventuellement un test statistique), tel qu'indiqué dans mon premier message ?
Grand merci d'avance
Vertongen- Nombre de messages : 3
Date d'inscription : 13/12/2013
Re: Analyse factorielle multiple avec FactoMineR
Re bonjour,
Au final, j'en viens à me demander si le plus simple ne consisterait pas à entrer toutes mes VI en tant que prédicteurs dans une régression stepwise deletion soit linéaire (pour ma VD quanti) soit logistique (pour ma VD quali). L'élagage de mes VI non pertinentes pour expliquer mes VD devrait ainsi être réalisé. Qu'en pensez-vous ?
Au final, j'en viens à me demander si le plus simple ne consisterait pas à entrer toutes mes VI en tant que prédicteurs dans une régression stepwise deletion soit linéaire (pour ma VD quanti) soit logistique (pour ma VD quali). L'élagage de mes VI non pertinentes pour expliquer mes VD devrait ainsi être réalisé. Qu'en pensez-vous ?
Vertongen- Nombre de messages : 3
Date d'inscription : 13/12/2013
Sujets similaires
» PCA {FactoMineR}: extraire combinaisons linéaires?
» Analyse factorielle avec données dichotomiques
» Package Factominer
» PCA{FactoMineR} Cercle des corrélations
» Récupérer coordonnées dans ACP FactomineR
» Analyse factorielle avec données dichotomiques
» Package Factominer
» PCA{FactoMineR} Cercle des corrélations
» Récupérer coordonnées dans ACP FactomineR
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum