Analyse factorielle multiple avec FactoMineR

par Vertongen Ven 13 Déc - 14:52

Bonjour,

Dans le cadre d'une recherche sur les prédicteurs de la réussite et de l'impact perçu d'étudiants adultes en formation, je dispose d'une base de données comprenant 32 variables indépendantes quantitatives (scores agrégés de multiples échelles de Likert, déjà créés sur base d'ACP) et 13 variables indépendantes qualitatives (la plupart étant dichotomiques). Mes deux variables dépendantes sont (1) une variable dichotomique (réussite/échec), et (2) une variable quantitative (le score moyen d'impact perçu).

Etant donné le nombre important de variables en jeu et le caractère mixte de mes VI, un collègue statisticien m'a conseillé de me tourner vers l'analyse factorielle multiple, en en détournant l'usage premier. De fait, je ne m'intéresse pas directement à la structure factorielle de l'AFM, mais m'en sers pour répartir graphiquement mes VI autour de mes 2 VD. L'AFM prenant en compte l'ensemble de mes variables (y compris mes 2 VD), et les répartissant suivant leurs corrélations (positive ou négative), la proximité de mes flèches (variables quantitatives) et points (modalités des variables qualitatives) par rapport à mes 2 VD me sert à déterminer, parmi mon grand nombre de variables, celles qui sont les plus pertinentes pour expliquer la réussite ou l'impact.

Là où je coince, c'est sur la manière la plus orthodoxe possible de sélectionner mes variables indépendantes suivant leur proximité avec chacune de mes 2 variables dépendantes. Visuellement, je vois bien que certaines droites sont "plutôt proches", tandis que d'autres sont "plutôt éloignées" (et donc faisant un angle de 90° par rapport à ma VD). Mais je ne trouve pas la façon de disposer au moins des corrélations ou cos2 de toutes mes variables entre elles (il y a bien une sortie "corrélations", mais il s'agit des corrélations de chaque variable avec chaque facteur, ce qui ne m'intéresse pas ici).

Je me tourne donc vers vos précieux conseils et avis, tant au niveau de ma méthodologie générale que d'une solution possible pour sélectionner mes variables sans prendre arbitrairement, par exemple, toutes celles situées à + et - 45° par rapport à ma droite VD. Mon objectif étant, vous l'aurez compris, d'élaguer mon grand nombre de variables selon leur pertinence par rapport à mes 2 VD, et d'éviter les problèmes de multicolinéarité et autres postulats exigeants des régressions linéaires ou logistiques.

Je vous remercie d'avance pour vos réflexions, et vous souhaite un bon après-midi !

Ps. Je vous joins 2 graphes pour illustration (j'ai chaque fois encadré la VD), sachant que je compte utiliser les coordonnées pour recréer ultérieurement un graphe unique combinant variables quantitatives et qualitatives.

Fichiers joints

: Output_AFM_Quanti.jpg Vous n'avez pas la permission de télécharger les fichiers joints.(158 Ko) Téléchargé 2 fois

: Output_AFM_Quali.jpg Vous n'avez pas la permission de télécharger les fichiers joints.(191 Ko) Téléchargé 1 fois

par droopy Ven 13 Déc - 15:27

Concernant la méthodologie, celle-ci sera pertinente tant que les relations entre tes VDs et tes VI sont linéaires. Si la relation est par exemple quadratique, tu passeras à côté. On pourra aussi te faire le reproche que les axes ne sont pas construits sur la base des tes VDs, et que la méthodologie ne cherche pas directement à expliquer les VDs en fonction des VI.
Pour quoi ne pas regarder du côtés des arbres de décisions, et leux extesntions comme les Bossting Regression Tree ou encore les Random Forest ? Peut-être aussi de la pls.

par Vertongen Ven 13 Déc - 16:03

Bonjour,

grand merci pour cette réponse, je me renseigne sur l'intérêt des arbres de décision et de la pls par rapport à mon projet.
En effet, cette méthodologie ne cherche pas directement à expliquer les VD en fonction des VI ; l'idée était dans un premier temps d'élaguer mes VI via cette méthode, puis d'éventuellement passer à des régressions avec les "meilleurs prédicteurs" (au sens de plus proches spatialement de mes VD) dans un second temps.
A votre avis, si on assume qu'il n'y a que des relations linéaires, existe-t-il une possibilité de calcul des corrélations (ou d'un indice de proximité spatiale) entre mes VI et mes VD (avec éventuellement un test statistique), tel qu'indiqué dans mon premier message ?

Grand merci d'avance

par Vertongen Ven 13 Déc - 16:46

Re bonjour,

Au final, j'en viens à me demander si le plus simple ne consisterait pas à entrer toutes mes VI en tant que prédicteurs dans une régression stepwise deletion soit linéaire (pour ma VD quanti) soit logistique (pour ma VD quali). L'élagage de mes VI non pertinentes pour expliquer mes VD devrait ainsi être réalisé. Qu'en pensez-vous ?

par Contenu sponsorisé

Analyse factorielle multiple avec FactoMineR

Analyse factorielle multiple avec FactoMineR

Re: Analyse factorielle multiple avec FactoMineR

Re: Analyse factorielle multiple avec FactoMineR

Re: Analyse factorielle multiple avec FactoMineR

Re: Analyse factorielle multiple avec FactoMineR