Interprétation ACP

par Sandpiper Mar 21 Juin 2016 - 17:30

Bonjour,

J'ai besoin d'aide pour l'interprétation d'une ACP réalisée sur 11 variables et 105 données par variable. Je l'ai fait avec R commander.

J'ai d'abord fait le graphique des éboulis (voir fichier joint). D'après la méthode du coude, il faudrait sélectionner selon moi les 2 premiers axes, qui représentent la majorité de la variabilité des données. OK mais que faire avec ça ? Quelle manip doit faire sous R pour lui dire de prendre que 2 axes ?

Ensuite, j'ai demandé à R de tracer le fameux nuage de points (voir fichier joint). Les axes ne représentent que 30 et 13.5 % de la variabilité des données. Je trouve que c'est un peu limite pour analyser mes résultats. Qu'en pensez vous ?

Merci.

Fichiers joints

: graphe_eboulis.png Vous n'avez pas la permission de télécharger les fichiers joints.(4 Ko) Téléchargé 6 fois

: ACP_graphe.png Nuage de pointsVous n'avez pas la permission de télécharger les fichiers joints.(9 Ko) Téléchargé 12 fois

par Florent Aubry Mer 22 Juin 2016 - 14:41

Ne serait-ce pas plutôt à partir du package FactoMineR, Rcommander n'étant qu'un interface plus conviviale que les lignes de commande pour accéder à différentes procédure d'analyse. C'est l'équipe qui a conçu FactoMineR qui a aussi écrit la plugin correspondant pour Rcommander.

Il existe un argument axes dans les procédures de FactoMineR pour sélectionner les axes. D'autres par, l'aide de PCA décrit la structure de l'objet renvoyé. Le membre var contient la description des variables, ind, des individus, var.quanti des variables quantitatives supplémentaires et var.quali des variables qualitatives supplémentaires (voir l'aide de PCA). Ce sont des listes des tableaux dont les colonnes sont les dimensions. Il suffit de sélectionner les bons tableaux et les deux premières colonnes.

La procédure paran du package de même nom permet de se faire une idée du nombre de composantes à garder tout comme la procédure estim_ncp de FactoMineR. Ces deux procédures sont basées sur des critères différents.

L'ACP 'filtre' les données. En conservant les deux premiers axes et donc 43.5% de la variabilité totale des données, cela revient à dire qu'on considère sur le critère du rapport de variance expliquée par le modèle sur la variance totale que le reste n'est pas porteur d'information au sens d'une relation linéaire entre variables et donc, dans le cadre de données gaussiennes, qu'il y a 56.5% de variabilité qui parasitent les relations linéaires. En d'autres termes, soit le rapport signal/bruit dans les données est mauvais, soit l'essentiel des relations entre variables est non linéaire.

par Sandpiper Dim 26 Juin 2016 - 15:26

Très bien, merci. J'ai réussis à améliorer les choses. Il y a juste une chose que je ne comprends pas :
J'ai couplé mon ACP avec une matrice des coefficients de corrélation de type Pearson.
En reprenant les données 2 à 2 pour 2 variables et en traçant un nuage de points avec courbe de tendance linéaire sous Excel, j'obtiens par contre des r² complètement différents de ceux fournis par la matrice sous R.
Par exemple, pour les 2 mêmes variables, le r² peut valoir 0.40 selon la matrice des corrélations et 0.046 selon Excel.

Quelle est la différence entre ces deux coeffs et lequel choisir ?

par Florent Aubry Lun 27 Juin 2016 - 7:53

La matrice de corrélation calcule les corrélations entre variables et non les R2 au sens de la régression. Coefficients de corrélation et R2 sont deux choses différentes. Le coefficient de corrélation mesure l'intensité de la relation linéaire entre les deux variables x et y, c'est-à-dire la pente de la relation entre x0 et y0 où x0 et y0 sont les variables centrées réduites. Le R2 mesure le rapport entre la variance expliquée par le modèle et la variance totale. On peut donc obtenir un coefficient de corrélation assez important alors que le R2 est faible. Si tu calcules la tendance linéaire sous R, tu obtiendras les mêmes résultats que sous Excel. Exemple en R :

Code:: nb <- 1000000 z <- rnorm( nb) alpha <- runif( nb, min=-pi, max=pi) x <- z + 2 * cos( alpha) y <- z + 2 * sin( alpha) cor.test( x, y) (res.lm <- lm( scale( y) ~ scale( x)) summary( res.lm)

Les résultats donnent comme attendus un coefficient de corrélation de l'ordre du tiers et un R2 de l'ordre du neuvième.

Le R2 permet donc de se faire une idée de comment la tendance linéaire explique la relation entre les données ou, en d'autres termes si la tendance linéaire est suffisante pour expliquer cette relation. Si le R2 est de 0.046, cela signifie que la relation linéaire est largement insuffisante pour expliquer la relation entre les données. Trace alors y en fonction de x :

Code:: plot( y ~ x)

par Sandpiper Lun 27 Juin 2016 - 20:01

Merci, ah oui c'est juste une question de vocabulaire toute simple en fait...j'en ai presque honte, c'est l'une des premières choses que l'on apprend en stats...

par Sandpiper Mer 27 Juil 2016 - 20:43

Bonjour,

Je me permets de déterrer le sujet pour revenir sur les tests de corrélation de Pearson. Je voudrais savoir s'il fallait vérifier la normalité des données pour que le test de Pearson soit valide ?

Si oui ça va me faire reculer car même en transformant mes données en log la normalité n'est pas vérifiée.Cela suit plutôt une loi de Poisson car j'ai beaucoup de valeurs égales à 0 puis la fréquence diminue.

Thank you

par Contenu sponsorisé

Interprétation ACP

Interprétation ACP

Re: Interprétation ACP

Re: Interprétation ACP

Re: Interprétation ACP

Re: Interprétation ACP

Re: Interprétation ACP

Re: Interprétation ACP