Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Interprétation ACP
2 participants
Page 1 sur 1
Interprétation ACP
Bonjour,
J'ai besoin d'aide pour l'interprétation d'une ACP réalisée sur 11 variables et 105 données par variable. Je l'ai fait avec R commander.
J'ai d'abord fait le graphique des éboulis (voir fichier joint). D'après la méthode du coude, il faudrait sélectionner selon moi les 2 premiers axes, qui représentent la majorité de la variabilité des données. OK mais que faire avec ça ? Quelle manip doit faire sous R pour lui dire de prendre que 2 axes ?
Ensuite, j'ai demandé à R de tracer le fameux nuage de points (voir fichier joint). Les axes ne représentent que 30 et 13.5 % de la variabilité des données. Je trouve que c'est un peu limite pour analyser mes résultats. Qu'en pensez vous ?
Merci.
J'ai besoin d'aide pour l'interprétation d'une ACP réalisée sur 11 variables et 105 données par variable. Je l'ai fait avec R commander.
J'ai d'abord fait le graphique des éboulis (voir fichier joint). D'après la méthode du coude, il faudrait sélectionner selon moi les 2 premiers axes, qui représentent la majorité de la variabilité des données. OK mais que faire avec ça ? Quelle manip doit faire sous R pour lui dire de prendre que 2 axes ?
Ensuite, j'ai demandé à R de tracer le fameux nuage de points (voir fichier joint). Les axes ne représentent que 30 et 13.5 % de la variabilité des données. Je trouve que c'est un peu limite pour analyser mes résultats. Qu'en pensez vous ?
Merci.
- Fichiers joints
Sandpiper- Nombre de messages : 46
Date d'inscription : 24/05/2013
Re: Interprétation ACP
Ne serait-ce pas plutôt à partir du package FactoMineR, Rcommander n'étant qu'un interface plus conviviale que les lignes de commande pour accéder à différentes procédure d'analyse. C'est l'équipe qui a conçu FactoMineR qui a aussi écrit la plugin correspondant pour Rcommander.
Il existe un argument axes dans les procédures de FactoMineR pour sélectionner les axes. D'autres par, l'aide de PCA décrit la structure de l'objet renvoyé. Le membre var contient la description des variables, ind, des individus, var.quanti des variables quantitatives supplémentaires et var.quali des variables qualitatives supplémentaires (voir l'aide de PCA). Ce sont des listes des tableaux dont les colonnes sont les dimensions. Il suffit de sélectionner les bons tableaux et les deux premières colonnes.
La procédure paran du package de même nom permet de se faire une idée du nombre de composantes à garder tout comme la procédure estim_ncp de FactoMineR. Ces deux procédures sont basées sur des critères différents.
L'ACP 'filtre' les données. En conservant les deux premiers axes et donc 43.5% de la variabilité totale des données, cela revient à dire qu'on considère sur le critère du rapport de variance expliquée par le modèle sur la variance totale que le reste n'est pas porteur d'information au sens d'une relation linéaire entre variables et donc, dans le cadre de données gaussiennes, qu'il y a 56.5% de variabilité qui parasitent les relations linéaires. En d'autres termes, soit le rapport signal/bruit dans les données est mauvais, soit l'essentiel des relations entre variables est non linéaire.
Il existe un argument axes dans les procédures de FactoMineR pour sélectionner les axes. D'autres par, l'aide de PCA décrit la structure de l'objet renvoyé. Le membre var contient la description des variables, ind, des individus, var.quanti des variables quantitatives supplémentaires et var.quali des variables qualitatives supplémentaires (voir l'aide de PCA). Ce sont des listes des tableaux dont les colonnes sont les dimensions. Il suffit de sélectionner les bons tableaux et les deux premières colonnes.
La procédure paran du package de même nom permet de se faire une idée du nombre de composantes à garder tout comme la procédure estim_ncp de FactoMineR. Ces deux procédures sont basées sur des critères différents.
L'ACP 'filtre' les données. En conservant les deux premiers axes et donc 43.5% de la variabilité totale des données, cela revient à dire qu'on considère sur le critère du rapport de variance expliquée par le modèle sur la variance totale que le reste n'est pas porteur d'information au sens d'une relation linéaire entre variables et donc, dans le cadre de données gaussiennes, qu'il y a 56.5% de variabilité qui parasitent les relations linéaires. En d'autres termes, soit le rapport signal/bruit dans les données est mauvais, soit l'essentiel des relations entre variables est non linéaire.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Interprétation ACP
Très bien, merci. J'ai réussis à améliorer les choses. Il y a juste une chose que je ne comprends pas :
J'ai couplé mon ACP avec une matrice des coefficients de corrélation de type Pearson.
En reprenant les données 2 à 2 pour 2 variables et en traçant un nuage de points avec courbe de tendance linéaire sous Excel, j'obtiens par contre des r² complètement différents de ceux fournis par la matrice sous R.
Par exemple, pour les 2 mêmes variables, le r² peut valoir 0.40 selon la matrice des corrélations et 0.046 selon Excel.
Quelle est la différence entre ces deux coeffs et lequel choisir ?
J'ai couplé mon ACP avec une matrice des coefficients de corrélation de type Pearson.
En reprenant les données 2 à 2 pour 2 variables et en traçant un nuage de points avec courbe de tendance linéaire sous Excel, j'obtiens par contre des r² complètement différents de ceux fournis par la matrice sous R.
Par exemple, pour les 2 mêmes variables, le r² peut valoir 0.40 selon la matrice des corrélations et 0.046 selon Excel.
Quelle est la différence entre ces deux coeffs et lequel choisir ?
Sandpiper- Nombre de messages : 46
Date d'inscription : 24/05/2013
Re: Interprétation ACP
La matrice de corrélation calcule les corrélations entre variables et non les R2 au sens de la régression. Coefficients de corrélation et R2 sont deux choses différentes. Le coefficient de corrélation mesure l'intensité de la relation linéaire entre les deux variables x et y, c'est-à-dire la pente de la relation entre x0 et y0 où x0 et y0 sont les variables centrées réduites. Le R2 mesure le rapport entre la variance expliquée par le modèle et la variance totale. On peut donc obtenir un coefficient de corrélation assez important alors que le R2 est faible. Si tu calcules la tendance linéaire sous R, tu obtiendras les mêmes résultats que sous Excel. Exemple en R :
Le R2 permet donc de se faire une idée de comment la tendance linéaire explique la relation entre les données ou, en d'autres termes si la tendance linéaire est suffisante pour expliquer cette relation. Si le R2 est de 0.046, cela signifie que la relation linéaire est largement insuffisante pour expliquer la relation entre les données. Trace alors y en fonction de x :
- Code:
nb <- 1000000
z <- rnorm( nb)
alpha <- runif( nb, min=-pi, max=pi)
x <- z + 2 * cos( alpha)
y <- z + 2 * sin( alpha)
cor.test( x, y)
(res.lm <- lm( scale( y) ~ scale( x))
summary( res.lm)
Le R2 permet donc de se faire une idée de comment la tendance linéaire explique la relation entre les données ou, en d'autres termes si la tendance linéaire est suffisante pour expliquer cette relation. Si le R2 est de 0.046, cela signifie que la relation linéaire est largement insuffisante pour expliquer la relation entre les données. Trace alors y en fonction de x :
- Code:
plot( y ~ x)
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Interprétation ACP
Merci, ah oui c'est juste une question de vocabulaire toute simple en fait...j'en ai presque honte, c'est l'une des premières choses que l'on apprend en stats...
Sandpiper- Nombre de messages : 46
Date d'inscription : 24/05/2013
Re: Interprétation ACP
Bonjour,
Je me permets de déterrer le sujet pour revenir sur les tests de corrélation de Pearson. Je voudrais savoir s'il fallait vérifier la normalité des données pour que le test de Pearson soit valide ?
Si oui ça va me faire reculer car même en transformant mes données en log la normalité n'est pas vérifiée.Cela suit plutôt une loi de Poisson car j'ai beaucoup de valeurs égales à 0 puis la fréquence diminue.
Thank you
Je me permets de déterrer le sujet pour revenir sur les tests de corrélation de Pearson. Je voudrais savoir s'il fallait vérifier la normalité des données pour que le test de Pearson soit valide ?
Si oui ça va me faire reculer car même en transformant mes données en log la normalité n'est pas vérifiée.Cela suit plutôt une loi de Poisson car j'ai beaucoup de valeurs égales à 0 puis la fréquence diminue.
Thank you
Sandpiper- Nombre de messages : 46
Date d'inscription : 24/05/2013
Sujets similaires
» Interpretation ACP
» interprétation ACM
» Interprétation GLM
» Interprétation GLM -> AIC : Inf
» Interprétation d'une ACP
» interprétation ACM
» Interprétation GLM
» Interprétation GLM -> AIC : Inf
» Interprétation d'une ACP
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum