Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Centrage de données
2 participants
Page 1 sur 1
Centrage de données
Bonjour à tous.
Cela fait plusieurs fois que je vois ici qu'il est possible de centrer les données par ligne et par colonnes, ce qui aurait pour but de supprimer un effet taille.
Je comprends bien l'intéret d'un centrage par colonne, afin de pouvoir par exemple comparer des données utilisant des échelles différentes, lors d'une ACP par exemple, afin que la principale direction d'inertie du nuage ne soit pas "tirée" par une variable utilisant un spectre de données plus large que les autres données.
(J'espère que je me fais comprendre).
Pour ce qui est du centrage par ligne... Je n'en ai jamais entendu parlé avant, et donc n'ai jamais été amené à l'utiliser. Dans quel cadre peut-on l'utiliser, et de quelle manière?
Je comprends bien l'intéret d'un tel centrage pour s'affranchir d'un effet taille, lorsque toutes les variables ont la même échelle. Mais lorsque les variables utilisent des variables différentes?
Je suppose que par conséquent le centrage par ligne se fait après le centrage par colonne?
Et que faire dans le cas où l'effet taille n'implique pas toutes les variables?
Merci de m'éclairer, car je n'avais jamais entendu parler de ça avant,
et pourrait pourquoi pas être amené à l'utiliser du coup!
(n'ayant pas suivi une formation stats pures mais seulement stats appliquées, pas mal de notions me sont un peu floues, mais j'en apprends pas mal par le biais du forum... merci beaucoup au passage...)
Cordialement,
Hadrien
Cela fait plusieurs fois que je vois ici qu'il est possible de centrer les données par ligne et par colonnes, ce qui aurait pour but de supprimer un effet taille.
Je comprends bien l'intéret d'un centrage par colonne, afin de pouvoir par exemple comparer des données utilisant des échelles différentes, lors d'une ACP par exemple, afin que la principale direction d'inertie du nuage ne soit pas "tirée" par une variable utilisant un spectre de données plus large que les autres données.
(J'espère que je me fais comprendre).
Pour ce qui est du centrage par ligne... Je n'en ai jamais entendu parlé avant, et donc n'ai jamais été amené à l'utiliser. Dans quel cadre peut-on l'utiliser, et de quelle manière?
Je comprends bien l'intéret d'un tel centrage pour s'affranchir d'un effet taille, lorsque toutes les variables ont la même échelle. Mais lorsque les variables utilisent des variables différentes?
Je suppose que par conséquent le centrage par ligne se fait après le centrage par colonne?
Et que faire dans le cas où l'effet taille n'implique pas toutes les variables?
Merci de m'éclairer, car je n'avais jamais entendu parler de ça avant,
et pourrait pourquoi pas être amené à l'utiliser du coup!
(n'ayant pas suivi une formation stats pures mais seulement stats appliquées, pas mal de notions me sont un peu floues, mais j'en apprends pas mal par le biais du forum... merci beaucoup au passage...)
Cordialement,
Hadrien
Invité- Invité
Re: Centrage de données
Le but du double centrage n'est pas de réduire l'influence d'une variable qui aurait une variabilité plus grande que les autres et qui dirigerait l'analyse. Pour ça, il suffit de réduire tes données et donc de transformer tes variables de sorte qu'elles aient toutes la même variance (1). Le double centrage permet de gommer un effet latent qui existe sur toutes les variables que tu utilises. Par exemple, tu t'intéresses à la taille de différents os dans une population données. Il est clair que la taille de ces os va être influencées par la taille des individus. Si tu fais une ACP sur ce jeu de données, qu'est-ce que tu vas observer ? Tu vas voir que toutes tes variables sont fortement corrélées et presque parallèle au premier axe, que le premier axe va expliquer une très forte proportion de l'inertie de ton nuage de points et que tu as d'un côté les petits individus avec des petits os et de l'autre de grands individus avec de grands os. C'est effectivement un résultat en soit mais il est assez triviale et finalement n'a que peu d'intérêts.
Lorsque tu doubles centre les différences liés à la taille disparaisse et ce que tu vas regarder c'est pour un idividu donné est-ce que proportionnellement à sa taille quels sont ces os qui sont plutôt long ou plutôt court. Par exemple, tu vas regarder ta taille relative du tronc d'une personne par rapport à la taille de ces jambes et ce quelque soit la taille de ton individu. Tu peux avoir des petites et des grandes personnes qui ont relativement des grands troncs, et ces individus la seront proches sur une ACP sur un tableau doublement centrés alors qu'ils seront éloignés sur une ACP sur le tableau de départ.
Pour comprendre ce qui se passe, reprenons l'exemple d'une personne de grande taille avec un tronc relativement grand et à l'inverse des jambes relativements petites pour sa taille. On centre le tableau par colonne, que se passe-t-il ? Les tailles du tronc et des jambes ainsi centrés sont toutes deux positives, mais la taille des jambes est moins éloignées de la moyenne du nuage de point que la taille du tronc. Ensuite on centre par ligne les données qui ont été centrées par colonne. Que se passe-t-il ? Bien que tu as des données positives pour les deux valeurs, la valeur du tronc sera plus grande que la valeur des jambes, par conséquent quand tu centres ces valeurs tu vas avoir une valeur positive pour le tronc et une valeur négative pour les jambes. Il se passe la même chose avec un petit individu. Ici tu auras des valeurs négatives pour les deux valeurs, mais la valeur du tronc sera moins éloignée de la moyenne que la valeur des jambes. Par conséquent tu auras deux valeurs négatives mais celle du tronc sera plus grande que celle des jambes et quand tu centres sur ces valeurs tu obtiendras une valeur positive pour le tronc et négative pour les jambes.
En espérant que ça soit plus clair maintenant, sinon sur le site de l'université de lyon1 tu as une fiche dédiée au centrage et à son effet sur les sorties de l'ACP.
Lorsque tu doubles centre les différences liés à la taille disparaisse et ce que tu vas regarder c'est pour un idividu donné est-ce que proportionnellement à sa taille quels sont ces os qui sont plutôt long ou plutôt court. Par exemple, tu vas regarder ta taille relative du tronc d'une personne par rapport à la taille de ces jambes et ce quelque soit la taille de ton individu. Tu peux avoir des petites et des grandes personnes qui ont relativement des grands troncs, et ces individus la seront proches sur une ACP sur un tableau doublement centrés alors qu'ils seront éloignés sur une ACP sur le tableau de départ.
Pour comprendre ce qui se passe, reprenons l'exemple d'une personne de grande taille avec un tronc relativement grand et à l'inverse des jambes relativements petites pour sa taille. On centre le tableau par colonne, que se passe-t-il ? Les tailles du tronc et des jambes ainsi centrés sont toutes deux positives, mais la taille des jambes est moins éloignées de la moyenne du nuage de point que la taille du tronc. Ensuite on centre par ligne les données qui ont été centrées par colonne. Que se passe-t-il ? Bien que tu as des données positives pour les deux valeurs, la valeur du tronc sera plus grande que la valeur des jambes, par conséquent quand tu centres ces valeurs tu vas avoir une valeur positive pour le tronc et une valeur négative pour les jambes. Il se passe la même chose avec un petit individu. Ici tu auras des valeurs négatives pour les deux valeurs, mais la valeur du tronc sera moins éloignée de la moyenne que la valeur des jambes. Par conséquent tu auras deux valeurs négatives mais celle du tronc sera plus grande que celle des jambes et quand tu centres sur ces valeurs tu obtiendras une valeur positive pour le tronc et négative pour les jambes.
En espérant que ça soit plus clair maintenant, sinon sur le site de l'université de lyon1 tu as une fiche dédiée au centrage et à son effet sur les sorties de l'ACP.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Centrage de données
Bonjour Droopy.
Je comprends bien (très bien même) tout ce que tu m'expliques. J'ai jeté un coup d'oeil sur le site de l'université de lyon, l'exemple est parlant en effet.
Je me pose cependant une dernière question.
Pour pouvoir centrer par ligne (ou du moins justifier ce centrage, vu qu'on peut toujours le faire...) il faut que les données soient toutes du même "type" (mesure sur les os par exemple)?
Ou que l'effet taille porte sur l'ensemble des variables?
Je n'ai pas d'exemple en tête, j'essaie de m'imaginer un problème où aux données portant sur la taille des os on ajoute une nouvelle variable, mais je ne trouve pas de réel exemple intéressant (en tout cas en ajoutant une variable active), mais peut être cette question n'a pas lieu d'être...
En tout cas merci beaucoup pour ta réponse.
Cordialement
Je comprends bien (très bien même) tout ce que tu m'expliques. J'ai jeté un coup d'oeil sur le site de l'université de lyon, l'exemple est parlant en effet.
Je me pose cependant une dernière question.
Pour pouvoir centrer par ligne (ou du moins justifier ce centrage, vu qu'on peut toujours le faire...) il faut que les données soient toutes du même "type" (mesure sur les os par exemple)?
Ou que l'effet taille porte sur l'ensemble des variables?
Je n'ai pas d'exemple en tête, j'essaie de m'imaginer un problème où aux données portant sur la taille des os on ajoute une nouvelle variable, mais je ne trouve pas de réel exemple intéressant (en tout cas en ajoutant une variable active), mais peut être cette question n'a pas lieu d'être...
En tout cas merci beaucoup pour ta réponse.
Cordialement
Invité- Invité
Re: Centrage de données
A priori je dirais oui. Ici l'effet que tu cherches a gommer porte sur toutes les variables (effet taille sur tous les os). Si ce n'est pas le cas alors ça n'a pas de sens. Dans le cas ou une des variables présenterait une variabilité beaucoup plus importante que les autres je ne suis pas convaincu que ce double centrage arrive à limiter l'effet de cette variable dans l'analyse.Pour pouvoir centrer par ligne (ou du moins justifier ce centrage, vu qu'on peut toujours le faire...) il faut que les données soient toutes du même "type" (mesure sur les os par exemple)?
Pour moi le double centrage n'est à utiliser quand tu es convaincu de l'effet latent d'une variable sur toute les autres, comme l'effet de la taille sur la taille des os.
Une autre possibilité pour gommer un effet taille consiste à modéliser chaque variable en fonction de la taille et de ne travailler ensuite que sur les résidus de ces régressions linéaires. Tu peux ainsi faire ce qu'on appelle une "partial redundancy analysis" (partial RDA) ou encore une acp sur variable instrumentale orthogonale (PCAIV ortho) qui sont les mêmes analyses mais avec des noms différents. Ces deux analyses font une ACP des résidus des modèles linéaires de chaque variable (taille des os) en fonction de la variable que tu cherches a contrôler (la taille des individus).
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Centrage de données
Parfait, merci pour les infos.
Je vais me pencher un peu sur ces analyses, et reviendrai sur ce post si besoin.
Merci beaucoup pour ces précisions en tout cas!
Hadrien
Je vais me pencher un peu sur ces analyses, et reviendrai sur ce post si besoin.
Merci beaucoup pour ces précisions en tout cas!
Hadrien
Invité- Invité
Re: Centrage de données
Salut,
D'abord, merci à Droopy de m'avoir épargné le pavé qu'il a écrit
Je confirme pour le tableau. il doit être relativement homogène pour que le double-centrage ait un intérêt. Dans le cas contraire, effectivement on se retrouve dans la situation ou une variable tire toute l'analyse. La variable latente n'a alors que peut d'importance puisque il y avant tout un problème d'échelle qui se règle lui par une normalisation des données.
Dans les analyses de morphométrie on travaille souvent avec des données log-transformée car cela suffit souvent à gommer d'éventuelles différences de variances entre variables. Mais on peut rigoureusement se le permettre car on a suffisament de recul sur ce type de données pour toujours supposer une relation d'allométrie (ou d'isométrie) qui en elle même justifie déjà la transformation log.
nik
D'abord, merci à Droopy de m'avoir épargné le pavé qu'il a écrit
Je confirme pour le tableau. il doit être relativement homogène pour que le double-centrage ait un intérêt. Dans le cas contraire, effectivement on se retrouve dans la situation ou une variable tire toute l'analyse. La variable latente n'a alors que peut d'importance puisque il y avant tout un problème d'échelle qui se règle lui par une normalisation des données.
Dans les analyses de morphométrie on travaille souvent avec des données log-transformée car cela suffit souvent à gommer d'éventuelles différences de variances entre variables. Mais on peut rigoureusement se le permettre car on a suffisament de recul sur ce type de données pour toujours supposer une relation d'allométrie (ou d'isométrie) qui en elle même justifie déjà la transformation log.
nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Sujets similaires
» ACM CAH (données qualitatives & grosse base de données)
» HELP Données ACP AFC ACM
» données anthropométriques
» Représentativité de données
» données spss
» HELP Données ACP AFC ACM
» données anthropométriques
» Représentativité de données
» données spss
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
|
|