Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine
Aucun utilisateur

Le Deal du moment : -40%
-40% sur le Pack Gaming Mario PDP Manette filaire + ...
Voir le deal
29.99 €

Centrage de données

2 participants

Aller en bas

données - Centrage de données Empty Centrage de données

Message par Invité Mar 16 Aoû 2011 - 14:35

Bonjour à tous.

Cela fait plusieurs fois que je vois ici qu'il est possible de centrer les données par ligne et par colonnes, ce qui aurait pour but de supprimer un effet taille.

Je comprends bien l'intéret d'un centrage par colonne, afin de pouvoir par exemple comparer des données utilisant des échelles différentes, lors d'une ACP par exemple, afin que la principale direction d'inertie du nuage ne soit pas "tirée" par une variable utilisant un spectre de données plus large que les autres données.
(J'espère que je me fais comprendre).

Pour ce qui est du centrage par ligne... Je n'en ai jamais entendu parlé avant, et donc n'ai jamais été amené à l'utiliser. Dans quel cadre peut-on l'utiliser, et de quelle manière?
Je comprends bien l'intéret d'un tel centrage pour s'affranchir d'un effet taille, lorsque toutes les variables ont la même échelle. Mais lorsque les variables utilisent des variables différentes?
Je suppose que par conséquent le centrage par ligne se fait après le centrage par colonne?
Et que faire dans le cas où l'effet taille n'implique pas toutes les variables?

Merci de m'éclairer, car je n'avais jamais entendu parler de ça avant,
et pourrait pourquoi pas être amené à l'utiliser du coup!
(n'ayant pas suivi une formation stats pures mais seulement stats appliquées, pas mal de notions me sont un peu floues, mais j'en apprends pas mal par le biais du forum... merci beaucoup au passage...)

Cordialement,

Hadrien

Invité
Invité


Revenir en haut Aller en bas

données - Centrage de données Empty Re: Centrage de données

Message par droopy Mer 17 Aoû 2011 - 7:36

Le but du double centrage n'est pas de réduire l'influence d'une variable qui aurait une variabilité plus grande que les autres et qui dirigerait l'analyse. Pour ça, il suffit de réduire tes données et donc de transformer tes variables de sorte qu'elles aient toutes la même variance (1). Le double centrage permet de gommer un effet latent qui existe sur toutes les variables que tu utilises. Par exemple, tu t'intéresses à la taille de différents os dans une population données. Il est clair que la taille de ces os va être influencées par la taille des individus. Si tu fais une ACP sur ce jeu de données, qu'est-ce que tu vas observer ? Tu vas voir que toutes tes variables sont fortement corrélées et presque parallèle au premier axe, que le premier axe va expliquer une très forte proportion de l'inertie de ton nuage de points et que tu as d'un côté les petits individus avec des petits os et de l'autre de grands individus avec de grands os. C'est effectivement un résultat en soit mais il est assez triviale et finalement n'a que peu d'intérêts.
Lorsque tu doubles centre les différences liés à la taille disparaisse et ce que tu vas regarder c'est pour un idividu donné est-ce que proportionnellement à sa taille quels sont ces os qui sont plutôt long ou plutôt court. Par exemple, tu vas regarder ta taille relative du tronc d'une personne par rapport à la taille de ces jambes et ce quelque soit la taille de ton individu. Tu peux avoir des petites et des grandes personnes qui ont relativement des grands troncs, et ces individus la seront proches sur une ACP sur un tableau doublement centrés alors qu'ils seront éloignés sur une ACP sur le tableau de départ.
Pour comprendre ce qui se passe, reprenons l'exemple d'une personne de grande taille avec un tronc relativement grand et à l'inverse des jambes relativements petites pour sa taille. On centre le tableau par colonne, que se passe-t-il ? Les tailles du tronc et des jambes ainsi centrés sont toutes deux positives, mais la taille des jambes est moins éloignées de la moyenne du nuage de point que la taille du tronc. Ensuite on centre par ligne les données qui ont été centrées par colonne. Que se passe-t-il ? Bien que tu as des données positives pour les deux valeurs, la valeur du tronc sera plus grande que la valeur des jambes, par conséquent quand tu centres ces valeurs tu vas avoir une valeur positive pour le tronc et une valeur négative pour les jambes. Il se passe la même chose avec un petit individu. Ici tu auras des valeurs négatives pour les deux valeurs, mais la valeur du tronc sera moins éloignée de la moyenne que la valeur des jambes. Par conséquent tu auras deux valeurs négatives mais celle du tronc sera plus grande que celle des jambes et quand tu centres sur ces valeurs tu obtiendras une valeur positive pour le tronc et négative pour les jambes.

En espérant que ça soit plus clair maintenant, sinon sur le site de l'université de lyon1 tu as une fiche dédiée au centrage et à son effet sur les sorties de l'ACP.
droopy
droopy

Nombre de messages : 1156
Date d'inscription : 04/09/2009

Revenir en haut Aller en bas

données - Centrage de données Empty Re: Centrage de données

Message par Invité Mer 17 Aoû 2011 - 8:40

Bonjour Droopy.

Je comprends bien (très bien même) tout ce que tu m'expliques. J'ai jeté un coup d'oeil sur le site de l'université de lyon, l'exemple est parlant en effet.

Je me pose cependant une dernière question.
Pour pouvoir centrer par ligne (ou du moins justifier ce centrage, vu qu'on peut toujours le faire...) il faut que les données soient toutes du même "type" (mesure sur les os par exemple)?

Ou que l'effet taille porte sur l'ensemble des variables?
Je n'ai pas d'exemple en tête, j'essaie de m'imaginer un problème où aux données portant sur la taille des os on ajoute une nouvelle variable, mais je ne trouve pas de réel exemple intéressant (en tout cas en ajoutant une variable active), mais peut être cette question n'a pas lieu d'être...

En tout cas merci beaucoup pour ta réponse.

Cordialement

Invité
Invité


Revenir en haut Aller en bas

données - Centrage de données Empty Re: Centrage de données

Message par droopy Mer 17 Aoû 2011 - 8:52

Pour pouvoir centrer par ligne (ou du moins justifier ce centrage, vu qu'on peut toujours le faire...) il faut que les données soient toutes du même "type" (mesure sur les os par exemple)?
A priori je dirais oui. Ici l'effet que tu cherches a gommer porte sur toutes les variables (effet taille sur tous les os). Si ce n'est pas le cas alors ça n'a pas de sens. Dans le cas ou une des variables présenterait une variabilité beaucoup plus importante que les autres je ne suis pas convaincu que ce double centrage arrive à limiter l'effet de cette variable dans l'analyse.
Pour moi le double centrage n'est à utiliser quand tu es convaincu de l'effet latent d'une variable sur toute les autres, comme l'effet de la taille sur la taille des os.

Une autre possibilité pour gommer un effet taille consiste à modéliser chaque variable en fonction de la taille et de ne travailler ensuite que sur les résidus de ces régressions linéaires. Tu peux ainsi faire ce qu'on appelle une "partial redundancy analysis" (partial RDA) ou encore une acp sur variable instrumentale orthogonale (PCAIV ortho) qui sont les mêmes analyses mais avec des noms différents. Ces deux analyses font une ACP des résidus des modèles linéaires de chaque variable (taille des os) en fonction de la variable que tu cherches a contrôler (la taille des individus).
droopy
droopy

Nombre de messages : 1156
Date d'inscription : 04/09/2009

Revenir en haut Aller en bas

données - Centrage de données Empty Re: Centrage de données

Message par Invité Mer 17 Aoû 2011 - 9:04

Parfait, merci pour les infos.

Je vais me pencher un peu sur ces analyses, et reviendrai sur ce post si besoin.

Merci beaucoup pour ces précisions en tout cas!

Hadrien

Invité
Invité


Revenir en haut Aller en bas

données - Centrage de données Empty Re: Centrage de données

Message par Nik Mer 17 Aoû 2011 - 9:30

Salut,

D'abord, merci à Droopy de m'avoir épargné le pavé qu'il a écrit Very Happy

Je confirme pour le tableau. il doit être relativement homogène pour que le double-centrage ait un intérêt. Dans le cas contraire, effectivement on se retrouve dans la situation ou une variable tire toute l'analyse. La variable latente n'a alors que peut d'importance puisque il y avant tout un problème d'échelle qui se règle lui par une normalisation des données.

Dans les analyses de morphométrie on travaille souvent avec des données log-transformée car cela suffit souvent à gommer d'éventuelles différences de variances entre variables. Mais on peut rigoureusement se le permettre car on a suffisament de recul sur ce type de données pour toujours supposer une relation d'allométrie (ou d'isométrie) qui en elle même justifie déjà la transformation log.

nik

Nik

Nombre de messages : 1606
Date d'inscription : 23/05/2008

Revenir en haut Aller en bas

données - Centrage de données Empty Re: Centrage de données

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum