Robust Statistics

Voir le sujet précédent Voir le sujet suivant Aller en bas

Robust Statistics

Message par bloup le Mer 9 Sep 2015 - 10:34

Bonjour,

J'aurais souhaité connaitre vos avis concernant l'utilisation des méthodes dites de "Robust Statistics" (terme anglais, je ne connais pas le terme français désolé Embarassed ) et notamment du MAD (ou MADAM) pour "Median Absolute Deviation".

Certaines personnes l'utilisent pour calculer la "vraie" moyenne (supposée donc !) de leur jeu de données en minimisant l'effet des valeurs extrêmes considérées alors comme aberrantes et d'autres vont jusqu'à nettoyer des jeux de données et "éliminer" les "outliers" (c'est ce qu'on appelle la "winsorisation" je crois) avec bien évidemment dans les deux cas comme hypothèse de départ que l'on a à faire à une distribution normale des données mais polluée par des valeurs aberrantes.

Pour ma part, je suis toujours mal à l'aise face à l'élimination de données même extrêmes lorsqu'il n'y a pas de justification d'ordre analytique (problème technique et identifié survenu lors de la mesure, problème connu de conservation d'un échantillon, etc...) d'où ma question : est ce que vous utilisez cette méthode et est ce que vous éliminez (avec cette méthode ou d'autres) systématiquement les valeurs extrêmes pour vous rapprocher au maximum des modèles ?

Merci d'avance pour votre aide.

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par gg le Mer 9 Sep 2015 - 11:09

Bonjour.

En français "statistiques robustes".
L'usage de la médiane se justifie lorsque la série est très probablement symétrique, la moyenne étant très sensible aux valeurs extrêmes, aberrantes ou pas.
Je suis d'accord avec ce que tu dis sur les valeurs "aberrantes" et leur élimination. Les transformations de données pour se rapprocher d'un modèle me semblent aussi douteuses. Tout ça me fait penser à celui qui ayant perdu ses clefs la nuit, les cherche sous un réverbère, car "là on y voit quelque chose".

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par bloup le Mer 9 Sep 2015 - 12:53

Merci beaucoup pour ton point de vue et pour étendre un peu plus le sujet : que pensez vous de l'utilisation de la moyenne géométrique ?
Cette dernière est moins sensible aux valeurs extrêmes que la moyenne arithmétique. Est ce que là aussi son utilisation se justifie dans certains cas ?

Désolé pour ces questions qui se rapprochent sans doute plus d’interrogations de novice (ce que je suis) plutôt que de sujet de fond.

Merci également pour la terminologie française de "Robust statistics". Je n'avais pas osé faire la traduction littérale pensant qu'un terme spécifique existait.


bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par gg le Mer 9 Sep 2015 - 19:36

La moyenne géométrique a un gros inconvénient : elle n'existe que pour des valeurs positives et est très sensible aux valeurs nulles Laughing

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par bloup le Jeu 10 Sep 2015 - 5:45

Merci gg pour ces précisions. Par contre j'avais lu que la moyenne géométrique pouvait être un meilleur estimateur que la moyenne arithmétique pour des distributions à longue traîne.

Est ce que quelqu'un peut me confirmer cette information ?

Merci d'avance et bonne journée à tous.

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par gg le Jeu 10 Sep 2015 - 7:12

Un estimateur de quoi ? Pas de la moyenne arithmétique (espérance de la loi), j'imagine, puisque cette espérance est elle aussi influencée par la longue traîne.
En tout cas, si m est la moyenne arithmétique, g la moyenne géométrique et h la moyenne harmonique, on a m>=g>=h (exercice facile de fin de lycée).

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par bloup le Jeu 10 Sep 2015 - 7:46

Oui pardon, je n'avais pas précisé la nature de l'estimateur : tout simplement la tendance centrale.

 

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par gg le Jeu 10 Sep 2015 - 8:49

Heu ... c'est quoi, la tendance centrale ? je connais les indicateurs de tendance centrale (moyenne, médiane, mode, ...), mais pas la définition de "tendance centrale".

Cordialement.

NB : Un estimateur permet d'avoir des approximations d'une valeur inconnue précise.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par bloup le Jeu 10 Sep 2015 - 9:58

Désolé je crois que je me mélange un peu les pinceaux et fais des approximations dans mes propos. Embarassed

Si je ne dis pas de bêtises, ce que je cherchais à dire c'est que la moyenne arithmétique et la moyenne géométrique sont des estimateurs de la moyenne et que dans le cas d'une population présentant une distribution à longue traîne, la moyenne géométrique est un indicateur plus proche de la tendance centrale que la moyenne arithmétique. J’espère que je suis compréhensible et que je ne fais pas de fautes dans l'utilisation des termes sinon n'hésitez pas à me corriger.


EDIT : une représentation de ce que je veux dire est dans ce document. Les figures 1 et 2 prennent en compte le même jeu de données. Sur la figure 1 c'est la moyenne arithmétique qui est prise en compte comme estimateur de la moyenne et on voit qu'elle est fortement influencée par une valeur extrême alors que dans la figure 2, c'est la médiane qui est utilisée comme estimateur de la moyenne ce qui la rend moins sensible à la valeur extrême. De ce fait, dans un cadre similaire, je me posais la question de la pertinence d'utiliser la moyenne géométrique sachant que ce que l'on cherche à estimer c'est finalement une moyenne théorique que l'on aurait eu si les valeurs extrêmes sont des valeurs aberrantes qui n'avais pas été réellement mesurées.


Dernière édition par bloup le Jeu 10 Sep 2015 - 10:24, édité 1 fois

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par Nik le Jeu 10 Sep 2015 - 10:17

Bonjour,

Vu que la moyenne géométrique utilise une racine carré, rien d'étonnant à ce qu'elle soit un "meilleur" estimateur. Cela veut dire que l'estimation est relativement proche de la vraie moyenne géométrique de la population. On montre d'ailleurs que cette moyenne équivaut à la moyenne arithmétique des données log-transformées.
Pour moi c'est donc un artifice mathématique que de dire qu'elle produit une meilleure estimation. Si on fait la moyenne des données double log-transformées, je suis sûr qu'on aura encore un meilleur estimateur ! Smile

Donc tu dois te poser la question de la pertinence de l'utilisation de la moyenne géométrique. Il n'existe pas une VRAIE MOYENNE globale comme tu sembles le sous-entendre. Une population donnée peut avoir une moyenne arithmétique, une moyenne géométrique ou encore une moyenne harmonique qu'on va pouvoir chercher à estimer indépendamment l'une de l'autre. Tu vois bien dans les calculs de la moyenne géométrique, tu n'e déjà plus avec la même donnée puisque tu l'as transformée.

HTH

Nik

Nik

Nombre de messages : 1501
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par gg le Jeu 10 Sep 2015 - 10:23

Le message de Nik est plus précis que celui-ci, mais je le laisse quand même.

Désolé, je ne comprends toujours pas. Que dans certains cas, la moyenne géométrique soit un meilleur indicateur de tendance centrale que la moyenne arithmétique, je suis d'accord (exemple : une série d'augmentations annuelles). Mais "la tendance centrale" est une notion trop floue pour qu'on puisse parler de "proche". Ce n'est pas un nombre, seulement une idée.

Par contre la phrase " la moyenne arithmétique et la moyenne géométrique sont des estimateurs de la moyenne" n'a pas de sens: des estimateurs de quelle moyenne ? De quel nombre inconnu ?

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par bloup le Jeu 10 Sep 2015 - 10:40

Merci à tous les deux pour les explications et les rectifications de mes propos.

Par contre la phrase " la moyenne arithmétique et la moyenne géométrique sont des estimateurs de la moyenne" n'a pas de sens: des estimateurs de quelle moyenne ? De quel nombre inconnu ?

Pour répondre à cette question, je vous renvoie à l’édition de mon précédant message qui tente d'illustrer mon propos
une représentation de ce que je veux dire est dans ce document. Les figures 1 et 2 prennent en compte le même jeu de données. Sur la figure 1 c'est la moyenne arithmétique qui est prise en compte comme estimateur de la moyenne et on voit qu'elle est fortement influencée par une valeur extrême alors que dans la figure 2, c'est la médiane qui est utilisée comme estimateur de la moyenne ce qui la rend moins sensible à la valeur extrême. De ce fait, dans un cadre similaire, je me posais la question de la pertinence d'utiliser la moyenne géométrique sachant que ce que l'on cherche à estimer c'est finalement une moyenne théorique que l'on aurait eu si les valeurs extrêmes sont des valeurs aberrantes qui n'avais pas été réellement mesurées

si ce n'est pas clair, je pourrai vous présenter un cas concret sur lequel je suis en ce moment.

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par gg le Jeu 10 Sep 2015 - 11:28

Dans les deux cas, moyenne arithmétique et médiane, on cherche à estimer la moyenne (arithmétique) vraie (moyenne de la population), ou la moyenne (espérance) d'une variable aléatoire dont on a des réalisations.
L'usage de la médiane n'a de sens que si la série des valeurs de la population, ou bien la densité de la variable aléatoire est symétrique, ce qui assure que moyenne=médiane. On n'ira pas utiliser la médiane pour une série à longue traîne.

Maintenant, si tu as une référence pour l'usage de la moyenne géométrique, je suis intéressé. Mais à priori, je ne vois pas dans quel cas une moyenne géométrique donnerait une estimation de la moyenne vraie ou de l'espérance.

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par bloup le Jeu 10 Sep 2015 - 12:51

L'usage de la médiane n'a de sens que si la série des valeurs de la population, ou bien la densité de la variable aléatoire est symétrique, ce qui assure que moyenne=médiane. On n'ira pas utiliser la médiane pour une série à longue traîne.

D'accord.
J'avais donc mal choisi mon exemple en parlant de série à longue traîne. C'est plutôt dans le cas de figure traité dans le document que je me place : une série tendant vers une distribution normale mais potentiellement polluée par des valeurs extrêmes.

Maintenant, si tu as une référence pour l'usage de la moyenne géométrique, je suis intéressé. Mais à priori, je ne vois pas dans quel cas une moyenne géométrique donnerait une estimation de la moyenne vraie ou de l'espérance.

Je n'ai malheureusement pas de référence et c'est justement pour cela que je venais en discuter. J'avais simplement pensé à utiliser la moyenne géométrique car j'avais en tête un exemple de son utilisation pour calculer la moyenne de mesures répliquées 3 fois en minimisant l'effet d'un point extrême si présent. Je n'avais pas pensé à la médiane (je ne sais pas pourquoi) puis suis tombé sur le papier que j'ai cité plus haut.

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Robust Statistics

Message par Contenu sponsorisé Aujourd'hui à 0:16


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum