Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Robust Statistics
3 participants
Page 1 sur 1
Robust Statistics
Bonjour,
J'aurais souhaité connaitre vos avis concernant l'utilisation des méthodes dites de "Robust Statistics" (terme anglais, je ne connais pas le terme français désolé ) et notamment du MAD (ou MADAM) pour "Median Absolute Deviation".
Certaines personnes l'utilisent pour calculer la "vraie" moyenne (supposée donc !) de leur jeu de données en minimisant l'effet des valeurs extrêmes considérées alors comme aberrantes et d'autres vont jusqu'à nettoyer des jeux de données et "éliminer" les "outliers" (c'est ce qu'on appelle la "winsorisation" je crois) avec bien évidemment dans les deux cas comme hypothèse de départ que l'on a à faire à une distribution normale des données mais polluée par des valeurs aberrantes.
Pour ma part, je suis toujours mal à l'aise face à l'élimination de données même extrêmes lorsqu'il n'y a pas de justification d'ordre analytique (problème technique et identifié survenu lors de la mesure, problème connu de conservation d'un échantillon, etc...) d'où ma question : est ce que vous utilisez cette méthode et est ce que vous éliminez (avec cette méthode ou d'autres) systématiquement les valeurs extrêmes pour vous rapprocher au maximum des modèles ?
Merci d'avance pour votre aide.
J'aurais souhaité connaitre vos avis concernant l'utilisation des méthodes dites de "Robust Statistics" (terme anglais, je ne connais pas le terme français désolé ) et notamment du MAD (ou MADAM) pour "Median Absolute Deviation".
Certaines personnes l'utilisent pour calculer la "vraie" moyenne (supposée donc !) de leur jeu de données en minimisant l'effet des valeurs extrêmes considérées alors comme aberrantes et d'autres vont jusqu'à nettoyer des jeux de données et "éliminer" les "outliers" (c'est ce qu'on appelle la "winsorisation" je crois) avec bien évidemment dans les deux cas comme hypothèse de départ que l'on a à faire à une distribution normale des données mais polluée par des valeurs aberrantes.
Pour ma part, je suis toujours mal à l'aise face à l'élimination de données même extrêmes lorsqu'il n'y a pas de justification d'ordre analytique (problème technique et identifié survenu lors de la mesure, problème connu de conservation d'un échantillon, etc...) d'où ma question : est ce que vous utilisez cette méthode et est ce que vous éliminez (avec cette méthode ou d'autres) systématiquement les valeurs extrêmes pour vous rapprocher au maximum des modèles ?
Merci d'avance pour votre aide.
bloup- Nombre de messages : 41
Date d'inscription : 13/03/2012
Re: Robust Statistics
Bonjour.
En français "statistiques robustes".
L'usage de la médiane se justifie lorsque la série est très probablement symétrique, la moyenne étant très sensible aux valeurs extrêmes, aberrantes ou pas.
Je suis d'accord avec ce que tu dis sur les valeurs "aberrantes" et leur élimination. Les transformations de données pour se rapprocher d'un modèle me semblent aussi douteuses. Tout ça me fait penser à celui qui ayant perdu ses clefs la nuit, les cherche sous un réverbère, car "là on y voit quelque chose".
Cordialement.
En français "statistiques robustes".
L'usage de la médiane se justifie lorsque la série est très probablement symétrique, la moyenne étant très sensible aux valeurs extrêmes, aberrantes ou pas.
Je suis d'accord avec ce que tu dis sur les valeurs "aberrantes" et leur élimination. Les transformations de données pour se rapprocher d'un modèle me semblent aussi douteuses. Tout ça me fait penser à celui qui ayant perdu ses clefs la nuit, les cherche sous un réverbère, car "là on y voit quelque chose".
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Robust Statistics
Merci beaucoup pour ton point de vue et pour étendre un peu plus le sujet : que pensez vous de l'utilisation de la moyenne géométrique ?
Cette dernière est moins sensible aux valeurs extrêmes que la moyenne arithmétique. Est ce que là aussi son utilisation se justifie dans certains cas ?
Désolé pour ces questions qui se rapprochent sans doute plus d’interrogations de novice (ce que je suis) plutôt que de sujet de fond.
Merci également pour la terminologie française de "Robust statistics". Je n'avais pas osé faire la traduction littérale pensant qu'un terme spécifique existait.
Cette dernière est moins sensible aux valeurs extrêmes que la moyenne arithmétique. Est ce que là aussi son utilisation se justifie dans certains cas ?
Désolé pour ces questions qui se rapprochent sans doute plus d’interrogations de novice (ce que je suis) plutôt que de sujet de fond.
Merci également pour la terminologie française de "Robust statistics". Je n'avais pas osé faire la traduction littérale pensant qu'un terme spécifique existait.
bloup- Nombre de messages : 41
Date d'inscription : 13/03/2012
Re: Robust Statistics
La moyenne géométrique a un gros inconvénient : elle n'existe que pour des valeurs positives et est très sensible aux valeurs nulles
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Robust Statistics
Merci gg pour ces précisions. Par contre j'avais lu que la moyenne géométrique pouvait être un meilleur estimateur que la moyenne arithmétique pour des distributions à longue traîne.
Est ce que quelqu'un peut me confirmer cette information ?
Merci d'avance et bonne journée à tous.
Est ce que quelqu'un peut me confirmer cette information ?
Merci d'avance et bonne journée à tous.
bloup- Nombre de messages : 41
Date d'inscription : 13/03/2012
Re: Robust Statistics
Un estimateur de quoi ? Pas de la moyenne arithmétique (espérance de la loi), j'imagine, puisque cette espérance est elle aussi influencée par la longue traîne.
En tout cas, si m est la moyenne arithmétique, g la moyenne géométrique et h la moyenne harmonique, on a m>=g>=h (exercice facile de fin de lycée).
Cordialement.
En tout cas, si m est la moyenne arithmétique, g la moyenne géométrique et h la moyenne harmonique, on a m>=g>=h (exercice facile de fin de lycée).
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Robust Statistics
Oui pardon, je n'avais pas précisé la nature de l'estimateur : tout simplement la tendance centrale.
bloup- Nombre de messages : 41
Date d'inscription : 13/03/2012
Re: Robust Statistics
Heu ... c'est quoi, la tendance centrale ? je connais les indicateurs de tendance centrale (moyenne, médiane, mode, ...), mais pas la définition de "tendance centrale".
Cordialement.
NB : Un estimateur permet d'avoir des approximations d'une valeur inconnue précise.
Cordialement.
NB : Un estimateur permet d'avoir des approximations d'une valeur inconnue précise.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Robust Statistics
Désolé je crois que je me mélange un peu les pinceaux et fais des approximations dans mes propos.
Si je ne dis pas de bêtises, ce que je cherchais à dire c'est que la moyenne arithmétique et la moyenne géométrique sont des estimateurs de la moyenne et que dans le cas d'une population présentant une distribution à longue traîne, la moyenne géométrique est un indicateur plus proche de la tendance centrale que la moyenne arithmétique. J’espère que je suis compréhensible et que je ne fais pas de fautes dans l'utilisation des termes sinon n'hésitez pas à me corriger.
EDIT : une représentation de ce que je veux dire est dans ce document. Les figures 1 et 2 prennent en compte le même jeu de données. Sur la figure 1 c'est la moyenne arithmétique qui est prise en compte comme estimateur de la moyenne et on voit qu'elle est fortement influencée par une valeur extrême alors que dans la figure 2, c'est la médiane qui est utilisée comme estimateur de la moyenne ce qui la rend moins sensible à la valeur extrême. De ce fait, dans un cadre similaire, je me posais la question de la pertinence d'utiliser la moyenne géométrique sachant que ce que l'on cherche à estimer c'est finalement une moyenne théorique que l'on aurait eu si les valeurs extrêmes sont des valeurs aberrantes qui n'avais pas été réellement mesurées.
Si je ne dis pas de bêtises, ce que je cherchais à dire c'est que la moyenne arithmétique et la moyenne géométrique sont des estimateurs de la moyenne et que dans le cas d'une population présentant une distribution à longue traîne, la moyenne géométrique est un indicateur plus proche de la tendance centrale que la moyenne arithmétique. J’espère que je suis compréhensible et que je ne fais pas de fautes dans l'utilisation des termes sinon n'hésitez pas à me corriger.
EDIT : une représentation de ce que je veux dire est dans ce document. Les figures 1 et 2 prennent en compte le même jeu de données. Sur la figure 1 c'est la moyenne arithmétique qui est prise en compte comme estimateur de la moyenne et on voit qu'elle est fortement influencée par une valeur extrême alors que dans la figure 2, c'est la médiane qui est utilisée comme estimateur de la moyenne ce qui la rend moins sensible à la valeur extrême. De ce fait, dans un cadre similaire, je me posais la question de la pertinence d'utiliser la moyenne géométrique sachant que ce que l'on cherche à estimer c'est finalement une moyenne théorique que l'on aurait eu si les valeurs extrêmes sont des valeurs aberrantes qui n'avais pas été réellement mesurées.
Dernière édition par bloup le Jeu 10 Sep 2015 - 10:24, édité 1 fois
bloup- Nombre de messages : 41
Date d'inscription : 13/03/2012
Re: Robust Statistics
Bonjour,
Vu que la moyenne géométrique utilise une racine carré, rien d'étonnant à ce qu'elle soit un "meilleur" estimateur. Cela veut dire que l'estimation est relativement proche de la vraie moyenne géométrique de la population. On montre d'ailleurs que cette moyenne équivaut à la moyenne arithmétique des données log-transformées.
Pour moi c'est donc un artifice mathématique que de dire qu'elle produit une meilleure estimation. Si on fait la moyenne des données double log-transformées, je suis sûr qu'on aura encore un meilleur estimateur !
Donc tu dois te poser la question de la pertinence de l'utilisation de la moyenne géométrique. Il n'existe pas une VRAIE MOYENNE globale comme tu sembles le sous-entendre. Une population donnée peut avoir une moyenne arithmétique, une moyenne géométrique ou encore une moyenne harmonique qu'on va pouvoir chercher à estimer indépendamment l'une de l'autre. Tu vois bien dans les calculs de la moyenne géométrique, tu n'e déjà plus avec la même donnée puisque tu l'as transformée.
HTH
Nik
Vu que la moyenne géométrique utilise une racine carré, rien d'étonnant à ce qu'elle soit un "meilleur" estimateur. Cela veut dire que l'estimation est relativement proche de la vraie moyenne géométrique de la population. On montre d'ailleurs que cette moyenne équivaut à la moyenne arithmétique des données log-transformées.
Pour moi c'est donc un artifice mathématique que de dire qu'elle produit une meilleure estimation. Si on fait la moyenne des données double log-transformées, je suis sûr qu'on aura encore un meilleur estimateur !
Donc tu dois te poser la question de la pertinence de l'utilisation de la moyenne géométrique. Il n'existe pas une VRAIE MOYENNE globale comme tu sembles le sous-entendre. Une population donnée peut avoir une moyenne arithmétique, une moyenne géométrique ou encore une moyenne harmonique qu'on va pouvoir chercher à estimer indépendamment l'une de l'autre. Tu vois bien dans les calculs de la moyenne géométrique, tu n'e déjà plus avec la même donnée puisque tu l'as transformée.
HTH
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Robust Statistics
Le message de Nik est plus précis que celui-ci, mais je le laisse quand même.
Désolé, je ne comprends toujours pas. Que dans certains cas, la moyenne géométrique soit un meilleur indicateur de tendance centrale que la moyenne arithmétique, je suis d'accord (exemple : une série d'augmentations annuelles). Mais "la tendance centrale" est une notion trop floue pour qu'on puisse parler de "proche". Ce n'est pas un nombre, seulement une idée.
Par contre la phrase " la moyenne arithmétique et la moyenne géométrique sont des estimateurs de la moyenne" n'a pas de sens: des estimateurs de quelle moyenne ? De quel nombre inconnu ?
Cordialement.
Désolé, je ne comprends toujours pas. Que dans certains cas, la moyenne géométrique soit un meilleur indicateur de tendance centrale que la moyenne arithmétique, je suis d'accord (exemple : une série d'augmentations annuelles). Mais "la tendance centrale" est une notion trop floue pour qu'on puisse parler de "proche". Ce n'est pas un nombre, seulement une idée.
Par contre la phrase " la moyenne arithmétique et la moyenne géométrique sont des estimateurs de la moyenne" n'a pas de sens: des estimateurs de quelle moyenne ? De quel nombre inconnu ?
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Robust Statistics
Merci à tous les deux pour les explications et les rectifications de mes propos.
Pour répondre à cette question, je vous renvoie à l’édition de mon précédant message qui tente d'illustrer mon propos
si ce n'est pas clair, je pourrai vous présenter un cas concret sur lequel je suis en ce moment.
Par contre la phrase " la moyenne arithmétique et la moyenne géométrique sont des estimateurs de la moyenne" n'a pas de sens: des estimateurs de quelle moyenne ? De quel nombre inconnu ?
Pour répondre à cette question, je vous renvoie à l’édition de mon précédant message qui tente d'illustrer mon propos
une représentation de ce que je veux dire est dans ce document. Les figures 1 et 2 prennent en compte le même jeu de données. Sur la figure 1 c'est la moyenne arithmétique qui est prise en compte comme estimateur de la moyenne et on voit qu'elle est fortement influencée par une valeur extrême alors que dans la figure 2, c'est la médiane qui est utilisée comme estimateur de la moyenne ce qui la rend moins sensible à la valeur extrême. De ce fait, dans un cadre similaire, je me posais la question de la pertinence d'utiliser la moyenne géométrique sachant que ce que l'on cherche à estimer c'est finalement une moyenne théorique que l'on aurait eu si les valeurs extrêmes sont des valeurs aberrantes qui n'avais pas été réellement mesurées
si ce n'est pas clair, je pourrai vous présenter un cas concret sur lequel je suis en ce moment.
bloup- Nombre de messages : 41
Date d'inscription : 13/03/2012
Re: Robust Statistics
Dans les deux cas, moyenne arithmétique et médiane, on cherche à estimer la moyenne (arithmétique) vraie (moyenne de la population), ou la moyenne (espérance) d'une variable aléatoire dont on a des réalisations.
L'usage de la médiane n'a de sens que si la série des valeurs de la population, ou bien la densité de la variable aléatoire est symétrique, ce qui assure que moyenne=médiane. On n'ira pas utiliser la médiane pour une série à longue traîne.
Maintenant, si tu as une référence pour l'usage de la moyenne géométrique, je suis intéressé. Mais à priori, je ne vois pas dans quel cas une moyenne géométrique donnerait une estimation de la moyenne vraie ou de l'espérance.
Cordialement.
L'usage de la médiane n'a de sens que si la série des valeurs de la population, ou bien la densité de la variable aléatoire est symétrique, ce qui assure que moyenne=médiane. On n'ira pas utiliser la médiane pour une série à longue traîne.
Maintenant, si tu as une référence pour l'usage de la moyenne géométrique, je suis intéressé. Mais à priori, je ne vois pas dans quel cas une moyenne géométrique donnerait une estimation de la moyenne vraie ou de l'espérance.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Robust Statistics
L'usage de la médiane n'a de sens que si la série des valeurs de la population, ou bien la densité de la variable aléatoire est symétrique, ce qui assure que moyenne=médiane. On n'ira pas utiliser la médiane pour une série à longue traîne.
D'accord.
J'avais donc mal choisi mon exemple en parlant de série à longue traîne. C'est plutôt dans le cas de figure traité dans le document que je me place : une série tendant vers une distribution normale mais potentiellement polluée par des valeurs extrêmes.
Maintenant, si tu as une référence pour l'usage de la moyenne géométrique, je suis intéressé. Mais à priori, je ne vois pas dans quel cas une moyenne géométrique donnerait une estimation de la moyenne vraie ou de l'espérance.
Je n'ai malheureusement pas de référence et c'est justement pour cela que je venais en discuter. J'avais simplement pensé à utiliser la moyenne géométrique car j'avais en tête un exemple de son utilisation pour calculer la moyenne de mesures répliquées 3 fois en minimisant l'effet d'un point extrême si présent. Je n'avais pas pensé à la médiane (je ne sais pas pourquoi) puis suis tombé sur le papier que j'ai cité plus haut.
bloup- Nombre de messages : 41
Date d'inscription : 13/03/2012
Sujets similaires
» ebooks statistics
» Statistics for Business and Economics
» Journal of Statistics Education
» Postdoctoral position in Statistics/Bioinformatics
» Researcher position in statistics at agroparistech
» Statistics for Business and Economics
» Journal of Statistics Education
» Postdoctoral position in Statistics/Bioinformatics
» Researcher position in statistics at agroparistech
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum