Choix paramètres statistiques pour décrire une distribution

par CléliaOutremer Sam 10 Sep 2016 - 20:51

Bonsoir,

Je m'intéresse aux statistiques en ce moment et sur des cours que j'ai retrouvé, il y a un point que je ne comprends pas. Peut-être quelqu'un pourrait m'aider ?
Pourquoi lors d'une distribution non symétrique on préfère choisir la médiane, les quartiles, mode et intervalle interquartile et on ne devrait pas utiliser la variance, l'écart type et le coefficient de variation ?
A quoi servent ces paramètres dans l'estimation de la population par l'échantillon ?
Merci de votre aide

par gg Dim 11 Sep 2016 - 10:22

Bonjour.

"Pourquoi lors d'une distribution non symétrique on préfère choisir la médiane, les quartiles, mode et intervalle interquartile et on ne devrait pas utiliser la variance, l'écart type et le coefficient de variation " Aucune idée ! Et même je n'ai jamais rencontré cet impératif.

Pour n'importe quelle distribution, on peut utiliser la médiane, les quartiles, le mode, l'intervalle interquartile, la moyenne, la variance, l'écart type et le coefficient de variation. Simplement, si la distribution est symétrique, la médiane et la moyenne sont égales.
Il est sans doute plus intéressant de réfléchir à la signification des caractéristiques que tu cites, et voir pourquoi on s'intéresse à l'une ou à l'autre suivant les circonstances.

NB : Dans la pratique statistique, les distributions symétriques sont assez rares (même si on utilise des modèles qui le sont).

Cordialement.

par CléliaOutremer Dim 11 Sep 2016 - 10:38

Merci de ta réponse. Je vais essayer de trouver leurs utilités ou non utilités dans les deux cas .
Cordialement,
Bonne journée

par gg Dim 11 Sep 2016 - 12:24

Leur utilité ne dépend pas de la forme de la distribution.

par Eric Wajnberg Dim 11 Sep 2016 - 16:11

Je rajouterais le point suivant, important je pense.

La moyenne, médiane, quartile, mode, etc. sont des paramètres dits de position. Ils donnent l'ordre de grandeur de la variable mesurée.

En revanche, variance, écart-type, coefficient de variation, etc., sont eux des paramètres dits de dispersion. Ils informent sur la variabilité des valeurs mesurées, le plus généralement autour de la moyenne.

Ainsi donc, personne (et surtout aucun statisticien !) n'a dit qu'il fallait préférer un paramètre de position à un paramètre de dispersion, en encore moins selon la forme de la distribution.

En revanche, tous les statisticiens disent qu'il faut à la fois un paramètre de position et un paramètre de dispersion (au moins) pour décrire une distribution, et ceci indépendamment de sa forme.

HTH, Eric.

par Nik Lun 12 Sep 2016 - 7:36

Bonjour,

Mes 2c...

le problème avec la variance, l'écart-type ou encore le CV c'est qu'ils utilisent tous la moyenne de la distribution comme base. Hors la moyenne attribue un poids égal à chaque valeur de la distribution quelle que soit sa représentativité dans la-dite distribution. Se faisant, elle donne une bonne indication de la tendance centrale. ça marche bien pour une distribution symétrique comme la loi Normale pour laquelle le mode est confondu avec la moyenne mais ça le fait beaucoup moins pour des distributions dissymétrique voire très étalées. Certaines lois n'ont pas de variance...

Bref, position et dispersion sont utiles opur décrire une loi mais pas toujours évident à formuler et la pratique de base emploie, un peu aveuglément, moyenne et écart-type.

Nik

par c@ssoulet Lun 12 Sep 2016 - 8:03

Pour bien comprendre il faut voir les choses de très haut.

Le problème à résoudre est : notre cerveau n'est pas formaté pour interpréter correctement les nuages de points. Il se laisse facilement berner par les valeurs extremes (il donne spontanément beaucoup trop de "poids" aux valeurs extremes) et n'arrive pas bien à deviner spontanément la tendance centrale d'un ensemble de mesures.

Donc il est important de bien "résumer" la tendance centrale des mesures (du nuage de points) afin que notre cerveau puisse s'appuyer sur des chiffres solides pour construire un raisonnement juste.

On commence donc par "résumer" le nuage par un seul chiffre: un indicateur de tendance centrale, communément la moyenne ou la médiane.

Mais en résumant l'ensemble de l'information contenue dans le nuage en un seul chiffre, on perd beaucoup d'information (dispersion des données, étendue, valeurs extremes..). On tente donc d'en rajouter un peu en accompagnant l'indicateur de tendance centrale par un ou des indicateurs de dispersion : ecart type, intervalle de confiance, intervalle interquartile ... etc.

En réalité il n'y a pas de règle. C'est a la personne qui fait les statistiques de choisir en toute honnêteté les indicateurs qui représentent bien l'allure de son nuage de points. Aucun n'est parfait puisqu'ils donnent tous une vision résumée et un peu caricaturale des données, et tous sont donc discutables.

L'usage dans le milieu scientifique est de présenter des moyennes +/- ecart type lorsque la distribution est grossièrement équilibrée, plutôt la médiane +/- percentiles si elle est franchement déséquilibrée, et pourcentage +/- IC95 pour les variables binomiales. Mais ca n'a rien d'une règle gravée dans le marbre.

par Florent Aubry Lun 12 Sep 2016 - 8:44

Pour compléter la discussion, un petit exemple un peu caricatural pour faire comprendre la problématique du choix des paramètres. Soit un vecteur composé de 9999 valeurs 1 et d'un 990001, la description par la moyenne et l'écart type donnera respectivement 100 et 9900, par la médiane et les quartiles 1, 1, 1. Quelle est la description qui représente la distribution ?
Donc, comme le dit c@ssoulet,

L'usage dans le milieu scientifique est de présenter des moyennes +/- ecart type lorsque la distribution est grossièrement équilibrée, plutôt la médiane +/- percentiles si elle est franchement déséquilibrée, et pourcentage +/- IC95 pour les variables binomiales. Mais ca n'a rien d'une règle gravée dans le marbre.

mais j'ajouterais à son commentaire : "L'usage dans le milieu scientifique est de présenter des moyennes +/- ecart type lorsque la distribution est grossièrement équilibrée, et à condition que le coefficient de variation soit sensiblement inférieur à l'unité"

par Eric Wajnberg Lun 12 Sep 2016 - 13:31

Oui, mais, dans la communauté scientifique l'usage est plutôt de donner la moyenne ± l'erreur standard et non l'écart-type pour deux raisons :

1) Car - très souvent - c'est l'estimation de la moyenne qui nous importe, et l'erreur standard est justement l'écart-type de la moyenne.

2) Et le lecteur intéresser pourra prendre, sous sa propre responsabilité, la décision de multiplier l'étendu de cet intervalle par 2 (1.96) s'il pense que tout ceci est gaussien (et l'effectif assez grand), ce qui n'est pas aussi simple avec l'usage de l'écart-type.

Mais bon, c'est juste pour faire avancer la discussion..

Eric.

par Florent Aubry Lun 12 Sep 2016 - 14:19

Eric souligne un point important, à ne jamais oublier : de quel paramètre désire-t-on connaitre la distribution ?

Si comme le dit Eric, c'est l'estimation de la moyenne qui nous importe, alors c'est la moyenne et l'erreur standard ('écart-type' de l'estimateur de la moyenne) qui sont les bons paramètres [en supposant que la procédure utilisée est applicable, ce qui est généralement le cas, cf. théorème de limite centrale].

Le problème est différent si on s'intéresse à la distribution du paramètre dans la population. Dans ce cas, moyenne et écart-type peuvent être difficiles sinon impossibles à interpréter contrairement à la médiane ou les quartiles. Mais cela ne signifie pas qu'on ne doit pas décrire la moyenne, si pour une raison quelconque elle est intéressante, par la valeur de son estimateur et son erreur standard. Il n'y a pas contradiction. D'ailleurs, sous certaines conditions, il est possible de décrire les centiles par leurs estimateurs et l'erreur 'standard' sur leurs estimateurs, tout comme c'est possible pour la variance.

Donc, avant de se précipiter sur tel ou tel type de descripteur, il faut toujours bien spécifier le problème à résoudre et il ne faut jamais confondre l'erreur sur l'estimateur d'un paramètre (erreur standard) qui dépend de la taille de l'échantillon et la dispersion du paramètre dans la population qui en est indépendante.

par c@ssoulet Mar 13 Sep 2016 - 5:01

Alors pourquoi en médecine tout le monde décrit ses populations à l'inclusion en MOY +/- SD pour les var continues ?

par Eric Wajnberg Mar 13 Sep 2016 - 5:05

Ce n'est juste pas la même philosophie. Utiliser SD cherche à décrire l'échantillon et la population dont l'échantillon est issue. Utiliser SE cherche à décrire la précision avec laquelle la moyenne est estimée (et très souvent la moyenne est la variable d’intérêt). Tout dépend de ce à quoi on est intéressé.

Eric.

par c@ssoulet Mar 13 Sep 2016 - 7:02

Bon. On ne va peut etre pas continuer de jouer aux matheux autistes trop longtemps, ca va perdre notre amie, mais on est bien d'accord. Quand on observe un échantillon, par exemple un groupe de patients ou plus largement un certain nombre d'observations, et qu'on veut décrire ce fameux échantillon, il est d'usage de présenter moy +/- sd et l'usage n'est pas complètement idiot.

par Nik Mar 13 Sep 2016 - 9:00

l'usage n'est pas complètement idiot.

J'en sus personnellement de moins en moins convaincu. Pas idiot dans le sens où ce n'est jamais applicable mais plutôt idiot dans le sens j'applique sans savoir vraiment pourquoi et je ne remet jamais en question ce choix...
D'autres domaines scientifiques ont largement avancé sur les opérateurs d’agrégation dont la moyenne fait partie.

par Eric Wajnberg Mar 13 Sep 2016 - 12:32

Je n'ai jamais prétendu que l'usage de l'erreur standard était idiot ! C'est juste une affaire de choix (j'avais l'impression d'avoir été clair pourtant). Par ailleurs, je ne vois pas d'autisme non plus. J'ai sûrement du louper quelque chose.

Eric.

par c@ssoulet Mar 13 Sep 2016 - 14:12

C’était pas méchant. Je parlais de discussions d'autistes parce que je venais de relire le fil de réponses au premier post. Je me disais qu'on était en train de tomber dans une discussion de spécialistes qui discutaient entre eux de choses certes intéressantes mais qui devaient plonger cette pauvre CléliaOutremer dans un abime de perplexité.

Je suis trop second degré des fois .... Embarassed

par Contenu sponsorisé

Choix paramètres statistiques pour décrire une distribution

Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution

Re: Choix paramètres statistiques pour décrire une distribution