Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Choix paramètres statistiques pour décrire une distribution
+2
gg
CléliaOutremer
6 participants
Page 1 sur 1
Choix paramètres statistiques pour décrire une distribution
Bonsoir,
Je m'intéresse aux statistiques en ce moment et sur des cours que j'ai retrouvé, il y a un point que je ne comprends pas. Peut-être quelqu'un pourrait m'aider ?
Pourquoi lors d'une distribution non symétrique on préfère choisir la médiane, les quartiles, mode et intervalle interquartile et on ne devrait pas utiliser la variance, l'écart type et le coefficient de variation ?
A quoi servent ces paramètres dans l'estimation de la population par l'échantillon ?
Merci de votre aide
Je m'intéresse aux statistiques en ce moment et sur des cours que j'ai retrouvé, il y a un point que je ne comprends pas. Peut-être quelqu'un pourrait m'aider ?
Pourquoi lors d'une distribution non symétrique on préfère choisir la médiane, les quartiles, mode et intervalle interquartile et on ne devrait pas utiliser la variance, l'écart type et le coefficient de variation ?
A quoi servent ces paramètres dans l'estimation de la population par l'échantillon ?
Merci de votre aide
CléliaOutremer- Nombre de messages : 2
Date d'inscription : 10/09/2016
Re: Choix paramètres statistiques pour décrire une distribution
Bonjour.
"Pourquoi lors d'une distribution non symétrique on préfère choisir la médiane, les quartiles, mode et intervalle interquartile et on ne devrait pas utiliser la variance, l'écart type et le coefficient de variation " Aucune idée ! Et même je n'ai jamais rencontré cet impératif.
Pour n'importe quelle distribution, on peut utiliser la médiane, les quartiles, le mode, l'intervalle interquartile, la moyenne, la variance, l'écart type et le coefficient de variation. Simplement, si la distribution est symétrique, la médiane et la moyenne sont égales.
Il est sans doute plus intéressant de réfléchir à la signification des caractéristiques que tu cites, et voir pourquoi on s'intéresse à l'une ou à l'autre suivant les circonstances.
NB : Dans la pratique statistique, les distributions symétriques sont assez rares (même si on utilise des modèles qui le sont).
Cordialement.
"Pourquoi lors d'une distribution non symétrique on préfère choisir la médiane, les quartiles, mode et intervalle interquartile et on ne devrait pas utiliser la variance, l'écart type et le coefficient de variation " Aucune idée ! Et même je n'ai jamais rencontré cet impératif.
Pour n'importe quelle distribution, on peut utiliser la médiane, les quartiles, le mode, l'intervalle interquartile, la moyenne, la variance, l'écart type et le coefficient de variation. Simplement, si la distribution est symétrique, la médiane et la moyenne sont égales.
Il est sans doute plus intéressant de réfléchir à la signification des caractéristiques que tu cites, et voir pourquoi on s'intéresse à l'une ou à l'autre suivant les circonstances.
NB : Dans la pratique statistique, les distributions symétriques sont assez rares (même si on utilise des modèles qui le sont).
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Choix paramètres statistiques pour décrire une distribution
Merci de ta réponse. Je vais essayer de trouver leurs utilités ou non utilités dans les deux cas .
Cordialement,
Bonne journée
Cordialement,
Bonne journée
CléliaOutremer- Nombre de messages : 2
Date d'inscription : 10/09/2016
Re: Choix paramètres statistiques pour décrire une distribution
Leur utilité ne dépend pas de la forme de la distribution.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Choix paramètres statistiques pour décrire une distribution
Je rajouterais le point suivant, important je pense.
La moyenne, médiane, quartile, mode, etc. sont des paramètres dits de position. Ils donnent l'ordre de grandeur de la variable mesurée.
En revanche, variance, écart-type, coefficient de variation, etc., sont eux des paramètres dits de dispersion. Ils informent sur la variabilité des valeurs mesurées, le plus généralement autour de la moyenne.
Ainsi donc, personne (et surtout aucun statisticien !) n'a dit qu'il fallait préférer un paramètre de position à un paramètre de dispersion, en encore moins selon la forme de la distribution.
En revanche, tous les statisticiens disent qu'il faut à la fois un paramètre de position et un paramètre de dispersion (au moins) pour décrire une distribution, et ceci indépendamment de sa forme.
HTH, Eric.
La moyenne, médiane, quartile, mode, etc. sont des paramètres dits de position. Ils donnent l'ordre de grandeur de la variable mesurée.
En revanche, variance, écart-type, coefficient de variation, etc., sont eux des paramètres dits de dispersion. Ils informent sur la variabilité des valeurs mesurées, le plus généralement autour de la moyenne.
Ainsi donc, personne (et surtout aucun statisticien !) n'a dit qu'il fallait préférer un paramètre de position à un paramètre de dispersion, en encore moins selon la forme de la distribution.
En revanche, tous les statisticiens disent qu'il faut à la fois un paramètre de position et un paramètre de dispersion (au moins) pour décrire une distribution, et ceci indépendamment de sa forme.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Choix paramètres statistiques pour décrire une distribution
Bonjour,
Mes 2c...
le problème avec la variance, l'écart-type ou encore le CV c'est qu'ils utilisent tous la moyenne de la distribution comme base. Hors la moyenne attribue un poids égal à chaque valeur de la distribution quelle que soit sa représentativité dans la-dite distribution. Se faisant, elle donne une bonne indication de la tendance centrale. ça marche bien pour une distribution symétrique comme la loi Normale pour laquelle le mode est confondu avec la moyenne mais ça le fait beaucoup moins pour des distributions dissymétrique voire très étalées. Certaines lois n'ont pas de variance...
Bref, position et dispersion sont utiles opur décrire une loi mais pas toujours évident à formuler et la pratique de base emploie, un peu aveuglément, moyenne et écart-type.
Nik
Mes 2c...
le problème avec la variance, l'écart-type ou encore le CV c'est qu'ils utilisent tous la moyenne de la distribution comme base. Hors la moyenne attribue un poids égal à chaque valeur de la distribution quelle que soit sa représentativité dans la-dite distribution. Se faisant, elle donne une bonne indication de la tendance centrale. ça marche bien pour une distribution symétrique comme la loi Normale pour laquelle le mode est confondu avec la moyenne mais ça le fait beaucoup moins pour des distributions dissymétrique voire très étalées. Certaines lois n'ont pas de variance...
Bref, position et dispersion sont utiles opur décrire une loi mais pas toujours évident à formuler et la pratique de base emploie, un peu aveuglément, moyenne et écart-type.
Nik
Dernière édition par Nik le Lun 12 Sep 2016 - 8:15, édité 1 fois
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Choix paramètres statistiques pour décrire une distribution
Pour bien comprendre il faut voir les choses de très haut.
Le problème à résoudre est : notre cerveau n'est pas formaté pour interpréter correctement les nuages de points. Il se laisse facilement berner par les valeurs extremes (il donne spontanément beaucoup trop de "poids" aux valeurs extremes) et n'arrive pas bien à deviner spontanément la tendance centrale d'un ensemble de mesures.
Donc il est important de bien "résumer" la tendance centrale des mesures (du nuage de points) afin que notre cerveau puisse s'appuyer sur des chiffres solides pour construire un raisonnement juste.
On commence donc par "résumer" le nuage par un seul chiffre: un indicateur de tendance centrale, communément la moyenne ou la médiane.
Mais en résumant l'ensemble de l'information contenue dans le nuage en un seul chiffre, on perd beaucoup d'information (dispersion des données, étendue, valeurs extremes..). On tente donc d'en rajouter un peu en accompagnant l'indicateur de tendance centrale par un ou des indicateurs de dispersion : ecart type, intervalle de confiance, intervalle interquartile ... etc.
En réalité il n'y a pas de règle. C'est a la personne qui fait les statistiques de choisir en toute honnêteté les indicateurs qui représentent bien l'allure de son nuage de points. Aucun n'est parfait puisqu'ils donnent tous une vision résumée et un peu caricaturale des données, et tous sont donc discutables.
L'usage dans le milieu scientifique est de présenter des moyennes +/- ecart type lorsque la distribution est grossièrement équilibrée, plutôt la médiane +/- percentiles si elle est franchement déséquilibrée, et pourcentage +/- IC95 pour les variables binomiales. Mais ca n'a rien d'une règle gravée dans le marbre.
Le problème à résoudre est : notre cerveau n'est pas formaté pour interpréter correctement les nuages de points. Il se laisse facilement berner par les valeurs extremes (il donne spontanément beaucoup trop de "poids" aux valeurs extremes) et n'arrive pas bien à deviner spontanément la tendance centrale d'un ensemble de mesures.
Donc il est important de bien "résumer" la tendance centrale des mesures (du nuage de points) afin que notre cerveau puisse s'appuyer sur des chiffres solides pour construire un raisonnement juste.
On commence donc par "résumer" le nuage par un seul chiffre: un indicateur de tendance centrale, communément la moyenne ou la médiane.
Mais en résumant l'ensemble de l'information contenue dans le nuage en un seul chiffre, on perd beaucoup d'information (dispersion des données, étendue, valeurs extremes..). On tente donc d'en rajouter un peu en accompagnant l'indicateur de tendance centrale par un ou des indicateurs de dispersion : ecart type, intervalle de confiance, intervalle interquartile ... etc.
En réalité il n'y a pas de règle. C'est a la personne qui fait les statistiques de choisir en toute honnêteté les indicateurs qui représentent bien l'allure de son nuage de points. Aucun n'est parfait puisqu'ils donnent tous une vision résumée et un peu caricaturale des données, et tous sont donc discutables.
L'usage dans le milieu scientifique est de présenter des moyennes +/- ecart type lorsque la distribution est grossièrement équilibrée, plutôt la médiane +/- percentiles si elle est franchement déséquilibrée, et pourcentage +/- IC95 pour les variables binomiales. Mais ca n'a rien d'une règle gravée dans le marbre.
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Choix paramètres statistiques pour décrire une distribution
Pour compléter la discussion, un petit exemple un peu caricatural pour faire comprendre la problématique du choix des paramètres. Soit un vecteur composé de 9999 valeurs 1 et d'un 990001, la description par la moyenne et l'écart type donnera respectivement 100 et 9900, par la médiane et les quartiles 1, 1, 1. Quelle est la description qui représente la distribution ?
Donc, comme le dit c@ssoulet,
Donc, comme le dit c@ssoulet,
mais j'ajouterais à son commentaire : "L'usage dans le milieu scientifique est de présenter des moyennes +/- ecart type lorsque la distribution est grossièrement équilibrée, et à condition que le coefficient de variation soit sensiblement inférieur à l'unité"L'usage dans le milieu scientifique est de présenter des moyennes +/- ecart type lorsque la distribution est grossièrement équilibrée, plutôt la médiane +/- percentiles si elle est franchement déséquilibrée, et pourcentage +/- IC95 pour les variables binomiales. Mais ca n'a rien d'une règle gravée dans le marbre.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Choix paramètres statistiques pour décrire une distribution
Oui, mais, dans la communauté scientifique l'usage est plutôt de donner la moyenne ± l'erreur standard et non l'écart-type pour deux raisons :
1) Car - très souvent - c'est l'estimation de la moyenne qui nous importe, et l'erreur standard est justement l'écart-type de la moyenne.
2) Et le lecteur intéresser pourra prendre, sous sa propre responsabilité, la décision de multiplier l'étendu de cet intervalle par 2 (1.96) s'il pense que tout ceci est gaussien (et l'effectif assez grand), ce qui n'est pas aussi simple avec l'usage de l'écart-type.
Mais bon, c'est juste pour faire avancer la discussion..
Eric.
1) Car - très souvent - c'est l'estimation de la moyenne qui nous importe, et l'erreur standard est justement l'écart-type de la moyenne.
2) Et le lecteur intéresser pourra prendre, sous sa propre responsabilité, la décision de multiplier l'étendu de cet intervalle par 2 (1.96) s'il pense que tout ceci est gaussien (et l'effectif assez grand), ce qui n'est pas aussi simple avec l'usage de l'écart-type.
Mais bon, c'est juste pour faire avancer la discussion..
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Choix paramètres statistiques pour décrire une distribution
Eric souligne un point important, à ne jamais oublier : de quel paramètre désire-t-on connaitre la distribution ?
Si comme le dit Eric, c'est l'estimation de la moyenne qui nous importe, alors c'est la moyenne et l'erreur standard ('écart-type' de l'estimateur de la moyenne) qui sont les bons paramètres [en supposant que la procédure utilisée est applicable, ce qui est généralement le cas, cf. théorème de limite centrale].
Le problème est différent si on s'intéresse à la distribution du paramètre dans la population. Dans ce cas, moyenne et écart-type peuvent être difficiles sinon impossibles à interpréter contrairement à la médiane ou les quartiles. Mais cela ne signifie pas qu'on ne doit pas décrire la moyenne, si pour une raison quelconque elle est intéressante, par la valeur de son estimateur et son erreur standard. Il n'y a pas contradiction. D'ailleurs, sous certaines conditions, il est possible de décrire les centiles par leurs estimateurs et l'erreur 'standard' sur leurs estimateurs, tout comme c'est possible pour la variance.
Donc, avant de se précipiter sur tel ou tel type de descripteur, il faut toujours bien spécifier le problème à résoudre et il ne faut jamais confondre l'erreur sur l'estimateur d'un paramètre (erreur standard) qui dépend de la taille de l'échantillon et la dispersion du paramètre dans la population qui en est indépendante.
Si comme le dit Eric, c'est l'estimation de la moyenne qui nous importe, alors c'est la moyenne et l'erreur standard ('écart-type' de l'estimateur de la moyenne) qui sont les bons paramètres [en supposant que la procédure utilisée est applicable, ce qui est généralement le cas, cf. théorème de limite centrale].
Le problème est différent si on s'intéresse à la distribution du paramètre dans la population. Dans ce cas, moyenne et écart-type peuvent être difficiles sinon impossibles à interpréter contrairement à la médiane ou les quartiles. Mais cela ne signifie pas qu'on ne doit pas décrire la moyenne, si pour une raison quelconque elle est intéressante, par la valeur de son estimateur et son erreur standard. Il n'y a pas contradiction. D'ailleurs, sous certaines conditions, il est possible de décrire les centiles par leurs estimateurs et l'erreur 'standard' sur leurs estimateurs, tout comme c'est possible pour la variance.
Donc, avant de se précipiter sur tel ou tel type de descripteur, il faut toujours bien spécifier le problème à résoudre et il ne faut jamais confondre l'erreur sur l'estimateur d'un paramètre (erreur standard) qui dépend de la taille de l'échantillon et la dispersion du paramètre dans la population qui en est indépendante.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Choix paramètres statistiques pour décrire une distribution
Alors pourquoi en médecine tout le monde décrit ses populations à l'inclusion en MOY +/- SD pour les var continues ?
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Choix paramètres statistiques pour décrire une distribution
Ce n'est juste pas la même philosophie. Utiliser SD cherche à décrire l'échantillon et la population dont l'échantillon est issue. Utiliser SE cherche à décrire la précision avec laquelle la moyenne est estimée (et très souvent la moyenne est la variable d’intérêt). Tout dépend de ce à quoi on est intéressé.
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Choix paramètres statistiques pour décrire une distribution
Bon. On ne va peut etre pas continuer de jouer aux matheux autistes trop longtemps, ca va perdre notre amie, mais on est bien d'accord. Quand on observe un échantillon, par exemple un groupe de patients ou plus largement un certain nombre d'observations, et qu'on veut décrire ce fameux échantillon, il est d'usage de présenter moy +/- sd et l'usage n'est pas complètement idiot.
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Choix paramètres statistiques pour décrire une distribution
J'en sus personnellement de moins en moins convaincu. Pas idiot dans le sens où ce n'est jamais applicable mais plutôt idiot dans le sens j'applique sans savoir vraiment pourquoi et je ne remet jamais en question ce choix...l'usage n'est pas complètement idiot.
D'autres domaines scientifiques ont largement avancé sur les opérateurs d’agrégation dont la moyenne fait partie.
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Choix paramètres statistiques pour décrire une distribution
Je n'ai jamais prétendu que l'usage de l'erreur standard était idiot ! C'est juste une affaire de choix (j'avais l'impression d'avoir été clair pourtant). Par ailleurs, je ne vois pas d'autisme non plus. J'ai sûrement du louper quelque chose.
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Choix paramètres statistiques pour décrire une distribution
C’était pas méchant. Je parlais de discussions d'autistes parce que je venais de relire le fil de réponses au premier post. Je me disais qu'on était en train de tomber dans une discussion de spécialistes qui discutaient entre eux de choses certes intéressantes mais qui devaient plonger cette pauvre CléliaOutremer dans un abime de perplexité.
Je suis trop second degré des fois ....
Je suis trop second degré des fois ....
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Sujets similaires
» Choix d'un test, distribution sous-population selon des var.
» Choix tests statistiques
» Choix des tests statistiques
» Choix tests statistiques
» Choix de tests statistiques
» Choix tests statistiques
» Choix des tests statistiques
» Choix tests statistiques
» Choix de tests statistiques
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum