Les posteurs les plus actifs de la semaine
Eric Wajnberg
 
Pierre-Louis
 
CC_05_2018
 
c@ssoulet
 
DIA
 
laura138
 
droopy
 
Pascalou
 
DocRe
 
oulachzhar
 


mean +-SD ou median et range?

Aller en bas

mean +-SD ou median et range?

Message par Bernardé le Ven 12 Jan 2018 - 17:00

Bonjour

Je suis vétérinaire, et en discussion avec un des reviewers d'une revue à laquelle j'ai soumis un article. Il s'agit d'une petite série de 31 animaux qui ont subi un nouveau protocole chirurgical pour une affection connue. Des scores pré-opératoires (données discontinues 0, 1, 2 ou 3) ont été établi à différents intervalles de temps (pré-op, post-op, 3 mois, 2 ans) pour 3 paramètres.
Les résultats ont été présentées sous forme de médianes et range, comme on m'a enseigné de le faire pour des données discontinues.
Les reviewers m'ont d'abord demandé de présenter mes résultats comme une simple étude descriptive, en indiquant quels % d'animaux sont concernés par tel score à telle époque. Un des reviewers cependant, me demande de présenter mes résultats de scores plutôt sous forme de moyenne et SD, et de vérifier si la normalité est respectée. Ai-je tord de lui répondre que l'on doit rester sur des médianes et ranges quand les données sont discontinues?
Merci de votre éclairage si possible.
Antoine B

Bernardé

Nombre de messages : 1
Date d'inscription : 12/01/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par Eric Wajnberg le Dim 14 Jan 2018 - 9:01

Deux choses :

Il est illusoire de penser que des données issues d'une note codée sur 0, 1, 2 ou 3 puisse être normale. On dirait que le referee n'est guère compétent ici. Inutile de faire des tests de normalité.

Par ailleurs, si ça fait plaisir en revanche à ce referee, on peut bien calculer des moyennes et SD (ou même SE). Ca ne préjuge en rien de la forme et de la distribution des données, et c'est une autre façon de représenter les choses, effectivement, y compris dans ce cas.

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 864
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par c@ssoulet le Lun 15 Jan 2018 - 8:42

Même si la demande est mathématiquement étrange, si le reviewer te le demande c'est que c'est une information qui intéressera beaucoup de futurs lecteurs. Tu peux lui proposer d'exprimer les résultats sous les 2 formes : mediane [IC95] ; moyenne +/-sd

Si le range est toujours 0-3, l'intervalle de confiance à 95% sera un peu plus informatif

c@ssoulet

Nombre de messages : 799
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par Eric Wajnberg le Lun 15 Jan 2018 - 10:46

c@ssoulet a écrit:Si le range est toujours 0-3, l'intervalle de confiance à 95% sera un peu plus informatif
Et comment alors calculer un IC à 95, avec une distribution comme ça ? En bootstrapant ?

Eric.
avatar
Eric Wajnberg

Nombre de messages : 864
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par droopy le Lun 15 Jan 2018 - 12:35

Bonjour,

c'est le principe du théorème central limite, si le nombre données est suffisamment grand (N >= 30 en général) alors la distribution des moyennes d'échantillonnages est supposée normale et on peut donc calculer un IC pour la moyenne.

Donc on peut très bien calculer un IC et partir d'une distribution non normale, puisqu'on ne s'intéresse pas à la dispersion de la distribution mais à une plage de valeurs dans laquelle il est fort plausible d'observer la moyenne de la population.

cdlt
avatar
droopy

Nombre de messages : 1092
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par Eric Wajnberg le Lun 15 Jan 2018 - 15:53

Le théorème central limite vaut pour l'addition (la convolution) de plusieurs lois. Si je tire par exemple 200000 valeur dans une loi de Poisson de moyenne 0.1, l’intervalle de confiance de la moyenne (ici lambda) n'est pas x_barre ± 1.96*SE, il me semble. C'est encore plus fragrant avec une binomiale si p est proche des bornes 0.0 ou 0.1. Dans ce cas, sqrt(p*(1-p)/n) ne converge pas vers le calcul habituel de l'erreur standard.

Je me trompe ?

Eric.
avatar
Eric Wajnberg

Nombre de messages : 864
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par droopy le Lun 15 Jan 2018 - 20:09

Sur la page wiki consacrée au théorème central limite on peut trouver cette figure :
L'utilisation qui en est faite, est de dire que chaque réalisation, chaque valeur d'une échantillon est une v.a., et que toutes les valeurs d'un échantillon sont tout autant de v.a. indépendantes et identiquement distribuées, que par conséquent leur somme divisée par n suit une loi normale.

cdlt
avatar
droopy

Nombre de messages : 1092
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par gg le Lun 15 Jan 2018 - 20:25

Le point de vue du matheux : le théorème limite central parle d'une limite. N=30, on est loin de l'infini.

Revenons aux stats : En fait, on constate que pour une distribution continue lisse, pour de faibles échantillons, on a pour n au moins égal à 30, une assez bonne approximation de la loi de la moyenne par une gaussienne; assez bonne pour les conditions d'un calcul à la main comme on le faisait avant l'arrivée des moyens de calcul modernes (disons avant 1980); disons avec 2 chiffres significatifs exacts.
Par contre, pour une distribution discrète un peu bizarre, ayant une ou deux valeurs très fréquentes, ou pire, n'ayant que quelques valeurs possibles, cette règle des 30 est bien trop approximative. Il est préférable d'avoir une bonne centaines de valeurs, d'autant qu'on approxime une moyenne discrète par une loi continue.

Dans le cas présent, avec 31 individus, on n'a que 93 valeurs possibles pour la moyenne, donc aller au delà du pourcent sur le calcul de la moyenne n'a pas de sens.

Cordialement.

gg

Nombre de messages : 2005
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par droopy le Mar 16 Jan 2018 - 8:19

Bonjour,

Le N a partir duquel l'approximation est plus ou moins correcte est largement débattue d'un livre à l'autre, d'un auteur à l'autre donc bon à part le fait effectivement que plus le nombre d'individu est grand et plus l'approximation sera bonne et qu'il faille tout de même un nombre minimal d'individu.

Pour ta dernière remarque gg, je n'en mesure pas le sens. Parce qu'il n'y a que 93 valeurs possibles calculer une moyenne d'échantillon et un interval de confiance dans lequel il fort possible de trouver la moyenne de la population n'a pas de sens ?

Quid d'une variable aléatoire qui suivrait une loi de Bernoulli, elle ne présente que deux valeurs possibles 0 et 1 et pourtant ça n'empêche pas de calculer la moyenne de l'échantillon ni d'encadrer cette valeur moyenne pour savoir dans quel intervalle il est possible de trouver la moyenne de la population.

cdlt
avatar
droopy

Nombre de messages : 1092
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par gg le Mar 16 Jan 2018 - 9:28

Droopy,

tu as lu trop vite ce que j'écrivais : "aller au delà du pourcent sur le calcul de la moyenne n'a pas de sens"

Je ne parle pas du fait de calculer la moyenne (*), qui peut avoir un sens ou non, suivant ce que signifient les nombres utilisés, mais de la précision utilisée pour ce calcul quand il a un sens.
Ne pas interpréter comme une critique de la moyenne ce qui est un rappel des précautions à prendre quand on calcule pour interpréter ensuite.

Cordialement.

(*) Encore moins de l'intervalle de confiance)

gg

Nombre de messages : 2005
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par Florent Aubry le Mar 16 Jan 2018 - 16:35

Le théorème de la limite centrale est valable pour de nombreuses lois mais pas pour toutes car il est nécessaire que le rapport entre le moment centré d'ordre trois et la variance à la puissance 1,5 tende vers zéro quand le nombre d'individus agrégés tend vers l'infini. Quand la distribution initiale est multimodale comme c'est représenté sur la page wiki (cf. réponse de droopy), il est peu probable que cette condition soit respectée.

Florent Aubry

Nombre de messages : 174
Date d'inscription : 02/11/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par Nik le Mer 17 Jan 2018 - 10:17

Salut,

@Bernardé
Approche pragmatique :
tu calcules la moyenne +/- SD telle que demandée sans plus en tenir compte dans tes interprétations/discussions. La différence entre médiane et moyenne peux être informative sur la distribution des données mais c'est peu probable sur une échelle de 0 à 3.

Pour aller plus loin:
Tu pourrais te lancer dans un débat avec le reviewer mais ce débat a plus d'un siècle. Il remonte aux échanges entre Yule et Pearson. Le second supposant que des variables discontinues sont la discrétisation de variables continues et le premier argumentant que les variables discrètes sont intrinsèquement discrètes.

Numériquement, rien n'empêche de calculer une moyenne avec un IC. Le minimum est que ta variable score soit une variable dite "intervalle" c'est à dire que l'écart entre 0 et 1 est le même qu'entre 1 et 2 ou encore entre 2 et 3.

Enfin, le plus important est que si tu fais émerger une moyenne, il faut qu'elle ait un sens par rapport à la données d'origine.

Globalement, il reste que les données sur une échelle de Likert sont plutôt généralement analysées via une distribution de probabilité des scores et des tests de type chi².

De mon point de vue, le choix t'appartient entre:
- la moyenne sur tes données (le diagnostic préop, pas les scores choisis) a un sens --> point de vue du reviewer.
- la moyenne n'est pas sensée. Tu lui sors des publis sur le fait que la moyenne n'est pas la bonne approche sur ce type de variable voire qu'elle n'apporte rien en terme d'interprétation et que les IC sur la distribution de proba de chaque score sont plus intéressants par exemple.

HTH

Nik

Nik

Nombre de messages : 1566
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par droopy le Mer 17 Jan 2018 - 10:49

Florent Aubry a écrit:Quand la distribution initiale est multimodale comme c'est représenté sur la page wiki (cf. réponse de droopy), il est peu probable que cette condition soit respectée.
Un exemple a partir de tirages dans une loi bimodale et avec 50 individus :
Code:
pop <- c(rnorm(1e6), rnorm(1e6, 4, 1.5))

library(parallel)
cl <- makeCluster(getOption("cl.cores", 6))
clusterExport(cl, "pop")

ted <- function(u) {
  res <- vapply(seq_len(150000), function(x) sum(sample(pop, 50))/50, numeric(1))
  res
  }

sims <- parLapply(cl, 1:6, ted)
stopCluster(cl)
sims2 <- unlist(sims)
plot(density(sims2))
cdlt
avatar
droopy

Nombre de messages : 1092
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par Florent Aubry le Jeu 18 Jan 2018 - 12:31

Soit ces cinq tirages :
Code:
x1 <- rnorm( 1e6)
x2 <- rnorm( 1e6, 15, 2)
a0 <- sample( c( 0, 1), size=1e6, replace=TRUE)
a1 <- runif( 1e6)

c1 <- rcauchy( 1e6)
c2 <- rcauchy( 1e6, location=15, scale=2)

pop1 <- a0 * x1 + (1 - a0) * x2
pop2 <- a1 * x1 + (1 - a1) * x2

pop3 <- a0 * c1 + (1 - a0) * c2
pop4 <- a1 * c1 + (1 - a1) * c2

pop5 <- c1
pop1 à pop4 sont des tirages d'une v.a de densité de probabilité de la forme a * x1 + (1 - a) * x2 où les 3 v.a. a, x1 et x2 sont indépendantes.

Pour pop1 et pop3, a prend les valeurs 0 ou 1 avec des probabilités de 0.5 tandis que pour pop2 et pop4, a est uniformément répartie entre 0 et 1. Pour pop1 et pop2, x1 et x2 obéissent à des lois normales tandis que pour pop3 à pop5, elles obéissent à des lois de Cauchy. Ainsi pop1 est quasiment identique à l'exemple de droopy sauf que les deux distributions sont beaucoup plus éloignées.

Quels résultats pour la moyenne de 50 individus tirés dans ces populations ?
- Pour pop1, la distribution d'une telle moyenne est à la limite (niveau 5%) normale ; la convergence est très lente ;
- Pour pop2, la convergence est un peu plus rapide ;
- Pour pop3 à pop5, la distribution de la moyenne ne convergera jamais vers une loi normale.

Ces résultats s'expliquent par le résultat démontré par Liapounov que j'ai précédemment mentionné même si je l'ai mal exprimé. Plus généralement, pour que le théorème de la limite centrale soit vérifié, il faut que la condition (nécessaire et suffisante) de Lindeberg le soit.

Donc, le théorème de la limite centrale ne s'applique pas systématiquement et il faut toujours vérifier que cela a un sens sinon on peut raconter n'importe quoi (ce qui est trop fréquent dans beaucoup d'articles utilisant des statistiques).

Florent Aubry

Nombre de messages : 174
Date d'inscription : 02/11/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par droopy le Ven 19 Jan 2018 - 10:14

Donc, le théorème de la limite centrale ne s'applique pas systématiquement et il faut toujours vérifier que cela a un sens sinon on peut raconter n'importe quoi (ce qui est trop fréquent dans beaucoup d'articles utilisant des statistiques).
Je partage pleinement ton avis. A l'inverse quand les conditions sont réunies il ne faut pas se priver de l'utiliser pour l'estimation de l'IC associée à la moyenne de la population. En tout cas il ne faudrait pas s'en priver pour des raisons qui ne seraient pas pertinentes/valables.
avatar
droopy

Nombre de messages : 1092
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par Florent Aubry le Ven 19 Jan 2018 - 11:39

Droopy absolument d'accord avec toi et aussi avec Eric. Ce que j'espère est que ma réponse, ajoutée aux autres ce cette discussion, aidera Bernardé pour argumenter sa réponse au referee ou pour ajouter un paragraphe dans la discussion de son article sur le peu de sens de l'utilisation de la moyenne et du SD.

Florent Aubry

Nombre de messages : 174
Date d'inscription : 02/11/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: mean +-SD ou median et range?

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut


 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum