Mann et Whitney sur très grandes séries

par Sonia Ven 26 Aoû 2011 - 9:25

Bonjour,

Je souhaite tester l'égalité des moyennes sur deux échantillons de tailles très différentes, mais mesurant chacun plus de 100 000 observations.
On peut supposer la normalité des distributions étant donné la longueur des séries.
Le test de Fisher indique qu'il n'y a pas égalité des variances.
Je procède donc à un test de mann et whitney sur sas.

Y a t il un probleme théorique à réaliser ce test sur de très grandes séries comme celles-ci ?

Merci,
Sonia

par droopy Ven 26 Aoû 2011 - 11:41

Le problème avec les grandes séries c'est que tout a tendance a ne pas être équivelent, du fait justement que les statistiques sont estimées avec une grande précision.

Moralité, il état a peu près certain avant même de faire le test que tes deux distributions n'allaient pas avoir les mêmes variances, quelque soit le test que tu utilises, de même pour tes moyennes.

par Sonia Ven 26 Aoû 2011 - 11:44

Merci droopy pour ta réponse.
Dans ce cas, y a t il des alternatives pour tester l'égalité des moyennes ?

par gg Ven 26 Aoû 2011 - 12:13

Bonjour Sonia.

Quelques remarques :
* Il est difficile de fabriquer un échantillon de plus de 100 000 individus pris au hasard. Es-tu certaine que tes échantillons ne sont pas biaisés ?
* S'ils ne le sont pas, tu sais déjà (non égalité des variances) que les populations d'où tu as tiré ces échantillons sont différentes. Il ne reste qu'à savoir si l'hypothèse "le premier échantillon a la même moyenne que le deuxième" est valide. Ce que tu peux faire en utilisant un intervalle ce confiance à 95% (ou 99%, ou ... à ton choix) sur la moyenne d'un échantillon. Si les moyennes sont m1 et m2 et les variances s1² et s2², tu utilises pour l'échantillon 1 le modèle "moyenne m2; variance s1²", puisque, avec cette taille d'échantillon, s1² est une excellente estimation de la variance de la population d'où est tiré l'échantillon 1. Et comme la moyenne de l'échantillon suite une loi Normale (approximativement, mais avec une erreur infime au voisinage de la moyenne), tu tombes sur l'intervalle de confiance habituel.
* Bien évidemment, tu peux inverser les rôles des deux échantillons dans ce test.
* Intuitivement, dès que les moyennes auront une différence supérieure au dixième des écarts types, on peut être sûr que l'égalité sera rejetée.

Cordialement.

par Sonia Ven 26 Aoû 2011 - 13:17

gg, mon sauveur habituel Smile

Merci pour ta réponse.

En fait, je n'échantillonne pas. Je travaille sur l'ensemble de ma série, je pensais que cela donnait plus de précision aux tests.

Voici la configuration dans laquelle je travaille :
Série 1 :
N=195 000
Moyenne=16.1
Ecart type=28.7

Série 2 :
N=5 200 000
Moyenne=18.0
Ecart type=38,4

Mon objectif : démontrer que la moyenne de la série 2 est supérieure à celle de la série 1.
En synthèse, je peux oublier Mann et Whitney pour cela ?

Ton test est-il valable dans cette configuration ?

Merci et bon week end.

Sonia

par gg Ven 26 Aoû 2011 - 14:44

Bonjour.

Si tu travailles sur l'ensemble de la population, oublie les tests statistiques, puisque tu connais les vraies valeurs. les tests sont utilisés lorsque la connaissance est incomplète. ici, si la première moyenne est 20 et la deuxième 20,001 tu peux affirmer que la deuxième est supérieure à la première. Puisque tu le sais !

Bien évidemment, ceci suppose que la statistique est exhaustive.

Cordialement.

par Sonia Ven 26 Aoû 2011 - 15:01

gg,

Merci de ta réponse.

Je comprends bien ce que tu me dis là, mais la question que je me pose est de savoir si ces différences sont significatives ?
Car effectivement c'est supérieur, mais est-ce assez supérieur pour considérer que les espérances des lois sous-javentes sont différentes ?

par gg Ven 26 Aoû 2011 - 16:03

Ah,

tu changes à nouveau de discours !!

Qu'appelles-tu "lois sous-jacentes" ?
Ou, dit autrement, travailles-tu sur une population (en connaissant toutes les valeurs) ou non ?
J'avais interprété ton message comme la connaissance de toute la population. La loi de la population est exactement donnée par les valeurs des individus, donc elle n'est pas "sous-jacente", elle est connue !

Si tu ne connais pas toutes les valeurs possibles, comment as-tu fabriqué (choisi) ces 195 000 valeurs ?

par Sonia Ven 26 Aoû 2011 - 16:16

En fait, je connais exactement toutes les valeurs des différentes séries.

par gg Ven 26 Aoû 2011 - 16:25

Le mot "série" a plusieurs significations.
Les analyses que tu fais sur une "série" ne concernent pas des individus statistiques de même genre, qui auraient pu être ajoutés à la "série" ? Alors tu ne fais pas de l'échantillonnage, et les tests sont idiots : Tu connais les valeurs, tu n'as rien à estimer.

Par exemple si un prof corrige les copies de ses 30 élèves, et obtient une moyenne de 12. Il n'y a pas de test à faire, la moyenne est 12. Et si une autre classe a une moyenne de 12,1 elle a une meilleure moyenne.
Par contre si le prof se sert de cette classe pour essayer de voir ce que font des élèves de ce niveau, il a un échantillon (fortement biaisé !) et le 12 est une estimation de ce que feraient les élèves de ce niveau. Une estimation, dans ce cas, sans grand intérêt. Et si une autre classe, sur un autre devoir a eu 12,1 de moyenne, il est difficile de faire des comparaisons. Qu'on aurait pu faire avec des copies prises au hasard parmi tous les élèves de ce niveau.

Mais je reste toujours dubitatif, car tu n'as pas vraiment répondu à ma question.

par Sonia Ven 26 Aoû 2011 - 16:39

Je lis tout cela avec attention.

La situation exacte est la suivante :

J'observe le recours à une option sur une grosse population de plusieurs millions d'individus.
Je connais le montant des dépenses de chacune des personnes ayant souscrit ou non à l'option. En synthèse, je connais les vraies valeurs : je connais la valeur prise par la variable mesurée pour tous les individus.

Ce que je veux montrer, c'est que les gens qui ont souscrit à l'option ont des dépenses significativement supérieures à ceux qui ne l'ont pas souscrit.

Ce qui me pose problème, c'est qu'effectivement les gens qui souscrivent l'option ont une moyenne de dépenses supérieure à ce qui est constatée sur l'autre population. Mais est-ce significativement supérieur ?
En relisant tes réponses, je me rends compte que cela n'a pas d'intéret.

par gg Ven 26 Aoû 2011 - 17:58

Ok.

Finalement, on est bien dans le cas exhaustif.
Et le mot "significativement" n'a pas de sens ici (il réfère à une situation testée avec un échantillon, ou une connaissance incomplète).

Bonne fin de soirée.

par Sonia Ven 26 Aoû 2011 - 18:00

Merci beaucoup pour ces explications claires gg.
Je range mon test au placard.

par Contenu sponsorisé

Mann et Whitney sur très grandes séries

Mann et Whitney sur très grandes séries

Re: Mann et Whitney sur très grandes séries

Re: Mann et Whitney sur très grandes séries

Re: Mann et Whitney sur très grandes séries

Re: Mann et Whitney sur très grandes séries

Re: Mann et Whitney sur très grandes séries

Re: Mann et Whitney sur très grandes séries

Re: Mann et Whitney sur très grandes séries

Re: Mann et Whitney sur très grandes séries

Re: Mann et Whitney sur très grandes séries

Re: Mann et Whitney sur très grandes séries

Re: Mann et Whitney sur très grandes séries

Re: Mann et Whitney sur très grandes séries

Re: Mann et Whitney sur très grandes séries