Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Mann et Whitney sur très grandes séries
3 participants
Page 1 sur 1
Mann et Whitney sur très grandes séries
Bonjour,
Je souhaite tester l'égalité des moyennes sur deux échantillons de tailles très différentes, mais mesurant chacun plus de 100 000 observations.
On peut supposer la normalité des distributions étant donné la longueur des séries.
Le test de Fisher indique qu'il n'y a pas égalité des variances.
Je procède donc à un test de mann et whitney sur sas.
Y a t il un probleme théorique à réaliser ce test sur de très grandes séries comme celles-ci ?
Merci,
Sonia
Je souhaite tester l'égalité des moyennes sur deux échantillons de tailles très différentes, mais mesurant chacun plus de 100 000 observations.
On peut supposer la normalité des distributions étant donné la longueur des séries.
Le test de Fisher indique qu'il n'y a pas égalité des variances.
Je procède donc à un test de mann et whitney sur sas.
Y a t il un probleme théorique à réaliser ce test sur de très grandes séries comme celles-ci ?
Merci,
Sonia
Sonia- Nombre de messages : 15
Date d'inscription : 25/06/2011
Re: Mann et Whitney sur très grandes séries
Le problème avec les grandes séries c'est que tout a tendance a ne pas être équivelent, du fait justement que les statistiques sont estimées avec une grande précision.
Moralité, il état a peu près certain avant même de faire le test que tes deux distributions n'allaient pas avoir les mêmes variances, quelque soit le test que tu utilises, de même pour tes moyennes.
Moralité, il état a peu près certain avant même de faire le test que tes deux distributions n'allaient pas avoir les mêmes variances, quelque soit le test que tu utilises, de même pour tes moyennes.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Mann et Whitney sur très grandes séries
Merci droopy pour ta réponse.
Dans ce cas, y a t il des alternatives pour tester l'égalité des moyennes ?
Dans ce cas, y a t il des alternatives pour tester l'égalité des moyennes ?
Sonia- Nombre de messages : 15
Date d'inscription : 25/06/2011
Re: Mann et Whitney sur très grandes séries
Bonjour Sonia.
Quelques remarques :
* Il est difficile de fabriquer un échantillon de plus de 100 000 individus pris au hasard. Es-tu certaine que tes échantillons ne sont pas biaisés ?
* S'ils ne le sont pas, tu sais déjà (non égalité des variances) que les populations d'où tu as tiré ces échantillons sont différentes. Il ne reste qu'à savoir si l'hypothèse "le premier échantillon a la même moyenne que le deuxième" est valide. Ce que tu peux faire en utilisant un intervalle ce confiance à 95% (ou 99%, ou ... à ton choix) sur la moyenne d'un échantillon. Si les moyennes sont m1 et m2 et les variances s1² et s2², tu utilises pour l'échantillon 1 le modèle "moyenne m2; variance s1²", puisque, avec cette taille d'échantillon, s1² est une excellente estimation de la variance de la population d'où est tiré l'échantillon 1. Et comme la moyenne de l'échantillon suite une loi Normale (approximativement, mais avec une erreur infime au voisinage de la moyenne), tu tombes sur l'intervalle de confiance habituel.
* Bien évidemment, tu peux inverser les rôles des deux échantillons dans ce test.
* Intuitivement, dès que les moyennes auront une différence supérieure au dixième des écarts types, on peut être sûr que l'égalité sera rejetée.
Cordialement.
Quelques remarques :
* Il est difficile de fabriquer un échantillon de plus de 100 000 individus pris au hasard. Es-tu certaine que tes échantillons ne sont pas biaisés ?
* S'ils ne le sont pas, tu sais déjà (non égalité des variances) que les populations d'où tu as tiré ces échantillons sont différentes. Il ne reste qu'à savoir si l'hypothèse "le premier échantillon a la même moyenne que le deuxième" est valide. Ce que tu peux faire en utilisant un intervalle ce confiance à 95% (ou 99%, ou ... à ton choix) sur la moyenne d'un échantillon. Si les moyennes sont m1 et m2 et les variances s1² et s2², tu utilises pour l'échantillon 1 le modèle "moyenne m2; variance s1²", puisque, avec cette taille d'échantillon, s1² est une excellente estimation de la variance de la population d'où est tiré l'échantillon 1. Et comme la moyenne de l'échantillon suite une loi Normale (approximativement, mais avec une erreur infime au voisinage de la moyenne), tu tombes sur l'intervalle de confiance habituel.
* Bien évidemment, tu peux inverser les rôles des deux échantillons dans ce test.
* Intuitivement, dès que les moyennes auront une différence supérieure au dixième des écarts types, on peut être sûr que l'égalité sera rejetée.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Mann et Whitney sur très grandes séries
gg, mon sauveur habituel
Merci pour ta réponse.
En fait, je n'échantillonne pas. Je travaille sur l'ensemble de ma série, je pensais que cela donnait plus de précision aux tests.
Voici la configuration dans laquelle je travaille :
Série 1 :
N=195 000
Moyenne=16.1
Ecart type=28.7
Série 2 :
N=5 200 000
Moyenne=18.0
Ecart type=38,4
Mon objectif : démontrer que la moyenne de la série 2 est supérieure à celle de la série 1.
En synthèse, je peux oublier Mann et Whitney pour cela ?
Ton test est-il valable dans cette configuration ?
Merci et bon week end.
Sonia
Merci pour ta réponse.
En fait, je n'échantillonne pas. Je travaille sur l'ensemble de ma série, je pensais que cela donnait plus de précision aux tests.
Voici la configuration dans laquelle je travaille :
Série 1 :
N=195 000
Moyenne=16.1
Ecart type=28.7
Série 2 :
N=5 200 000
Moyenne=18.0
Ecart type=38,4
Mon objectif : démontrer que la moyenne de la série 2 est supérieure à celle de la série 1.
En synthèse, je peux oublier Mann et Whitney pour cela ?
Ton test est-il valable dans cette configuration ?
Merci et bon week end.
Sonia
Sonia- Nombre de messages : 15
Date d'inscription : 25/06/2011
Re: Mann et Whitney sur très grandes séries
Bonjour.
Si tu travailles sur l'ensemble de la population, oublie les tests statistiques, puisque tu connais les vraies valeurs. les tests sont utilisés lorsque la connaissance est incomplète. ici, si la première moyenne est 20 et la deuxième 20,001 tu peux affirmer que la deuxième est supérieure à la première. Puisque tu le sais !
Bien évidemment, ceci suppose que la statistique est exhaustive.
Cordialement.
Si tu travailles sur l'ensemble de la population, oublie les tests statistiques, puisque tu connais les vraies valeurs. les tests sont utilisés lorsque la connaissance est incomplète. ici, si la première moyenne est 20 et la deuxième 20,001 tu peux affirmer que la deuxième est supérieure à la première. Puisque tu le sais !
Bien évidemment, ceci suppose que la statistique est exhaustive.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Mann et Whitney sur très grandes séries
gg,
Merci de ta réponse.
Je comprends bien ce que tu me dis là, mais la question que je me pose est de savoir si ces différences sont significatives ?
Car effectivement c'est supérieur, mais est-ce assez supérieur pour considérer que les espérances des lois sous-javentes sont différentes ?
Merci de ta réponse.
Je comprends bien ce que tu me dis là, mais la question que je me pose est de savoir si ces différences sont significatives ?
Car effectivement c'est supérieur, mais est-ce assez supérieur pour considérer que les espérances des lois sous-javentes sont différentes ?
Sonia- Nombre de messages : 15
Date d'inscription : 25/06/2011
Re: Mann et Whitney sur très grandes séries
Ah,
tu changes à nouveau de discours !!
Qu'appelles-tu "lois sous-jacentes" ?
Ou, dit autrement, travailles-tu sur une population (en connaissant toutes les valeurs) ou non ?
J'avais interprété ton message comme la connaissance de toute la population. La loi de la population est exactement donnée par les valeurs des individus, donc elle n'est pas "sous-jacente", elle est connue !
Si tu ne connais pas toutes les valeurs possibles, comment as-tu fabriqué (choisi) ces 195 000 valeurs ?
tu changes à nouveau de discours !!
Qu'appelles-tu "lois sous-jacentes" ?
Ou, dit autrement, travailles-tu sur une population (en connaissant toutes les valeurs) ou non ?
J'avais interprété ton message comme la connaissance de toute la population. La loi de la population est exactement donnée par les valeurs des individus, donc elle n'est pas "sous-jacente", elle est connue !
Si tu ne connais pas toutes les valeurs possibles, comment as-tu fabriqué (choisi) ces 195 000 valeurs ?
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Mann et Whitney sur très grandes séries
En fait, je connais exactement toutes les valeurs des différentes séries.
Sonia- Nombre de messages : 15
Date d'inscription : 25/06/2011
Re: Mann et Whitney sur très grandes séries
Le mot "série" a plusieurs significations.
Les analyses que tu fais sur une "série" ne concernent pas des individus statistiques de même genre, qui auraient pu être ajoutés à la "série" ? Alors tu ne fais pas de l'échantillonnage, et les tests sont idiots : Tu connais les valeurs, tu n'as rien à estimer.
Par exemple si un prof corrige les copies de ses 30 élèves, et obtient une moyenne de 12. Il n'y a pas de test à faire, la moyenne est 12. Et si une autre classe a une moyenne de 12,1 elle a une meilleure moyenne.
Par contre si le prof se sert de cette classe pour essayer de voir ce que font des élèves de ce niveau, il a un échantillon (fortement biaisé !) et le 12 est une estimation de ce que feraient les élèves de ce niveau. Une estimation, dans ce cas, sans grand intérêt. Et si une autre classe, sur un autre devoir a eu 12,1 de moyenne, il est difficile de faire des comparaisons. Qu'on aurait pu faire avec des copies prises au hasard parmi tous les élèves de ce niveau.
Mais je reste toujours dubitatif, car tu n'as pas vraiment répondu à ma question.
Les analyses que tu fais sur une "série" ne concernent pas des individus statistiques de même genre, qui auraient pu être ajoutés à la "série" ? Alors tu ne fais pas de l'échantillonnage, et les tests sont idiots : Tu connais les valeurs, tu n'as rien à estimer.
Par exemple si un prof corrige les copies de ses 30 élèves, et obtient une moyenne de 12. Il n'y a pas de test à faire, la moyenne est 12. Et si une autre classe a une moyenne de 12,1 elle a une meilleure moyenne.
Par contre si le prof se sert de cette classe pour essayer de voir ce que font des élèves de ce niveau, il a un échantillon (fortement biaisé !) et le 12 est une estimation de ce que feraient les élèves de ce niveau. Une estimation, dans ce cas, sans grand intérêt. Et si une autre classe, sur un autre devoir a eu 12,1 de moyenne, il est difficile de faire des comparaisons. Qu'on aurait pu faire avec des copies prises au hasard parmi tous les élèves de ce niveau.
Mais je reste toujours dubitatif, car tu n'as pas vraiment répondu à ma question.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Mann et Whitney sur très grandes séries
Je lis tout cela avec attention.
La situation exacte est la suivante :
J'observe le recours à une option sur une grosse population de plusieurs millions d'individus.
Je connais le montant des dépenses de chacune des personnes ayant souscrit ou non à l'option. En synthèse, je connais les vraies valeurs : je connais la valeur prise par la variable mesurée pour tous les individus.
Ce que je veux montrer, c'est que les gens qui ont souscrit à l'option ont des dépenses significativement supérieures à ceux qui ne l'ont pas souscrit.
Ce qui me pose problème, c'est qu'effectivement les gens qui souscrivent l'option ont une moyenne de dépenses supérieure à ce qui est constatée sur l'autre population. Mais est-ce significativement supérieur ?
En relisant tes réponses, je me rends compte que cela n'a pas d'intéret.
La situation exacte est la suivante :
J'observe le recours à une option sur une grosse population de plusieurs millions d'individus.
Je connais le montant des dépenses de chacune des personnes ayant souscrit ou non à l'option. En synthèse, je connais les vraies valeurs : je connais la valeur prise par la variable mesurée pour tous les individus.
Ce que je veux montrer, c'est que les gens qui ont souscrit à l'option ont des dépenses significativement supérieures à ceux qui ne l'ont pas souscrit.
Ce qui me pose problème, c'est qu'effectivement les gens qui souscrivent l'option ont une moyenne de dépenses supérieure à ce qui est constatée sur l'autre population. Mais est-ce significativement supérieur ?
En relisant tes réponses, je me rends compte que cela n'a pas d'intéret.
Sonia- Nombre de messages : 15
Date d'inscription : 25/06/2011
Re: Mann et Whitney sur très grandes séries
Ok.
Finalement, on est bien dans le cas exhaustif.
Et le mot "significativement" n'a pas de sens ici (il réfère à une situation testée avec un échantillon, ou une connaissance incomplète).
Bonne fin de soirée.
Finalement, on est bien dans le cas exhaustif.
Et le mot "significativement" n'a pas de sens ici (il réfère à une situation testée avec un échantillon, ou une connaissance incomplète).
Bonne fin de soirée.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Mann et Whitney sur très grandes séries
Merci beaucoup pour ces explications claires gg.
Je range mon test au placard.
Je range mon test au placard.
Sonia- Nombre de messages : 15
Date d'inscription : 25/06/2011
Sujets similaires
» Mann-Whitney
» Mann Whitney
» Mann Whitney-ra ou Mann whitney-ra pas ?
» Wilcoxon VS MAnn-Whitney
» Test de Mann-Whitney ?
» Mann Whitney
» Mann Whitney-ra ou Mann whitney-ra pas ?
» Wilcoxon VS MAnn-Whitney
» Test de Mann-Whitney ?
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum