Test statistique & non normalité

par Particule Sam 8 Fév 2020 - 9:58

Bonjour à tous,

Je souhaiterais réaliser sur des séries chronologiques divers tests statistiques notamment test de Fisher et test de Grubbs.

Pour réaliser ces tests, il faut en théorie que les données de la population d'où proviennent les échantillons suive une loi normale.

Supposons que ces données ne suivent pas une loi normale ou que les données des échantillons eux mêmes ne suivent pas une loi normale. Ces tests s'appliquent-ils quand même si la taille des échantillons mis en jeu est très grande (n > 30) ? Si oui cette limite s'applique-t-elle à tous les tests existants ?

Sans pouvoir le justifier rigoureusement, je pense que ces tests sont valables en fait à condition que la moyenne de ces échantillons suive une loi normale N(0,1). Ceci est possible si la population sous-jacente suit elle-même une loi normale ou si la taille de l'échantillon est très grande d'après le théorème central limite.

Est-ce juste ? Surtout est-ce valable pour tous les tests existants quelque soit son rôle ?

Autre question. Supposons que les données de ma série chronologique s'écrivent sous la forme x_t = f(t) + e(t) où e(t) est une composante aléatoire (bruit blanc gaussien…) et f(t) une tendance (ex. f(t) = at+b). Ces tests statistiques peuvent-t-ils s'appliquer en présence de cette tendance ? J'aurai dit oui car les données restent aléatoires même en présence de cette tendance... J'aurai dit non car la composante liée à cette tendance me semble déterministe...

par Eric Wajnberg Lun 10 Fév 2020 - 11:22

Des tests construits sous l'hypothèse que les données suivent des lois normales ne sont pas applicables si les données ne suivent pas des lois normales, même si n est grand.

Non, les tests ne deviennent pas utilisables si les moyennes des échantillons suivent - eux - des lois normales. La moyenne a sa propre distribution, qui est normale - effectivement en vertu du théorème central limite. Mais si les données sur lesquelles ces moyennes sont calculées ne sont pas normales, elles ne sont pas normales. Un point, une barre, et les tests dont il est question ici ne peuvent pas être utilisés.

Et oui, tout ceci est valable pour tous les tests qui viennent avec leurs conditions d'application, notamment la normalité de la distribution des données.

Pour le reste de votre question, je ne suis pas un spécialiste des séries chronologiques, mais une transformation linéaire (at + b) (plus un bruit blanc gaussien), ne modifiera pas la normalité des données, par définition. Donc, oui, a priori, la validité des tests restent ok si les données sont initialement normales.

Ca serait utile si vous nous expliquiez qu'est-ce qui est mesuré au cours du temps, et pourquoi vous pensez que ce n'est pas une variable normale.

HTH, Eric.

par Particule Mar 11 Fév 2020 - 8:55

Bonjour Eric,

Merci pour votre réponse. Du coup, comment dois-je comprendre ce paragraphe de Wikipedia (voir ci-dessous en gras) qui semble dire comme d'autres sources que ces tests s'appliquent aussi dans le cas où la taille de l'échantillon est grand et ce quelque soit la distribution de départ ? Je comprends que si n > 30 (ce seuil est donné dans beaucoup d'ouvrage) le tests sont applicables même en cas de non normalité des données. Qu'en pensez-vous ? Dans ma situation, il s'agit d'une série chronologique : nombre de passagers empruntant un car chaque jour pendant un an (n = 365). Les données ne suivent aucune loi connue (normale, Poisson, binomiale…).

Article de Wikipedia
Les tests paramétriques, quand leur utilisation est justifiée, sont en général plus puissants que les tests non-paramétriques. Les tests paramétriques reposent cependant sur l'hypothèse forte que l'échantillon considéré est tiré d'une population suivant une distribution appartenant à une famille donnée. Il est possible de s'en affranchir pour des échantillons suffisamment grands en utilisant des théorèmes asymptotiques tels que le théorème central limite. Les tests non-paramétriques sont cependant à préférer dans de nombreux cas pratiques pour lesquels les tests paramétriques ne peuvent être utilisés sans violer les postulats dont ils dépendent (notamment dans le cas d'échantillons trop petits c'est-à-dire, par convention, quand l'effectif de l'échantillon est inférieur à 30).

par Eric Wajnberg Mar 11 Fév 2020 - 10:57

La phrase en gras que vous citez sur Wikipedia est clairement fausse. Vous pouvez avoir un distribution de plusieurs millions d'observations qui sont des comptages (avec une moyenne faible) et cette distribution est définitivement non gaussienne et des tests conçus pour des lois normales ne pourront pas y être appliqués.

D'une manière générale, je conseille d'être particulièrement méfiant vis-à-vis des information sur Wipipedia. Les pages ne sont pas forcément écrites par des experts ou des personnes compétentes, et j'y trouve régulièrement des erreurs.

La variable qui vous intéresse est un comptage. Elle devrait suivre une loi de Poisson (ou normale si la moyenne est élevée). Il n'est pas facile de comparer une distribution observée à une distribution théorique (et les procédures statistiques qui permettent de faire ceci sont notoirement peu puissantes). Qu'est-ce qui vous fait dire que vos données ne suivent aucune loi connue ?

HTH, Eric.

par lazof Dim 16 Fév 2020 - 20:49

Bonsoir Eric,

Comme Particule, je trouve dans beaucoup d'ouvrages le fait que si la taille de l'échantillon est assez grand, la loi de la variable qui attribue à chaque échantillon la moyenne peut être approchée par une loi normale.

Merci d'avance,
lazof

par c@ssoulet Lun 17 Fév 2020 - 7:40

lazof a écrit:Bonsoir Eric,

Comme Particule, je trouve dans beaucoup d'ouvrages le fait que si la taille de l'échantillon est assez grand, la loi de la variable qui attribue à chaque échantillon la moyenne peut être approchée par une loi normale.

Merci d'avance,
lazof

Parce que vous ne lisez pas vos livres ou wikipedia, vous les survolez.

La première phrase de l'article sur le theoreme central limite wiki est :
"Le théorème central limite (aussi improprement appelé théorème de la limite centrale ou centrée) établit la convergence en loi de la somme d'une suite de variables aléatoires vers la loi normale. Intuitivement, ce résultat affirme que toute somme de variables aléatoires indépendantes tend dans certains cas vers une variable aléatoire gaussienne"

on parle de variables ALEATOIRES

Si je mesure la taille d'un groupe de personnes prises au hasard, je mesure une variable aleatoire et elle convergera vers la loi normale.
Si j'introduis un critère de sélection, par exemple travailler sur la taille de toutes les personnes mesurant moins de 1m60, je perds le caractère aleatoire de la mesure. La distrubution ne convergera jamais vers la loi normale. Elle aura toujours la forme d'une demi-cloche coupée à 160 cm

C'est pour ca que lorsqu'on analyse des données issues de populations sélectionnées (essais cliniques...) on prend le soin de verifier la normalité des distris avant de choisir le test, même si on a 60 sujets. En tout cas sur toutes les variables ayant une bonne raison de ne pas être aleatoires (critères de sélection....)

par gg Lun 17 Fév 2020 - 8:18

Bonjour Lazof.

En application du théorème central limite en statistique, on trouve pour tous les tests qui utilisent comme paramètre de test une moyenne de l'échantillon la possibilité de se ramener à un test paramétrique utilisant la loi Normale quand l'effectif est grand. Cela parce que, au voisinage de la moyenne, la distribution des moyennes des échantillons est bien approximée par une variable gaussienne. Attention, la règle "plus de 30" qu'on trouve souvent est dangereuse lorsque la variable statistique ne peut prendre que très peu de valeurs, ou est continue mais concentre ses valeurs au voisinage proche de 2 "pics".
Donc pour une variable continue (ou discrète prenant pas mal de valeurs), on pourra utiliser le t-test sur un échantillon de grande taille. On pourra aussi négliger la Normalité dans une anova dont chaque échantillon est grand (mais pas l'hétérosedasticité).

Enfin une dernière chose : Pour une variable statistique réelle, si l'échantillon est très grand (plusieurs centaines), les tests de Normalité sont très souvent significatifs, simplement parce que la Normalité est une sorte d'idéal, et que les valeurs recueillies ne le sont pas (voir Saporta). Par exemple les arrondis de saisie peuvent changer la réponse au test.

Cordialement.

par Eric Wajnberg Lun 17 Fév 2020 - 9:47

lazof a écrit:Bonsoir Eric,

Comme Particule, je trouve dans beaucoup d'ouvrages le fait que si la taille de l'échantillon est assez grand, la loi de la variable qui attribue à chaque échantillon la moyenne peut être approchée par une loi normale.

Merci d'avance,
lazof

La confusion ici est que quelle que soit la distribution des données d'un échantillon, la distribution de la moyenne de cette échantillon suit effectivement une loi normale. Les distributions d'une part d'un échantillon et d'autre part de la moyenne de cet échantillon ne sont absolument pas les mêmes. Or vous mentionnez bien la moyenne dans votre phrase.

par lazof Lun 17 Fév 2020 - 18:27

Merci pour vos réponses.

Ma réflexion portait bien sur la variable "moyenne d'un échatillon". Evidemment, il faut des échantillons aléatoires.

Honnêtement je n'ai pas regardé dans wiki.

par Contenu sponsorisé

Test statistique & non normalité

Test statistique & non normalité

Re: Test statistique & non normalité

Re: Test statistique & non normalité

Re: Test statistique & non normalité

Re: Test statistique & non normalité

Re: Test statistique & non normalité

Re: Test statistique & non normalité

Re: Test statistique & non normalité

Re: Test statistique & non normalité

Re: Test statistique & non normalité