Test de normalité, effectif et différence minimale

Voir le sujet précédent Voir le sujet suivant Aller en bas

Test de normalité, effectif et différence minimale

Message par DSIFR le Ven 10 Fév 2017 - 10:57

Bonjour

Préambule
Si je prépare une analyse de variance pour un plan d'expérience, je vais devoir déterminer la taille de l'échantillon qui me permettra de détecter une différence minimale pour une puissance donnée et sous l'hypothèse d'une certaine variance. Je reformule : pour une ANOVA, je peux calculer la taille de l'échantillon adapté à la mise en évidence d'une différence jugée thématiquement (e.g. biologiquement) significative.

Contexte
La normalité des résidus et l'indépendance des résidus sont des hypothèse de nombreux modèles, pour moi des modèles de séries temporelles. Le principe de l'inférence statistiques consiste à considérer que si les hypothèses sont vérifiées, alors on est fondé à considérer comme valide les résultats du modèle. Il existe des tests de normalité (e.g. Shapiro-Wilk, Kolmogorov-Smirnov). Il existe des tests d'indépendance (e.g. Ljung-Box, Stoffer-Toloi). L'objet de ces tests est de mesurer l'écart à une situation donnée (i.e. normalité, indépendance) et d'aider à la décision de savoir si on s'en écarte de cette situation tel qu'on puisse la rejeter.

Problème
Le problème c'est que dans ces tests à aucun moment on ne fixe la différence à la situation de normalité ou d'indépendance que l'on souhaite mettre en évidence. Cela se traduit par des situations paradoxales : pour des effectifs réduits on constate des écart importants graphiquement (e.g. qqplot, acf) mais à des tests conduisant au non rejet des situations de normalité et/ou d'indépendance alors que pour des effectifs très importants (e.g. 600+), avec des éléments graphiques rassurant, les tests conduisent au rejet des hypothèses de normalité et/ou d'indépendance.

Est-ce que je n'ai pas compris quelque chose de fondamental en statistique et je peux retourner à l'école ?
Est-ce que vous avez des papiers traitant de ce pb ?
Est-ce qu'il est légitime de choisir une situation de référence et d'effectuer un test permettant au plus de détecter l'écart de cette situation de référence ?

Merci d'avance
DSIFR

DSIFR

Nombre de messages : 3
Date d'inscription : 10/02/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité, effectif et différence minimale

Message par Eric Wajnberg le Ven 10 Fév 2017 - 13:09

Ce problème a été discuté de (très) nombreuses fois dans ce forum (et d'autres). Le test de la normalité des données est un problème car les tests qui existent manquent dramatiquement de puissance. L'idée habituellement utilisée est que :

- Les modèles de type ANOVA, etc (modèle linéaire général) sont connus depuis très longtemps pour résister à des écarts de normalité, ou d'égalilté des variances. C'est la robustesse.

- On se fonde généralement sur la notoriété de la variable analysée à être gaussienne (taille, longueur, poids, surface, distance, etc.) ou non (comptage, durée, pourcentage), etc.

Et ca suffit très généralement.

Un derniers point : l'indépendance des données n'est pas que dans le contexte des séries temporelles, loin s'en faut.

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 520
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité, effectif et différence minimale

Message par DSIFR le Ven 10 Fév 2017 - 15:13

Bonjour Eric

Merci beaucoup de ta réponse. Je précise ma question.

Je fais référence à l'ANOVA uniquement pour opposer :

  • une situation contrôlée dans laquelle on définit a priori la différence que l'on veut mettre en évidence et pour laquelle on va calculer l'effectif minimal (i.e. financièrement optimal) pour la mettre en évidence;
  • à une situation non contrôlée dans laquelle le nombre de données que l'on a détermine la différence que l'on va être en mesure de mettre en évidence, et donc, indépendamment de la différence que l'on souhaiterait mettre en évidence.

Ainsi, l'ANOVA en elle même et sa légendaire robustesse ne sont pas le sujet. Pour fixer les idées, je fais des modèles espace d'état sur des données notoirement log-normale dont je stabilise la variance à coup de transformation log, ça marche pas mal. Ma question porte aussi bien sur les test de normalité que d'indépendance des données qui sont effectivement à la base d'un très grand nombre d'approche stat, série temporelle ou pas.

Je pense que la question de la puissance n'est pas en cause. La puissance c'est P(H1|H1)=1-beta, mon problème c'est que je conclus H1 alors que j'ai des raisons de croire (e.g. QQplot, OK c'est pas objectif alors que le calcul l'est) que H0 est vraie : P(H1|H0)=alpha. Je ne remets pas en cause la construction des tests qui assure le contrôle de l'erreur de première espèce. Ce que je dis c'est que la différence minimale que le test va être en mesure de mettre en évidence pour conclure au rejet ou non de H0 est une fonction décroissante de l'effectif.

D'où des situations dans lesquelles 1) 30 données, QQplot pas trop sexy mais Shapiro-Wilk OK 2) 600 données QQplot impec et Shapiro-wilk pas OK. Même chose pour le Stoffer-Toloi (i.e. Ljung-Box adapté pour les données manquantes).

Après je comprends les arguments autour de la robustesse des méthodes, j'entends aussi "le résultat reste valable dans son aspect descriptif". Mais compte tenu du fait que la démarche dans laquelle on s'inscrit en stat est l'inférence :
Wikipédia a écrit:L'inférence est un mouvement de la pensée allant des principes à la conclusion. C'est une opération qui permet de passer d'une ou plusieurs assertions, des énoncés ou propositions affirmés comme vrais, appelés prémisses, à une nouvelle assertion qui en est la conclusion.
autrement dit c'est parce que j'ai fait l'hypothèse de normalité et d'indépendance que j'ai pu construire ma méthode et en conclusion que mes résultats sont justes, compte tenu de cela donc, je serais plus à l'aise avec une validation des hypothèses de base.

@+

DSIFR

Nombre de messages : 3
Date d'inscription : 10/02/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité, effectif et différence minimale

Message par Eric Wajnberg le Sam 11 Fév 2017 - 5:45

Même si l'approche ANOVA que vous faites est différente de celle utilisée habituellement (encore que, je n'ai pas vu vraiment pourquoi), il reste que vous faite de l'inférence qui est construite sur des lois présupposées, et notamment normales. Tout ceci n'est donc valide que si ces lois sont vérifiées, ou sinon, on s'assure que la méthode utilisée reste valide même si on s'écarte de la normalité. Qu'on y mettre des tests d'ajustement à des lois ou non. Ce que je dis reste valide: Les tests de comparaison à des lois (normales ou autre) ne sont généralement ni puissants, ni convaincants. Désolé.

Eric.
avatar
Eric Wajnberg

Nombre de messages : 520
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité, effectif et différence minimale

Message par gg le Sam 11 Fév 2017 - 9:05

A noter : Difficile de faire une inférence à partir de la réussite d'un test de Normalité. Il ne prouve rien. Tout ce qu'on sait, c'est que l'échantillon pourrait avoir été obtenu à partir d'une variable gaussienne, ce qui ne dit pas que la variable échantillonnée l'est.

Cordialement.

gg

Nombre de messages : 1886
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité, effectif et différence minimale

Message par droopy le Lun 13 Fév 2017 - 13:32

Bonjour,

DSIFR a écrit:Cela se traduit par des situations paradoxales : pour des effectifs réduits on constate des écart importants graphiquement (e.g. qqplot, acf) mais à des tests conduisant au non rejet des situations de normalité et/ou d'indépendance alors que pour des effectifs très importants (e.g. 600+), avec des éléments graphiques rassurant, les tests conduisent au rejet des hypothèses de normalité et/ou d'indépendance.
Le problème auquel tu fais référence ici est bien plus large que la normalité des données, mais est un problème bien connu qui participe à la critique des tests statistiques par de nombreux auteurs. Plus le nombre de données augmente et plus la puissance du test augmente et plus H0 aura tendance à être rejetée. Pour rendre un test significatif il suffit d'augmenter la quantité de données. Par exemple deux régressions avec le même R² que l'on considérera très faibles, seront significatives ou non selon la quantité de données disponibles. C'est très bien détaillé aux pages 75 à 86 de ce pdf, manque des références derrières mais je suis sur que sur le net on trouvera pas mal de choses sur la question.

https://perso.univ-rennes1.fr/denis.poinsot/Statistiques_%20pour_statophobes/STATISTIQUES%20POUR%20STATOPHOBES.pdf

cdlt
avatar
droopy

Nombre de messages : 1037
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité, effectif et différence minimale

Message par DSIFR le Lun 13 Fév 2017 - 16:53

Merci beaucoup pour ce pdf Droopy, c'est bien mon problème qui y est traité et je regrette effectivement qu'il n'y ait pas une bonne ref à citer. Mais c'est une approche plein de bon sens que je prône depuis un moment déjà, de regarder ses données et de les sentir, mais comme discuté dans le doc, la nécessité de publier oblige à avoir de la ref sous le coude.

Encore merci
@+

DSIFR

Nombre de messages : 3
Date d'inscription : 10/02/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité, effectif et différence minimale

Message par droopy le Mar 14 Fév 2017 - 10:43

Je pense que tu trouveras pas mal d'informations concernant la critique des tests et des p-values dans la littérature notamment celle associées aux méta-analyses.

cdlt
avatar
droopy

Nombre de messages : 1037
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Test de normalité, effectif et différence minimale

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum