Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Test de normalité, effectif et différence minimale
4 participants
Page 1 sur 1
Test de normalité, effectif et différence minimale
Bonjour
Préambule
Si je prépare une analyse de variance pour un plan d'expérience, je vais devoir déterminer la taille de l'échantillon qui me permettra de détecter une différence minimale pour une puissance donnée et sous l'hypothèse d'une certaine variance. Je reformule : pour une ANOVA, je peux calculer la taille de l'échantillon adapté à la mise en évidence d'une différence jugée thématiquement (e.g. biologiquement) significative.
Contexte
La normalité des résidus et l'indépendance des résidus sont des hypothèse de nombreux modèles, pour moi des modèles de séries temporelles. Le principe de l'inférence statistiques consiste à considérer que si les hypothèses sont vérifiées, alors on est fondé à considérer comme valide les résultats du modèle. Il existe des tests de normalité (e.g. Shapiro-Wilk, Kolmogorov-Smirnov). Il existe des tests d'indépendance (e.g. Ljung-Box, Stoffer-Toloi). L'objet de ces tests est de mesurer l'écart à une situation donnée (i.e. normalité, indépendance) et d'aider à la décision de savoir si on s'en écarte de cette situation tel qu'on puisse la rejeter.
Problème
Le problème c'est que dans ces tests à aucun moment on ne fixe la différence à la situation de normalité ou d'indépendance que l'on souhaite mettre en évidence. Cela se traduit par des situations paradoxales : pour des effectifs réduits on constate des écart importants graphiquement (e.g. qqplot, acf) mais à des tests conduisant au non rejet des situations de normalité et/ou d'indépendance alors que pour des effectifs très importants (e.g. 600+), avec des éléments graphiques rassurant, les tests conduisent au rejet des hypothèses de normalité et/ou d'indépendance.
Est-ce que je n'ai pas compris quelque chose de fondamental en statistique et je peux retourner à l'école ?
Est-ce que vous avez des papiers traitant de ce pb ?
Est-ce qu'il est légitime de choisir une situation de référence et d'effectuer un test permettant au plus de détecter l'écart de cette situation de référence ?
Merci d'avance
DSIFR
Préambule
Si je prépare une analyse de variance pour un plan d'expérience, je vais devoir déterminer la taille de l'échantillon qui me permettra de détecter une différence minimale pour une puissance donnée et sous l'hypothèse d'une certaine variance. Je reformule : pour une ANOVA, je peux calculer la taille de l'échantillon adapté à la mise en évidence d'une différence jugée thématiquement (e.g. biologiquement) significative.
Contexte
La normalité des résidus et l'indépendance des résidus sont des hypothèse de nombreux modèles, pour moi des modèles de séries temporelles. Le principe de l'inférence statistiques consiste à considérer que si les hypothèses sont vérifiées, alors on est fondé à considérer comme valide les résultats du modèle. Il existe des tests de normalité (e.g. Shapiro-Wilk, Kolmogorov-Smirnov). Il existe des tests d'indépendance (e.g. Ljung-Box, Stoffer-Toloi). L'objet de ces tests est de mesurer l'écart à une situation donnée (i.e. normalité, indépendance) et d'aider à la décision de savoir si on s'en écarte de cette situation tel qu'on puisse la rejeter.
Problème
Le problème c'est que dans ces tests à aucun moment on ne fixe la différence à la situation de normalité ou d'indépendance que l'on souhaite mettre en évidence. Cela se traduit par des situations paradoxales : pour des effectifs réduits on constate des écart importants graphiquement (e.g. qqplot, acf) mais à des tests conduisant au non rejet des situations de normalité et/ou d'indépendance alors que pour des effectifs très importants (e.g. 600+), avec des éléments graphiques rassurant, les tests conduisent au rejet des hypothèses de normalité et/ou d'indépendance.
Est-ce que je n'ai pas compris quelque chose de fondamental en statistique et je peux retourner à l'école ?
Est-ce que vous avez des papiers traitant de ce pb ?
Est-ce qu'il est légitime de choisir une situation de référence et d'effectuer un test permettant au plus de détecter l'écart de cette situation de référence ?
Merci d'avance
DSIFR
DSIFR- Nombre de messages : 3
Date d'inscription : 10/02/2017
Re: Test de normalité, effectif et différence minimale
Ce problème a été discuté de (très) nombreuses fois dans ce forum (et d'autres). Le test de la normalité des données est un problème car les tests qui existent manquent dramatiquement de puissance. L'idée habituellement utilisée est que :
- Les modèles de type ANOVA, etc (modèle linéaire général) sont connus depuis très longtemps pour résister à des écarts de normalité, ou d'égalilté des variances. C'est la robustesse.
- On se fonde généralement sur la notoriété de la variable analysée à être gaussienne (taille, longueur, poids, surface, distance, etc.) ou non (comptage, durée, pourcentage), etc.
Et ca suffit très généralement.
Un derniers point : l'indépendance des données n'est pas que dans le contexte des séries temporelles, loin s'en faut.
HTH, Eric.
- Les modèles de type ANOVA, etc (modèle linéaire général) sont connus depuis très longtemps pour résister à des écarts de normalité, ou d'égalilté des variances. C'est la robustesse.
- On se fonde généralement sur la notoriété de la variable analysée à être gaussienne (taille, longueur, poids, surface, distance, etc.) ou non (comptage, durée, pourcentage), etc.
Et ca suffit très généralement.
Un derniers point : l'indépendance des données n'est pas que dans le contexte des séries temporelles, loin s'en faut.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1237
Date d'inscription : 14/09/2012
Re: Test de normalité, effectif et différence minimale
Bonjour Eric
Merci beaucoup de ta réponse. Je précise ma question.
Je fais référence à l'ANOVA uniquement pour opposer :
Ainsi, l'ANOVA en elle même et sa légendaire robustesse ne sont pas le sujet. Pour fixer les idées, je fais des modèles espace d'état sur des données notoirement log-normale dont je stabilise la variance à coup de transformation log, ça marche pas mal. Ma question porte aussi bien sur les test de normalité que d'indépendance des données qui sont effectivement à la base d'un très grand nombre d'approche stat, série temporelle ou pas.
Je pense que la question de la puissance n'est pas en cause. La puissance c'est P(H1|H1)=1-beta, mon problème c'est que je conclus H1 alors que j'ai des raisons de croire (e.g. QQplot, OK c'est pas objectif alors que le calcul l'est) que H0 est vraie : P(H1|H0)=alpha. Je ne remets pas en cause la construction des tests qui assure le contrôle de l'erreur de première espèce. Ce que je dis c'est que la différence minimale que le test va être en mesure de mettre en évidence pour conclure au rejet ou non de H0 est une fonction décroissante de l'effectif.
D'où des situations dans lesquelles 1) 30 données, QQplot pas trop sexy mais Shapiro-Wilk OK 2) 600 données QQplot impec et Shapiro-wilk pas OK. Même chose pour le Stoffer-Toloi (i.e. Ljung-Box adapté pour les données manquantes).
Après je comprends les arguments autour de la robustesse des méthodes, j'entends aussi "le résultat reste valable dans son aspect descriptif". Mais compte tenu du fait que la démarche dans laquelle on s'inscrit en stat est l'inférence :
@+
Merci beaucoup de ta réponse. Je précise ma question.
Je fais référence à l'ANOVA uniquement pour opposer :
- une situation contrôlée dans laquelle on définit a priori la différence que l'on veut mettre en évidence et pour laquelle on va calculer l'effectif minimal (i.e. financièrement optimal) pour la mettre en évidence;
- à une situation non contrôlée dans laquelle le nombre de données que l'on a détermine la différence que l'on va être en mesure de mettre en évidence, et donc, indépendamment de la différence que l'on souhaiterait mettre en évidence.
Ainsi, l'ANOVA en elle même et sa légendaire robustesse ne sont pas le sujet. Pour fixer les idées, je fais des modèles espace d'état sur des données notoirement log-normale dont je stabilise la variance à coup de transformation log, ça marche pas mal. Ma question porte aussi bien sur les test de normalité que d'indépendance des données qui sont effectivement à la base d'un très grand nombre d'approche stat, série temporelle ou pas.
Je pense que la question de la puissance n'est pas en cause. La puissance c'est P(H1|H1)=1-beta, mon problème c'est que je conclus H1 alors que j'ai des raisons de croire (e.g. QQplot, OK c'est pas objectif alors que le calcul l'est) que H0 est vraie : P(H1|H0)=alpha. Je ne remets pas en cause la construction des tests qui assure le contrôle de l'erreur de première espèce. Ce que je dis c'est que la différence minimale que le test va être en mesure de mettre en évidence pour conclure au rejet ou non de H0 est une fonction décroissante de l'effectif.
D'où des situations dans lesquelles 1) 30 données, QQplot pas trop sexy mais Shapiro-Wilk OK 2) 600 données QQplot impec et Shapiro-wilk pas OK. Même chose pour le Stoffer-Toloi (i.e. Ljung-Box adapté pour les données manquantes).
Après je comprends les arguments autour de la robustesse des méthodes, j'entends aussi "le résultat reste valable dans son aspect descriptif". Mais compte tenu du fait que la démarche dans laquelle on s'inscrit en stat est l'inférence :
autrement dit c'est parce que j'ai fait l'hypothèse de normalité et d'indépendance que j'ai pu construire ma méthode et en conclusion que mes résultats sont justes, compte tenu de cela donc, je serais plus à l'aise avec une validation des hypothèses de base.Wikipédia a écrit:L'inférence est un mouvement de la pensée allant des principes à la conclusion. C'est une opération qui permet de passer d'une ou plusieurs assertions, des énoncés ou propositions affirmés comme vrais, appelés prémisses, à une nouvelle assertion qui en est la conclusion.
@+
DSIFR- Nombre de messages : 3
Date d'inscription : 10/02/2017
Re: Test de normalité, effectif et différence minimale
Même si l'approche ANOVA que vous faites est différente de celle utilisée habituellement (encore que, je n'ai pas vu vraiment pourquoi), il reste que vous faite de l'inférence qui est construite sur des lois présupposées, et notamment normales. Tout ceci n'est donc valide que si ces lois sont vérifiées, ou sinon, on s'assure que la méthode utilisée reste valide même si on s'écarte de la normalité. Qu'on y mettre des tests d'ajustement à des lois ou non. Ce que je dis reste valide: Les tests de comparaison à des lois (normales ou autre) ne sont généralement ni puissants, ni convaincants. Désolé.
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1237
Date d'inscription : 14/09/2012
Re: Test de normalité, effectif et différence minimale
A noter : Difficile de faire une inférence à partir de la réussite d'un test de Normalité. Il ne prouve rien. Tout ce qu'on sait, c'est que l'échantillon pourrait avoir été obtenu à partir d'une variable gaussienne, ce qui ne dit pas que la variable échantillonnée l'est.
Cordialement.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Test de normalité, effectif et différence minimale
Bonjour,
https://perso.univ-rennes1.fr/denis.poinsot/Statistiques_%20pour_statophobes/STATISTIQUES%20POUR%20STATOPHOBES.pdf
cdlt
Le problème auquel tu fais référence ici est bien plus large que la normalité des données, mais est un problème bien connu qui participe à la critique des tests statistiques par de nombreux auteurs. Plus le nombre de données augmente et plus la puissance du test augmente et plus H0 aura tendance à être rejetée. Pour rendre un test significatif il suffit d'augmenter la quantité de données. Par exemple deux régressions avec le même R² que l'on considérera très faibles, seront significatives ou non selon la quantité de données disponibles. C'est très bien détaillé aux pages 75 à 86 de ce pdf, manque des références derrières mais je suis sur que sur le net on trouvera pas mal de choses sur la question.DSIFR a écrit:Cela se traduit par des situations paradoxales : pour des effectifs réduits on constate des écart importants graphiquement (e.g. qqplot, acf) mais à des tests conduisant au non rejet des situations de normalité et/ou d'indépendance alors que pour des effectifs très importants (e.g. 600+), avec des éléments graphiques rassurant, les tests conduisent au rejet des hypothèses de normalité et/ou d'indépendance.
https://perso.univ-rennes1.fr/denis.poinsot/Statistiques_%20pour_statophobes/STATISTIQUES%20POUR%20STATOPHOBES.pdf
cdlt
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Test de normalité, effectif et différence minimale
Merci beaucoup pour ce pdf Droopy, c'est bien mon problème qui y est traité et je regrette effectivement qu'il n'y ait pas une bonne ref à citer. Mais c'est une approche plein de bon sens que je prône depuis un moment déjà, de regarder ses données et de les sentir, mais comme discuté dans le doc, la nécessité de publier oblige à avoir de la ref sous le coude.
Encore merci
@+
Encore merci
@+
DSIFR- Nombre de messages : 3
Date d'inscription : 10/02/2017
Re: Test de normalité, effectif et différence minimale
Je pense que tu trouveras pas mal d'informations concernant la critique des tests et des p-values dans la littérature notamment celle associées aux méta-analyses.
cdlt
cdlt
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Sujets similaires
» Test de la différence significative minimale (DSM)
» Test du khi carré, recherche de l'effectif théorique
» test de normalité en ACP
» Test T et Normalité
» test de normalité
» Test du khi carré, recherche de l'effectif théorique
» test de normalité en ACP
» Test T et Normalité
» test de normalité
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
|
|