Analyse de la normalité

Voir le sujet précédent Voir le sujet suivant Aller en bas

Analyse de la normalité

Message par zezima le Mer 9 Nov 2016 - 13:14

Bonjour,

Dans le laboratoire dans lequel je travaille, l'analyse de la normalité de chaque paramètre est faite à l'aide d'un test de Shapiro.
Etant donné que je travaille en pré-clinique et que les sample size ne sont pas très élevés (souvent inférieur à 20), le Shapiro ne doit pas être très robuste.

C'est pourquoi je me demandais si vous connaissiez des astuces, des recommandations pour faire une analyse de la normalité.
Je me base personnellement sur des histogrammes avec le nombre de barres le plus élevé possible ainsi que des QQplots me donnant des informations sur l'allure de mes données. Je me base au final sur une analyse plutôt subjective dans certains cas de figures et j'aimerais faire attention à d'autres paramètres des données.

Ces deux graphiques (histogrammes et QQplolt) sont des indices mais je voulais savoir si vous vous basiez sur des éléments plus précis comme le Skewness ou le Kurtosis ou encore des tests de normalité différents du test de Shapiro pour pouvoir évaluer la normalité d'un jeu de donnée ?

Je vous remercie d'avance.

zezima

Nombre de messages : 493
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par Eric Wajnberg le Mer 9 Nov 2016 - 14:38

Le faible nombre de valeurs n’entache pas la robustesse d'un test de Shapiro. En revanche, c'est sa puissance qui est très faible.

D'une manière générale, les procédures de confrontation à des lois (normale par exemple) sont pathologiquement souvent peu puissantes. Il faut avoir beaucoup de données et s'écarter pas mal de la distribution théorique comparée pour tomber sur un test significatif. Il n'y a guère qui puisse être fait ici.

Réciproquement, si on tombe sur un test significatif, alors on sait qu'on n'est vraiment "pas dans les clous".

Généralement, on s'en remet à des procédures graphiques, comme des QQplots effectivement, ou des graphes de résidus dans des schémas de régression.

Désolé de ne pas être plus utile que ça..

Eric.

Eric Wajnberg

Nombre de messages : 306
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par zezima le Mer 9 Nov 2016 - 15:50

Merci pour ton avis.

D'accord donc le Shapiro sur de petits échantillons nous donne de grosses chances d'avoir tort lorsqu'on ne rejette pas H0 ? On aurait plus de chances d'avoir des pvaleurs élevées par manque de preuves (de sample size).

Par contre si le test est significatif, il aura plus de poids.

En gros, l'analyse de la normalité est surtout dépendant de notre échantillon et non de notre type d'analyse au final, car un histogramme ou un QQplot va pas forcément avoir beaucoup de poids sur 10 souris.


zezima

Nombre de messages : 493
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par gg le Jeu 10 Nov 2016 - 8:30

Bonjour Zezima.

L'inconvénient des tests de Normalité est qu'ils sont faits à postériori : Plutôt que de chercher à savoir si la distribution sous-jacente est gaussienne, on regarde l'échantillon obtenu et on essaie de savoir si une distribution gaussienne aurait pu donner ce type d'échantillon. Plus exactement, comme elle aurait pu, si le type de distribution de cet échantillon fait partie des 95% (ou 99 %) des échantillons gaussiens qui sont les plus proches de l'idéal.

Voila pourquoi, lorsque c'est possible, il est utile de chercher avant si on a une distribution sous-jacente gaussienne. Même si c'est seulement approximatif, c'est un argument bien plus fort que "l'échantillon passe un test de Normalité".

Enfin, j'imagine qu'il est inutile de te rappeler que même pour une variable gaussienne, il arrive qu'un échantillon ne réussisse pas un test de Normalité. Je le note pour d'éventuels lecteurs moins au fait des tests.

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par c@ssoulet le Jeu 10 Nov 2016 - 8:31

Il y a un vieil article qui traite de ce sujet que tu peux télécharger ici. J'ai jamais trouvé d'explication plus simple et plus claire.

Bon, la conclusion c'est que ca dépend beaucoup des analyses que tu veux faire derrière et que ca reste un peu pifométrique, mais là au moins tu comprends bien pourquoi.

https://eudml.org/doc/105930

c@ssoulet

Nombre de messages : 646
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par zezima le Mar 15 Nov 2016 - 12:53

Merci pour vos avis, c'est très intéressant.

Ce n'est donc pas forcément la distribution de l'échantillon qui importe mais plutôt la distribution de la population dont il est issu.

Je vais me pencher sur ton article c@ssoulet, je reviens vers vous quand j'en saurais un peu plus.

zezima

Nombre de messages : 493
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par gg le Mar 15 Nov 2016 - 13:48

Zezima,

dans la théorie des tests, pour ceux pour lesquels la question se pose, c'est toujours la variable aléatoire dont on a des réalisations qui est Normale. Pour un échantillon, ça n'a pas de sens (série discrète !). Les tests de Normalité n'ont donc comme principale utilité que de confirmer qu'il est peu probable que la variable soit gaussienne, vue la gueule de l'échantillon. Car ils ne peuvent pas prouver la Normalité
C'est d'ailleurs pourquoi je suis toujours étonné de la surestimation de l'importance de ce genre de test. Peut-être quelqu'un ici pourra me donner une bonne raison de les faire.

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par c@ssoulet le Mar 15 Nov 2016 - 16:46

Parce que sur de petits effectifs le test n'est pas assez puissant pour rejeter l'hypothèse de normalité, donc on conclut presque à tous les coups que l'on peut utiliser un test paramétrique et vu que ça arrange celui qui fait les stats il trouve ça très pratique.

Je déconne. Enfin, je déconne.... Pas tant que ça....

c@ssoulet

Nombre de messages : 646
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par gg le Mar 15 Nov 2016 - 18:44

Merci C@ssoulet,

de cette réponse qui est proche de ce que je pense souvent.

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par Eric Wajnberg le Mer 16 Nov 2016 - 5:51

c@ssoulet a écrit:Parce que sur de petits effectifs le test n'est pas assez puissant pour rejeter l'hypothèse de normalité, donc on conclut presque à tous les coups que l'on peut utiliser un test paramétrique et vu que ça arrange celui qui fait les stats il trouve ça très pratique.

Je déconne. Enfin, je déconne.... Pas tant que ça....
Oui, mais en fait la démarche est de se fonder généralement sur la notoriété de la variable comme étant gaussienne ou non. Si on a un comptage, on est dans du Poisson. Si on a un pourcentage, on est dans du binomial. Si on mesure une longueur, un poids, une surface, etc., on est dans du gaussien, si on a une notation arbitraire, on est dans aucune loi standard connue, etc. Pas besoin d'ajustement, et pas forcément donc de partir sur du paramétrique à tous les coups..

Eric.

Eric Wajnberg

Nombre de messages : 306
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par gg le Mer 16 Nov 2016 - 10:47

Merci Eric.

Ton intervention raisonnable est cependant très loin de ce qu'on voit dans certains "cours de statistiques". Mais j'ai commencé ma carrière en parallèle (lointain, heureusement) d'un "prof" qui faisait des moyennes et variances sur des séries qualitatives ("très favorable","favorable", ...) !!

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par zezima le Mer 16 Nov 2016 - 13:25

D'accord, donc dans l'absolue le mieux est de prendre les données historiques de la variable concernée, de tout pooler pour avoir un échantillon assez conséquent et d'étudier la normalité des résidus d'un modèle robuste j'imagine.
Tout ça, bien entendu, dans le cadre où les pharmacologistes demandent un test de normalité sur la variable concernée.

zezima

Nombre de messages : 493
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par Eric Wajnberg le Mer 16 Nov 2016 - 13:38

gg a écrit:Merci Eric.

Ton intervention raisonnable est cependant très loin de ce qu'on voit dans certains "cours de statistiques". Mais j'ai commencé ma carrière en parallèle (lointain, heureusement) d'un "prof" qui faisait des moyennes et variances sur des séries qualitatives ("très favorable","favorable", ...) !!

Cordialement.
On aimerait bien faire mieux que ce que je propose, mais - encore une fois - les tests d'ajustement manquent sérieusement de puissance...

Eric.

Eric Wajnberg

Nombre de messages : 306
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par c@ssoulet le Jeu 17 Nov 2016 - 9:26

Le vrai problème est que tous les gens qui font des stats ne sont pas statisticiens. Pour beaucoup, les tests se limitent à chi2 et ttest/wilcoxon et ils n'ont retenu qu'une règle simple: si les données ne sont pas normales, faire wilcoxon.

C'est quoi une distribution normale ? Quels écarts à la normalité peut on se permettre ? Qu'es ce qui doit etre distribué normalement, la population totale ou les sous groupes ? Et en plus, quand on fait un wilcoxon, on ne travaille pas sur les moyennes et ecarts types alors qu'on a l'habitude de ca et qu'on veut présenter les données comme ca. Et on sait a peu près écrire en Français la signification d'un ttest (les 2 moyennes sont significativement différentes) alors que pour un non paramétrique c'est vachement plus mystérieux et on est bien emmerdés avec ca.

Et un jour, un copain te file un tuyau: il existe des tests pour ca, ca sort un p donc c'est incontestable, et en plus ca marche à peu près à tous les coups, surtout si tu n'as pas trop de données.

C'est super, c'est facile, c'est même pas la peine de réfléchir, ca permet la plupart du temps de ne pas utiliser le test chiant, que demander de plus ?

Et là je parle de ceux qui ont un tout petit peu réfléchi au truc. Parce que ceux qui balancent quelques tests au pif et qui prennent le p qui les arrange ca existe aussi. De moins en moins parce que les gens sont de plus en plus sensibilisés à l'importance des stats/méthodo, mais ca existe encore.

c@ssoulet

Nombre de messages : 646
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par Eric Wajnberg le Jeu 17 Nov 2016 - 10:56

Oui, d'accord avec tout ça. A un détail près :

Depuis l'avènement du GLM, il y a une vie en dehors du gaussien, tout en restant paramétrique. On sait maintenant traiter puissamment des données de comptages, de pourcentages, de durées, etc., sans avoir recourt au non-paramétrique, y compris pour des petits effectifs. Ca enlève pas mal d'épines dans le pied, même si je constate que ça passe encore au-dessus de la tête de pas mal de gens.. Et pas nécessairement d'inférence pour comparer les données à des lois connues dans ce cas.

Eric.

Eric Wajnberg

Nombre de messages : 306
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par Nik le Ven 18 Nov 2016 - 8:35

Une petite contribution à cet échange tout à fait juste et intéressant Smile

même si je constate que ça passe encore au-dessus de la tête de pas mal de gens
En dehors du monde de la recherche, je dirais que 75% des gens ne connaissent que le test d'hypothèse. En entreprise, quand on demande des analyses "simples", on nous sort quasiment systématiquement du test.

Pour ma part, je suis assez convaincu par le fait que la plupart des situations ne se prêtent pas à un test d'hypothèse "classique". La plupart du temps les hypothèses testées sont dramatiquement simplistes et du coup souvent fausses par rapport à ce qu'on cherche à mettre en évidence.

Je crois qu'on aura encore de nombreuses fois ce type de discussion car je ne vois pas de tendance au changement.

Nik

Nik

Nombre de messages : 1500
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par Eric Wajnberg le Ven 18 Nov 2016 - 9:22

Nik a écrit:En dehors du monde de la recherche, je dirais que ..
Et pas que en dehors du monde de la recherche ..

Eric.

Eric Wajnberg

Nombre de messages : 306
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par zezima le Ven 25 Nov 2016 - 12:12

Re-bonjour,

Je reviens vers vous pour ceux qui se trouveraient dans la même situation pour vous parler de la décision finale que nous avons discuté avec mon équipe et un expert stat.

- Les tests de normalité classiques sont bien entendu à laisser de côté car trop biaisés sur la théorie de - la normalité.
- Chercher la normalité sur des données biologiques ne pouvant pas avoir de données négatives est déconseillé (exemple : le poids ne peut pas être négatif), on conseille du coup de chercher la log-normalité des paramètres.
- Une analyse à 4 postulats est conseillée :
1. Analyse de l'alignement des résidus avec les quantiles de la normalité
2. Analyse du skewness, kurtosis, symétrie sur un histogramme des résidus du modèle
3. Analyse de l'homogénéité des variances des résidus et de la nullité de l'espérance de ces dernier
4. L'indépendance des résidus sur un scatter plot croisant les résidus estimés et prédits
-Une analyse Box-Cox va être privilégiée afin d'estimer l'intervalle de confiance de lambda qui correspond à une valeur qui pourra approximer la loi la plus adéquate aux résidus

zezima

Nombre de messages : 493
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par Nik le Ven 25 Nov 2016 - 14:18

on conseille du coup de chercher la log-normalité des paramètres
la log normalité des données (et non des paramètres, si je comprends bien) n'est qu'un palliatif qui amène certes à respecter les hypothèses stats mais contraint fortement la variance.
En toute rigueur on ne devrait passer par une échelle log que lorsqu'on est sûr que les processsus sous-jacents sont des processus multiplicatifs.

bref, bien être conscient que le gain à faire n'est pas là où on croit : doit on vraiment chercher la normalité pour être dans un cadre stat "confortable" ?

Nik

Nik

Nombre de messages : 1500
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par zezima le Ven 25 Nov 2016 - 15:47

C'est intéressant.

Le log des données baisse la variance au final mais en quoi est-ce un problème, si j'applique un test paramétrique pour des données qui ont été modifiées mais qui sont moins variables j'aurais donc moins de chance de trouver une différence significative ?

On a une perte de puissance lorsqu'on applique un test sur des données log-normales ?

zezima

Nombre de messages : 493
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par Nik le Ven 25 Nov 2016 - 15:59

parce que tout simplement tu n'interprète plus la même données. La discussion n'est pas vraiment d'ordre mathématique mais plutôt sur le sens de ce que tu es en train d'interpréter. Le log dénature les signaux car il a tendance donner une courbe en cloche à partir d'à peu près n'importe quoi. Donc au final on travaille les données log-transformées et on croît pouvoir conclure sur les données brutes mais c'est faux. On ne peut alors plus parler que de ce qu'on observe sur les données en log ce qui est souvent beaucoup moins intéressant.

Une chose à éviter est la transfo en amont des données. Il vaut mieux choisir un processus d'analyse qui part de la donnée non transformée et qui permet de prendre en compte toutes les spécificités. Cela veut très souvent dire qu'on oublie les tests de base et les modèles linéaires (MCO).

Nos tests/analyses portent généralement sur l'évolution de la moyenne du paramètre mais sa variance a souvent un sens scientifique tout aussi important voire comprend le seul signal qui a du sens.

Nik

Nik

Nombre de messages : 1500
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par Eric Wajnberg le Ven 25 Nov 2016 - 17:15

Et puis, une distribution log-normale n'est pas une distribution normale. On passe des heures (et plein de discussions sur ce forum) à discuter de savoir si on a bien des distributions normales, et - pour le coup on en a (peut-être) vraiment une - comme le poids justement - on la détruit en passant au log. C'est un peu se tirer une balle dans le pied, je trouve.

HTH, Eric.

Eric Wajnberg

Nombre de messages : 306
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par zezima le Jeu 1 Déc 2016 - 13:57

Bonjour (et désolé d'avance d'insister),

Avoir la normalité n'est pas ce qui nous intéresse, savoir quelle loi suit une variable nous intéresse.

Nous n'avons pas de problème à utiliser du non-paramétrique, l'équipe préfère juste pour l'interprétation des pharmacologistes des données brutes et normales si possible, c'est pour ça que je creuse sur les moyens d'estimer la normalité.

Concernant les données log-normales, en effet l'interprétation des données n'est plus la même mais nous les affichons sur des boxplots en prenant la moyenne géométrique (au lieu de la moyenne arithmétique). Mais les données sont analysées par la suite en log et pas en brut.
Et on n'analyse plus la même variable, c'est beaucoup moins intéressant, je suis d'accord.
Mais que préconisez-vous ? Prendre du non-paramétrique lorsqu'on n'a pas la normalité sur les données brute plutôt que la log-normalité lorsqu'elle est vérifiée ?

Je suis au final d'accord avec vous, il ne faut pas directement passer toutes les variables en log pour tester la normalité de façon visuelle, on perd de l'info et on peut ne plus trouver une distribution normale (kurtosis élevé souvent en log et variabilité de la variable transformée baissée) donc on va oublier ce passage que j'ai énoncé un peu plus haut.
Après avoir remarqué ça je me pose une question : est-ce que le passage en log de la variable tend à baisser la puissance ? (étant donné que la variabilité baisse)
(Pas de transfo en amont, je suis d'accord).

Ce que j'aimerais faire au final afin de m'approcher le plus possible de la "vérité", ce serait de trouver des références sur internet ou des articles qui ont prouvé que certaines variables suivaient une distribution normale, on m'a dit que ça existait (comme pour le poids qui est considéré suivre une loi normale il me semble).
On m'a préconisé les sites de la SOT (Society Of Toxicology) et CLIA mais après avoir longtemps fouillé, je n'ai rien trouvé sur des articles, est-ce que par hasard vous connaîtriez des sites ou articles similaires ?

zezima

Nombre de messages : 493
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par Nik le Ven 2 Déc 2016 - 12:31

Comme déjà évoqué il est inutile de recherché à tout prix la normalité car il existe des analyses paramétriques qui n'ont pas besoin de la normalité.

Donc la recommandation c'est : on s'en moque de la normalité. Dans ce que tu écris, ce qui interpelle le plus finalement c'est pourquoi l'équipe préfère des données suivant une loi normale ?

Pour ma part, je considère généralement que l'étude de la normalité n'a aujourd'hui quasiment plus aucun sens. Je m'en sers juste pour regarder les résidus des modèles et juger de leur importance et encore, c'est vraiment en première approche.

On insistera jamais assez sur le fait que la transfo d'une variable ne doit pas avoir comme justification première l'atteinte d'une propriété statistique particulière. En tout cas, il faut bien peser le pour et le contre car une transfo comme le log n'est pas équivalente selon par exemple qu'on soit proche ou loin de 0 ou encore si dans les données on a un mélange de distributions avec des variances différentes. Dans ce second cas, tu auras toujours une belle courbe en cloche mais qui sera complètement fausse.

Bref la lumière n'est pas dans la normalité Smile

Nik

Nombre de messages : 1500
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Analyse de la normalité

Message par Contenu sponsorisé Aujourd'hui à 20:16


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum