Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
La log-transformation est dangereuse ?
2 participants
Page 1 sur 1
La log-transformation est dangereuse ?
Bonjour,
La log-transformation est souvent utilisée sur des données positives afin de :
- baisser la variabilité du jeu de données
- réduire un skewness positif
- donner une allure normale aux données
Cependant, certains de ces points de sont pas toujours vérifiés, surtout lorsque les données sont proches de 0.
Une log-transformation peut alors augmenter la variabilité ainsi que le skewness.
Il est proposé d'ajouter une constant "M" aux données avant de les log-transformer afin que la plus petite des données soit suppérieure ou égale à 1 afin d'évite les problèmes cités juste avant.
Cependant, en prenant l'exemple d'un test de student, si on compare des groupes log-transformés dans deux cas de figure : "sans ajout" et "avec ajout de M", la p-valeur peut être impactée.
Qu'est-ce-que vous préconisez dans le cas de figure où on veut log-transformer ses données ?
Ajouter une constante M pour avoir des données suppérieures à 1 et potentiellement se heurter aux problèmes de puissance ou ne pas additionner de constante M et se heurter aux problèmes de variance et de skewness ?
Merci d'avance.
La log-transformation est souvent utilisée sur des données positives afin de :
- baisser la variabilité du jeu de données
- réduire un skewness positif
- donner une allure normale aux données
Cependant, certains de ces points de sont pas toujours vérifiés, surtout lorsque les données sont proches de 0.
Une log-transformation peut alors augmenter la variabilité ainsi que le skewness.
Il est proposé d'ajouter une constant "M" aux données avant de les log-transformer afin que la plus petite des données soit suppérieure ou égale à 1 afin d'évite les problèmes cités juste avant.
Cependant, en prenant l'exemple d'un test de student, si on compare des groupes log-transformés dans deux cas de figure : "sans ajout" et "avec ajout de M", la p-valeur peut être impactée.
Qu'est-ce-que vous préconisez dans le cas de figure où on veut log-transformer ses données ?
Ajouter une constante M pour avoir des données suppérieures à 1 et potentiellement se heurter aux problèmes de puissance ou ne pas additionner de constante M et se heurter aux problèmes de variance et de skewness ?
Merci d'avance.
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: La log-transformation est dangereuse ?
La réponse est que la transformation n'est à utiliser que si on retombe sur des lois normales. C'est sur ces lois (ou lois de Student) que le test-t est construit. Ce n'est donc pas une affaire de choix, mais une obligation. Ou bien on part sur d'autres tests que le test-t. Je pense que c'est aussi simple que cela.
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: La log-transformation est dangereuse ?
Entièrement d'accord sur le fait que la normalité est à définir en fonction du test que l'on va utiliser derrière.
On ne peut pas dire "cette variable est normale", c'est vrai et pas vrai.
Si on veut faire un two-way ANOVA ou un t-test, les hypothèses de normalité sont différentes, sachant que pour les tests de comparaison de moyennes, le kurtosis (platykurtosis) a un impact beaucoup plus élevé sur la puissance du test que le skewness.
Mais voilà, c'est sur le fait de se dire "quel est le choix le moins pire" (oui ce n'est pas français) que je me pose la question.
J'ai simulé 100000 fois 2 groupes A et B de 30 individus chacun, suivant chacun une loi log-normale.
J'ai créé un autre groupe U dans lequel les données des groupes A et B n'ont pas l'ajout d'une constante M avant log-transformation et un groupe V dans lequel les données des groupes A et B on l'ajout d'une constante M=1 avant log-transformation.
J'applique ensuite un t-test sur chacune des 100000 paires de groupes A et B dans les ensembles U et V. Le résultat est assez effrayant.
J'obtiens 50% de résultats dont la p-valeur a un écart d'au moins 0.06 entre les comparaisons entre les t-tests des ensembles U et V.
D'où ma peur d'ajouter cette petite constante "M" qui peut avoir un impact énorme sur les résultats.
On ne peut pas dire "cette variable est normale", c'est vrai et pas vrai.
Si on veut faire un two-way ANOVA ou un t-test, les hypothèses de normalité sont différentes, sachant que pour les tests de comparaison de moyennes, le kurtosis (platykurtosis) a un impact beaucoup plus élevé sur la puissance du test que le skewness.
Mais voilà, c'est sur le fait de se dire "quel est le choix le moins pire" (oui ce n'est pas français) que je me pose la question.
J'ai simulé 100000 fois 2 groupes A et B de 30 individus chacun, suivant chacun une loi log-normale.
J'ai créé un autre groupe U dans lequel les données des groupes A et B n'ont pas l'ajout d'une constante M avant log-transformation et un groupe V dans lequel les données des groupes A et B on l'ajout d'une constante M=1 avant log-transformation.
J'applique ensuite un t-test sur chacune des 100000 paires de groupes A et B dans les ensembles U et V. Le résultat est assez effrayant.
J'obtiens 50% de résultats dont la p-valeur a un écart d'au moins 0.06 entre les comparaisons entre les t-tests des ensembles U et V.
D'où ma peur d'ajouter cette petite constante "M" qui peut avoir un impact énorme sur les résultats.
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: La log-transformation est dangereuse ?
Je ne pense pas. Un t-test n'est rien moins qu'un cas particulier d'une ANOVA, qui elle-même est un cas particulier d'un modèle linéaire général. Tout ceci est bati sur les mêmes hypothèses et les mêmes conditions d'application, etc.zezima a écrit:Si on veut faire un two-way ANOVA ou un t-test, les hypothèses de normalité sont différentes
La théorie est claire : Il faut que les variables mesurées aient une loi normale (de même variance). Un point - une barre.
Ensuite alors commence la discussion (mais s'en est une autre) de savoir comment vérifier sur les lois observées sont normales ou pas. Et il y a eu déjà pas mal de discussions sur ce forum à ce sujet. Au besoin, il faut effectivement faire des transformations (log ou autres) ou partir sur d'autres procédures stats (GLM, non-paramétriques, etc.). Et/Ou bien, on se base sur la notoriété de la variable mesurée comme étant normale (e.g., longueur, poids, distance, surface, etc.), ou on s'appuie sur la robustesse bien connue du modèle linéaire général aux écarts de normalité.
Comme ceci a également été discuté de nombreuses fois ici, les tests de conformité à des lois (normales ou autres) manquent pathologiquement de puissance, et ne sont guère utiles en pratique.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: La log-transformation est dangereuse ?
Dans les articles scientifiques que j'ai lu, il y a eu une analyse approfondie de la normalité et des impacts, pas seulement au niveau des tests mais également sur les paramètres de normalité.
Il est recensé dans la littérature et à l'aide de nombreuses simulations pour une one-way ANOVA:
"La normalité d'une one-way ANOVA a un impact important si le kurtosis est extrême (<-1 ou >2), le skewness n'a pas de grand impact sur le risque alpha ou la puissance si les groupes ont des tailles équilibrées."
"Un platykurtosis peut avoir un sérieux impact sur les effets du test, surtout lorsque les tailles d'échantillon sont faibles."
"L'ANOVA est sensible au skewness si les tailles d'échantillons sont très déséquilibrées."
Pour la two-way ANOVA :
"La variable dépendante est estimée normale si elle est normalement distribuée dans chaque niveau de chaque variable catégorielle."
Pour l'ANCOVA, les modèles aléatoire ou mixtes, les hypothèses de normalité sont également différentes et ça se comprend totalement.
Je ne pense pas que la normalité soit à prendre à la légère, compte tenu de l'importance des tests et des conclusions qui sont portées dessus. On a une puissance qui peut évoluer énormément si on n'utilise pas le bon test ou la bonne transformation des données et je viens de le vérifier avec des simulations très basiques, c'est pourquoi, compte tenu des enjeux (sacrifice innutile d'animaux pour des études biaisées, temps consacré sur les études par plusieurs professionnels, possibilité de passer à côté d'un résultat intéressant, possibilité de continuer une étude qui n'a pas lieu d'être), je m'attache beaucoup à cette question de normalité qui va être la base d'analyses standardisées pour chaque variables. C'est une grosse décision je pense, et mon laboratoire ne s'en rend peut être pas compte.
Les discussions sur le forums étaient intéressantes oui, mais j'ai également trouvé des choses intéressantes dans la littérature et en faisant des simulations (certes loin d'être optimisées car je ne suis pas un spécialiste de la simulation).
Dans tous les laboratoires où j'ai été, la normalité était mesurée n'importe comment et les transformations étaient effectuées sans tenir compte des effets secondaires que cela pouvait impliquer.
Exemple :
J'estime que ma variable ne suit pas une loi normale, je vais donc log-transformer ma variable pour baisser mon skewness et baisser ma variabilité (chose qui n'est pas vraie dans un nombre conséquent de cas, surtout lorsque les valeurs de la variable sont proches de 0) afin d'avoir une allure normale.
Pour corriger ce problème spécifique à cette variable, on ajoute une constante à notre variable biologie afin d'avoir un minimum de 1 pour chaque valeur. Mais cette transformation biaise la puissance et le risque de première espèce associé à la comparaison de cette variable.
Changyong FENG a écrit un article dessus appelé "Log-transformation and its implications for data analysis".
Concernant l'évaluation de la normalité en fonction des tests, il y a plusieurs articles comme "assessing normality in random effects models" (Nicholas Lange and Louise Ryan) ou encore "Evaluating univariate, bivariate and multivariate normality using graphical and statistical procedures" (tom burdenski).
Il y en a plein d'autres sur le même sujet mais une grande partie est payante.
Il est recensé dans la littérature et à l'aide de nombreuses simulations pour une one-way ANOVA:
"La normalité d'une one-way ANOVA a un impact important si le kurtosis est extrême (<-1 ou >2), le skewness n'a pas de grand impact sur le risque alpha ou la puissance si les groupes ont des tailles équilibrées."
"Un platykurtosis peut avoir un sérieux impact sur les effets du test, surtout lorsque les tailles d'échantillon sont faibles."
"L'ANOVA est sensible au skewness si les tailles d'échantillons sont très déséquilibrées."
Pour la two-way ANOVA :
"La variable dépendante est estimée normale si elle est normalement distribuée dans chaque niveau de chaque variable catégorielle."
Pour l'ANCOVA, les modèles aléatoire ou mixtes, les hypothèses de normalité sont également différentes et ça se comprend totalement.
Je ne pense pas que la normalité soit à prendre à la légère, compte tenu de l'importance des tests et des conclusions qui sont portées dessus. On a une puissance qui peut évoluer énormément si on n'utilise pas le bon test ou la bonne transformation des données et je viens de le vérifier avec des simulations très basiques, c'est pourquoi, compte tenu des enjeux (sacrifice innutile d'animaux pour des études biaisées, temps consacré sur les études par plusieurs professionnels, possibilité de passer à côté d'un résultat intéressant, possibilité de continuer une étude qui n'a pas lieu d'être), je m'attache beaucoup à cette question de normalité qui va être la base d'analyses standardisées pour chaque variables. C'est une grosse décision je pense, et mon laboratoire ne s'en rend peut être pas compte.
Les discussions sur le forums étaient intéressantes oui, mais j'ai également trouvé des choses intéressantes dans la littérature et en faisant des simulations (certes loin d'être optimisées car je ne suis pas un spécialiste de la simulation).
Dans tous les laboratoires où j'ai été, la normalité était mesurée n'importe comment et les transformations étaient effectuées sans tenir compte des effets secondaires que cela pouvait impliquer.
Exemple :
J'estime que ma variable ne suit pas une loi normale, je vais donc log-transformer ma variable pour baisser mon skewness et baisser ma variabilité (chose qui n'est pas vraie dans un nombre conséquent de cas, surtout lorsque les valeurs de la variable sont proches de 0) afin d'avoir une allure normale.
Pour corriger ce problème spécifique à cette variable, on ajoute une constante à notre variable biologie afin d'avoir un minimum de 1 pour chaque valeur. Mais cette transformation biaise la puissance et le risque de première espèce associé à la comparaison de cette variable.
Changyong FENG a écrit un article dessus appelé "Log-transformation and its implications for data analysis".
Concernant l'évaluation de la normalité en fonction des tests, il y a plusieurs articles comme "assessing normality in random effects models" (Nicholas Lange and Louise Ryan) ou encore "Evaluating univariate, bivariate and multivariate normality using graphical and statistical procedures" (tom burdenski).
Il y en a plein d'autres sur le même sujet mais une grande partie est payante.
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Sujets similaires
» Transformation de BOX-COX
» une transformation R->[0,1]
» MANOVA et transformation des données
» Welch test ou log-transformation
» transformation pour ACP
» une transformation R->[0,1]
» MANOVA et transformation des données
» Welch test ou log-transformation
» transformation pour ACP
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum