Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Normalisation d'une variable
2 participants
Page 1 sur 1
Normalisation d'une variable
Bonjour à tous,
L'une des conditions d'utilisation de l'ANOVA est la normalité de la variable à expliquer.
Avant de me lancer dans cette analyse, j'ai effectué un test d'homogénéité des variances, pour ma variable à expliquer selon les différentes modalités de mes 2 facteurs.
Celui-ci c'est avéré significatif pour mes 2 facteurs. J'ai donc vérifié la normalité de ma variable à expliquer à l'aide d'un test de shapiro-wilk, qui s'est avéré être significatif => La distribution de ma variable à expliquer est donc différente d'une distribution normale.
J'ai lu différentes documentations concernant la transformation de variables.
J'ai donc essayé les plus connues x -> log(x+c) , x -> log10(x+c) , x -> sqrt(x) , et ai retesté la normalité de ma variable transformée pour chacune des transformations ci-dessus, mais mon test reste malgré tout significatif.
Existe t'il d'autres transformations?
Est il possible que ma variable ne soit pas normalisable?
Voici quelques descriptions concernant ma variable à expliquer :
> summary(as.numeric(knee2_anova2$mesure))
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000 1.300 3.500 4.053 6.000 26.000
> summary(as.factor(knee2_anova2$mesure))
0 2.1 2.3 3.1 2 3.9 3.2 1.2 3.6 4
475 44 39 39 38 38 37 36 36 36
2.9 3 3.7 4.4 1.7 4.3 1.6 3.3 4.9 2.2
33 33 33 33 32 32 31 31 31 30
4.1 2.4 2.7 3.5 5 1.9 3.4 3.8 4.7 1.1
30 29 29 29 29 28 28 28 28 27
2.6 2.8 5.7 5.9 6.1 4.5 5.3 1.3 1.8 4.6
27 27 27 26 26 25 25 24 24 24
5.4 6.3 1.4 4.2 5.6 6 1 6.5 2.5 7.2
24 24 23 23 23 23 22 22 21 21
0.7 5.1 5.5 5.8 4.8 5.2 6.9 6.2 6.4 7.8
20 20 20 20 19 19 19 18 18 18
8.2 6.7 0.9 7.5 8.1 0.8 1.5 7.1 7.3 7.6
18 17 16 16 16 15 14 14 14 14
7.7 7.9 8.3 8 0.6 10.4 6.8 8.5 8.9 9.4
14 13 13 12 11 11 11 11 11 11
6.6 7 7.4 8.6 0.3 10.6 8.8 9 9.3 10
10 10 10 10 9 9 9 9 9 8
9.5 9.7 0.4 0.5 10.1 10.2 10.3 8.4 8.7 (Other)
8 8 7 7 7 7 7 7 7 140
> shapiro.test(as.numeric(knee2_anova2$mesure))
Shapiro-Wilk normality test
data: as.numeric(knee2_anova2$mesure)
W = 0.9062, p-value < 2.2e-16
> shapiro.test(as.numeric(knee2_anova2$mesurelog))
Shapiro-Wilk normality test
data: as.numeric(knee2_anova2$mesurelog)
W = 0.9255, p-value < 2.2e-16
> shapiro.test(as.numeric(knee2_anova2$mesurelog10))
Shapiro-Wilk normality test
data: as.numeric(knee2_anova2$mesurelog10)
W = 0.9255, p-value < 2.2e-16
> shapiro.test(as.numeric(knee2_anova2$mesuresqrt))
Shapiro-Wilk normality test
data: as.numeric(knee2_anova2$mesuresqrt)
W = 0.9418, p-value < 2.2e-16
Merci pour votre aide,
A bientôt,
Melissa
L'une des conditions d'utilisation de l'ANOVA est la normalité de la variable à expliquer.
Avant de me lancer dans cette analyse, j'ai effectué un test d'homogénéité des variances, pour ma variable à expliquer selon les différentes modalités de mes 2 facteurs.
Celui-ci c'est avéré significatif pour mes 2 facteurs. J'ai donc vérifié la normalité de ma variable à expliquer à l'aide d'un test de shapiro-wilk, qui s'est avéré être significatif => La distribution de ma variable à expliquer est donc différente d'une distribution normale.
J'ai lu différentes documentations concernant la transformation de variables.
J'ai donc essayé les plus connues x -> log(x+c) , x -> log10(x+c) , x -> sqrt(x) , et ai retesté la normalité de ma variable transformée pour chacune des transformations ci-dessus, mais mon test reste malgré tout significatif.
Existe t'il d'autres transformations?
Est il possible que ma variable ne soit pas normalisable?
Voici quelques descriptions concernant ma variable à expliquer :
> summary(as.numeric(knee2_anova2$mesure))
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.000 1.300 3.500 4.053 6.000 26.000
> summary(as.factor(knee2_anova2$mesure))
0 2.1 2.3 3.1 2 3.9 3.2 1.2 3.6 4
475 44 39 39 38 38 37 36 36 36
2.9 3 3.7 4.4 1.7 4.3 1.6 3.3 4.9 2.2
33 33 33 33 32 32 31 31 31 30
4.1 2.4 2.7 3.5 5 1.9 3.4 3.8 4.7 1.1
30 29 29 29 29 28 28 28 28 27
2.6 2.8 5.7 5.9 6.1 4.5 5.3 1.3 1.8 4.6
27 27 27 26 26 25 25 24 24 24
5.4 6.3 1.4 4.2 5.6 6 1 6.5 2.5 7.2
24 24 23 23 23 23 22 22 21 21
0.7 5.1 5.5 5.8 4.8 5.2 6.9 6.2 6.4 7.8
20 20 20 20 19 19 19 18 18 18
8.2 6.7 0.9 7.5 8.1 0.8 1.5 7.1 7.3 7.6
18 17 16 16 16 15 14 14 14 14
7.7 7.9 8.3 8 0.6 10.4 6.8 8.5 8.9 9.4
14 13 13 12 11 11 11 11 11 11
6.6 7 7.4 8.6 0.3 10.6 8.8 9 9.3 10
10 10 10 10 9 9 9 9 9 8
9.5 9.7 0.4 0.5 10.1 10.2 10.3 8.4 8.7 (Other)
8 8 7 7 7 7 7 7 7 140
> shapiro.test(as.numeric(knee2_anova2$mesure))
Shapiro-Wilk normality test
data: as.numeric(knee2_anova2$mesure)
W = 0.9062, p-value < 2.2e-16
> shapiro.test(as.numeric(knee2_anova2$mesurelog))
Shapiro-Wilk normality test
data: as.numeric(knee2_anova2$mesurelog)
W = 0.9255, p-value < 2.2e-16
> shapiro.test(as.numeric(knee2_anova2$mesurelog10))
Shapiro-Wilk normality test
data: as.numeric(knee2_anova2$mesurelog10)
W = 0.9255, p-value < 2.2e-16
> shapiro.test(as.numeric(knee2_anova2$mesuresqrt))
Shapiro-Wilk normality test
data: as.numeric(knee2_anova2$mesuresqrt)
W = 0.9418, p-value < 2.2e-16
Merci pour votre aide,
A bientôt,
Melissa
elfidream- Nombre de messages : 16
Date d'inscription : 10/11/2009
Re: Normalisation d'une variable
Salut,
il n'est pas forcément nécessaire d'avoir la normalité ni l'homoscédasticité mais il faut pour cela que :
- les effectifs soient suffisant (on va dire à la louche 20 individus par condition)
- les effectifs ne soient pas trop différents entre les catégories.
Au niveau des transformations, c'est toujours un peu n'importe quoi de toute façon si l'objetif d'une transformation est simplement de coller aux prérequis d'un test statistique. Une transformation ne doit se faire que si la question biologique le justififie. Par exemple dans le cas de la transformation log, il s'agit de passer dans un cadre additif (plus facilement gérable) un phénomène que l'on sait ou suppose être multiplicatif. Les transfos en log(x+c) n'ont pas de justification.
Une autre transformation possible est celle de box-cox qui se fait dans le cadre d'un modèle.
Nik
il n'est pas forcément nécessaire d'avoir la normalité ni l'homoscédasticité mais il faut pour cela que :
- les effectifs soient suffisant (on va dire à la louche 20 individus par condition)
- les effectifs ne soient pas trop différents entre les catégories.
Au niveau des transformations, c'est toujours un peu n'importe quoi de toute façon si l'objetif d'une transformation est simplement de coller aux prérequis d'un test statistique. Une transformation ne doit se faire que si la question biologique le justififie. Par exemple dans le cas de la transformation log, il s'agit de passer dans un cadre additif (plus facilement gérable) un phénomène que l'on sait ou suppose être multiplicatif. Les transfos en log(x+c) n'ont pas de justification.
Une autre transformation possible est celle de box-cox qui se fait dans le cadre d'un modèle.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Sujets similaires
» liaison:variable quali#variable quanti, très urgent
» Corrélation entre variable continue et variable discrète
» Relation entre variable nominale et variable ordinale
» Un test sur variable Integer ~ variable binaire
» [Résolu] Variable polytomique et variable dichotomique
» Corrélation entre variable continue et variable discrète
» Relation entre variable nominale et variable ordinale
» Un test sur variable Integer ~ variable binaire
» [Résolu] Variable polytomique et variable dichotomique
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum