Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Détection d'outliers, quel test utiliser
2 participants
Page 1 sur 1
Détection d'outliers, quel test utiliser
Bonjour à tous, j'ai besoin de petites lumières au sujet du cadre théorique de détection d'outliers.
Je dispose d'un échantillon de 500 valeurs environ et j'ai observé qu'il n'est pas de loi normale au risque 5% (d'après Shapiro-Wilk) alors que lorsque je supprime les valeurs qui sortent des moustaches d'un boxplot (environ 10 sur 500), le test devient concluant.
Je me suis donc penché sur le sujet et j'ai découvert qu'il existait des tests d'hypothèse visant à déterminer si la valeur la plus éloignée de la moyenne peut être considérée comme extrème.
Ce que j'ai trouvé (package outlier sous R) c'est 3 tests qui pourraient correspondre :
- dixon.test
- grubbs.test
- chisq.out.test
Pourriez vous m'indiquer lequel est le plus fiable (puissance...), comment faut il les utiliser : est ce qu'on boucle sur ces tests en supprimant toutes les valeurs extrêmes tant que la p.value est inférieur à 5%, 1% .. ?
Remarques :
- Je précide que mon entreprise n'a pas forcément les moyen de déclencher une étude pour chaque point car il faut faire l'étude sur des dizaines de paramètres.
- Est ce que la non normalité de départ est un gros problème ?
Merci par avance
Je dispose d'un échantillon de 500 valeurs environ et j'ai observé qu'il n'est pas de loi normale au risque 5% (d'après Shapiro-Wilk) alors que lorsque je supprime les valeurs qui sortent des moustaches d'un boxplot (environ 10 sur 500), le test devient concluant.
Je me suis donc penché sur le sujet et j'ai découvert qu'il existait des tests d'hypothèse visant à déterminer si la valeur la plus éloignée de la moyenne peut être considérée comme extrème.
Ce que j'ai trouvé (package outlier sous R) c'est 3 tests qui pourraient correspondre :
- dixon.test
- grubbs.test
- chisq.out.test
Pourriez vous m'indiquer lequel est le plus fiable (puissance...), comment faut il les utiliser : est ce qu'on boucle sur ces tests en supprimant toutes les valeurs extrêmes tant que la p.value est inférieur à 5%, 1% .. ?
Remarques :
- Je précide que mon entreprise n'a pas forcément les moyen de déclencher une étude pour chaque point car il faut faire l'étude sur des dizaines de paramètres.
- Est ce que la non normalité de départ est un gros problème ?
Merci par avance
cactus380- Nombre de messages : 5
Date d'inscription : 15/05/2012
Re: Détection d'outliers, quel test utiliser
Dixon et Grubbs, par contre de mémoire ces tests ne s'appliquent qu'à 1 observation à la fois... ce qui va t'obliger de tricher pathétiquement en testant 1 à 1 tes outliers et en les supprimant jusqu'à ce que ton test ne soit plus significatif... je sais... c'est loin d'être la classe niveau stat mais pour le moment il n'y a pas mieux à ma connaissance...
Re: Détection d'outliers, quel test utiliser
oui, c'est ce que j'avais vu.
Je voulais faire une fonction sous R qui me le ferait d'un coup
Je voulais juste savoir si théoriquement c'était bon
Je voulais faire une fonction sous R qui me le ferait d'un coup
Je voulais juste savoir si théoriquement c'était bon
cactus380- Nombre de messages : 5
Date d'inscription : 15/05/2012
Re: Détection d'outliers, quel test utiliser
Ben moi il me semble que de procéder un par un c'est faux et juste... il faut vraiment rentrer dans la théorie de ces 2 tests pour voir si c'est cohérent ou non.
Re: Détection d'outliers, quel test utiliser
moi ce que je faisais en cours de stat c'est que je supprimais tous ce qui sortais des moustachesd'un boxplot sans rien regarder ...
cactus380- Nombre de messages : 5
Date d'inscription : 15/05/2012
Re: Détection d'outliers, quel test utiliser
Et bien c'est une manière empirique de procéder, tu peux également faire une transformation pour normaliser tes données et utiliser un IC à 95% ou 90% pour supprimer statistiquement des outliers.
Re: Détection d'outliers, quel test utiliser
le problème avec les transformations, c'est que j'ai essayé de passer au log, de prendre la racine carrée, ca n'a pas fonctionné.
j'avais xlstat, donc j'ai pu faire des transformations box cox et la toujours le meme résultat, rien n'est normal
alors que si j'enlève les 5 plus petites valeurs sur 500, Shapiro wilk indique une loi normale, c'est bizarre non ??
j'avais xlstat, donc j'ai pu faire des transformations box cox et la toujours le meme résultat, rien n'est normal
alors que si j'enlève les 5 plus petites valeurs sur 500, Shapiro wilk indique une loi normale, c'est bizarre non ??
cactus380- Nombre de messages : 5
Date d'inscription : 15/05/2012
Re: Détection d'outliers, quel test utiliser
Pas forcément, globalement une loi normale c'est des valeurs récurrentes et quelque valeurs rares au fur et à mesure que tu t'éloignes à droite et à gauche des valeurs récurrentes, donc pour peu que tes outliers sont extrêmement loins de tes valeurs récurrentes et bien ça peut vite s'emballer au niveau du test, surtout que de mémoire les tests de normalité sont très critiqués pour leur pessimiste ou leur optimisme exagéré ainsi que leur sensibilité à la taille d'échantillon (à confirmer mais j'ai souvenir d'avoir lu ça quelque part).
C'est pour ça qu'en général on fait également un QQplot.
C'est pour ça qu'en général on fait également un QQplot.
Re: Détection d'outliers, quel test utiliser
oui ok, mais dans mon cas, les 5 valeurs supprimées sont entre 133 et 139 alors que les valeurs restantes sont entre 140 et 152
cactus380- Nombre de messages : 5
Date d'inscription : 15/05/2012
Sujets similaires
» Quel logiciel de statistiques et quel test dois je utiliser
» Quel test utiliser ?
» Quel test utiliser ??
» Quel test utiliser ?
» Quel test utiliser?
» Quel test utiliser ?
» Quel test utiliser ??
» Quel test utiliser ?
» Quel test utiliser?
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum