Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Les tests classiques pour détecter les outliers ?
4 participants
Page 1 sur 1
Les tests classiques pour détecter les outliers ?
Bonjour . Je me demandais si vous aviez l'habitude d'utiliser un test en particulier afin de détecter un outlier dans un ensemble de données. J'ai un tableau de données avec 4 variables. Et pour détecter les outliers j'avais l'intention d'utiliser un test généralisé de la déviation extrême de Student pour chaque variable.
Si quelqu'un a une idée je suis prenant
Merci
Si quelqu'un a une idée je suis prenant
Merci
AdrienC- Nombre de messages : 93
Date d'inscription : 15/03/2018
Re: Les tests classiques pour détecter les outliers ?
Des procédures stats pour identifier des outliers existent, mais ne sont pas très puissantes. Sous R, je pense qu'un coup d'oeil à la page suivante: http://r-statistics.co/Outlier-Treatment-With-R.html devrait être utile.
HTH, Eric.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Les tests classiques pour détecter les outliers ?
merci beaucoup
AdrienC- Nombre de messages : 93
Date d'inscription : 15/03/2018
Re: Les tests classiques pour détecter les outliers ?
J'ai une question, j'ai trouvé mes outliers mais souvent, elles le sont que sur une variable. Ainsi, si je les supprime je me retrouve avec peu de données. J'ai pensé à remplacer la coordonnée "outlier" par une valeur manquante.
J'obtiens un tableau de données avec des valeurs manquantes à la place des aberrantes. Puis je fais de l'imputation multiple pour ''reboucher les trous avec des valeurs plus plausibles". Je ne sais pas si j'ai le droit de le faire car je déforme la réalité dans un sens
J'obtiens un tableau de données avec des valeurs manquantes à la place des aberrantes. Puis je fais de l'imputation multiple pour ''reboucher les trous avec des valeurs plus plausibles". Je ne sais pas si j'ai le droit de le faire car je déforme la réalité dans un sens
AdrienC- Nombre de messages : 93
Date d'inscription : 15/03/2018
Re: Les tests classiques pour détecter les outliers ?
"Outlier" est un mot masculin, je pense. On dit "un outlier".
Si vous en avez beaucoup, il n"y a pas grand-chose que vous pouvez faire.
Je ne sais pas quelle(s) loi(s) vous attendez, mais :
1) Pourquoi ne pas partir sur du non-paramétrique ? Les outliers deviennent comme de "simples données".
2) Ou bien compter sur la robustesse des méthodes utilisées, si elle existe.
Je ne suis sûr de pouvoir vous aider d'avantage. Il n'y a pas grand-chose sur la gestion des outliers en statistique, je pense.
HTH, Eric.
Si vous en avez beaucoup, il n"y a pas grand-chose que vous pouvez faire.
Je ne sais pas quelle(s) loi(s) vous attendez, mais :
1) Pourquoi ne pas partir sur du non-paramétrique ? Les outliers deviennent comme de "simples données".
2) Ou bien compter sur la robustesse des méthodes utilisées, si elle existe.
Je ne suis sûr de pouvoir vous aider d'avantage. Il n'y a pas grand-chose sur la gestion des outliers en statistique, je pense.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Les tests classiques pour détecter les outliers ?
Je vous remercie de vos réponses
AdrienC- Nombre de messages : 93
Date d'inscription : 15/03/2018
Re: Les tests classiques pour détecter les outliers ?
Salut,
peut-être que ce document te donnera quelques informations intéressantes :
http://www.pressesagro.be/base/text/v9n1/19.pdf
Niaboc
peut-être que ce document te donnera quelques informations intéressantes :
http://www.pressesagro.be/base/text/v9n1/19.pdf
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Les tests classiques pour détecter les outliers ?
Je vais le lire. Encore merci à vous tous pour votre aide.
AdrienC- Nombre de messages : 93
Date d'inscription : 15/03/2018
Re: Les tests classiques pour détecter les outliers ?
La notion d'outliers ou de valeurs aberrantes est à mon avis extrêmement ambigüe d'autant que généralement on considère ces deux termes comme synonymes. En effet, prenons un exemple simple d'une v.a. gaussienne : 95% de ses valeurs sont en dehors de l'intervalle (-1.96 sd, 1.96 sd) et ces valeurs ne sont pas des valeurs aberrantes. Ce peut être des outliers si on considère que le fenêtre idéale d'observation est (-1.96 sd, 1.96 sd). Mais cela n'a de sens que pour une estimation car les retirer d'une variable dépendante dans le cas d'un modèle linéaire peut largement biaiser ce modèle mais elles n'ont rien d'aberrantes. C'est pour cela que je préfère le terme de valeurs influentes sous certaines conditions, ne leur donnant le qualificatif d'aberrantes qu'après examen de leur condition de production. D'abord, elles ne seront influentes qu'à condition de modification significative de l'estimation entre leur présence et leur absence (exemple caricaturale d'une régression avec 9 valeurs de type y=-x [plus un bruit gaussien sd=0.01] avec x entre 0 et 1, et une valeur y=10 pour x=10). A mon avis, ce n'est que sous cette condition de valeurs aberrantes qu'on peut envisager de les supprimer de l'analyse.
Exemple de valeurs aberrantes :
- les individus associés à ces valeurs ne répondent pas ou très peu aux conditions d'inclusion ;
- les individus associés à ces valeurs répondent aux conditions d'inclusion mais un examen attentif de ces individus montre qu'une variable décrivant les individus non initialement prise en compte diffère largement des autres ; un cas typique est la nom prise en compte initiale de la tranche d'âge dans une étude rétrospective considérant que la pathologie étudiée ne concerne qu'une tranche d'âge spécifique mais d'avoir quand même quelques individus largement en dehors de cette tranche d'âge ;
- le nombre d'individus hors des clous est trop important par rapport à la dimension de l'échantillon ;
- il y a trop de valeurs extrêmes, même si leur nombre est compatible avec la taille de l'échantillon ; exemple un peu caricatural, sur 100 individus et une variable gaussienne, 6 sont en dehors de l'intervalle à 95%, mais toutes les valeurs sont en valeur absolue, largement au-delà de 3 sd.
En conclusion, la détection de ces valeurs passent par deux étapes :
1) des méthodes formelles de détection comme celles indiquées par Eric et Niaboc,
2) un filtrage a posteriori incluant des considérations subjectives, c'est-à-dire conditionnelles à l'étude et à l'expérience de l'expérimentateur et/ou statisticien.
Note : Cela n'empêche pas de vérifier a priori que les individus respectent bien les conditions d'inclusion et d'exclusion et même quelquefois d'aller au-delà (conditions d'âge, de sexe... quelquefois non prises en compte dans les critères d'inclusion/exclusion par exemples dans des études rétrospectives en recherche médicale).
Exemple de valeurs aberrantes :
- les individus associés à ces valeurs ne répondent pas ou très peu aux conditions d'inclusion ;
- les individus associés à ces valeurs répondent aux conditions d'inclusion mais un examen attentif de ces individus montre qu'une variable décrivant les individus non initialement prise en compte diffère largement des autres ; un cas typique est la nom prise en compte initiale de la tranche d'âge dans une étude rétrospective considérant que la pathologie étudiée ne concerne qu'une tranche d'âge spécifique mais d'avoir quand même quelques individus largement en dehors de cette tranche d'âge ;
- le nombre d'individus hors des clous est trop important par rapport à la dimension de l'échantillon ;
- il y a trop de valeurs extrêmes, même si leur nombre est compatible avec la taille de l'échantillon ; exemple un peu caricatural, sur 100 individus et une variable gaussienne, 6 sont en dehors de l'intervalle à 95%, mais toutes les valeurs sont en valeur absolue, largement au-delà de 3 sd.
En conclusion, la détection de ces valeurs passent par deux étapes :
1) des méthodes formelles de détection comme celles indiquées par Eric et Niaboc,
2) un filtrage a posteriori incluant des considérations subjectives, c'est-à-dire conditionnelles à l'étude et à l'expérience de l'expérimentateur et/ou statisticien.
Note : Cela n'empêche pas de vérifier a priori que les individus respectent bien les conditions d'inclusion et d'exclusion et même quelquefois d'aller au-delà (conditions d'âge, de sexe... quelquefois non prises en compte dans les critères d'inclusion/exclusion par exemples dans des études rétrospectives en recherche médicale).
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Les tests classiques pour détecter les outliers ?
Tout d'abord je vous remercie d'avoir pris le temps de m'envoyer ce message, c'est très gentil. Il est vrai que ces histoires d'Outliers me font beaucoup réfléchir. Ce n'est pas un problème simple
AdrienC- Nombre de messages : 93
Date d'inscription : 15/03/2018
Sujets similaires
» Tests pour validation processus de Markov ?
» Test pour détecter valeurs aberrantes
» tests pour mes données
» aide pour choix de tests :(
» Tests pour ANOVA et Analyse sur les Rangs
» Test pour détecter valeurs aberrantes
» tests pour mes données
» aide pour choix de tests :(
» Tests pour ANOVA et Analyse sur les Rangs
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum