Les tests classiques pour détecter les outliers ?

par AdrienC Mar 27 Mar 2018 - 13:25

Bonjour

. Je me demandais si vous aviez l'habitude d'utiliser un test en particulier afin de détecter un outlier dans un ensemble de données. J'ai un tableau de données avec 4 variables. Et pour détecter les outliers j'avais l'intention d'utiliser un test généralisé de la déviation extrême de Student pour chaque variable.

Si quelqu'un a une idée je suis prenant Smile

Merci

par Eric Wajnberg Mar 27 Mar 2018 - 13:59

Des procédures stats pour identifier des outliers existent, mais ne sont pas très puissantes. Sous R, je pense qu'un coup d'oeil à la page suivante: http://r-statistics.co/Outlier-Treatment-With-R.html devrait être utile.

HTH, Eric.

par AdrienC Mar 27 Mar 2018 - 14:17

merci beaucoup Smile

par AdrienC Mar 27 Mar 2018 - 15:54

J'ai une question, j'ai trouvé mes outliers mais souvent, elles le sont que sur une variable. Ainsi, si je les supprime je me retrouve avec peu de données. J'ai pensé à remplacer la coordonnée "outlier" par une valeur manquante.

J'obtiens un tableau de données avec des valeurs manquantes à la place des aberrantes. Puis je fais de l'imputation multiple pour ''reboucher les trous avec des valeurs plus plausibles". Je ne sais pas si j'ai le droit de le faire car je déforme la réalité dans un sens

par Eric Wajnberg Mer 28 Mar 2018 - 4:56

"Outlier" est un mot masculin, je pense. On dit "un outlier".

Si vous en avez beaucoup, il n"y a pas grand-chose que vous pouvez faire.

Je ne sais pas quelle(s) loi(s) vous attendez, mais :

1) Pourquoi ne pas partir sur du non-paramétrique ? Les outliers deviennent comme de "simples données".

2) Ou bien compter sur la robustesse des méthodes utilisées, si elle existe.

Je ne suis sûr de pouvoir vous aider d'avantage. Il n'y a pas grand-chose sur la gestion des outliers en statistique, je pense.

HTH, Eric.

par AdrienC Mer 28 Mar 2018 - 8:18

Je vous remercie de vos réponses Smile

par niaboc Mer 28 Mar 2018 - 8:22

Salut,

peut-être que ce document te donnera quelques informations intéressantes :

http://www.pressesagro.be/base/text/v9n1/19.pdf

Niaboc

par AdrienC Mer 28 Mar 2018 - 12:07

Je vais le lire. Encore merci à vous tous pour votre aide.

par Florent Aubry Dim 1 Avr 2018 - 8:00

La notion d'outliers ou de valeurs aberrantes est à mon avis extrêmement ambigüe d'autant que généralement on considère ces deux termes comme synonymes. En effet, prenons un exemple simple d'une v.a. gaussienne : 95% de ses valeurs sont en dehors de l'intervalle (-1.96 sd, 1.96 sd) et ces valeurs ne sont pas des valeurs aberrantes. Ce peut être des outliers si on considère que le fenêtre idéale d'observation est (-1.96 sd, 1.96 sd). Mais cela n'a de sens que pour une estimation car les retirer d'une variable dépendante dans le cas d'un modèle linéaire peut largement biaiser ce modèle mais elles n'ont rien d'aberrantes. C'est pour cela que je préfère le terme de valeurs influentes sous certaines conditions, ne leur donnant le qualificatif d'aberrantes qu'après examen de leur condition de production. D'abord, elles ne seront influentes qu'à condition de modification significative de l'estimation entre leur présence et leur absence (exemple caricaturale d'une régression avec 9 valeurs de type y=-x [plus un bruit gaussien sd=0.01] avec x entre 0 et 1, et une valeur y=10 pour x=10). A mon avis, ce n'est que sous cette condition de valeurs aberrantes qu'on peut envisager de les supprimer de l'analyse.

Exemple de valeurs aberrantes :
- les individus associés à ces valeurs ne répondent pas ou très peu aux conditions d'inclusion ;
- les individus associés à ces valeurs répondent aux conditions d'inclusion mais un examen attentif de ces individus montre qu'une variable décrivant les individus non initialement prise en compte diffère largement des autres ; un cas typique est la nom prise en compte initiale de la tranche d'âge dans une étude rétrospective considérant que la pathologie étudiée ne concerne qu'une tranche d'âge spécifique mais d'avoir quand même quelques individus largement en dehors de cette tranche d'âge ;
- le nombre d'individus hors des clous est trop important par rapport à la dimension de l'échantillon ;
- il y a trop de valeurs extrêmes, même si leur nombre est compatible avec la taille de l'échantillon ; exemple un peu caricatural, sur 100 individus et une variable gaussienne, 6 sont en dehors de l'intervalle à 95%, mais toutes les valeurs sont en valeur absolue, largement au-delà de 3 sd.

En conclusion, la détection de ces valeurs passent par deux étapes :
1) des méthodes formelles de détection comme celles indiquées par Eric et Niaboc,
2) un filtrage a posteriori incluant des considérations subjectives, c'est-à-dire conditionnelles à l'étude et à l'expérience de l'expérimentateur et/ou statisticien.

Note : Cela n'empêche pas de vérifier a priori que les individus respectent bien les conditions d'inclusion et d'exclusion et même quelquefois d'aller au-delà (conditions d'âge, de sexe... quelquefois non prises en compte dans les critères d'inclusion/exclusion par exemples dans des études rétrospectives en recherche médicale).

par AdrienC Dim 1 Avr 2018 - 8:20

Tout d'abord je vous remercie d'avoir pris le temps de m'envoyer ce message, c'est très gentil. Il est vrai que ces histoires d'Outliers me font beaucoup réfléchir. Ce n'est pas un problème simple Smile

par Contenu sponsorisé

Les tests classiques pour détecter les outliers ?

Les tests classiques pour détecter les outliers ?

Re: Les tests classiques pour détecter les outliers ?

Re: Les tests classiques pour détecter les outliers ?

Re: Les tests classiques pour détecter les outliers ?

Re: Les tests classiques pour détecter les outliers ?

Re: Les tests classiques pour détecter les outliers ?

Re: Les tests classiques pour détecter les outliers ?

Re: Les tests classiques pour détecter les outliers ?

Re: Les tests classiques pour détecter les outliers ?

Re: Les tests classiques pour détecter les outliers ?

Re: Les tests classiques pour détecter les outliers ?