Les posteurs les plus actifs de la semaine


Les tests classiques pour détecter les outliers ?

Aller en bas

Les tests classiques pour détecter les outliers ?

Message par AdrienC le Mar 27 Mar 2018 - 13:25

Bonjour Smile. Je me demandais si vous aviez l'habitude d'utiliser un test en particulier afin de détecter un outlier dans un ensemble de données. J'ai un tableau de données avec 4 variables. Et pour détecter les outliers j'avais l'intention d'utiliser un test généralisé de la déviation extrême de Student pour chaque variable.

Si quelqu'un a une idée je suis prenant Smile

Merci
avatar
AdrienC

Nombre de messages : 61
Date d'inscription : 15/03/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Les tests classiques pour détecter les outliers ?

Message par Eric Wajnberg le Mar 27 Mar 2018 - 13:59

Des procédures stats pour identifier des outliers existent, mais ne sont pas très puissantes. Sous R, je pense qu'un coup d'oeil à la page suivante: http://r-statistics.co/Outlier-Treatment-With-R.html devrait être utile.

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 917
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Les tests classiques pour détecter les outliers ?

Message par AdrienC le Mar 27 Mar 2018 - 14:17

merci beaucoup Smile
avatar
AdrienC

Nombre de messages : 61
Date d'inscription : 15/03/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Les tests classiques pour détecter les outliers ?

Message par AdrienC le Mar 27 Mar 2018 - 15:54

J'ai une question, j'ai trouvé mes outliers mais souvent, elles le sont que sur une variable. Ainsi, si je les supprime je me retrouve avec peu de données. J'ai pensé à remplacer la coordonnée "outlier" par une valeur manquante.

J'obtiens un tableau de données avec des valeurs manquantes à la place des aberrantes. Puis je fais de l'imputation multiple pour ''reboucher les trous avec des valeurs plus plausibles". Je ne sais pas si j'ai le droit de le faire car je déforme la réalité dans un sens
avatar
AdrienC

Nombre de messages : 61
Date d'inscription : 15/03/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Les tests classiques pour détecter les outliers ?

Message par Eric Wajnberg le Mer 28 Mar 2018 - 4:56

"Outlier" est un mot masculin, je pense. On dit "un outlier".

Si vous en avez beaucoup, il n"y a pas grand-chose que vous pouvez faire.

Je ne sais pas quelle(s) loi(s) vous attendez, mais :

1) Pourquoi ne pas partir sur du non-paramétrique ? Les outliers deviennent comme de "simples données".

2) Ou bien compter sur la robustesse des méthodes utilisées, si elle existe.

Je ne suis sûr de pouvoir vous aider d'avantage. Il n'y a pas grand-chose sur la gestion des outliers en statistique, je pense.

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 917
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Les tests classiques pour détecter les outliers ?

Message par AdrienC le Mer 28 Mar 2018 - 8:18

Je vous remercie de vos réponses Smile
avatar
AdrienC

Nombre de messages : 61
Date d'inscription : 15/03/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Les tests classiques pour détecter les outliers ?

Message par niaboc le Mer 28 Mar 2018 - 8:22

Salut,

peut-être que ce document te donnera quelques informations intéressantes :

http://www.pressesagro.be/base/text/v9n1/19.pdf

Niaboc
avatar
niaboc

Nombre de messages : 948
Age : 31
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Les tests classiques pour détecter les outliers ?

Message par AdrienC le Mer 28 Mar 2018 - 12:07

Je vais le lire. Encore merci à vous tous pour votre aide.
avatar
AdrienC

Nombre de messages : 61
Date d'inscription : 15/03/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Les tests classiques pour détecter les outliers ?

Message par Florent Aubry le Dim 1 Avr 2018 - 8:00

La notion d'outliers ou de valeurs aberrantes est à mon avis extrêmement ambigüe d'autant que généralement on considère ces deux termes comme synonymes. En effet, prenons un exemple simple d'une v.a. gaussienne : 95% de ses valeurs sont en dehors de l'intervalle (-1.96 sd, 1.96 sd) et ces valeurs ne sont pas des valeurs aberrantes. Ce peut être des outliers si on considère que le fenêtre idéale d'observation est (-1.96 sd, 1.96 sd). Mais cela n'a de sens que pour une estimation car les retirer d'une variable dépendante dans le cas d'un modèle linéaire peut largement biaiser ce modèle mais elles n'ont rien d'aberrantes. C'est pour cela que je préfère le terme de valeurs influentes sous certaines conditions, ne leur donnant le qualificatif d'aberrantes qu'après examen de leur condition de production. D'abord, elles ne seront influentes qu'à condition de modification significative de l'estimation entre leur présence et leur absence (exemple caricaturale d'une régression avec 9 valeurs de type y=-x [plus un bruit gaussien sd=0.01] avec x entre 0 et 1, et une valeur y=10 pour x=10). A mon avis, ce n'est que sous cette condition de valeurs aberrantes qu'on peut envisager de les supprimer de l'analyse.

Exemple de valeurs aberrantes :
- les individus associés à ces valeurs ne répondent pas ou très peu aux conditions d'inclusion ;
- les individus associés à ces valeurs répondent aux conditions d'inclusion mais un examen attentif de ces individus montre qu'une variable décrivant les individus non initialement prise en compte diffère largement des autres ; un cas typique est la nom prise en compte initiale de la tranche d'âge dans une étude rétrospective considérant que la pathologie étudiée ne concerne qu'une tranche d'âge spécifique mais d'avoir quand même quelques individus largement en dehors de cette tranche d'âge ;
- le nombre d'individus hors des clous est trop important par rapport à la dimension de l'échantillon ;
- il y a trop de valeurs extrêmes, même si leur nombre est compatible avec la taille de l'échantillon ; exemple un peu caricatural, sur 100 individus et une variable gaussienne, 6 sont en dehors de l'intervalle à 95%, mais toutes les valeurs sont en valeur absolue, largement au-delà de 3 sd.

En conclusion, la détection de ces valeurs passent par deux étapes :
1) des méthodes formelles de détection comme celles indiquées par Eric et Niaboc,
2) un filtrage a posteriori incluant des considérations subjectives, c'est-à-dire conditionnelles à l'étude et à l'expérience de l'expérimentateur et/ou statisticien.

Note : Cela n'empêche pas de vérifier a priori que les individus respectent bien les conditions d'inclusion et d'exclusion et même quelquefois d'aller au-delà (conditions d'âge, de sexe... quelquefois non prises en compte dans les critères d'inclusion/exclusion par exemples dans des études rétrospectives en recherche médicale).

Florent Aubry

Nombre de messages : 192
Date d'inscription : 02/11/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Les tests classiques pour détecter les outliers ?

Message par AdrienC le Dim 1 Avr 2018 - 8:20

Tout d'abord je vous remercie d'avoir pris le temps de m'envoyer ce message, c'est très gentil. Il est vrai que ces histoires d'Outliers me font beaucoup réfléchir. Ce n'est pas un problème simple Smile
avatar
AdrienC

Nombre de messages : 61
Date d'inscription : 15/03/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Les tests classiques pour détecter les outliers ?

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum