Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
méthode détection données aberrantes
3 participants
Page 1 sur 1
méthode détection données aberrantes
Bonjour,
quelles méthodes de détection de données aberrantes connaissez-vous, pour une série de données dont on ne connait pas la loi?
la méthode utilisée pour l'instant dans le programme que j'utilise est :
moyenne+-X*écart type.
Cependant, la moyenne et l'écart type peuvent être bcp influencés par les données aberrantes... et je cherche une méthode plus robuste.
Merci
quelles méthodes de détection de données aberrantes connaissez-vous, pour une série de données dont on ne connait pas la loi?
la méthode utilisée pour l'instant dans le programme que j'utilise est :
moyenne+-X*écart type.
Cependant, la moyenne et l'écart type peuvent être bcp influencés par les données aberrantes... et je cherche une méthode plus robuste.
Merci
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: méthode détection données aberrantes
Bonjour.
La principale méthode n'est pas statistique, c'est le rejet des valeurs aberrantes (celles qui ne peuvent pas être de vraies valeurs). Par exemple, pour des notes sur 20, les valeurs négatives ou supérieures à 20, ou avec plus de 2 chiffres après la virgule; pour des tailles en cm, les négatifs et les supérieurs à 270, etc.
Une valeur éloignée de la moyenne peut être une valeur extrême, mais pas du tout aberrante. par exemple, elle aurait conduit à rejeter la note 20 d'un très bon élève lors d'un contrôle raté par l'ensemble de la classe.
Comme la moyenne est sensible aux valeurs aberrantes, il est souvent possible (séries symétriques) de la remplacer par la médiane, plus robuste.
Cordialement.
La principale méthode n'est pas statistique, c'est le rejet des valeurs aberrantes (celles qui ne peuvent pas être de vraies valeurs). Par exemple, pour des notes sur 20, les valeurs négatives ou supérieures à 20, ou avec plus de 2 chiffres après la virgule; pour des tailles en cm, les négatifs et les supérieurs à 270, etc.
Une valeur éloignée de la moyenne peut être une valeur extrême, mais pas du tout aberrante. par exemple, elle aurait conduit à rejeter la note 20 d'un très bon élève lors d'un contrôle raté par l'ensemble de la classe.
Comme la moyenne est sensible aux valeurs aberrantes, il est souvent possible (séries symétriques) de la remplacer par la médiane, plus robuste.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: méthode détection données aberrantes
Bonjour,
en fait j'ai des séries de données qui peuvent ressembler à ça :
0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,2,2,2,2,3,3,3,4,4,4,5,6,7,18,20
ou encore
0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,6
dans ce cas, j'aimerais bien supprimer le 18 et le 20 de la première série et le 6 de la deuxième.
Car ensuite je fais des tests stats à l'aide de ces séries et je n'ai pas envie que les valeurs extrêmes (qui peuvent être aberrantes dans certains cas) prennent beaucoup trop de poids dans mes tests.
J'ai vu la méthode de Dixon, mais qui permet de rejeter 1 ou 2 valeurs aberrantes par série seulement... et puis l'effectif est limité dans ce test.
Du coup je ne sais pas trop comment faire à part moy±X*std
en fait j'ai des séries de données qui peuvent ressembler à ça :
0,0,0,0,0,0,0,0,0,0,0,1,1,1,1,2,2,2,2,3,3,3,4,4,4,5,6,7,18,20
ou encore
0,0,0,0,0,0,0,0,0,1,1,1,1,1,1,6
dans ce cas, j'aimerais bien supprimer le 18 et le 20 de la première série et le 6 de la deuxième.
Car ensuite je fais des tests stats à l'aide de ces séries et je n'ai pas envie que les valeurs extrêmes (qui peuvent être aberrantes dans certains cas) prennent beaucoup trop de poids dans mes tests.
J'ai vu la méthode de Dixon, mais qui permet de rejeter 1 ou 2 valeurs aberrantes par série seulement... et puis l'effectif est limité dans ce test.
Du coup je ne sais pas trop comment faire à part moy±X*std
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: méthode détection données aberrantes
Tu peux aussi appliquer la méthode utilisée dans le box plot de Tukey, c'est à dire considérer comme outlier les valeurs superieures au 75° percentile + 1.5 ecart interquartile et inf. 25° - 1.5 EI. Mais comme le dit gg c'est juste une methode permettant d'isoler certaines valeurs extremes à vérifier particulièrement. Rien ne te dit qu'un outlier soit aberrant et il n'est pas méthodologiquement correct d'éliminer "automatiquement" les outliers
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Sujets similaires
» detection de valeurs aberrantes
» Detection de valeurs aberrantes à plusieurs dimensions
» Quelle methode d'analyse de données utilisé?
» Identification de données aberrantes
» Comparaison de données, quelle méthode employée ?
» Detection de valeurs aberrantes à plusieurs dimensions
» Quelle methode d'analyse de données utilisé?
» Identification de données aberrantes
» Comparaison de données, quelle méthode employée ?
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum