Les posteurs les plus actifs de la semaine
Kaidozaki
 


Detection de valeurs aberrantes à plusieurs dimensions

Voir le sujet précédent Voir le sujet suivant Aller en bas

Detection de valeurs aberrantes à plusieurs dimensions

Message par antoine virgule le Lun 29 Oct 2012 - 10:42

Bonjour à tous,

je suis confronté à un problème qui m'échappe. Trouver un titre à ce topic était un premier problème.

Je voudrais filtrer des valeurs aberrantes, mais voila mon soucis : mes données possèdent 3 dimensions.

Petite mise en contexte. Mon objet est caractérisé par une variable X, une variable Y et une variable Z. Lors de la récupération de mes données (quotidienne), certains objets sont aberrants: i.e. X, Y et Z ne forment pas un trio cohérent. C'est à dire que X, Y et Z peuvent prendre des valeurs extrêmes sans être aberrants, si le trio reste cohérent.

Le problème, c'est qu'autant il est relativement aisé de les repérer visuellement, autant il est complexe de mettre en place une méthode de nettoyage automatique.

Dans mon cas, Z est qualitatif. Je régresse pour chaque valeur de Z, Y par X. Je travaille donc en deux dimensions, en réalité.

Dans un monde idéal, j'aimerais pouvoir tracer 2 courbes au dessus et au dessous de ma régression pour avoir un intervalle de 'valeurs cohérentes'.
Dans un monde encore plus idéal, ces courbes dépendraient localement de la variance de mon nuage. J'aimerais aussi pouvoir ajuster à l'aide d'un paramètre la sévérité de la détection.

Je ne sais pas si mon problème est très clair, je ne sais même pas s'il existe une solution, mais si vous avez des questions, n'hésitez pas.

Merci d'avance pour vos réponse.

Antoine


PS : Pour les plus bouillants, ces données arrivent en flux continu, toutes les minutes. J'aimerais pouvoir les filtrer dès la source et ne jamais à avoir à les insérer dans ma base. Je pense que techniquement, ça réduit les possibilités.

antoine virgule

Nombre de messages : 3
Date d'inscription : 29/10/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Detection de valeurs aberrantes à plusieurs dimensions

Message par gg le Lun 29 Oct 2012 - 12:34

Bonjour.

Comme toujours pour les valeurs aberrantes, soit on a une méthode de détection, soit on travaille avec les outils (malsains) basés sur des écarts (à la moyenne, en général).
Ce que tu dis sous-entend que tu as une méthode (celle qui te permet de les repérer visuellement), donc que tu es dans le premier cas, et, à priori, c'est un problème de programmation, pas de statistique. Ou alors il y a une question statistique dans ce repérage que tu nous cache !

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Detection de valeurs aberrantes à plusieurs dimensions

Message par antoine virgule le Lun 29 Oct 2012 - 14:15

Bonjour,

Merci de me répondre aussi rapidement, j'ai posté ce message sur un forum de programmation R, et les gens m'ont répondu que c'était une question de statistique, et non de programmation. Arrow
C'est pour cela que je me suis tourné vers vous.

Mais je pense que c'est bel et bien un problème statistique.

Disons que je recherche une méthode statistique pour filtrer *Automatiquement* les aberrations dans mon arrivage de données. Toutes les solutions que j'ai trouvées concernent uniquement les données à une dimension, comme retirer les extrêmes. Ici, je recherche à interpréter statistiquement les points aberrants (quand ceux-ci peuvent être caractérisés par plusieurs dimensions). Je me doute qu'il doit exister des méthodes stat qui permettent de le faire, mais malheureusement, elles ne sont jamais parvenu à mes oreilles, ou si elles le sont, elles sont vite ressorties ! Shocked

antoine virgule

Nombre de messages : 3
Date d'inscription : 29/10/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Detection de valeurs aberrantes à plusieurs dimensions

Message par Nik le Lun 29 Oct 2012 - 14:33

Salut,

sur le site GuR, tu n'as pas suffisamment axé ton message sur le côté programmation. Ici tu peux nous demander si tes critères de sélection des valeurs aberrantes peuvent paraitre sensés mais là encore c'est plutôt de l'expertise de la donnée elle-même pour définir ce qui aberrant ou pas. Donc non il n'y a pas vraiment de méthode stat au sens strict du terme pour dire qu'une valeur est aberrante. Ce qui est aberrant c'est par rapport à un référentiel et fixer ce référentiel n'appartient pas au domaine des stats mais à la définition des hypothèses de travail.

Nik

Nik

Nombre de messages : 1500
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Detection de valeurs aberrantes à plusieurs dimensions

Message par gg le Lun 29 Oct 2012 - 15:51

Je complète mon premier message :
On trouve, dans la littérature statistique (et même dans les logiciels) des méthode de "détection de valeurs aberrantes", qui ne sont en fait que des méthodes de rejet de valeurs très différentes des autres. Ce qui ne dit pas qu'elles doivent être rejetées. Ce serait comme dire "il n'y avait pas de vent à Marseille hier" sous prétexte que ces vitesses de vent arrivent très rarement.
Un autre exemple : J'ai eu un jour une série du genre :
2,4,3,2,2,5,1,0,2,3,0,4,3,20,3,5,2,0,1,1,2,1,1,5,3,3,1
La valeur 20 est-elle aberrante ? Elle serait rejetée par les automatismes de "détection de valeurs aberrantes", alors qu'il s'agissait des notes d'un devoir raté (et pour cause !) par toute une classe sauf 1 (qui lui avait éciouté le cours précédent et appris ses leçons).

Cordialement.

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Detection de valeurs aberrantes à plusieurs dimensions

Message par antoine virgule le Lun 29 Oct 2012 - 16:07

A la lecture de votre réponse, je comprend que j'ai très mal exprimé mon problème.

Pour mieux me faire comprendre, prenons un exemple concret.
Imaginons que les données que je reçois sont :
- coordonnées géographiques
- indicateur d'humidité
- indice de pluie des dernières 24h.

Ces trois paramètres peuvent prendre des valeurs très différentes, voir extrême sans être aberrantes, mais il existe une cohérence.
C'est à dire, l’indicateur d'humidité peut être très élevé, si dans mon historique, les autres variables ont le même comportement.

Ce que je cherche à écarter, c'est un trio ou l'ensemble des valeurs indicateur d'humidité, indice de pluie et coordonnées géo sont incohérents. Par exemple, pour ces coordonnées géographiques précises, et bien l'indicateur d'humidité n'est pas en accords avec mon indice de pluie (par rapport à l'historique de comportement).

Je cherche une méthode, qui ne semble vraisemblablement pas exister qui traite de l’aberration, non pas par l’extrême, mais par une sorte de corrélation entre plusieurs variables.

Mais je comprend que ce n'est probablement pas le meilleur endroit pour résoudre mon problème.
Je vais chercher de mon coté.

Merci tout de même.

Antoine

antoine virgule

Nombre de messages : 3
Date d'inscription : 29/10/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Detection de valeurs aberrantes à plusieurs dimensions

Message par gg le Lun 29 Oct 2012 - 16:37

C'est à peu près ce que j'avais compris. mais on ne peut te donner des techniques statistiques que si tu es capable de poser ton problème en termes de statistiques. Ce que tu n'as pas fait ! L'utilisation de mots de comparaison (une sorte de corrélation) qui sortent du vocabulaire statistique ne dit rien de ce que tu veux vraiment faire. Tu demanderais à un mathématicien de te bricoler "une sorte de calcul" pour régler ton problème ?
Il n'y a pas plus de miracles en stats qu'ailleurs : les questions pas bien claires n'ont que des réponses floues.
D'ailleurs, toi-même tu es relativement flou :
"C'est à dire, l’indicateur d'humidité peut être très élevé, si dans mon historique, les autres variables ont le même comportement."
Quelles autres variables ? Tu n'en as donné que 3. Comme je n'imagine pas que la valeur des coordonnées géographiques soit corrélée avec la pluviosité, il n'en reste qu'une. A moins que tu appelles "variables" les valeurs précédentes de l'humidité et de l'indice de pluie.
Si tu réfléchis un peu, tu te rendras compte que tu as un travail préalable à faire pour décider à partir de quoi tu vas élaborer des règles de décision. La construction de ces règles emploiera probablement des méthodes statistiques, mais on ne peut pas inventer le contexte à ta place : C'est toi le spécialiste.

Cordialement.

NB : Ailleurs, tu auras peut-être des réponses "fais-ci ou fais-ça". Qui n'auront que peu de chances d'être utiles (mais tu pourras faire un beau logiciel, qui "en jette", même s'il n'a aucune validité scientifique).

gg

Nombre de messages : 1775
Date d'inscription : 10/01/2011

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Detection de valeurs aberrantes à plusieurs dimensions

Message par Nik le Mar 30 Oct 2012 - 5:16

Salut,

Sans parler d'un méthode pour répondre à ta question, tu peux explorer tes données, pour cibler les valeurs dites aberrantes et fixer des critères de décision par la suite, à l'aide d'une analyse multivariée (ACP ou autre suivant la nature de tes données). Cela mettra en évidence les points qui sortent du lot et sur quelle variable.

Nik

Nik

Nombre de messages : 1500
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Detection de valeurs aberrantes à plusieurs dimensions

Message par Contenu sponsorisé Aujourd'hui à 12:30


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum