Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Detection de valeurs aberrantes à plusieurs dimensions
3 participants
Page 1 sur 1
Detection de valeurs aberrantes à plusieurs dimensions
Bonjour à tous,
je suis confronté à un problème qui m'échappe. Trouver un titre à ce topic était un premier problème.
Je voudrais filtrer des valeurs aberrantes, mais voila mon soucis : mes données possèdent 3 dimensions.
Petite mise en contexte. Mon objet est caractérisé par une variable X, une variable Y et une variable Z. Lors de la récupération de mes données (quotidienne), certains objets sont aberrants: i.e. X, Y et Z ne forment pas un trio cohérent. C'est à dire que X, Y et Z peuvent prendre des valeurs extrêmes sans être aberrants, si le trio reste cohérent.
Le problème, c'est qu'autant il est relativement aisé de les repérer visuellement, autant il est complexe de mettre en place une méthode de nettoyage automatique.
Dans mon cas, Z est qualitatif. Je régresse pour chaque valeur de Z, Y par X. Je travaille donc en deux dimensions, en réalité.
Dans un monde idéal, j'aimerais pouvoir tracer 2 courbes au dessus et au dessous de ma régression pour avoir un intervalle de 'valeurs cohérentes'.
Dans un monde encore plus idéal, ces courbes dépendraient localement de la variance de mon nuage. J'aimerais aussi pouvoir ajuster à l'aide d'un paramètre la sévérité de la détection.
Je ne sais pas si mon problème est très clair, je ne sais même pas s'il existe une solution, mais si vous avez des questions, n'hésitez pas.
Merci d'avance pour vos réponse.
Antoine
PS : Pour les plus bouillants, ces données arrivent en flux continu, toutes les minutes. J'aimerais pouvoir les filtrer dès la source et ne jamais à avoir à les insérer dans ma base. Je pense que techniquement, ça réduit les possibilités.
je suis confronté à un problème qui m'échappe. Trouver un titre à ce topic était un premier problème.
Je voudrais filtrer des valeurs aberrantes, mais voila mon soucis : mes données possèdent 3 dimensions.
Petite mise en contexte. Mon objet est caractérisé par une variable X, une variable Y et une variable Z. Lors de la récupération de mes données (quotidienne), certains objets sont aberrants: i.e. X, Y et Z ne forment pas un trio cohérent. C'est à dire que X, Y et Z peuvent prendre des valeurs extrêmes sans être aberrants, si le trio reste cohérent.
Le problème, c'est qu'autant il est relativement aisé de les repérer visuellement, autant il est complexe de mettre en place une méthode de nettoyage automatique.
Dans mon cas, Z est qualitatif. Je régresse pour chaque valeur de Z, Y par X. Je travaille donc en deux dimensions, en réalité.
Dans un monde idéal, j'aimerais pouvoir tracer 2 courbes au dessus et au dessous de ma régression pour avoir un intervalle de 'valeurs cohérentes'.
Dans un monde encore plus idéal, ces courbes dépendraient localement de la variance de mon nuage. J'aimerais aussi pouvoir ajuster à l'aide d'un paramètre la sévérité de la détection.
Je ne sais pas si mon problème est très clair, je ne sais même pas s'il existe une solution, mais si vous avez des questions, n'hésitez pas.
Merci d'avance pour vos réponse.
Antoine
PS : Pour les plus bouillants, ces données arrivent en flux continu, toutes les minutes. J'aimerais pouvoir les filtrer dès la source et ne jamais à avoir à les insérer dans ma base. Je pense que techniquement, ça réduit les possibilités.
antoine virgule- Nombre de messages : 3
Date d'inscription : 29/10/2012
Re: Detection de valeurs aberrantes à plusieurs dimensions
Bonjour.
Comme toujours pour les valeurs aberrantes, soit on a une méthode de détection, soit on travaille avec les outils (malsains) basés sur des écarts (à la moyenne, en général).
Ce que tu dis sous-entend que tu as une méthode (celle qui te permet de les repérer visuellement), donc que tu es dans le premier cas, et, à priori, c'est un problème de programmation, pas de statistique. Ou alors il y a une question statistique dans ce repérage que tu nous cache !
Cordialement.
Comme toujours pour les valeurs aberrantes, soit on a une méthode de détection, soit on travaille avec les outils (malsains) basés sur des écarts (à la moyenne, en général).
Ce que tu dis sous-entend que tu as une méthode (celle qui te permet de les repérer visuellement), donc que tu es dans le premier cas, et, à priori, c'est un problème de programmation, pas de statistique. Ou alors il y a une question statistique dans ce repérage que tu nous cache !
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Detection de valeurs aberrantes à plusieurs dimensions
Bonjour,
Merci de me répondre aussi rapidement, j'ai posté ce message sur un forum de programmation R, et les gens m'ont répondu que c'était une question de statistique, et non de programmation.
C'est pour cela que je me suis tourné vers vous.
Mais je pense que c'est bel et bien un problème statistique.
Disons que je recherche une méthode statistique pour filtrer *Automatiquement* les aberrations dans mon arrivage de données. Toutes les solutions que j'ai trouvées concernent uniquement les données à une dimension, comme retirer les extrêmes. Ici, je recherche à interpréter statistiquement les points aberrants (quand ceux-ci peuvent être caractérisés par plusieurs dimensions). Je me doute qu'il doit exister des méthodes stat qui permettent de le faire, mais malheureusement, elles ne sont jamais parvenu à mes oreilles, ou si elles le sont, elles sont vite ressorties !
Merci de me répondre aussi rapidement, j'ai posté ce message sur un forum de programmation R, et les gens m'ont répondu que c'était une question de statistique, et non de programmation.
C'est pour cela que je me suis tourné vers vous.
Mais je pense que c'est bel et bien un problème statistique.
Disons que je recherche une méthode statistique pour filtrer *Automatiquement* les aberrations dans mon arrivage de données. Toutes les solutions que j'ai trouvées concernent uniquement les données à une dimension, comme retirer les extrêmes. Ici, je recherche à interpréter statistiquement les points aberrants (quand ceux-ci peuvent être caractérisés par plusieurs dimensions). Je me doute qu'il doit exister des méthodes stat qui permettent de le faire, mais malheureusement, elles ne sont jamais parvenu à mes oreilles, ou si elles le sont, elles sont vite ressorties !
antoine virgule- Nombre de messages : 3
Date d'inscription : 29/10/2012
Re: Detection de valeurs aberrantes à plusieurs dimensions
Salut,
sur le site GuR, tu n'as pas suffisamment axé ton message sur le côté programmation. Ici tu peux nous demander si tes critères de sélection des valeurs aberrantes peuvent paraitre sensés mais là encore c'est plutôt de l'expertise de la donnée elle-même pour définir ce qui aberrant ou pas. Donc non il n'y a pas vraiment de méthode stat au sens strict du terme pour dire qu'une valeur est aberrante. Ce qui est aberrant c'est par rapport à un référentiel et fixer ce référentiel n'appartient pas au domaine des stats mais à la définition des hypothèses de travail.
Nik
sur le site GuR, tu n'as pas suffisamment axé ton message sur le côté programmation. Ici tu peux nous demander si tes critères de sélection des valeurs aberrantes peuvent paraitre sensés mais là encore c'est plutôt de l'expertise de la donnée elle-même pour définir ce qui aberrant ou pas. Donc non il n'y a pas vraiment de méthode stat au sens strict du terme pour dire qu'une valeur est aberrante. Ce qui est aberrant c'est par rapport à un référentiel et fixer ce référentiel n'appartient pas au domaine des stats mais à la définition des hypothèses de travail.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Detection de valeurs aberrantes à plusieurs dimensions
Je complète mon premier message :
On trouve, dans la littérature statistique (et même dans les logiciels) des méthode de "détection de valeurs aberrantes", qui ne sont en fait que des méthodes de rejet de valeurs très différentes des autres. Ce qui ne dit pas qu'elles doivent être rejetées. Ce serait comme dire "il n'y avait pas de vent à Marseille hier" sous prétexte que ces vitesses de vent arrivent très rarement.
Un autre exemple : J'ai eu un jour une série du genre :
2,4,3,2,2,5,1,0,2,3,0,4,3,20,3,5,2,0,1,1,2,1,1,5,3,3,1
La valeur 20 est-elle aberrante ? Elle serait rejetée par les automatismes de "détection de valeurs aberrantes", alors qu'il s'agissait des notes d'un devoir raté (et pour cause !) par toute une classe sauf 1 (qui lui avait éciouté le cours précédent et appris ses leçons).
Cordialement.
On trouve, dans la littérature statistique (et même dans les logiciels) des méthode de "détection de valeurs aberrantes", qui ne sont en fait que des méthodes de rejet de valeurs très différentes des autres. Ce qui ne dit pas qu'elles doivent être rejetées. Ce serait comme dire "il n'y avait pas de vent à Marseille hier" sous prétexte que ces vitesses de vent arrivent très rarement.
Un autre exemple : J'ai eu un jour une série du genre :
2,4,3,2,2,5,1,0,2,3,0,4,3,20,3,5,2,0,1,1,2,1,1,5,3,3,1
La valeur 20 est-elle aberrante ? Elle serait rejetée par les automatismes de "détection de valeurs aberrantes", alors qu'il s'agissait des notes d'un devoir raté (et pour cause !) par toute une classe sauf 1 (qui lui avait éciouté le cours précédent et appris ses leçons).
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Detection de valeurs aberrantes à plusieurs dimensions
A la lecture de votre réponse, je comprend que j'ai très mal exprimé mon problème.
Pour mieux me faire comprendre, prenons un exemple concret.
Imaginons que les données que je reçois sont :
- coordonnées géographiques
- indicateur d'humidité
- indice de pluie des dernières 24h.
Ces trois paramètres peuvent prendre des valeurs très différentes, voir extrême sans être aberrantes, mais il existe une cohérence.
C'est à dire, l’indicateur d'humidité peut être très élevé, si dans mon historique, les autres variables ont le même comportement.
Ce que je cherche à écarter, c'est un trio ou l'ensemble des valeurs indicateur d'humidité, indice de pluie et coordonnées géo sont incohérents. Par exemple, pour ces coordonnées géographiques précises, et bien l'indicateur d'humidité n'est pas en accords avec mon indice de pluie (par rapport à l'historique de comportement).
Je cherche une méthode, qui ne semble vraisemblablement pas exister qui traite de l’aberration, non pas par l’extrême, mais par une sorte de corrélation entre plusieurs variables.
Mais je comprend que ce n'est probablement pas le meilleur endroit pour résoudre mon problème.
Je vais chercher de mon coté.
Merci tout de même.
Antoine
Pour mieux me faire comprendre, prenons un exemple concret.
Imaginons que les données que je reçois sont :
- coordonnées géographiques
- indicateur d'humidité
- indice de pluie des dernières 24h.
Ces trois paramètres peuvent prendre des valeurs très différentes, voir extrême sans être aberrantes, mais il existe une cohérence.
C'est à dire, l’indicateur d'humidité peut être très élevé, si dans mon historique, les autres variables ont le même comportement.
Ce que je cherche à écarter, c'est un trio ou l'ensemble des valeurs indicateur d'humidité, indice de pluie et coordonnées géo sont incohérents. Par exemple, pour ces coordonnées géographiques précises, et bien l'indicateur d'humidité n'est pas en accords avec mon indice de pluie (par rapport à l'historique de comportement).
Je cherche une méthode, qui ne semble vraisemblablement pas exister qui traite de l’aberration, non pas par l’extrême, mais par une sorte de corrélation entre plusieurs variables.
Mais je comprend que ce n'est probablement pas le meilleur endroit pour résoudre mon problème.
Je vais chercher de mon coté.
Merci tout de même.
Antoine
antoine virgule- Nombre de messages : 3
Date d'inscription : 29/10/2012
Re: Detection de valeurs aberrantes à plusieurs dimensions
C'est à peu près ce que j'avais compris. mais on ne peut te donner des techniques statistiques que si tu es capable de poser ton problème en termes de statistiques. Ce que tu n'as pas fait ! L'utilisation de mots de comparaison (une sorte de corrélation) qui sortent du vocabulaire statistique ne dit rien de ce que tu veux vraiment faire. Tu demanderais à un mathématicien de te bricoler "une sorte de calcul" pour régler ton problème ?
Il n'y a pas plus de miracles en stats qu'ailleurs : les questions pas bien claires n'ont que des réponses floues.
D'ailleurs, toi-même tu es relativement flou :
"C'est à dire, l’indicateur d'humidité peut être très élevé, si dans mon historique, les autres variables ont le même comportement."
Quelles autres variables ? Tu n'en as donné que 3. Comme je n'imagine pas que la valeur des coordonnées géographiques soit corrélée avec la pluviosité, il n'en reste qu'une. A moins que tu appelles "variables" les valeurs précédentes de l'humidité et de l'indice de pluie.
Si tu réfléchis un peu, tu te rendras compte que tu as un travail préalable à faire pour décider à partir de quoi tu vas élaborer des règles de décision. La construction de ces règles emploiera probablement des méthodes statistiques, mais on ne peut pas inventer le contexte à ta place : C'est toi le spécialiste.
Cordialement.
NB : Ailleurs, tu auras peut-être des réponses "fais-ci ou fais-ça". Qui n'auront que peu de chances d'être utiles (mais tu pourras faire un beau logiciel, qui "en jette", même s'il n'a aucune validité scientifique).
Il n'y a pas plus de miracles en stats qu'ailleurs : les questions pas bien claires n'ont que des réponses floues.
D'ailleurs, toi-même tu es relativement flou :
"C'est à dire, l’indicateur d'humidité peut être très élevé, si dans mon historique, les autres variables ont le même comportement."
Quelles autres variables ? Tu n'en as donné que 3. Comme je n'imagine pas que la valeur des coordonnées géographiques soit corrélée avec la pluviosité, il n'en reste qu'une. A moins que tu appelles "variables" les valeurs précédentes de l'humidité et de l'indice de pluie.
Si tu réfléchis un peu, tu te rendras compte que tu as un travail préalable à faire pour décider à partir de quoi tu vas élaborer des règles de décision. La construction de ces règles emploiera probablement des méthodes statistiques, mais on ne peut pas inventer le contexte à ta place : C'est toi le spécialiste.
Cordialement.
NB : Ailleurs, tu auras peut-être des réponses "fais-ci ou fais-ça". Qui n'auront que peu de chances d'être utiles (mais tu pourras faire un beau logiciel, qui "en jette", même s'il n'a aucune validité scientifique).
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Detection de valeurs aberrantes à plusieurs dimensions
Salut,
Sans parler d'un méthode pour répondre à ta question, tu peux explorer tes données, pour cibler les valeurs dites aberrantes et fixer des critères de décision par la suite, à l'aide d'une analyse multivariée (ACP ou autre suivant la nature de tes données). Cela mettra en évidence les points qui sortent du lot et sur quelle variable.
Nik
Sans parler d'un méthode pour répondre à ta question, tu peux explorer tes données, pour cibler les valeurs dites aberrantes et fixer des critères de décision par la suite, à l'aide d'une analyse multivariée (ACP ou autre suivant la nature de tes données). Cela mettra en évidence les points qui sortent du lot et sur quelle variable.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Sujets similaires
» detection de valeurs aberrantes
» méthode détection données aberrantes
» Détecter des valeurs abérrantes
» valeurs aberrantes et anova
» Boîtes à moustaches : valeurs aberrantes
» méthode détection données aberrantes
» Détecter des valeurs abérrantes
» valeurs aberrantes et anova
» Boîtes à moustaches : valeurs aberrantes
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum