Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Identification de données aberrantes
Page 1 sur 1
Identification de données aberrantes
Bonjour à tous.
Je dispose d'un jeu de données, dont la structure (type de variables etc) n'a pas vraiment besoin d'être détaillée je pense. J'ajuste ensuite un modèle sur ces données, quel qu'il soit (linéaire, généralisé, simple ou multiple), et extrait la valeur du score de type AIC, BIC ou autres.
J'effectue ensuite une perturbation de mes données par permutations aléatoires (ou plutot pseudo aléatoire car les individus dont les valeurs sont à permuter ne sont pas choisis entièrement au hasard). Je crée alors un certain nombre de jeux de données fictifs dits perturbés.
Tout ces jeux découlent du même jeu de données initial.
Mon objectif est d'identifier des jeux de données dont la perturbation est trop aberrante pour être prise en compte dans mon analyse, et pour cela je pensais identifier les jeux de données à exclure par le biais de la valeur de leur score.
Ceci dans le sens ou un jeu de données à exclure aura un score trop "différent" des autres scores calculés sur l'ensemble des jeux de données (initial + perturbés).
Ma question est donc:
Comment mettre en évidence des jeux de données aberrants dans le sens ou mes permutation ont trop déformé la structure des données?
Je pensais calculé la valeur moyenne des scores, puis exclure ceux se trouvant à plus de deux écarts-type.
Cette méthode vous semble-t-elle logique?
En voyez vous d'autres? (se situer par rapport à la médiane ou aux quantiles par exemple?)
Merci d'avance,
Hadrien
Je dispose d'un jeu de données, dont la structure (type de variables etc) n'a pas vraiment besoin d'être détaillée je pense. J'ajuste ensuite un modèle sur ces données, quel qu'il soit (linéaire, généralisé, simple ou multiple), et extrait la valeur du score de type AIC, BIC ou autres.
J'effectue ensuite une perturbation de mes données par permutations aléatoires (ou plutot pseudo aléatoire car les individus dont les valeurs sont à permuter ne sont pas choisis entièrement au hasard). Je crée alors un certain nombre de jeux de données fictifs dits perturbés.
Tout ces jeux découlent du même jeu de données initial.
Mon objectif est d'identifier des jeux de données dont la perturbation est trop aberrante pour être prise en compte dans mon analyse, et pour cela je pensais identifier les jeux de données à exclure par le biais de la valeur de leur score.
Ceci dans le sens ou un jeu de données à exclure aura un score trop "différent" des autres scores calculés sur l'ensemble des jeux de données (initial + perturbés).
Ma question est donc:
Comment mettre en évidence des jeux de données aberrants dans le sens ou mes permutation ont trop déformé la structure des données?
Je pensais calculé la valeur moyenne des scores, puis exclure ceux se trouvant à plus de deux écarts-type.
Cette méthode vous semble-t-elle logique?
En voyez vous d'autres? (se situer par rapport à la médiane ou aux quantiles par exemple?)
Merci d'avance,
Hadrien
Invité- Invité
Re: Identification de données aberrantes
Bonjour.
Juste une remarque : A priori, si le score est une moyenne sur des données nombreuses (donc est approximativement Normal) une permutation sur 20 (en moyenne) donnera un score à plus de deux écarts types sans être une valeur aberrante.
Cordialement.
Juste une remarque : A priori, si le score est une moyenne sur des données nombreuses (donc est approximativement Normal) une permutation sur 20 (en moyenne) donnera un score à plus de deux écarts types sans être une valeur aberrante.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Sujets similaires
» Détecter des valeurs abérrantes
» méthode détection données aberrantes
» observations aberrantes
» detection de valeurs aberrantes
» valeurs aberrantes et anova
» méthode détection données aberrantes
» observations aberrantes
» detection de valeurs aberrantes
» valeurs aberrantes et anova
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum