Identification de données aberrantes

par Invité Ven 10 Juin 2011 - 8:10

Bonjour à tous.

Je dispose d'un jeu de données, dont la structure (type de variables etc) n'a pas vraiment besoin d'être détaillée je pense. J'ajuste ensuite un modèle sur ces données, quel qu'il soit (linéaire, généralisé, simple ou multiple), et extrait la valeur du score de type AIC, BIC ou autres.

J'effectue ensuite une perturbation de mes données par permutations aléatoires (ou plutot pseudo aléatoire car les individus dont les valeurs sont à permuter ne sont pas choisis entièrement au hasard). Je crée alors un certain nombre de jeux de données fictifs dits perturbés.
Tout ces jeux découlent du même jeu de données initial.

Mon objectif est d'identifier des jeux de données dont la perturbation est trop aberrante pour être prise en compte dans mon analyse, et pour cela je pensais identifier les jeux de données à exclure par le biais de la valeur de leur score.
Ceci dans le sens ou un jeu de données à exclure aura un score trop "différent" des autres scores calculés sur l'ensemble des jeux de données (initial + perturbés).

Ma question est donc:
Comment mettre en évidence des jeux de données aberrants dans le sens ou mes permutation ont trop déformé la structure des données?
Je pensais calculé la valeur moyenne des scores, puis exclure ceux se trouvant à plus de deux écarts-type.

Cette méthode vous semble-t-elle logique?
En voyez vous d'autres? (se situer par rapport à la médiane ou aux quantiles par exemple?)

Merci d'avance,

Hadrien

par gg Sam 11 Juin 2011 - 19:39

Bonjour.

Juste une remarque : A priori, si le score est une moyenne sur des données nombreuses (donc est approximativement Normal) une permutation sur 20 (en moyenne) donnera un score à plus de deux écarts types sans être une valeur aberrante.

Cordialement.

Identification de données aberrantes

Identification de données aberrantes

Re: Identification de données aberrantes