Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Le Deal du moment :
SSD interne Crucial BX500 2,5″ SATA – 500 ...
Voir le deal
29.99 €

Identification de données aberrantes

Aller en bas

Identification de données aberrantes Empty Identification de données aberrantes

Message par Invité Ven 10 Juin 2011 - 8:10

Bonjour à tous.

Je dispose d'un jeu de données, dont la structure (type de variables etc) n'a pas vraiment besoin d'être détaillée je pense. J'ajuste ensuite un modèle sur ces données, quel qu'il soit (linéaire, généralisé, simple ou multiple), et extrait la valeur du score de type AIC, BIC ou autres.

J'effectue ensuite une perturbation de mes données par permutations aléatoires (ou plutot pseudo aléatoire car les individus dont les valeurs sont à permuter ne sont pas choisis entièrement au hasard). Je crée alors un certain nombre de jeux de données fictifs dits perturbés.
Tout ces jeux découlent du même jeu de données initial.

Mon objectif est d'identifier des jeux de données dont la perturbation est trop aberrante pour être prise en compte dans mon analyse, et pour cela je pensais identifier les jeux de données à exclure par le biais de la valeur de leur score.
Ceci dans le sens ou un jeu de données à exclure aura un score trop "différent" des autres scores calculés sur l'ensemble des jeux de données (initial + perturbés).

Ma question est donc:
Comment mettre en évidence des jeux de données aberrants dans le sens ou mes permutation ont trop déformé la structure des données?
Je pensais calculé la valeur moyenne des scores, puis exclure ceux se trouvant à plus de deux écarts-type.

Cette méthode vous semble-t-elle logique?
En voyez vous d'autres? (se situer par rapport à la médiane ou aux quantiles par exemple?)

Merci d'avance,

Hadrien

Invité
Invité


Revenir en haut Aller en bas

Identification de données aberrantes Empty Re: Identification de données aberrantes

Message par gg Sam 11 Juin 2011 - 19:39

Bonjour.

Juste une remarque : A priori, si le score est une moyenne sur des données nombreuses (donc est approximativement Normal) une permutation sur 20 (en moyenne) donnera un score à plus de deux écarts types sans être une valeur aberrante.

Cordialement.

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum