Détecter des Outliers sur une loi multivariée normale

Aller en bas

Détecter des Outliers sur une loi multivariée normale

Message par AdrienC le Mar 10 Juil 2018 - 12:27

Bonjour, j'ai un petit problème de programmation sur R. J'ai un jeu de données qui est distribué selon une loi normale multivariée (du moins chaque variable est gaussienne). Je me demandais comment sur R, je pouvais modéliser mon data avec une telle loi.

L'objectif est de détecter les valeurs "aberrantes" de mon data. J'ai besoin de les extraire afin de les étudier.

En vous remerciant

Bonne journée

Adrien
avatar
AdrienC

Nombre de messages : 66
Date d'inscription : 15/03/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Détecter des Outliers sur une loi multivariée normale

Message par zezima le Mar 10 Juil 2018 - 13:42

Salut, tu cherches
-les individus "outliers" au niveau de tes différentes variables ?
ou
-les individus "outliers" pour chaque variable ?

Attention : outlier =/= valeur aberrante.
Le hasard fait parfois mal les choses.

Mais en effet, on a toujours un poids plus important à dire qu'un individu a des données aberrantes s'il présente des outliers au niveau de plusieurs variables.

Sinon au niveau de tes données, est-ce que tu as des regroupements (exemple : centre) ?
Il existe un nombre très élevé de méthodes permettant d'investiguer les valeurs aberrantes (mais bien sur à prendre avec des pincettes au niveau de l'interprétation).
avatar
zezima

Nombre de messages : 816
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Détecter des Outliers sur une loi multivariée normale

Message par AdrienC le Mar 10 Juil 2018 - 18:52

Bonjour Smile
Je cherche des outliers sur tout mon tableau de données (pas variable par variable). Il est important de préciser que le tableau est divisé en 5 groupes (il y a une variable qualitative Y qui permet de segmenter le data).

Au début j'avais pris le tableau de données où Y=1, et j'avais cherché les outliers dessus. Puis j'avais fait la même chose pour Y=2 et ainsi de suite. Mais bon ...

Au final, je ne cherche pas du tout à supprimer ces "outliers" mais juste à regrouper les individus "atypiques" afin de les étudier cas par cas (même si ça pourrait faire 5000 individus).

Mon tableau est assez grand (60 000 personnes) ...


En vous remerciant

Adrien
avatar
AdrienC

Nombre de messages : 66
Date d'inscription : 15/03/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Détecter des Outliers sur une loi multivariée normale

Message par Florent Aubry le Mar 10 Juil 2018 - 21:15

Sous R, il y a le package mvoutlier mais comme le fait remarque zezima, la notion de valeurs aberrantes est à prendre avec beaucoup de précaution. Pour illustrer le problème, soit une v.a gaussienne univariée, 5% de ses valeurs sont en dehors de l'intervalle +/- 2 sd et ce ne sont pas des valeurs aberrantes mais simplement des valeurs en dehors de l'intervalle que l'on considère comme d'intérêt. Il faut donc bien définir ce qu'on entend comme outlier et comme valeurs aberrantes. Les premiers sont des valeurs qui ne sont pas dans les valeurs d'intérêt (donc des valeurs 'extrêmes'), les secondes des données qui ne respectent pas les critères définissant la population d'intérêt et/ou celles qui proviennent d'un mauvais choix des individus inclus dans l'échantillon. Certains outliers sont aberrants et certaines valeurs aberrantes ne sont pas des outliers. Si dans un échantillon provenant d'une population que l'on sait normale, il y a largement plus de 5% des individus en dehors de +/- 2sd et largement plus de 1% en dehors de +/- 2.6 sd, alors on peut considérer que l'échantillon contient des valeurs aberrantes.

Enfin, on peut aussi introduire la notion de valeurs influentes (cf. mesure d'influence) qui sont des valeurs qui ont un fort poids (anormal) dans l'estimation des paramètres. A mon avis, c'est plutôt grâce à ces mesures qu'on peut détecter des valeurs aberrantes.

Florent Aubry

Nombre de messages : 213
Date d'inscription : 02/11/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Détecter des Outliers sur une loi multivariée normale

Message par zezima le Mer 11 Juil 2018 - 7:30

Je pense qu'il serait encore mieux si tu pouvais définir ce que tu cherches à détecter (exemple : erreur de saisie, fraude, machine qui ne marche pas...).
Avec des hypothèses tu pourras te focus sur les types de méthodes qui t'intéressent afin de détecter ces valeurs aberrantes.

-Par exemple, pour la fraude, si un médecin veut créer des patients, il peut être amené à prendre des valeurs très proches de la moyenne de ses autres patients, il aura donc des "inliers" (données trop proches de la moyenne).

-Pour un problème de fonctionnement de machine, tu auras des biais récurrents et c'est à ce niveau là qu'il peut être intéressant d'avoir des sous-groupes permettant d'expliquer ce biais récurrent (exemple : si on s'intéresse à différents hôpitaux, on peut facilement détecter un biais récurrent de disfonctionnement d'une machine dans un hôpital spécifique)

Tu peux regarder au niveau de les méthode de Grubbs/Dixon/distance de mahalanobis pour la détection de valeurs extrêmes.
Le volcano plot ou le funnel plot seront intéressants à utiliser si tu veux étudier des groupes d'individus (exemple : hôpital).

Si tu veux étudier les valeurs les plus extrêmes dans un objectif descriptif, tu peux sélectionner arbitrairement un pourcentage de ces valeurs éloignées de la moyenne de tes variables d'intérêt.
Pour prendre en compte plusieurs variable en même temps dans la détection d'outliers, on peut avoir recours à des création de scores mais là encore, c'est assez arbitraire.
avatar
zezima

Nombre de messages : 816
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Détecter des Outliers sur une loi multivariée normale

Message par AdrienC le Jeu 12 Juil 2018 - 7:47

Bonjour, je travaille dans la vision et l'on a fait beaucoup de mesures sur les yeux (des tests et tout ça). Ce que voulait en premier mon entreprise était de faire une classification (non supervisée) afin d'identifier des groupes de personnes homogènes. Cependant dans ces groupes il y a des personnes avec des profils "visuels" très différents des autres. On aimerait les identifier afin de pouvoir faire une analyse sur eux. On ne cherche pas du tout à les supprimer de l'étude.


Smile
avatar
AdrienC

Nombre de messages : 66
Date d'inscription : 15/03/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Détecter des Outliers sur une loi multivariée normale

Message par zezima le Mar 17 Juil 2018 - 16:23

Grubbs test Smile

J'essaie de t'envoyer mon rapport de stage sur lequel j'avais travaillé sur cette méthode, y'a des graphiques sympas Smile
avatar
zezima

Nombre de messages : 816
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Détecter des Outliers sur une loi multivariée normale

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum