Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Détecter des Outliers sur une loi multivariée normale
3 participants
Page 1 sur 1
Détecter des Outliers sur une loi multivariée normale
Bonjour, j'ai un petit problème de programmation sur R. J'ai un jeu de données qui est distribué selon une loi normale multivariée (du moins chaque variable est gaussienne). Je me demandais comment sur R, je pouvais modéliser mon data avec une telle loi.
L'objectif est de détecter les valeurs "aberrantes" de mon data. J'ai besoin de les extraire afin de les étudier.
En vous remerciant
Bonne journée
Adrien
L'objectif est de détecter les valeurs "aberrantes" de mon data. J'ai besoin de les extraire afin de les étudier.
En vous remerciant
Bonne journée
Adrien
AdrienC- Nombre de messages : 93
Date d'inscription : 15/03/2018
Re: Détecter des Outliers sur une loi multivariée normale
Salut, tu cherches
-les individus "outliers" au niveau de tes différentes variables ?
ou
-les individus "outliers" pour chaque variable ?
Attention : outlier =/= valeur aberrante.
Le hasard fait parfois mal les choses.
Mais en effet, on a toujours un poids plus important à dire qu'un individu a des données aberrantes s'il présente des outliers au niveau de plusieurs variables.
Sinon au niveau de tes données, est-ce que tu as des regroupements (exemple : centre) ?
Il existe un nombre très élevé de méthodes permettant d'investiguer les valeurs aberrantes (mais bien sur à prendre avec des pincettes au niveau de l'interprétation).
-les individus "outliers" au niveau de tes différentes variables ?
ou
-les individus "outliers" pour chaque variable ?
Attention : outlier =/= valeur aberrante.
Le hasard fait parfois mal les choses.
Mais en effet, on a toujours un poids plus important à dire qu'un individu a des données aberrantes s'il présente des outliers au niveau de plusieurs variables.
Sinon au niveau de tes données, est-ce que tu as des regroupements (exemple : centre) ?
Il existe un nombre très élevé de méthodes permettant d'investiguer les valeurs aberrantes (mais bien sur à prendre avec des pincettes au niveau de l'interprétation).
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Détecter des Outliers sur une loi multivariée normale
Bonjour
Je cherche des outliers sur tout mon tableau de données (pas variable par variable). Il est important de préciser que le tableau est divisé en 5 groupes (il y a une variable qualitative Y qui permet de segmenter le data).
Au début j'avais pris le tableau de données où Y=1, et j'avais cherché les outliers dessus. Puis j'avais fait la même chose pour Y=2 et ainsi de suite. Mais bon ...
Au final, je ne cherche pas du tout à supprimer ces "outliers" mais juste à regrouper les individus "atypiques" afin de les étudier cas par cas (même si ça pourrait faire 5000 individus).
Mon tableau est assez grand (60 000 personnes) ...
En vous remerciant
Adrien
Je cherche des outliers sur tout mon tableau de données (pas variable par variable). Il est important de préciser que le tableau est divisé en 5 groupes (il y a une variable qualitative Y qui permet de segmenter le data).
Au début j'avais pris le tableau de données où Y=1, et j'avais cherché les outliers dessus. Puis j'avais fait la même chose pour Y=2 et ainsi de suite. Mais bon ...
Au final, je ne cherche pas du tout à supprimer ces "outliers" mais juste à regrouper les individus "atypiques" afin de les étudier cas par cas (même si ça pourrait faire 5000 individus).
Mon tableau est assez grand (60 000 personnes) ...
En vous remerciant
Adrien
AdrienC- Nombre de messages : 93
Date d'inscription : 15/03/2018
Re: Détecter des Outliers sur une loi multivariée normale
Sous R, il y a le package mvoutlier mais comme le fait remarque zezima, la notion de valeurs aberrantes est à prendre avec beaucoup de précaution. Pour illustrer le problème, soit une v.a gaussienne univariée, 5% de ses valeurs sont en dehors de l'intervalle +/- 2 sd et ce ne sont pas des valeurs aberrantes mais simplement des valeurs en dehors de l'intervalle que l'on considère comme d'intérêt. Il faut donc bien définir ce qu'on entend comme outlier et comme valeurs aberrantes. Les premiers sont des valeurs qui ne sont pas dans les valeurs d'intérêt (donc des valeurs 'extrêmes'), les secondes des données qui ne respectent pas les critères définissant la population d'intérêt et/ou celles qui proviennent d'un mauvais choix des individus inclus dans l'échantillon. Certains outliers sont aberrants et certaines valeurs aberrantes ne sont pas des outliers. Si dans un échantillon provenant d'une population que l'on sait normale, il y a largement plus de 5% des individus en dehors de +/- 2sd et largement plus de 1% en dehors de +/- 2.6 sd, alors on peut considérer que l'échantillon contient des valeurs aberrantes.
Enfin, on peut aussi introduire la notion de valeurs influentes (cf. mesure d'influence) qui sont des valeurs qui ont un fort poids (anormal) dans l'estimation des paramètres. A mon avis, c'est plutôt grâce à ces mesures qu'on peut détecter des valeurs aberrantes.
Enfin, on peut aussi introduire la notion de valeurs influentes (cf. mesure d'influence) qui sont des valeurs qui ont un fort poids (anormal) dans l'estimation des paramètres. A mon avis, c'est plutôt grâce à ces mesures qu'on peut détecter des valeurs aberrantes.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Détecter des Outliers sur une loi multivariée normale
Je pense qu'il serait encore mieux si tu pouvais définir ce que tu cherches à détecter (exemple : erreur de saisie, fraude, machine qui ne marche pas...).
Avec des hypothèses tu pourras te focus sur les types de méthodes qui t'intéressent afin de détecter ces valeurs aberrantes.
-Par exemple, pour la fraude, si un médecin veut créer des patients, il peut être amené à prendre des valeurs très proches de la moyenne de ses autres patients, il aura donc des "inliers" (données trop proches de la moyenne).
-Pour un problème de fonctionnement de machine, tu auras des biais récurrents et c'est à ce niveau là qu'il peut être intéressant d'avoir des sous-groupes permettant d'expliquer ce biais récurrent (exemple : si on s'intéresse à différents hôpitaux, on peut facilement détecter un biais récurrent de disfonctionnement d'une machine dans un hôpital spécifique)
Tu peux regarder au niveau de les méthode de Grubbs/Dixon/distance de mahalanobis pour la détection de valeurs extrêmes.
Le volcano plot ou le funnel plot seront intéressants à utiliser si tu veux étudier des groupes d'individus (exemple : hôpital).
Si tu veux étudier les valeurs les plus extrêmes dans un objectif descriptif, tu peux sélectionner arbitrairement un pourcentage de ces valeurs éloignées de la moyenne de tes variables d'intérêt.
Pour prendre en compte plusieurs variable en même temps dans la détection d'outliers, on peut avoir recours à des création de scores mais là encore, c'est assez arbitraire.
Avec des hypothèses tu pourras te focus sur les types de méthodes qui t'intéressent afin de détecter ces valeurs aberrantes.
-Par exemple, pour la fraude, si un médecin veut créer des patients, il peut être amené à prendre des valeurs très proches de la moyenne de ses autres patients, il aura donc des "inliers" (données trop proches de la moyenne).
-Pour un problème de fonctionnement de machine, tu auras des biais récurrents et c'est à ce niveau là qu'il peut être intéressant d'avoir des sous-groupes permettant d'expliquer ce biais récurrent (exemple : si on s'intéresse à différents hôpitaux, on peut facilement détecter un biais récurrent de disfonctionnement d'une machine dans un hôpital spécifique)
Tu peux regarder au niveau de les méthode de Grubbs/Dixon/distance de mahalanobis pour la détection de valeurs extrêmes.
Le volcano plot ou le funnel plot seront intéressants à utiliser si tu veux étudier des groupes d'individus (exemple : hôpital).
Si tu veux étudier les valeurs les plus extrêmes dans un objectif descriptif, tu peux sélectionner arbitrairement un pourcentage de ces valeurs éloignées de la moyenne de tes variables d'intérêt.
Pour prendre en compte plusieurs variable en même temps dans la détection d'outliers, on peut avoir recours à des création de scores mais là encore, c'est assez arbitraire.
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Détecter des Outliers sur une loi multivariée normale
Bonjour, je travaille dans la vision et l'on a fait beaucoup de mesures sur les yeux (des tests et tout ça). Ce que voulait en premier mon entreprise était de faire une classification (non supervisée) afin d'identifier des groupes de personnes homogènes. Cependant dans ces groupes il y a des personnes avec des profils "visuels" très différents des autres. On aimerait les identifier afin de pouvoir faire une analyse sur eux. On ne cherche pas du tout à les supprimer de l'étude.
AdrienC- Nombre de messages : 93
Date d'inscription : 15/03/2018
Re: Détecter des Outliers sur une loi multivariée normale
Grubbs test
J'essaie de t'envoyer mon rapport de stage sur lequel j'avais travaillé sur cette méthode, y'a des graphiques sympas
J'essaie de t'envoyer mon rapport de stage sur lequel j'avais travaillé sur cette méthode, y'a des graphiques sympas
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Sujets similaires
» Les tests classiques pour détecter les outliers ?
» Choix entre une distribution Normale et Log-Normale
» détection d'outliers
» Enlever "outliers" ou Normalisation?
» Détection d'outliers, quel test utiliser
» Choix entre une distribution Normale et Log-Normale
» détection d'outliers
» Enlever "outliers" ou Normalisation?
» Détection d'outliers, quel test utiliser
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum