Détection événements inhabituels

par Particule Mer 11 Juil 2018 - 15:07

Bonjour à tous,

Je souhaiterais identifier dans une série de données des événements inhabituels. La série de données qui sert de référence (fréquentations normales) donne le nombre de personnes ayant pris un bus sur 10 jours :

Série de référence (01-10 janvier 2018)
jour 1 : 51 personnes
jour 2 : 55
jour 3 : 50
jour 4 : 51
jour 5 : 52
jour 6 : 53
jour 7 : 54
jour 8 : 52
jour 9 : 51
jour 10 : 51

Nous possédons une deuxième série dans laquelle nous souhaiterions identifier les jours où un événement inhabituel (au sens statistique) s'est produit, c'est-à-dire les jours où la fréquentation est anormalement élevée ou trop basse par rapport à la série de référence (jours 1 à 10) :

Série de test (11-20 janvier 2018)
jour 11 : 52
jour 12 : 53
jour 13 : 52
jour 14 : 51
jour 15 : 55
jour 16 : 57
jour 17 : 60
jour 18 : 61
jour 19 : 60
jour 20 : 51

Quel(s) outil(s) statistique(s) me conseilleriez-vous d'utiliser ? Que pensez-vous de la méthode suivante similaire à une carte de contrôle de la moyenne :

1) calculer la valeur moyenne de la fréquentation en utilisant la série de référence (xmoy = 52)
2) calculer l'écart-type de la fréquentation en utilisant la série de référence (sigma = 2)
3) calculer une limite haute : LH = xmoy + 3*sigma = 58
4) calculer une limite basse : LB = xmoy - 3*sigma = 46
5) considérer que les jours inhabituels dans la deuxième série sont ceux pour lesquels la fréquentation est supérieur à LH ou inférieur à LB : soit ici les jours 17, 18 et 19 (fréquentations anormalement élevées).

Qu'en pensez-vous ? Le problème est que généralement de telles données ne suivent pas une loi normale et donc j'ai un doute sur la méthode précédente.

Merci pour vos avis.

Pierre

par Eric Wajnberg Jeu 12 Juil 2018 - 4:45

Tout dépend, je pense, de ce que veut dire pour vous "inhabituel". Si ceci veut dire "avec une probabilité faible d'arriver", alors votre démarche est correcte, parmi d'autres.

Vous dites également que les données ne suivent pas une loi normale. Ceci m'étonne. En fait, il s'agirait plutôt d'une loi de Poisson (comptage), mais une loi de Poisson converge (rapidement) vers une loi normale lorsque la moyenne est élevée, ce qui est le cas ici.

Dans tout les cas, il serait utile effectivement de connaitre la loi suivie par vos données. Si vous arrivez à faire ceci, vous pourrez aisément calculer les seuils au-delà desquels des valeurs auront une faible probabilité d'arriver.

Si vous n'avez aucune idée de la loi, des procédures de bootstrap pourraient vous aider.

HTH, Eric.

par zezima Jeu 12 Juil 2018 - 7:22

Bonjour, comment avez-vous fait pour évaluer la "normalité" des données ?

par Particule Jeu 12 Juil 2018 - 11:19

Bonjour Eric,

Je vous remercie pour votre réponse rapide.

Ce que j'appelle "événement inhabituel" est effectivement un événement dont la probabilité d'occurrence est faible.

La méthode que j'ai proposée est utilisée notamment en épidémiologie ou contrôle qualité mais on suppose que la loi est normale.

Je ne connais pas du tout ces procédures de "bootstrap". Pourriez-vous m'indiquer les étapes à suivre pour résoudre mon problème avec cette méthode ? Que donne cette méthode pour les deux séries de données évoquées dans mon premier post ?

Merci

Pierre

par Eric Wajnberg Jeu 12 Juil 2018 - 20:07

Les méthodes de bootstrap fonctionnent sur des ré-échantillonages aléatoires des jeux de données pour en reconstruire la distribution empirique (pas théorique, donc). Une fois que la loi est ainsi reconstruite on peut par exemple calculer la probabilité d'avoir une valeur en-dessous ou au-dessus d'un certain seuil, comme vous le souhaitez.

Il y a pas mal d'info sur le web, et d'outils statistiques qui font ça dans pas mal de logiciels.

HTH, Eric.

par Particule Ven 13 Juil 2018 - 8:17

Bonjour Eric,

Merci pour votre réponse.

J'ai regardé dans les livres quelques détails sur cette méthode.

D'après ce que je comprends elle permet de déterminer entre autre un intervalle de confiance pour un estimateur comme la moyenne ou l'écart-type.

Dans mon problème, il me semble que j'ai besoin plutôt d'un intervalle de confiance pour chaque valeur individuelle. Par exemple, l'intervalle dans lequel la probabilité que 52 personnes prennent le bus un certain jour est de 95%.

Ainsi dans mon cas il me semble que c'est plutôt un intervalle de confiance pour chaque valeur individuelle dont j'ai besoin plutôt qu'un intervalle de confiance sur la moyenne ou l'écart-type...Ai-je bien compris ?

par Eric Wajnberg Ven 13 Juil 2018 - 12:04

Oui, vous avez compris, mais les méthodes de bootstrap ne permettent pas que de calculer des intervalles de confiance pour un estimateur. Elles permettent de faire plein d'autres choses en fonction des besoins.

Personnellement, je les utilise souvent, et jamais pour calculer des intervalles de confiance pour un estimateur.

Juste pour le vocabulaire : ca n'a guère de sens de parler d'un "intervalle de confiance pour chaque valeur individuelle". Pour chaque individu, il n'y a pas vraiment de notion de "confiance" ou d'"intervalle". Mais on comprend ce que vous voulez dire.

Eric.

par Particule Ven 13 Juil 2018 - 17:23

Bonjour Eric,

Encore merci pour votre réponse.

Je vais étudier en détail cette méthode car pour le moment elle n'est pas très évidente pour moi.

Comme la loi n'est pas connue, j'ai compris qu'il était possible d'utiliser aussi un test non paramétrique pour détecter des outliers qui sont en fait ici des événements inhabituels.

Parmi les tests non paramétriques proposés, on trouve la boite à moustache dont l'utilisation me paraît assez simple (simpliste ?) :

1) déterminer le premier quartile Q1
2) déterminer le troisième quartile Q3
3) calculer l'écart inter-quartile EIC = Q3-Q1
4) représenter un rectangle qui s'étend de Q1 à Q3
5) ajouter des segments aux extrémités qui s'étendent de Q1-1,5*EIC à Q3+1,5*EIC
6) les outliers sont alors situés au delà de ces extrémités.

Cette méthode est t-elle pertinente pour résoudre mon problème initial ? J'ai l'impression (peut-être à tord) que cette méthode suppose que les données soient distribuées selon une loi normale... D'où vient ce facteur 1,5 lorsque l'on trace les extrémités ?

par Eric Wajnberg Ven 13 Juil 2018 - 17:27

Non, aucune loi normale dans ce cas. La valeur 1.5 est arbitraire. L'objectif ici est de résumer graphiquement les données, pas d'identifier des outliers.

Eric.

par cmoi Lun 16 Juil 2018 - 8:34

Bonjour,

Les boxplots ne sont en effet pas dépendant de la loi de distribution des données.
Cependant, le 1.5 x distance inter-quartile a été choisie de manière arbitraire car dans le cas d'une distribution Normale, ce 1.5 englobe 99.3% des observations (rule of thumb de Tukey). Pour info, si ce coefficient vaut 1, 95.7% des observations sont englobées par le boxplot, et s'il vaut 2 c'est 99.9%.

HTH,
Bastien

par Eric Wajnberg Lun 16 Juil 2018 - 16:00

Peut-être, mais généralement on se fout d'avoir un pourcentage d'observations dans un intervalle. Les observations correspondent à l'échantillon, et l'échantillon n'est pas une entité intéressante en soi. On ne s'en sert que pour estimer la population mère, et on préfère avoir un intervalle de confiance d'un paramètre estimé (et c'est très généralement la moyenne) avec 1.96 fois l'erreur standard.

Par ailleurs, l'intérêt de ce genre de graphiques avec des quartiles est de voir si la distribution est sensiblement symétrique autour de la moyenne, ce qui est la caractéristique des lois normales, mais également des lois de Student, ce qui permet de voir s'il est sensé de partir sur des procédures paramétrique (normales) ou non.

Eric.

par Contenu sponsorisé

Détection événements inhabituels

Détection événements inhabituels

Re: Détection événements inhabituels

Re: Détection événements inhabituels

Re: Détection événements inhabituels

Re: Détection événements inhabituels

Re: Détection événements inhabituels

Re: Détection événements inhabituels

Re: Détection événements inhabituels

Re: Détection événements inhabituels

Re: Détection événements inhabituels

Re: Détection événements inhabituels

Re: Détection événements inhabituels