Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine
Aucun utilisateur

Le Deal du moment : -21%
PC Portable HP Victus Gaming 16,1″FHD + Souris ...
Voir le deal
949.99 €

Correction de series

4 participants

Aller en bas

Correction de series Empty Correction de series

Message par manatane Lun 16 Oct 2006 - 10:42

Bonjour,

je ne suis pas statisticien, mais j'ai besoin des statistiques pour mes travaux.

Je travaille sur un fichier excel qui contient des centaines de lignes de données récupérées de la base de données des historiques de consommation d'articles.
J'ai calculé les ecart-type, moyenne, max, min pour chaque série (contenant entre 1 et 26 valeurs).
Il apparait que sur beaucoup d'entre elles, il y ai des valeurs qui influence fortement l'ecart type ( jusqu'a 500%).
Je peux avoir un moyenne a 109, un ecart type de 277, un max a 1300, un min a 2 pour 20 valeurs dans la série. Si j'enleve 1300 j'ecart type tombe a 39... Ce n'est qu'un exemple mais c'est tres souvent le cas dans mon fichier.

Mon probleme est de savoir si je peux eliminer ces valeurs sans tout fausser et s'il existe des methodes pour.
J'ai lu qu'on pouvait eliminer 10% des valeurs + et - importantes.
J'ai calculé les rapports moy/e type, min/e type, max/e type, afin de repérer les valeurs aberrantes et les eliminer avec un programme qui supprime le max s'il represente + de 350% de l'ecart type et le min s'il represente - de 10% de l'e type.

Qu'en pensez vous ?
Merci!

manatane

Nombre de messages : 1
Date d'inscription : 16/10/2006

Revenir en haut Aller en bas

Correction de series Empty Re: Correction de series

Message par Enzo Lun 16 Oct 2006 - 11:47

Bonjour manatane,

Le problème des valeurs atypiques n'est pas nouveau. La méthode que tu as employée (enlever les x% de valeurs les plus faibles et plus fortes) s'appelle "moyenne tronquée" et est définie comme un estimateur robuste (dont la valeur est très peu sensible aux données aberrantes).

Dans le même ordre d'idée, tu peux utiliser des estimateurs non paramétriques (médiane, intervalle inter-quartiles, etc.).

Une méthode graphique consiste à représenter pour chaque variable un diagramme "boîte à moustache", graphique qui représente les points atypiques d'une manière particulière. Ce type de graph utilise d'ailleurs une démarche proche de celle que tu as employée i.e, on considère comme atypiques les valeurs s'écartant de plus de x de la tendance centrale.

Ta démarche est donc tout à fait correcte. En revanche, elle est complètement dépendante des valeurs seuils (celles au-dessus ou au dessous desquelles on considère une valeur comme étant atypique). A ma connaissance, il n'existe de méthode ou technique pour déterminer ces valeurs seuils. Tout dépend du problème traité et de la distribution des variables.

Au final, je regarderais du côté des ces diagrammes "boîtes à moustache".

a+

Enzo

Nombre de messages : 33
Date d'inscription : 13/10/2006

Revenir en haut Aller en bas

Correction de series Empty Re: Correction de series

Message par Kolmogorov Lun 16 Oct 2006 - 18:21

Enzo a écrit:Une méthode graphique consiste à représenter pour chaque variable un diagramme "boîte à moustache", graphique qui représente les points atypiques d'une manière particulière. Ce type de graph utilise d'ailleurs une démarche proche de celle que tu as employée i.e, on considère comme atypiques les valeurs s'écartant de plus de x de la tendance centrale.

Bonjour Enzo,

A propos des boîte à moustache (teboi à stachmou pour les intimes ! afro ), sais-tu précisément la fomule donnant la limite basse et haute en dessous et au dessus de laquelle on dira qu'une valeur est aberrante ?

2ème question : par tendance centrale, tu entends médiane ou moyenne ?

Bien cordialement,

Kolmo
Kolmogorov
Kolmogorov

Nombre de messages : 143
Date d'inscription : 22/01/2006

Revenir en haut Aller en bas

Correction de series Empty Re: Correction de series

Message par Laurent Mar 17 Oct 2006 - 7:01

Limite haute= 75° percentile + 1.5 équart interquartile (en francais limite haute= haut de la boite + 1.5 épaisseur de la boite, idem avec limite basse)

Il faut bien comprendre que sur les boites à moustaches cette valeur est calculée mais n'est pas affichée sur le graphique (toujours pour la limite haute, la haut de la moustache n'est pas la limite haute mais la valeur la plus élevée inférieure à la limite haute)

Ca c'est si on respecte les definitions de Tukey.

Pour ta 2° question, à priori c'est la médiane

Laurent

Nombre de messages : 15
Date d'inscription : 30/08/2006

Revenir en haut Aller en bas

Correction de series Empty Re: Correction de series

Message par Kolmogorov Mar 17 Oct 2006 - 7:25

Laurent a écrit:Limite haute= 75° percentile + 1.5 équart interquartile (en francais limite haute= haut de la boite + 1.5 épaisseur de la boite, idem avec limite basse)

Il faut bien comprendre que sur les boites à moustaches cette valeur est calculée mais n'est pas affichée sur le graphique (toujours pour la limite haute, la haut de la moustache n'est pas la limite haute mais la valeur la plus élevée inférieure à la limite haute)

Ca c'est si on respecte les definitions de Tukey.

Pour ta 2° question, à priori c'est la médiane

Merci Laurent ! J'utilise des boxplot sans arrêt et j'ai jamais pris le temps de savoir comment les valeurs étaient jugées aberrantes. Maintenant me voilà moins bête !
Kolmogorov
Kolmogorov

Nombre de messages : 143
Date d'inscription : 22/01/2006

Revenir en haut Aller en bas

Correction de series Empty Re: Correction de series

Message par Laurent Mar 17 Oct 2006 - 7:39

Il faut faire assez attention à l'interprétation des boites à moustaches: on retrouve sous différents termes génériques (boite à moustaches, graphe en boites, box plot…) de nombreux diagrammes en forme de boites qui se différencient par leur construction, leurs usages et même leurs interprétations!

Par exemple le "graph box" de stata respecte la définition de Tukey mais le "graphe en boites" de Statview simplifie la définition des moustaches (moustache basse = 10° percentile, moustache haute = 90° percentile).

Correction de series Graphesenboiteskl3.th

=> voir manuel du soft !

Laurent

Nombre de messages : 15
Date d'inscription : 30/08/2006

Revenir en haut Aller en bas

Correction de series Empty Re: Correction de series

Message par Enzo Mar 17 Oct 2006 - 8:41

Bonjour Kolmogorov et Laurent,

>Kolmogorov

Je pense que tu as la réponse à ta première question Smile .

Concernant la tendance centrale : j'ai justement employé ce terme pour désigner tout ce qui pouvait s'apparenter au "centre" de la distribution, autrement dit, à la valeur la plus représentative. C'est généralement la moyenne, mais ce peut être aussi la médiane, une moyenne tronquée, le mode pour des vars quali, etc.

a+

Enzo

Nombre de messages : 33
Date d'inscription : 13/10/2006

Revenir en haut Aller en bas

Correction de series Empty Re: Correction de series

Message par Kolmogorov Mar 17 Oct 2006 - 11:44

Merci !
Kolmogorov
Kolmogorov

Nombre de messages : 143
Date d'inscription : 22/01/2006

Revenir en haut Aller en bas

Correction de series Empty Re: Correction de series

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut


 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum