Estimation d'un paramètre pour v.a. de loi inconnue

par HDKalit Jeu 31 Jan 2013 - 15:17

Bonjour tout le monde,

Voilà je dois estimer une moyenne (durée de vie d'un composant) sur environ 3000000 d'observations.
L'idée après c'est de me resservir de cette estimation pour sélectionner des individus dans ma population (suivant leur durée de vie), population qui est sans cesse "ré-itérée" (certains individus composants sortent chaque mois du de la population et certains autres arrivent).

Au départ pour me faire une idée j'ai calculé la durée de vie moyenne sur mes 3000000 d'observations. Bon ok mais après? Si je prends 3000000 de nouveaux composants ma moyenne ne sera pas loin (sur un tel nombre!) mais j'aimerai quantifier le "risque" (1 ou 5 ou 10%).

Je souhaite donc (est-ce utile? cohérent?) faire un test statistique sur un échantillon (ou plusieurs d'ailleurs) de taille 5000 ou 10000 ou même plus?
Je suppose que ma variable aléatoire suit une loi normal (vu le nombre d'individus) et je fais un test sur la moyenne avec variance inconnue en prenant comme test le test de Student (la loi de la statistique de test est Student logiquement).
Mais bon encore une fois est-ce raisonnable de faire une estimation et de tester sur un échantillon plus petit la valeur de la moyenne calculée sur la "population" de base (3000000)?

Cdlt,

KaliHD

par gg Jeu 31 Jan 2013 - 21:43

Bonsoir.

Si tu peux considérer que la durée de vie est stable (même distribution des durées de vie) dans le temps, ta moyenne sur 3 millions de valeurs est une excellente estimation. Tu peux facilement obtenir un intervalle de confiance en utilisant la variance calculée sur les mêmes 3000000 de valeurs. On utilise la loi Normale, car la loi de la moyenne est extrêmement proche d'une loi de Gauss.

Si la durée de vie est variable, mais augmente suite à des améliorations, les résultats précédents pourront servir de base, quitte à renouveler le calcul ultérieurement.

Enfin si les durées de vies sont variables dans le temps, tu ne pourra utiliser ces résultats que tant que la population ne sera pas substantiellement modifiée.

Cordialement.

par HDKalit Ven 1 Fév 2013 - 10:37

Bonjour et merci de votre réponse,

En fait je suis parti effectivement sur le fait que mon estimation sur 3 millions était bonne. Et je testerai régulièrement le calcul pour voir si il y a une évolution mais normalement ça devrait être assez stable dans le temps.
Pour l'intervalle de confiance effectivement j'ai une variance estimée (sur les 3 millions) et effectivement vu la taille de la population je peux considérer que la moyenne (même avec variance inconnue) tend vers une Gaussienne.

Maintenant le "petit" problème que j'ai c'est:
- seulement 16% des composants ont une durée de vie > 1 jour
- j'ai des mesures intéressantes (différentes actions impliquées par ce composant) sur chaque composant (même quand leur durée de vie est très courte)
- j'aimerai faire une classification/classement sur les composants suivant ces mesures
- et un modèle de prédiction pour une mesure "cible" (le composant produit une action ou pas)
- je sais reconnaître (par un identifiant de référence unique) les composants

L'idée que j'ai est de ne considérer que les 16% qui ont une durée de vie >1 jour et de créer des classes sur cette population (en fonction de leurs mesures) et lorsque j'ai une nouvelle population soit je reconnaît le composant (par sa référence) et je lui applique mon modèle de prédiction (pour la mesure cible) si sa référence m'indique qu'il a une durée de vie > 1 jour soit je ne le reconnais pas et je le stock dans ma base pour voir si sa durée de vie est > 1 jour et ainsi recalculer mon modèle de classement/prédiction.

Problème c'est en ne faisant que cela j'ai peur de "biaiser" très fortement mon modèle. En même temps je ne sais pas comment "dealer" avec le problème d'avoir 84% de mes composants qui sont d'une durée de vie trop courte (> 1 jour) même si certains de ces composants produisent l'action à prédire (très petite proportion < 10%).

Avez vous des conseils?

Cdlt,

KaliHD

par Contenu sponsorisé

Estimation d'un paramètre pour v.a. de loi inconnue

Estimation d'un paramètre pour v.a. de loi inconnue

Re: Estimation d'un paramètre pour v.a. de loi inconnue

Re: Estimation d'un paramètre pour v.a. de loi inconnue

Re: Estimation d'un paramètre pour v.a. de loi inconnue