Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
variabilité dans un echantillon (Bootstraap, Monte-Carlo)
Page 1 sur 1
variabilité dans un echantillon (Bootstraap, Monte-Carlo)
Bonjour,
J’ai un petit problème de statistique et comme je ne suis pas un expert, je viens vous demander de l’aide pour m’orienter sur une méthode à utiliser. Merci d'avance pour vos réponses.
Mon problème simplifié : je constate une variabilité dans un échantillon pris dans une population
je veux ensuite sélectionner quelques membres de cette population et en déduire la variabilité probable de ces quelques membres. (en vrai c'est un peu plus compliqué car j'ai plusieurs populations)
Voilà mon problème détaillé : suite à 2 expérimentations sur des véhicules électriques et véhicules électrique rechargeable, on a récolté des données sur les courbes de charge journalière de ces véhicules (puissance en fonction du temps sur une journée, c’est en gros la puissance que demande au réseau une voiture lorsqu’elle se recharge, c’est en gros toujours nulle sauf quand la voiture se recharge, alors c’est de l’ordre de 3 kW).
Pour simplifier, on a suivi 4 type de véhicules :
*véhicule électrique de fonction (VE_VF)
*véhicule électrique personnel(VE_VP)
*véhicule hybride rechargeable de fonction (VHR_VF)
*véhicule hybride rechargeable personnel (VHR_VP)
-Pour les VE_VF, on a des données pour 20 véhicules sur en gros 1 an, soit 7000 courbes de charges journalières. De même pour les VE_VS, on a 7000 courbes de charges journalières
-Pour les VHR_VP on a suivi 20 véhicules pendant 2 ans, soit environ 14000 courbes de charges journalières. De même pour les VHR_VP, on a 14000 courbes de charges disponibles.
Les 4 types de véhicules ont des caractéristiques différentes et donc des courbes de charges différentes. Au sein même d’un type de véhicules, il y a aussi des différences, ça dépend de comment les personnes utilisent leur véhicule (en gros à quelle heure de la journée elles se rechargent). Et pour un véhicule on a 365 courbes de charge qui sont aussi variables (un utilisateur peut par exemple se charger un matin à 7h et le lendemain à 8h). En séparant en 4 types de véhicules, on retrouve une tendance, mais sans pouvoir dégager une loi statistique pour définir la courbe de charge.
Venant à la question. On aimerait calculer la courbe de charge d’un petit parc de véhicules donnés, par exemple 1 VE-VP, 2 VHR_VS, 1 VHR_CP (c’est un exemple, ça pourrait être tout autre).
Pour calculer la courbe de charge moyenne de ce parc, pas de problème, il suffit de calculer la courbe de charge moyenne de l’échantillon VE-VP, celui de VHR_VS et celui de VHR-CP, et d’additionner tout cela (si on considère que nos échantillons sont représentatifs).
Première question : L’idée est maintenant plus de calculer la courbe de charge moyenne d’un petit parc donnée, mais d’estimer avec une probabilité de X%(par exemple 95%) que la valeur de la courbe de charge journalière se trouve entre cette valeur max et cette valeur min. Le but étant de caractériser la variabilité de notre échantillon. Quelle méthode utiliser ?
(Par exemple j'ai entendu parler d'une méthode bootstraap ou monte-Carlo ?)
Deuxième question : Notre échantillon est assez faible (20 véhicules pour chaque type), on peut donc imaginer qu’il y ait quelques biais, comment peut-on prendre en compte cela ?
Troisième question : On peut découper nos 4 échantillons en sous échantillons, par exemple en séparant les courbes de charge entre les jours ouvrés et les jours de weekend, ce qui permettrait d’avoir des courbes de charges qui se ressemblent plus, on donc gagner en précision. Jusqu’à quelle taille d’échantillon est-ce raisonnable de descendre ?
Merci beaucoup pour vos réponses et votre aide. Bien sur si il y a quelque chose de pas clair, je reste à votre disposition
J’ai un petit problème de statistique et comme je ne suis pas un expert, je viens vous demander de l’aide pour m’orienter sur une méthode à utiliser. Merci d'avance pour vos réponses.
Mon problème simplifié : je constate une variabilité dans un échantillon pris dans une population
je veux ensuite sélectionner quelques membres de cette population et en déduire la variabilité probable de ces quelques membres. (en vrai c'est un peu plus compliqué car j'ai plusieurs populations)
Voilà mon problème détaillé : suite à 2 expérimentations sur des véhicules électriques et véhicules électrique rechargeable, on a récolté des données sur les courbes de charge journalière de ces véhicules (puissance en fonction du temps sur une journée, c’est en gros la puissance que demande au réseau une voiture lorsqu’elle se recharge, c’est en gros toujours nulle sauf quand la voiture se recharge, alors c’est de l’ordre de 3 kW).
Pour simplifier, on a suivi 4 type de véhicules :
*véhicule électrique de fonction (VE_VF)
*véhicule électrique personnel(VE_VP)
*véhicule hybride rechargeable de fonction (VHR_VF)
*véhicule hybride rechargeable personnel (VHR_VP)
-Pour les VE_VF, on a des données pour 20 véhicules sur en gros 1 an, soit 7000 courbes de charges journalières. De même pour les VE_VS, on a 7000 courbes de charges journalières
-Pour les VHR_VP on a suivi 20 véhicules pendant 2 ans, soit environ 14000 courbes de charges journalières. De même pour les VHR_VP, on a 14000 courbes de charges disponibles.
Les 4 types de véhicules ont des caractéristiques différentes et donc des courbes de charges différentes. Au sein même d’un type de véhicules, il y a aussi des différences, ça dépend de comment les personnes utilisent leur véhicule (en gros à quelle heure de la journée elles se rechargent). Et pour un véhicule on a 365 courbes de charge qui sont aussi variables (un utilisateur peut par exemple se charger un matin à 7h et le lendemain à 8h). En séparant en 4 types de véhicules, on retrouve une tendance, mais sans pouvoir dégager une loi statistique pour définir la courbe de charge.
Venant à la question. On aimerait calculer la courbe de charge d’un petit parc de véhicules donnés, par exemple 1 VE-VP, 2 VHR_VS, 1 VHR_CP (c’est un exemple, ça pourrait être tout autre).
Pour calculer la courbe de charge moyenne de ce parc, pas de problème, il suffit de calculer la courbe de charge moyenne de l’échantillon VE-VP, celui de VHR_VS et celui de VHR-CP, et d’additionner tout cela (si on considère que nos échantillons sont représentatifs).
Première question : L’idée est maintenant plus de calculer la courbe de charge moyenne d’un petit parc donnée, mais d’estimer avec une probabilité de X%(par exemple 95%) que la valeur de la courbe de charge journalière se trouve entre cette valeur max et cette valeur min. Le but étant de caractériser la variabilité de notre échantillon. Quelle méthode utiliser ?
(Par exemple j'ai entendu parler d'une méthode bootstraap ou monte-Carlo ?)
Deuxième question : Notre échantillon est assez faible (20 véhicules pour chaque type), on peut donc imaginer qu’il y ait quelques biais, comment peut-on prendre en compte cela ?
Troisième question : On peut découper nos 4 échantillons en sous échantillons, par exemple en séparant les courbes de charge entre les jours ouvrés et les jours de weekend, ce qui permettrait d’avoir des courbes de charges qui se ressemblent plus, on donc gagner en précision. Jusqu’à quelle taille d’échantillon est-ce raisonnable de descendre ?
Merci beaucoup pour vos réponses et votre aide. Bien sur si il y a quelque chose de pas clair, je reste à votre disposition
franck03- Nombre de messages : 2
Date d'inscription : 09/10/2015
méthode d’échantillonnage aléatoire paramétrique
Bonjour,
J’ai un peu avancé dans ma réflexion, alors je mets ma réponse, ça pourra peut-être un peu aider les personnes qui sont sur le forum.
Pour répondre à mon problème, je pense qu’il faut utiliser une méthode d’échantillonnage aléatoire paramétrique.
Pour prendre en compte que pour chacune de mes 4 populations, mon échantillon n’est pas forcement représentatif de ma population, je pourrai utiliser une technique de réechantillonage type bootstrap, pour exemple à partir de mes 7000 courbes de charge de VE-VP, je peux récréer des échantillons de 7000 courbes de charges. Mais comme dans mon cas, à chaque itération je sélectionne un nombre très faible de courbes de charge dans mon échantillon (1, 2 ou 3), la technique de réenchantillonage a peu d’influence sur le résultat et allonge le temps de calcul. La méthode bootstrap ne semble donc pas adapté.
La méthode de Monte Carlo permet de prendre en compte la variabilité des courbes de charges, mais il faut connaître une loi de probabilité de chacune de 4 populations. Le problème c’est qu’il faudrait une loi de probabilité pour chaque instant t de la journée, mais la valeur à l’instant t+1 est dépendante de la valeur à l’instant t (si par exemple un véhicule se charge entre 8h et 11h, il aura sa batterie pleine et donc il est peu probable qu'il se recharge par exemple à 12h).
Au final voila ce que je compte faire :
Je sélectionne 1 courbe de charge dans les 7000 courbes de charge de VE-VP que j’ai
Je sélectionne 2 courbes de charge dans les 14000 courbes de charge de VHR-VS que j’ai .
Je sélectionne 1 courbe de charge dans les 14000 courbes de charge de VHR-VP que j’ai.
J’additionne ensuite mes 4 courbes de charges. J’aurai donc la courbe de charge de mon petit parc, qui représente une possibilité de la courbe réelle
Je répète cette opération 10 000 fois (ou plus si je vois que les résultats ne sont pas stables). J’obtiens donc 10 000 courbes de charge possibles/réelle. J’élimine les 2,5 % valeurs de ma courbe de charge les plus basses et les 2,5% valeurs de ma courbe de charge les plus hautes (car la probabilité de l'occurrence est très faible). J'ai donc un intervalle de confiance sur ma courbe de charge réelle.
En faisant ça, je prends en compte la variabilité, par contre je ne prends pas en compte l’incertitude sur mon échantillon (mais qui est réduite du fait d’avoir séparé en plusieurs populations).
Que pensez-vous de cette méthode ? Est-ce qu’elle a un nom ?
Merci en tout cas de votre aide
Bonne journée
Franck
PS : Rappel du pourquoi je veux des courbes réelles :
En gros pour simplifier, si une voiture se charge elle a une puissance de 3 kW, si elle ne se charge pas, elle a une puissance de 0 kW (en simplifiant très grossièrement).
Donc si je regarde ma courbe de charge journalière d'un véhicule, j'aurai une puissance soit de 0 kW, soit de 3 kW à un instant t de la journée.
Si maintenant je regarde la courbe de charge d'un parc de 4 véhicules, j'aurai une puissance de 0, 3, 6, 9 ou 12 kW, selon s'il y a 0, 1, 2, 3, 4 véhicules qui se rechargent en même temps (les puissances s'additionnent).
Si on regarde la courbe de charge de mes 4 véhicules, en moyenne par exemple à 8h du matin sur un an, la puissance sera de 4,5 kW, car sur les 4 voitures il y a souvent 1 à 2 voitures qui se chargent à 8h. Mais ce qui m'intéresse de savoir ce n'est pas la moyenne sur un an, mais c'est bien ce qui peut arriver en vrai. Je veux savoir si le cas où 0 voiture ou par exemple 4 voitures se branchent en même temps arrivent souvent ou pas.
Donc en gros, je m'enfiche que ma moyenne sur un an de la puissance de mon parc de 4 véhicule soit de 4,5 kW, par contre je veux par exemple pouvoir dire que dans 90% des jours, ma puissance ne dépasse pas 9 kW à 8h (c'est à dire que dans 90% des jours, il n'y a pas plus de 3 véhicules qui se rechargent en même temps). C'est pour cela que je raisonne en valeur probable/réelle.
J'ai pris 8h, mais je m'intéresse à tous les moments de la journée.
J’ai un peu avancé dans ma réflexion, alors je mets ma réponse, ça pourra peut-être un peu aider les personnes qui sont sur le forum.
Pour répondre à mon problème, je pense qu’il faut utiliser une méthode d’échantillonnage aléatoire paramétrique.
Pour prendre en compte que pour chacune de mes 4 populations, mon échantillon n’est pas forcement représentatif de ma population, je pourrai utiliser une technique de réechantillonage type bootstrap, pour exemple à partir de mes 7000 courbes de charge de VE-VP, je peux récréer des échantillons de 7000 courbes de charges. Mais comme dans mon cas, à chaque itération je sélectionne un nombre très faible de courbes de charge dans mon échantillon (1, 2 ou 3), la technique de réenchantillonage a peu d’influence sur le résultat et allonge le temps de calcul. La méthode bootstrap ne semble donc pas adapté.
La méthode de Monte Carlo permet de prendre en compte la variabilité des courbes de charges, mais il faut connaître une loi de probabilité de chacune de 4 populations. Le problème c’est qu’il faudrait une loi de probabilité pour chaque instant t de la journée, mais la valeur à l’instant t+1 est dépendante de la valeur à l’instant t (si par exemple un véhicule se charge entre 8h et 11h, il aura sa batterie pleine et donc il est peu probable qu'il se recharge par exemple à 12h).
Au final voila ce que je compte faire :
Je sélectionne 1 courbe de charge dans les 7000 courbes de charge de VE-VP que j’ai
Je sélectionne 2 courbes de charge dans les 14000 courbes de charge de VHR-VS que j’ai .
Je sélectionne 1 courbe de charge dans les 14000 courbes de charge de VHR-VP que j’ai.
J’additionne ensuite mes 4 courbes de charges. J’aurai donc la courbe de charge de mon petit parc, qui représente une possibilité de la courbe réelle
Je répète cette opération 10 000 fois (ou plus si je vois que les résultats ne sont pas stables). J’obtiens donc 10 000 courbes de charge possibles/réelle. J’élimine les 2,5 % valeurs de ma courbe de charge les plus basses et les 2,5% valeurs de ma courbe de charge les plus hautes (car la probabilité de l'occurrence est très faible). J'ai donc un intervalle de confiance sur ma courbe de charge réelle.
En faisant ça, je prends en compte la variabilité, par contre je ne prends pas en compte l’incertitude sur mon échantillon (mais qui est réduite du fait d’avoir séparé en plusieurs populations).
Que pensez-vous de cette méthode ? Est-ce qu’elle a un nom ?
Merci en tout cas de votre aide
Bonne journée
Franck
PS : Rappel du pourquoi je veux des courbes réelles :
En gros pour simplifier, si une voiture se charge elle a une puissance de 3 kW, si elle ne se charge pas, elle a une puissance de 0 kW (en simplifiant très grossièrement).
Donc si je regarde ma courbe de charge journalière d'un véhicule, j'aurai une puissance soit de 0 kW, soit de 3 kW à un instant t de la journée.
Si maintenant je regarde la courbe de charge d'un parc de 4 véhicules, j'aurai une puissance de 0, 3, 6, 9 ou 12 kW, selon s'il y a 0, 1, 2, 3, 4 véhicules qui se rechargent en même temps (les puissances s'additionnent).
Si on regarde la courbe de charge de mes 4 véhicules, en moyenne par exemple à 8h du matin sur un an, la puissance sera de 4,5 kW, car sur les 4 voitures il y a souvent 1 à 2 voitures qui se chargent à 8h. Mais ce qui m'intéresse de savoir ce n'est pas la moyenne sur un an, mais c'est bien ce qui peut arriver en vrai. Je veux savoir si le cas où 0 voiture ou par exemple 4 voitures se branchent en même temps arrivent souvent ou pas.
Donc en gros, je m'enfiche que ma moyenne sur un an de la puissance de mon parc de 4 véhicule soit de 4,5 kW, par contre je veux par exemple pouvoir dire que dans 90% des jours, ma puissance ne dépasse pas 9 kW à 8h (c'est à dire que dans 90% des jours, il n'y a pas plus de 3 véhicules qui se rechargent en même temps). C'est pour cela que je raisonne en valeur probable/réelle.
J'ai pris 8h, mais je m'intéresse à tous les moments de la journée.
franck03- Nombre de messages : 2
Date d'inscription : 09/10/2015
Sujets similaires
» Surexpostition d'une tranche d'âge dans un échantillon
» Quand faire un Monte-Carlo ?
» Calcul d'échantillon dans une étude clinique
» Traiter un échantillon à haute variabilité
» Représentativité d'un échantillon dans une population
» Quand faire un Monte-Carlo ?
» Calcul d'échantillon dans une étude clinique
» Traiter un échantillon à haute variabilité
» Représentativité d'un échantillon dans une population
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum