Les posteurs les plus actifs de la semaine
zezima
 
LTT
 
Florent Aubry
 
gg
 
Ayana
 
Eric Wajnberg
 
c@ssoulet
 
RaihanaTag
 
Sciences_stat
 
evanna
 


A quel point un modèle est il mieux qu'un autre?

Voir le sujet précédent Voir le sujet suivant Aller en bas

A quel point un modèle est il mieux qu'un autre?

Message par Iftixar le Ven 18 Nov 2016 - 14:06

Bonjour,

C'est mon premier message sur ce forum, j'espère que la forme conviendra^^
Je suis actuaire, et je suis actuellement confronté à une base de données santé de 100 000 lignes environ. J'ai les dépenses santé pour chacun des assurés, et je cherche à trouver la loi qui décrit les dépenses santé.

Je fait donc plusieurs test de fitting sous R (je suppose une loi et fait fit ses paramètres), et trouve que les lois Weibull et Gamma conviennent pas trop mal, mais aussi plus étonnamment la loi de Fréchet. J'ai des loglikehood de 822 200 environ

J'ai entendu récemment parler des lois mixtes avec une loi GPD pour la queue de distribution et une loi plus classique pour la bosse, les deux lois étant fit simultanément (voir, par exemple, l'article de Behrens et al. Bayesian "analysis of extreme events with threshold estimation").

Lorsque je fit de telle loi, j'obtiens des loglikehood de de 821 980 environ. Les AIC sont aussi meilleurs. Le modèle est donc à priori meilleur. Maintenant, je manque de pratique sur les études statistiques et je me demande si ce gain de 200 points est important ou non. La question sousjaccente étant bien sur "est ce que ça vaut le cout de sortir le modèle plus compliqué plutôt qu'un modèle facile classique?".

je pensais, pour avoir une idée, générer un échantillon de loi mixte/weibull, et regarder sa log vraisemblance. Cette approche vous semble telle raisonnable?

Voila, merci, j'espère que vous saurez me répondre Smile

Iftixar

Nombre de messages : 6
Date d'inscription : 18/11/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Eric Wajnberg le Ven 18 Nov 2016 - 15:03

Il faudrait avant tout que vous nous expliquiez pourquoi il est si important pour vous d'identifier la "meilleure" loi qui décrive vos données. Quelle est vraiment la question ?

Il se peut très bien notamment que votre base contienne un mélange de cohortes complètement hétérogène. Je n'y connais rien sur votre sujet, mais - par exemple - les dépenses de santé dépendent de l'âge des assurés, et - pour un âge donné - la distribution des dépenses pourrait être bellement gausienne. Du coup la loi de distribution de l'ensemble des dépenses en prenant tous les âges confondus serait une convolution de plein de lois normales, et il ne serait pas évidement de retrouver de quoi il s'agit sans un minimum d'hypothèses à tester. Et ce ne serait sûrement pas de faibles différences de quelques points sur des log de vraisemblance qui vous aideraient.

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 450
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Iftixar le Ven 18 Nov 2016 - 15:38

Bonjour,

Merci pour votre réponse Smile

L'idée principale est de prévoir, au global, combien d'argent il faut mettre de côté afin de pouvoir rembourser tout le monde (provisionnement). L'idée secondaire est de connaitre "à peu près" que si l'on prend un individu quelconque (sans information sur cet individu dans un premier temps, puis en distinguant le sexe dans un second temps) la loi de dépense que celui-ci suit afin de pouvoir construire un modèle plus théorique (Problématique de tarification, aujourd'hui, on suppose que les assurés suivent une loi gamma).

Effectivement, les âges sont assez hétérogène dans la base. Néanmoins, exception faite de l'âge et du sexe, notre population est relativement homogène.

Iftixar

Nombre de messages : 6
Date d'inscription : 18/11/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Nik le Ven 18 Nov 2016 - 16:00

Bonjour,

La log-vraisemblance est dépendante des données quant à son échelle finale. Personne ne peut donc juger de l'importance d'une diminution de la log-vraisemblance sur la seule base d'une valeur brute.

Les critères d'information font partie des méthodes, parmi d'autres, qui permettent d'évaluer la diminution de log-vraisemblance sur une échelle comparable.

Quoiqu'il en soit, la comparaison de modèles ou plus largement d'ajustement est un domaine assez vaste et pas aussi simple que tu sembles le laisser entendre par une approche "maison". Smile

nik

Nik

Nombre de messages : 1528
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Eric Wajnberg le Ven 18 Nov 2016 - 18:12

Iftixar a écrit:L'idée principale est de prévoir, au global, combien d'argent il faut mettre de côté afin de pouvoir rembourser tout le monde (provisionnement). L'idée secondaire est de connaitre "à peu près" que si l'on prend un individu quelconque (sans information sur cet individu dans un premier temps, puis en distinguant le sexe dans un second temps) la loi de dépense que celui-ci suit afin de pouvoir construire un modèle plus théorique (Problématique de tarification, aujourd'hui, on suppose que les assurés suivent une loi gamma).
Nous sommes donc bien dans une problématique de prévision et donc de prédiction. Il s'agit donc plutôt d'un problème de régression selon moi (dans ma compréhension des choses), et effectivement il convient de connaitre les distributions des données, mais alors pas comme une fin en soit. Dit autrement, je ne vois pas comment, avant la seule connaissance aussi précise soit-elle de la loi sous-jacente, on pourra prévoir combien d'argent il faut mettre de côte, etc. Il faut donc des regresseurs/descripteurs, et vous parlez du sexe. Il en faut sûrement d'autres.

Mais je ne suis pas un spécialiste de ce genre de problématiques. Je cherche en fait juste à comprendre..

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 450
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Iftixar le Lun 21 Nov 2016 - 8:33

Nik a écrit:Bonjour,

Les critères d'information font partie des méthodes, parmi d'autres, qui permettent d'évaluer la diminution de log-vraisemblance sur une échelle comparable.


Je n'ai malheureusement connaissance que des critères d'information AIC et BIC... Aurais tu un ou deux autres exemples de méthode en tête?

Eric Wajnberg a écrit:Bonjour,

Nous sommes donc bien dans une problématique de prévision et donc de prédiction. Il s'agit donc plutôt d'un problème de régression selon moi (dans ma compréhension des choses), et effectivement il convient de connaitre les distributions des données, mais alors pas comme une fin en soit. Dit autrement, je ne vois pas comment, avant la seule connaissance aussi précise soit-elle de la loi sous-jacente, on pourra prévoir combien d'argent il faut mettre de côte, etc. Il faut donc des regresseurs/descripteurs, et vous parlez du sexe. Il en faut sûrement d'autres.

Mais je ne suis pas un spécialiste de ce genre de problématiques. Je cherche en fait juste à comprendre..


Connaitre la distribution n'est effectivement pas une fin en soit, c'est une étape pour pouvoir faire d'autres choses, et en particulier prédire oui^^
En santé, on sait qu'il y a quatre types d'information déterminantes: les antécédents médicaux, le critère fumeur/non fumeur, l'âge et le sexe. Légalement il est assez difficile d'utiliser les deux premières, on se concentre donc sur les deux suivantes.

Malgré tout, lors du lancement d'un produit, nous n'avons pas forcément d'information sur la population qui y souscrira (on peut au mieux l’estimer). C'est pour cela que dans un premier temps je cherche une loi qui concerne l'ensemble des assurés, sans distinction d'âge/de sexe.

Du fait du cadre très régulé des assurances, il faut justifier chacune de nos décisions à un organisme de contrôle, en particulier lorsque nous prenons la décision de construire un modèle peu commun (comme c'est le cas avec les lois mixtes). Cet organisme de controle est particulièrement frileux envers les choses qu'il ne connait pas. Ceci, en plus du risque de surparamétrage, nous amène souvent à choisir un modèle plus simple que celui qui fit le mieux les données. C'est pour ça que j'aimerai quantifier combien ces lois mixtes m'apportent par rapport à un modèle classique, afin de savoir si le jeu en vaut la chandelle^^

En tout cas, merci à vous deux pour vos réponses!

Iftixar

Nombre de messages : 6
Date d'inscription : 18/11/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Eric Wajnberg le Lun 21 Nov 2016 - 9:49

Iftixar a écrit:Du fait du cadre très régulé des assurances, il faut justifier chacune de nos décisions à un organisme de contrôle, en particulier lorsque nous prenons la décision de construire un modèle peu commun (comme c'est le cas avec les lois mixtes).
Ok,
Cependant, vous risquer très probablement de tomber sur une loi empirique qui résulte effectivement du mélange de plusieurs lois théoriques ("mixtes" comme vous dites), simplement parce que vous avez plusieurs cohortes d'individus mélangés. Si tel est le cas, il ne sera guère faisable de trouver une loi qui "colle au mieux" à vos données, je le crains. Je ne peux guère vous aider d'avantage dans cette discussion. Désolé.

Cordialement,

Eric.
avatar
Eric Wajnberg

Nombre de messages : 450
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Nik le Lun 21 Nov 2016 - 10:06

Bonjour,

Comme le souligne Eric, il s'agit bien de la construction d'un modèle et pas seulement de choisir une famille de distribution que ce soit pour l'erreur ou pour la variable à expliquer.

Tu ne peux pas avoir une approche séquentielle en faisant d'abord une première sélection de la famille puis ensuite sélectionner des variables à intégrer au modèle. Si tu veux poursuivre avec les critères d'information, tu dois construire des modèles candidats avec les régresseurs que tu penses être le plus adaptés et selon les hypothèses à tester (un modèle = une hypothèse) et au sein de ces modèles tu pourras en ajouter qui seront les variantes avec des lois de distributions différentes.

Attention toutefois car bien souvent des modèles avec des familles de distrib différentes ne sont pas directement comparables via AIC ou autre car la constante de la log-vraisemblance est bien souvent supprimée dans la valeur de la log-vraisemblance, les packages étant souvent construit dan l'optique d'une comparaison de modèles avec la même distribution.

Précision au besoin: pour l'AIC, une différence notable est considérée à partir de 2 points de différence. Toute différence inférieure est à prendre avec des pincettes. Au besoin l'utilisation de model averaging peut permettre d'éviter de longs débats sur le choix d'un modèle ou d'un autre quand aucun ne se démarque de plus de 2 unités ou quand on a du mal à trancher sur les qqs derniers modèles qui sortent du lot.

Nik

PS : pour les autres méthodes qui utilisent la log-vraisemblance, je pensais surtout au test du rapport de vraisemblance mais qui ne s'applique pas à ce que tu voulais faire. L'idée était surtout de souligner qu'on ne travaille pas directement avec une valeur de log-vraisemblance.

Nik

Nombre de messages : 1528
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Iftixar le Lun 21 Nov 2016 - 11:19

Eric Wajnberg a écrit:
Iftixar a écrit:Du fait du cadre très régulé des assurances, il faut justifier chacune de nos décisions à un organisme de contrôle, en particulier lorsque nous prenons la décision de construire un modèle peu commun (comme c'est le cas avec les lois mixtes).
Ok,
Cependant, vous risquer très probablement de tomber sur une loi empirique qui résulte effectivement du mélange de plusieurs lois théoriques ("mixtes" comme vous dites), simplement parce que vous avez plusieurs cohortes d'individus mélangés. Si tel est le cas, il ne sera guère faisable de trouver une loi qui "colle au mieux" à vos données, je le crains. Je ne peux guère vous aider d'avantage dans cette discussion. Désolé.

Cordialement,

Eric.

Précision, ce que j'appelle loi "mixte", ce ne sont pas les lois qui additionnent d'autres lois, mais bien celles qui sont expliquées dans l'article dont j'ai parlé plus haut, à savoir une première loi qui approche la bosse et une seconde loi qui approche la queue de distribution, avec une cassure entre les deux (la fonction de densité n'est donc pas continue).


Je crois que je commence à y voir plus clair, mais pour vérifier: Il faut que je fasse un modèle de type dépense totale = somme X_{s,x} avec s le sexe et x l'âge c'est bien la que vous voulez en venir? Et la, je peux supposer différentes lois et regarder celle qui fit le mieux pour chaque X_{s,x}? (autre question: comment intégrer du latex à mon message?^^)

Dans l'idéal, c'est la même loi pour chaque (s,x) mais avec des paramètres différents, et trouver les paramètres en fonction de l'âge et du sexe serait génial? l'AIC me permettra de trouver les paramètres optimaux de ma loi et de comparer les différents jeu de paramètre (si j'enlève l'âge par exemple).

Dernière question ou ce n'est pas bien clair dans ma tête après ce que vous m'avez dit: Mettons que je n'ai aucune hétérogénéité et que je cherche à appliquer une loi sur mes données. J'hésite entre la loi gamma et la loi Weibull (par exemple). Comment je fais pour choisir entre les deux? Pour moi, le modèle avec la log vraissemblance la plus faible était celui qui colle le mieux aux données (pas le meilleur hein je suis conscient des risques de surparamètrages). Vous avez l'air de dire que ce n'est pas forcément la meilleur approche, et que l'AIC ne marche pas forcément...

(Excusez mes questions un peu naïves, j'ai surtout fait des probas et pas des stats dans ma vie^^)

Iftixar

Nombre de messages : 6
Date d'inscription : 18/11/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Nik le Lun 21 Nov 2016 - 11:32

Ce que tu cherches ce sont les modèles de mélange. Je ne suis pas sûr que le mélange de lois différentes ait été très développé en termes d'outils. Si tu trouves des choses n'hésite pas à les indiquer ici.
En général , on trouve de quoi faire s'il s'agit d'un mélange de distribution classique. Pour des distributions moins usuelles (Weibull...) il faudra peut être mettre les mains dans le cambouis pour développer les routines d'optimisations.

Pour la log-vraisemblance, tu ne peux pas te baser directement dessus. La comparaison suppose que la base de calcul soit la même (modèle dits emboités) ce qui ne sera pas le cas avec des familles de distrib différentes. L'AIC, le BIC ou autre peuvent te le permettre à ceci près d'intégrer la constante de la loglik dans le calcul.

Nik

Nik

Nombre de messages : 1528
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Iftixar le Lun 21 Nov 2016 - 12:58

D'accord Smile

Autre question découlant de vos conseils: en subdvisant par âge et par sexe mes données, j'ai beaucoup moins de personne pour faire fit les "sous lois" d'une loi mélange. A partir de quelle taille d'échantillon pour chacune des subdivisions je peux considérer mon estimation comme fiable?

Iftixar

Nombre de messages : 6
Date d'inscription : 18/11/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Eric Wajnberg le Lun 21 Nov 2016 - 13:54

Iftixar a écrit:Je crois que je commence à y voir plus clair, mais pour vérifier: Il faut que je fasse un modèle de type dépense totale = somme X_{s,x} avec s le sexe et x l'âge c'est bien la que vous voulez en venir?
Oui, c'est bien ça. Et d'autres régresseurs (en plus) seraient plus que bienvenus.
Iftixar a écrit:
Et la, je peux supposer différentes lois et regarder celle qui fit le mieux pour chaque X_{s,x}?
En théorie oui, en pratique c'est (beaucoup) plus difficile. La démarche générale est plutôt dans l'autre sens. On fait l'ajustement en supposant une loi des erreurs, et si l'ajustement est "propre" (avec au besoin l'usage d'outils diagnostiques) ont se statisfait de la loi choisie et du modèle ajusté.
Iftixar a écrit:
Dans l'idéal, c'est la même loi pour chaque (s,x) mais avec des paramètres différents, et trouver les paramètres en fonction de l'âge et du sexe serait génial?
C'est bien ca, et il n'y a rien de vraiment idéal, ni de génial...
Iftixar a écrit:
l'AIC me permettra de trouver les paramètres optimaux de ma loi et de comparer les différents jeu de paramètre (si j'enlève l'âge par exemple).
Pas besoin d'AIC ici, vous avez apparement un modèle très simple. La démarche est de faire des tests de rapport de vraisemblance en comparer des modèles dit "emboités", e.g., avec ou sans l'effet age, pour voir si l'age à un effet. Un test F d'une ANOVA sur données gaussiennes fait exactement ca, etc.
Iftixar a écrit:
Dernière question ou ce n'est pas bien clair dans ma tête après ce que vous m'avez dit: Mettons que je n'ai aucune hétérogénéité et que je cherche à appliquer une loi sur mes données. J'hésite entre la loi gamma et la loi Weibull (par exemple). Comment je fais pour choisir entre les deux? Pour moi, le modèle avec la log vraissemblance la plus faible était celui qui colle le mieux aux données.
Euh, vos ajustements (et ceux dont on parle ici) sont fait par la méthode du maximum de vraisemblance. C'est donc la vraisemblance la plus forte qui désigne le meilleur modèle..

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 450
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Eric Wajnberg le Lun 21 Nov 2016 - 13:56

Iftixar a écrit:D'accord Smile

Autre question découlant de vos conseils: en subdvisant par âge et par sexe mes données, j'ai beaucoup moins de personne pour faire fit les "sous lois" d'une loi mélange. A partir de quelle taille d'échantillon pour chacune des subdivisions je peux considérer mon estimation comme fiable?
Problème classique, et généralement sans grande solution. Le problème est qu'il est généralement guère possible de savoir quelle loi on a. Les tests ne sont pas très puissants (ceci est discuté dans d'autres débats sur ce forum). Le démarche est d'ajuster d'abord et de voir si c'est "propre" ou pas ensuite. Voir ma réponse ci-dessus.

Eric.
avatar
Eric Wajnberg

Nombre de messages : 450
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Iftixar le Lun 21 Nov 2016 - 15:55

Je ne sais pas si se serait génial, mais vous deux vous êtes géniaux!

Vous m'avez beaucoup aidé, merci Smile

Iftixar

Nombre de messages : 6
Date d'inscription : 18/11/2016

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Nik le Mar 22 Nov 2016 - 7:19

Pas besoin d'AIC ici, vous avez apparement un modèle très simple
Juste pour préciser que le choix de la sélection d'un modèle par critère d'information ne provient pas de la complexité u modèle mais bien de l'approche qu'on souhaite privilégier.

Nik

Nombre de messages : 1528
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Eric Wajnberg le Mar 22 Nov 2016 - 13:30

Nik a écrit:Juste pour préciser que le choix de la sélection d'un modèle par critère d'information ne provient pas de la complexité u modèle mais bien de l'approche qu'on souhaite privilégier.
Certes, mais ici, avec deux regresseurs (âge et sexe) et éventuellement l'interaction entre ces deux effets, trouver le modèle le plus parcimonieux "à la main" ira plus vite (et sera largement plus informatif) que d'utiliser une procédure fondée, par exemple, sur l'usage d'un AIC.

Eric.
avatar
Eric Wajnberg

Nombre de messages : 450
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: A quel point un modèle est il mieux qu'un autre?

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum