Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
GLM pondéré
2 participants
Page 1 sur 1
GLM pondéré
Bonjour,
J'utilise un modèle linéaire généralisé pour l'estimation de risques relatifs (distribution binomiale, fonction de lien log), avec pondération par l'inverse du score de propension (IPTW). Est-ce que vous savez ce que fait R avec la fonction glm pour estimer les erreurs standards apres pondération? J'ai notamment vu sur internet que l'estimation de l'erreur standard diffère entre les fonctions glm et svyglm, mais je n'arrive pas à trouver suffisamment d'information pour comprendre la différence, et l'estimateur le plus adapté dans mon cas.
Merci d'avance pour votre aide
Ayana
J'utilise un modèle linéaire généralisé pour l'estimation de risques relatifs (distribution binomiale, fonction de lien log), avec pondération par l'inverse du score de propension (IPTW). Est-ce que vous savez ce que fait R avec la fonction glm pour estimer les erreurs standards apres pondération? J'ai notamment vu sur internet que l'estimation de l'erreur standard diffère entre les fonctions glm et svyglm, mais je n'arrive pas à trouver suffisamment d'information pour comprendre la différence, et l'estimateur le plus adapté dans mon cas.
Merci d'avance pour votre aide
Ayana
Ayana- Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009
Re: GLM pondéré
Pas la moindre idée. En revanche, une fonction de lien log pour une réponse binomiale, ça me parait erroné. Voulez-vous dire plutôt un lien logit?
Si je devais toutefois donner un avis, les erreurs standards sont je pense simplement estimées comme dans tout modèle linéaire généralisé, par le calcul de la matrice Hessienne après maximisation de la vraisemblance du modèle, et ce après pondération, mais je n'ai jamais écrit les équations correspondantes.
Eric.
Si je devais toutefois donner un avis, les erreurs standards sont je pense simplement estimées comme dans tout modèle linéaire généralisé, par le calcul de la matrice Hessienne après maximisation de la vraisemblance du modèle, et ce après pondération, mais je n'ai jamais écrit les équations correspondantes.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: GLM pondéré
Merci pour cette réponse.
La fonction logit pour une réponse binomiale permet l'estimation d'un modèle logistique, et l'exponentiel des coefficients de régression donne la valeur des odds ratios conditionnels. Si on utilise une fonction de lien log, on estime un modèle log-binomial, dans lequel l'exponentiel des coefficients de régression est un risque relatif. Certes, il peut y avoir des problèmes de convergence parfois, mais considérant la non-collapsibilité de l'OR et son impossibilité à l'interpréter directement, c'est pas mal de pouvoir obtenir plutôt des RR.
En ce qui concerne les deux approches, je n'ai pas pu trouver la réponse, mais pour de la pondération sur le score de propension, il est apparemment plutôt conseillé d'utiliser svyglm, mais je vais creuser.
Ayana
La fonction logit pour une réponse binomiale permet l'estimation d'un modèle logistique, et l'exponentiel des coefficients de régression donne la valeur des odds ratios conditionnels. Si on utilise une fonction de lien log, on estime un modèle log-binomial, dans lequel l'exponentiel des coefficients de régression est un risque relatif. Certes, il peut y avoir des problèmes de convergence parfois, mais considérant la non-collapsibilité de l'OR et son impossibilité à l'interpréter directement, c'est pas mal de pouvoir obtenir plutôt des RR.
En ce qui concerne les deux approches, je n'ai pas pu trouver la réponse, mais pour de la pondération sur le score de propension, il est apparemment plutôt conseillé d'utiliser svyglm, mais je vais creuser.
Ayana
Ayana- Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009
Re: GLM pondéré
L'autre intérêt d'un lien logit est que le modèle ajusté ne peut prédire que des valeurs comprises en 0 et 1, ce qui est primordial pour une variable binomiale. Un lien log pourra prédire des valeurs plus grandes que 1 (plus grande que 100%), ce qui est erroné. C'est la raison pour laquelle je n'ai jamais vu de régression sur pourcentage avec un lien log (et je ne l'enseigne jamais).
HTH, Eric.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: GLM pondéré
C'est tout à fait vrai pour les probabilités prédites. Si l'objectif du modèle est de faire de la prédiction, je suis entièrement d'accord qu'il faut utiliser le lien logit (c'est comme cela que j'estime mes scores de propension, pour être sure qu'ils soient dans l'intervalle [0;1]. En revanche, lorsqu'on cherche juste à estimer l'effet moyen d'un paramètre sur le critère de jugement, ces modèles sont très intéressants, si utilisés avec précaution. Un aperçu est donné ici : http://horizon.documentation.ird.fr/exl-doc/pleins_textes/pleins_textes_7/b_fdi_55-56/010021767.pdf
Dans la même veine, Zou a proposé un modèle de Poisson avec un estimateur robuste de la variance pour estimer des RR, méthode qui marche également bien, même en présence de données corrélées.
Quand on cherche à estimer l'effet d'un traitement sur un paramètre binaire et qu'on estime un OR dans un modèle logistique multivariable, même en l'absence de facteurs de confusion, l'OR ajusté sera différent de l'OR marginal, ce qui rend l'interprétation délicate. Mon objectif étant la comparaison de modèles ajustés et non ajustés en termes de biais, l'estimation d'un OR n'aurait pas de sens dans mon cas, car ce qui apparaîtrait comme un biais tient juste du fait des propriétés de l'OR. De plus, beaucoup de gens (investigateurs, étudiants, chercheurs...) interprètent à tort les OR comme des RR, ce qui peut largement surestimer l'effet si la prévalence est proche de 0.5.
Donc en fait, tout dépend si l'objectif principal est de faire de la prédiction, ou simplement quantifier un effet.
Ayana
Dans la même veine, Zou a proposé un modèle de Poisson avec un estimateur robuste de la variance pour estimer des RR, méthode qui marche également bien, même en présence de données corrélées.
Quand on cherche à estimer l'effet d'un traitement sur un paramètre binaire et qu'on estime un OR dans un modèle logistique multivariable, même en l'absence de facteurs de confusion, l'OR ajusté sera différent de l'OR marginal, ce qui rend l'interprétation délicate. Mon objectif étant la comparaison de modèles ajustés et non ajustés en termes de biais, l'estimation d'un OR n'aurait pas de sens dans mon cas, car ce qui apparaîtrait comme un biais tient juste du fait des propriétés de l'OR. De plus, beaucoup de gens (investigateurs, étudiants, chercheurs...) interprètent à tort les OR comme des RR, ce qui peut largement surestimer l'effet si la prévalence est proche de 0.5.
Donc en fait, tout dépend si l'objectif principal est de faire de la prédiction, ou simplement quantifier un effet.
Ayana
Ayana- Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009
Re: GLM pondéré
Ok. Très clair (et merci pour la référence).
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum