Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
GLM : modèle Poisson vs modèle quasi-Poisson
2 participants
Page 1 sur 1
GLM : modèle Poisson vs modèle quasi-Poisson
Bonjour,
Mon but est d'utiliser la théorie des GLM pour régresser des fréquences. Pour cela, je teste deux distributions : une poissonienne et une quasi-poissonienne.
En principe, la quasi-Poisson est utilisée dans la cas où le coefficient de variation n'est pas de 1. Je calcule sur mes propres fréquences un coefficient de variation de 2.94, donc a priori il y a sur-dispersion des fréquences.
Mais en regardant mes sorties de R, j'obtiens une valeur pour l'AIC pour la Poisson, mais pas pour la quasi-Poisson. De plus, les p-values semblent bien meilleures pour le modèle Poisson ...
Or j'ai besoin d'une valeur pour l'AIC il me semble pour pouvoir juger de la qualité générale du modèle, et même en procédant à des regroupements / suppressions de modalités pour la quasi-Poisson, je n'obtiens pas de valeur pour l'AIC, donc impossible de savoir si mes choix de regroupements / suppressions de modalités seront optimaux ou non.
Qu'en pensez-vous ?
Voici les deux sorties que j'ai obtenu sur R :
Pour la Poisson :
Call:
glm(formula = nbre ~ H + X18.33 + X34.37 + X38.40 + X41.43 +
X44.45 + X48.49 + X50.51 + X52.53 + X54.55 + X56.57 + X58.62 +
n6 + n20 + n28 + n31 + n33 + n34 + n44 + n54 + n65 + n81 +
n83 + nAutres + inf0.25 + X0.25 + X0.30 + X0.35 + X0.40 +
X0.50 + log.exposition., family = poisson(log), data = Dataset)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.3717 -1.0573 -0.8454 -0.4552 12.9037
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.83624 0.08487 -21.637 < 2e-16 ***
H -0.19191 0.02384 -8.050 8.26e-16 ***
X18.33 -0.15172 0.05020 -3.022 0.002511 **
X34.37 -0.04910 0.05165 -0.951 0.341827
X38.40 -0.16503 0.05491 -3.005 0.002652 **
X41.43 -0.11803 0.05186 -2.276 0.022839 *
X44.45 -0.02423 0.05606 -0.432 0.665576
X48.49 -0.06964 0.05700 -1.222 0.221768
X50.51 0.04477 0.05619 0.797 0.425573
X52.53 0.21523 0.05642 3.815 0.000136 ***
X54.55 0.06640 0.06270 1.059 0.289605
X56.57 0.08190 0.07353 1.114 0.265359
X58.62 -0.34439 0.09143 -3.767 0.000165 ***
n6 -0.73792 0.14839 -4.973 6.60e-07 ***
n20 -0.41651 0.11463 -3.633 0.000280 ***
n28 -0.49331 0.11531 -4.278 1.88e-05 ***
n31 -0.44557 0.09917 -4.493 7.02e-06 ***
n33 -0.17394 0.08931 -1.948 0.051457 .
n34 -0.64823 0.18249 -3.552 0.000382 ***
n44 -0.05898 0.06360 -0.927 0.353739
n54 -0.25178 0.10830 -2.325 0.020079 *
n65 -0.03706 0.11707 -0.317 0.751557
n81 -0.11902 0.10611 -1.122 0.262015
n83 0.48575 0.21351 2.275 0.022898 *
nAutres -0.14406 0.06667 -2.161 0.030717 *
inf0.25 0.06236 0.07019 0.888 0.374326
X0.25 -0.13880 0.03832 -3.622 0.000292 ***
X0.30 -0.03872 0.05345 -0.724 0.468790
X0.35 0.24565 0.10138 2.423 0.015388 *
X0.40 -0.02136 0.07892 -0.271 0.786694
X0.50 -0.43814 0.10775 -4.066 4.78e-05 ***
log.exposition. 1.52660 0.04233 36.062 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 28485 on 15856 degrees of freedom
Residual deviance: 26631 on 15825 degrees of freedom
AIC: 35245
Number of Fisher Scoring iterations: 6
Pour la quasi-Poisson :
Call:
glm(formula = nbre ~ H + X18.33 + X34.37 + X38.40 + X41.43 +
X44.45 + X48.49 + X50.51 + X52.53 + X54.55 + X56.57 + X58.62 +
n6 + n20 + n28 + n31 + n33 + n34 + n44 + n54 + n65 + n81 +
n83 + nAutres + inf0.25 + X0.25 + X0.30 + X0.35 + X0.40 +
X0.50 + log.exposition., family = quasipoisson(log), data = Dataset)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.3717 -1.0573 -0.8454 -0.4552 12.9037
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.83624 0.16253 -11.298 < 2e-16 ***
H -0.19191 0.04566 -4.204 2.64e-05 ***
X18.33 -0.15172 0.09615 -1.578 0.11459
X34.37 -0.04910 0.09892 -0.496 0.61966
X38.40 -0.16503 0.10516 -1.569 0.11660
X41.43 -0.11803 0.09931 -1.188 0.23466
X44.45 -0.02423 0.10736 -0.226 0.82144
X48.49 -0.06964 0.10915 -0.638 0.52349
X50.51 0.04477 0.10761 0.416 0.67738
X52.53 0.21523 0.10806 1.992 0.04640 *
X54.55 0.06640 0.12008 0.553 0.58030
X56.57 0.08190 0.14082 0.582 0.56085
X58.62 -0.34439 0.17510 -1.967 0.04922 *
n6 -0.73792 0.28419 -2.597 0.00942 **
n20 -0.41651 0.21953 -1.897 0.05781 .
n28 -0.49331 0.22083 -2.234 0.02550 *
n31 -0.44557 0.18992 -2.346 0.01898 *
n33 -0.17394 0.17104 -1.017 0.30918
n34 -0.64823 0.34949 -1.855 0.06364 .
n44 -0.05898 0.12179 -0.484 0.62823
n54 -0.25178 0.20741 -1.214 0.22479
n65 -0.03706 0.22420 -0.165 0.86870
n81 -0.11902 0.20321 -0.586 0.55810
n83 0.48575 0.40889 1.188 0.23486
nAutres -0.14406 0.12769 -1.128 0.25924
inf0.25 0.06236 0.13443 0.464 0.64274
X0.25 -0.13880 0.07338 -1.891 0.05858 .
X0.30 -0.03872 0.10236 -0.378 0.70523
X0.35 0.24565 0.19415 1.265 0.20580
X0.40 -0.02136 0.15114 -0.141 0.88764
X0.50 -0.43814 0.20635 -2.123 0.03375 *
log.exposition. 1.52660 0.08107 18.830 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for quasipoisson family taken to be 3.667712)
Null deviance: 28485 on 15856 degrees of freedom
Residual deviance: 26631 on 15825 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 6
Merci.
Mon but est d'utiliser la théorie des GLM pour régresser des fréquences. Pour cela, je teste deux distributions : une poissonienne et une quasi-poissonienne.
En principe, la quasi-Poisson est utilisée dans la cas où le coefficient de variation n'est pas de 1. Je calcule sur mes propres fréquences un coefficient de variation de 2.94, donc a priori il y a sur-dispersion des fréquences.
Mais en regardant mes sorties de R, j'obtiens une valeur pour l'AIC pour la Poisson, mais pas pour la quasi-Poisson. De plus, les p-values semblent bien meilleures pour le modèle Poisson ...
Or j'ai besoin d'une valeur pour l'AIC il me semble pour pouvoir juger de la qualité générale du modèle, et même en procédant à des regroupements / suppressions de modalités pour la quasi-Poisson, je n'obtiens pas de valeur pour l'AIC, donc impossible de savoir si mes choix de regroupements / suppressions de modalités seront optimaux ou non.
Qu'en pensez-vous ?
Voici les deux sorties que j'ai obtenu sur R :
Pour la Poisson :
Call:
glm(formula = nbre ~ H + X18.33 + X34.37 + X38.40 + X41.43 +
X44.45 + X48.49 + X50.51 + X52.53 + X54.55 + X56.57 + X58.62 +
n6 + n20 + n28 + n31 + n33 + n34 + n44 + n54 + n65 + n81 +
n83 + nAutres + inf0.25 + X0.25 + X0.30 + X0.35 + X0.40 +
X0.50 + log.exposition., family = poisson(log), data = Dataset)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.3717 -1.0573 -0.8454 -0.4552 12.9037
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) -1.83624 0.08487 -21.637 < 2e-16 ***
H -0.19191 0.02384 -8.050 8.26e-16 ***
X18.33 -0.15172 0.05020 -3.022 0.002511 **
X34.37 -0.04910 0.05165 -0.951 0.341827
X38.40 -0.16503 0.05491 -3.005 0.002652 **
X41.43 -0.11803 0.05186 -2.276 0.022839 *
X44.45 -0.02423 0.05606 -0.432 0.665576
X48.49 -0.06964 0.05700 -1.222 0.221768
X50.51 0.04477 0.05619 0.797 0.425573
X52.53 0.21523 0.05642 3.815 0.000136 ***
X54.55 0.06640 0.06270 1.059 0.289605
X56.57 0.08190 0.07353 1.114 0.265359
X58.62 -0.34439 0.09143 -3.767 0.000165 ***
n6 -0.73792 0.14839 -4.973 6.60e-07 ***
n20 -0.41651 0.11463 -3.633 0.000280 ***
n28 -0.49331 0.11531 -4.278 1.88e-05 ***
n31 -0.44557 0.09917 -4.493 7.02e-06 ***
n33 -0.17394 0.08931 -1.948 0.051457 .
n34 -0.64823 0.18249 -3.552 0.000382 ***
n44 -0.05898 0.06360 -0.927 0.353739
n54 -0.25178 0.10830 -2.325 0.020079 *
n65 -0.03706 0.11707 -0.317 0.751557
n81 -0.11902 0.10611 -1.122 0.262015
n83 0.48575 0.21351 2.275 0.022898 *
nAutres -0.14406 0.06667 -2.161 0.030717 *
inf0.25 0.06236 0.07019 0.888 0.374326
X0.25 -0.13880 0.03832 -3.622 0.000292 ***
X0.30 -0.03872 0.05345 -0.724 0.468790
X0.35 0.24565 0.10138 2.423 0.015388 *
X0.40 -0.02136 0.07892 -0.271 0.786694
X0.50 -0.43814 0.10775 -4.066 4.78e-05 ***
log.exposition. 1.52660 0.04233 36.062 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 28485 on 15856 degrees of freedom
Residual deviance: 26631 on 15825 degrees of freedom
AIC: 35245
Number of Fisher Scoring iterations: 6
Pour la quasi-Poisson :
Call:
glm(formula = nbre ~ H + X18.33 + X34.37 + X38.40 + X41.43 +
X44.45 + X48.49 + X50.51 + X52.53 + X54.55 + X56.57 + X58.62 +
n6 + n20 + n28 + n31 + n33 + n34 + n44 + n54 + n65 + n81 +
n83 + nAutres + inf0.25 + X0.25 + X0.30 + X0.35 + X0.40 +
X0.50 + log.exposition., family = quasipoisson(log), data = Dataset)
Deviance Residuals:
Min 1Q Median 3Q Max
-2.3717 -1.0573 -0.8454 -0.4552 12.9037
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.83624 0.16253 -11.298 < 2e-16 ***
H -0.19191 0.04566 -4.204 2.64e-05 ***
X18.33 -0.15172 0.09615 -1.578 0.11459
X34.37 -0.04910 0.09892 -0.496 0.61966
X38.40 -0.16503 0.10516 -1.569 0.11660
X41.43 -0.11803 0.09931 -1.188 0.23466
X44.45 -0.02423 0.10736 -0.226 0.82144
X48.49 -0.06964 0.10915 -0.638 0.52349
X50.51 0.04477 0.10761 0.416 0.67738
X52.53 0.21523 0.10806 1.992 0.04640 *
X54.55 0.06640 0.12008 0.553 0.58030
X56.57 0.08190 0.14082 0.582 0.56085
X58.62 -0.34439 0.17510 -1.967 0.04922 *
n6 -0.73792 0.28419 -2.597 0.00942 **
n20 -0.41651 0.21953 -1.897 0.05781 .
n28 -0.49331 0.22083 -2.234 0.02550 *
n31 -0.44557 0.18992 -2.346 0.01898 *
n33 -0.17394 0.17104 -1.017 0.30918
n34 -0.64823 0.34949 -1.855 0.06364 .
n44 -0.05898 0.12179 -0.484 0.62823
n54 -0.25178 0.20741 -1.214 0.22479
n65 -0.03706 0.22420 -0.165 0.86870
n81 -0.11902 0.20321 -0.586 0.55810
n83 0.48575 0.40889 1.188 0.23486
nAutres -0.14406 0.12769 -1.128 0.25924
inf0.25 0.06236 0.13443 0.464 0.64274
X0.25 -0.13880 0.07338 -1.891 0.05858 .
X0.30 -0.03872 0.10236 -0.378 0.70523
X0.35 0.24565 0.19415 1.265 0.20580
X0.40 -0.02136 0.15114 -0.141 0.88764
X0.50 -0.43814 0.20635 -2.123 0.03375 *
log.exposition. 1.52660 0.08107 18.830 < 2e-16 ***
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
(Dispersion parameter for quasipoisson family taken to be 3.667712)
Null deviance: 28485 on 15856 degrees of freedom
Residual deviance: 26631 on 15825 degrees of freedom
AIC: NA
Number of Fisher Scoring iterations: 6
Merci.
Seb123- Nombre de messages : 2
Date d'inscription : 26/02/2014
Re: GLM : modèle Poisson vs modèle quasi-Poisson
Bonjour,
Plusieurs choses :
- une surdispersion peut être gérée par un modèle négative binomial par exemple ou encore par un modèle beta si tes données sont des taux.
- tu n'obtiendras pas d'AIC avec un glm quasi-poisson tout simplement parce que tu n'as pas d'estimation de vraisemblance. Je ne suis pas sûr que via un glm tu puisses t'en sortir dans R car il n'y a même pas de valeur de log-vraisemblance fournie par la fonction. On peut calculer un QAIC (cf. la librairie MuMIn).
-AIC et QAIC ne sont pas comparables
-Des modèles de distributions différentes sont comparables via critères d'information à partir du moment où le calcul de la log-vraisemblance conserve la constante. Ce n'est pas le cas dans la fonction R de calcul de vraisemblance associée à la fonction glm. Il y a peut être d'autres fonction qui permettent de conserver la constante mais je n'ai pas été assez loin dans ce fastidieux travail quand je me suis moi-même posé cette question.
Nik
Plusieurs choses :
- une surdispersion peut être gérée par un modèle négative binomial par exemple ou encore par un modèle beta si tes données sont des taux.
- tu n'obtiendras pas d'AIC avec un glm quasi-poisson tout simplement parce que tu n'as pas d'estimation de vraisemblance. Je ne suis pas sûr que via un glm tu puisses t'en sortir dans R car il n'y a même pas de valeur de log-vraisemblance fournie par la fonction. On peut calculer un QAIC (cf. la librairie MuMIn).
-AIC et QAIC ne sont pas comparables
-Des modèles de distributions différentes sont comparables via critères d'information à partir du moment où le calcul de la log-vraisemblance conserve la constante. Ce n'est pas le cas dans la fonction R de calcul de vraisemblance associée à la fonction glm. Il y a peut être d'autres fonction qui permettent de conserver la constante mais je n'ai pas été assez loin dans ce fastidieux travail quand je me suis moi-même posé cette question.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: GLM : modèle Poisson vs modèle quasi-Poisson
Bonjour,
Merci beaucoup pour ta réponse.
Je suis d'accord pour un modèle négative-binomiale ; mais actuellement je travaille sur R Commander, et sans savoir pourquoi, ce modèle ne figure pas dans la liste des modèles utilisables. Mes données ne sont pas des taux mais des entiers. Je pourrais tout de même les transformés en taux en les normalisant par un intervalle de temps.
Je pensais également la même chose pour l'AIC, avec la quasi-vraisemblance, mais j'attendais une confirmation.
Dans le cas où j'utiliserais effectivement un modèle quasi-Poisson, je pense alors devoir utiliser la déviance comme critère.
Par rapport à la signification (voire la traduction) des termes dans les sorties de R, est-ce que :
- Null deviance = coefficient de sur-dispersion (phi) * déviance standardisée ?
- Residual deviance = déviance standardisée i.e. 2 fois la différence entre la vraisemblance du modèle saturé et du modèle estimé ?
Et encore une dernière question : comment pourrait-on produire sur R Commander un test de significativité des variables en elles-mêmes (j'en ai 4) sur le modèle ?
Merci beaucoup pour ta réponse.
Je suis d'accord pour un modèle négative-binomiale ; mais actuellement je travaille sur R Commander, et sans savoir pourquoi, ce modèle ne figure pas dans la liste des modèles utilisables. Mes données ne sont pas des taux mais des entiers. Je pourrais tout de même les transformés en taux en les normalisant par un intervalle de temps.
Je pensais également la même chose pour l'AIC, avec la quasi-vraisemblance, mais j'attendais une confirmation.
Dans le cas où j'utiliserais effectivement un modèle quasi-Poisson, je pense alors devoir utiliser la déviance comme critère.
Par rapport à la signification (voire la traduction) des termes dans les sorties de R, est-ce que :
- Null deviance = coefficient de sur-dispersion (phi) * déviance standardisée ?
- Residual deviance = déviance standardisée i.e. 2 fois la différence entre la vraisemblance du modèle saturé et du modèle estimé ?
Et encore une dernière question : comment pourrait-on produire sur R Commander un test de significativité des variables en elles-mêmes (j'en ai 4) sur le modèle ?
Seb123- Nombre de messages : 2
Date d'inscription : 26/02/2014
Sujets similaires
» Que conclure d'un glm en quasi-poisson?
» Vraissemblance glm(quasi poisson)
» Interprétation d'un modèle de Poisson - SAS
» Modèle de Poisson et regroupement de données
» modèle glmer avec effets random et famille poisson
» Vraissemblance glm(quasi poisson)
» Interprétation d'un modèle de Poisson - SAS
» Modèle de Poisson et regroupement de données
» modèle glmer avec effets random et famille poisson
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum