glmmPQL - surdispersion et selection de modèle

par lomn Lun 2 Déc 2019 - 15:20

Bonjour,

J'ai réalisé un modèle type GLMM avec la fonction glmmPQL en utilisant la fonction de lien logit car ma variable réponse est continue bornée entre 0 et 1.
Cependant j'aurais voulu savoir comment je peux savoir si j'ai de la surdispersion hors je ne sais pas comment récupérer le paramètre de dispersion avec les modèles glmmPQL. Aussi j'aimerais comparer mes modèles pour choisir le meilleur hors de même je ne sais pas comment procéder avec ce type de modèle car la comparaison d'Anova ou la fonction Dredge du package MuMIn ne fonctionne pas avec les modèles quasi. Auriez-vous une solution?

Ci-joint mon modèle

modele <-glmmPQL(g ~ Type + Sex + Year + Month + Type*Sex + Type*Month, random=list(TagID=~1, Stock=~1),
family= quasi(link="logit",variance="mu(1-mu)"),data=select1)

merci,

par Eric Wajnberg Lun 2 Déc 2019 - 16:51

Un lien logit (surtout avec une variance "mu(1-mu)") veut dire que votre variable g est binomiale. Ceci signifie que votre variable suit un processus de Bernouilli, et ne peut prendre que les valeurs 0 ou 1. Le fait que vous disiez que votre variable soit "bornée entre 0 et 1" laisse penser que ce n'est pas le cas. Je pense que vous devriez d'abord résoudre ce problème il me semble.

Sinon, pour tout ce qui concerne les modèles linéaires généralisés mixtes, je vous conseille la page web suivante qui donne une information exhaustive de tout ce qui est possible et ce qu'on peut faire, et qui est mise à jour régulièrement :

https://bbolker.github.io/mixedmodels-misc/glmmFAQ.html

HTH, Eric.

par lomn Mar 3 Déc 2019 - 9:52

Merci Eric mais je me suis appuyée sur le document RVaidemémoire (https://www.maximeherve.com/r-et-statistiques) et d'après ce que j'ai lu je peux parfaitement travailler avec un GLM sur une réponse continue bornée entre 0 et 1, moyennant d'utiliser une loi quasi(link="logit",variance="mu(1-mu)").

Par contre je suis bloquée pour comparer mes modèles.

par Eric Wajnberg Mar 3 Déc 2019 - 11:09

Je vois une confusion ici, il me semble.

Je crois comprendre que, ce que vous appelez "une réponse continue bornée entre 0 et 1" veux dire une proportion. C'est ce que vous voulez dire ? Dans ce cas, cette proportion suit une loi binomiale.

Cependant, vous comprendrez que 20 individus sur 100, ou 2000 individus sur 10000 donnent dans les deux cas une proportion de 0.2, mais la précision (i.e., la variance) de ces deux proportions n'est pas la même ! Si vous demandez à R de vous ajuster un GLM (ou GLMM) en lui indiquant juste la proportion (ici 0.2), la procédure d'ajustement ne pourra pas calculer la variance de cette proportion (qui vaut pq/n - ou dans votre notation mu(1-mu)/n) et l’ajustement sera faux, évidement. Il faut absolument que la procédure d'ajustement sache les effectifs sur lesquels sont calculées les proportions que vous voulez modéliser.

Il y a deux syntaxes possibles pour ceci dans R.

1) Ou bien avec une formule (formulae) du type "g~Type+Sex..", mais dans ce cas chaque valeur est pour un seul individu qui est soit "oui" soit "non" (binomiale), et qui ne peux donc que prendre des valeurs 0 ou 1 (et rien d'autre).

2) Ou bien avec une formule (formulae) du type "cbind(oui,non)~Type+Sex.." ou "oui" et "non" contiennent les effectifs correspondants dans chaque cas pour chaque situation.

Dans les deux cas R pourra alors connaitre les effectifs, et calculer correctement les variances des lois binomiales sous-jacentes.

Si maintenant votre variable "g" (bornée entre 0 et 1) n'est pas un pourcentage binomial (comme par exemple la proportion d'oxygène dans l'air, etc.), alors un lien logit n'est pas le bon choix et il vous faudra choisir un autre modèle à ajuster.

J'espère que mes explications sont claires.

Eric.

par lomn Mar 3 Déc 2019 - 11:28

Effectivement ma valeur de g n'est pas binomial, elle peut prendre des valeurs compris entre 0 et 1 comme ceci (valeur de ma variable réponse)

[1] 0.3442872 0.3442872 0.3416499 0.3517998 0.3621111 0.3750362 0.3872562 0.4027377 0.4231320 0.4373639 0.4312816

j'ai plusieurs valeurs pour un même individu qui vont être successives car se sont des valeurs associées à des positions géographiques donc j'ai aussi une corrélation dans l'espace et dans le temps.

je voudrais regarder si la localité de ces individus, leur sexe, l'année et le mois influent sur cet indice.

J'avais éventuellement pensé réaliser une transformation logit de ma variable et faire un lmm. Mais là je suis un peu perdue car je ne vois pas quel le bon model sinon? Ceci est un autre sujet de discussion pour le forum par contre.

par Eric Wajnberg Mar 3 Déc 2019 - 12:23

Sans plus d'explication de votre part sur ce que représente votre variable, il est difficile de vous aider. Elle est peut-être tout simplement gaussienne, auquel cas un modèle LMM collerait, sans aucune transformation logit.

HTH, Eric.

par lomn Mar 3 Déc 2019 - 14:10

C'est un indice de comportement le long de trajectoire d'animaux "estimates time-varying movement persistence (autocorrelation in speed and directionality) along animal movement trajectories"

Voilà sa distribution
https://i.servimg.com/u/f53/20/14/15/44/histo_10.jpg

par Eric Wajnberg Mar 3 Déc 2019 - 16:15

Je travaille également sur des trajectoires d'animaux (insectes).

Je ne vois aucune raison de penser que ce caractères n'est pas Gaussien. Vous pouvez partir sur un modèle gaussien du type LMM sans transformation préalable.

La distribution que vous nous montrez n'est guère informative, car - je pense - il s'agit de la distribution de toutes les données poolées. Quand on dit que la variable mesurée à une distribution donnée, c'est dans chacune des modalités de chaque variable explicative (dans votre cas Type + Sex + Year + Month + Type*Sex + Type*Month). Par exemple, si on s’intéresse à la taille des individus mâles et femelles, la distribution poolée sera bellement bimodale et donc absolument pas gaussienne, alors que la taille d'un individu est l'exemple type d'une variable ayant une distribution normale.

HTH, Eric.

par lomn Mar 3 Déc 2019 - 16:59

C'est le fait qu'elle ne soit pas une probabilité qui justifie qu'on est pas besoin d'utiliser d'une transformation logit? Ou si on prend la chose dans le sens inverse si c'est une proba la fonction logit serait justifiée?

par Eric Wajnberg Mar 3 Déc 2019 - 17:17

La clé (dans tout modèle statistique) est de s'intéresser à la distribution que suit la variable à modéliser. On aimerait bien utiliser des modèles gaussiens (car les calculs se simplifient beaucoup, notamment car on peut estimer les paramètres par des moindres-carrés, aboutir à des valeurs de F, etc.). On ne peut pas faire ceci avec d'autres lois que gaussiennes, et notamment avec des lois binomiales. C'est pour ce faire - entre autre - qu'on prend une fonction de lien (logit - généralement - pour binomial) et les paramètres sont estimés alors pas maximum de vraisemblance. Dans votre cas, votre trait est gaussien. Vous avez la possibilité de partir sur un modèle "simple" de type LMM (et - d'une certaine façon - vous êtes chanceux(se)..). Inutile de vous compliquer la vie avec une transformation préalable qui n'a aucune utilité ici.

J'ai l'impression de répondre à votre interrogation.

HTH, Eric.

par lomn Mar 3 Déc 2019 - 17:40

Oui je comprends merci pour vos réponses. Avez vous un avis sur l'autocorrelation et sa prise en compte dans les lmm? Car j'ai une forte corrélation temporelle car mes valeurs se suivent dans le temps pour chaque individu. Pour estimer l'autocorrélation, il me faut specifier l'ordre dans lequel j'ai obtenus mes valeurs. je suppose.Je voulais utiliser corAR1() avec la fonction lme du package nlme. J'ai vu qu'il y avait une autre fonction ARMA(p,q). Sauriez vous m'éclairer la dessus? (peut-être devrai ouvrir une autre discussion sur le forum ?)

par Eric Wajnberg Jeu 5 Déc 2019 - 12:50

Il n"y a pas de réponse toute faite à votre demande. Il vous faut comprendre ce que sont les divers modèles autorégressifs qui vous sont proposés en option. Le choix est de votre responsabilité. Sans hypothèse précise sur ce qui sous-tend l'autocorrélation, on prend généralement une structure d'autocorrélation "Exchangeable" ce qui conduit la procédure d'ajustement à estimer (en plus des pentes) un seul coefficient de (auto)corrélation sir l'ensemble de vos données.

Sans rentrer plus dans le détail de ce que sont les modèles autorégressifs, il devient difficile de rentrer plus en avant dans cette discussion à présent.

HTH, Eric.

par Contenu sponsorisé

glmmPQL - surdispersion et selection de modèle

glmmPQL - surdispersion et selection de modèle

Re: glmmPQL - surdispersion et selection de modèle

Re: glmmPQL - surdispersion et selection de modèle

Re: glmmPQL - surdispersion et selection de modèle

Re: glmmPQL - surdispersion et selection de modèle

Re: glmmPQL - surdispersion et selection de modèle

Re: glmmPQL - surdispersion et selection de modèle

Re: glmmPQL - surdispersion et selection de modèle

Re: glmmPQL - surdispersion et selection de modèle

Re: glmmPQL - surdispersion et selection de modèle

Re: glmmPQL - surdispersion et selection de modèle

Re: glmmPQL - surdispersion et selection de modèle

Re: glmmPQL - surdispersion et selection de modèle