Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
GLM type Poisson : validation et valers prédites négatives!
3 participants
Page 1 sur 1
GLM type Poisson : validation et valers prédites négatives!
Bonjour,
Je modélise en ce moment le temps passé sur des terrains de chasse par
des mammifères en fonction de variables environnementales quantitatives
et qualitatives.
La variable à expliquer est ainsi positive ou nulle (la valeur nulle
correspondant à des placettes décrites situées aléatoirement où aucune activité de chasse n'a été observée). Il y a autant de valeur nulle que de valeur positive dans la variable à
expliquer (une placette aléatoire par terrain de chasse décrit).
Les modélisations reposent sur 40 à 100 placettes selon les cas de figure.
Je réalise donc des GLM suivant la loi de Poisson et grâce à la fonction stepAIC.
Pour la validation du modèle, peut-on utiliser la courbe ROC et la
valeur de l'AUC (la variable à expliquer étant continue et non
binomiale)?
J'ai aussi deux questions par rapport aux résultats obtenus :
Tout d'abord j'obtiens des modèles de qualité médiocre à moyenne. Outre
le fait que les variables ne sont pas forcément explicatives, est-ce que
cela provient du nombre limité de données? Quelles autres raisons
peuvent engendrer des résultats peu satisfaisants?
De plus, lorsque je trace des graphiques tels que la valeur absolue des
résidus en fonction des valeurs prédites, j'obtiens des valeurs prédites
négatives. Le nombre important de placette aléatoire en est-il la
cause (beaucoup de 0 par rapport aux valeurs positives)? Est-ce que cela remet en cause la fiabilité du modèle ou est-ce
simplement une extrapolation du modèle vers des données négatives?
Merci d'avance pour votre aide!
Je modélise en ce moment le temps passé sur des terrains de chasse par
des mammifères en fonction de variables environnementales quantitatives
et qualitatives.
La variable à expliquer est ainsi positive ou nulle (la valeur nulle
correspondant à des placettes décrites situées aléatoirement où aucune activité de chasse n'a été observée). Il y a autant de valeur nulle que de valeur positive dans la variable à
expliquer (une placette aléatoire par terrain de chasse décrit).
Les modélisations reposent sur 40 à 100 placettes selon les cas de figure.
Je réalise donc des GLM suivant la loi de Poisson et grâce à la fonction stepAIC.
Pour la validation du modèle, peut-on utiliser la courbe ROC et la
valeur de l'AUC (la variable à expliquer étant continue et non
binomiale)?
J'ai aussi deux questions par rapport aux résultats obtenus :
Tout d'abord j'obtiens des modèles de qualité médiocre à moyenne. Outre
le fait que les variables ne sont pas forcément explicatives, est-ce que
cela provient du nombre limité de données? Quelles autres raisons
peuvent engendrer des résultats peu satisfaisants?
De plus, lorsque je trace des graphiques tels que la valeur absolue des
résidus en fonction des valeurs prédites, j'obtiens des valeurs prédites
négatives. Le nombre important de placette aléatoire en est-il la
cause (beaucoup de 0 par rapport aux valeurs positives)? Est-ce que cela remet en cause la fiabilité du modèle ou est-ce
simplement une extrapolation du modèle vers des données négatives?
Merci d'avance pour votre aide!
Laure- Nombre de messages : 3
Date d'inscription : 07/07/2010
Re: GLM type Poisson : validation et valers prédites négatives!
Bonjour,
je ne suis pas un pro des modèle GLM de type Poisson mais comme toute régression il faut un certain nombre d'individus pour ne pas se retrouver avec des estimations biaisées, moins tu as de données et moins la façon dont elles varient, et qui permet d'estimer correctement par rapport à l'ensemble des variables, est 'fiable'. De plus je crois comprendre que tu n'as pas une variable réponse binaire, donc j'imagine qu'il te faudrait encore plus de données que si tu étais dans ce cas. Par curiosité, le nombre de plaquette correspond à quoi exactement? (temps? individus? ...).
Aprés il s'agit d'un avis intuitif, tout ce que je sais des GLM type Poisson c'est que c'est des modèles de régression prenant en compte la variabilité selon un temps t qui évolue.
Quand à ton modèle, dés fois il faut pas chercher loin, comme tu le dis, il se peut trés bien que le groupe de variables explicatifs ne soit pas suffisamment lié à la variable réponse ou bien que l'on ne peut dégager de combinaison expliquant trés bien cette dernière, ça énerve mais c'est tristement comme ça... ensuite je ne sais pas sur quel logiciel tu travailles mais je pense que tu es sur R ou SAS, et que tu utilises des packages ou procédures 'implémentées par des pros' (j'ai pas trouvé mieux comme expression). Même si je connais pas tous les paramètres des GLM de Poisson, j'ai envie de dire que logiquement les régressions sont des méthodes assez carrés comparées à d'autre méthodes qui nécessitent une optimisation des paramètres avant de lancer la procédure final. Donc ormi un jeu insuffisant en terme d'informations tu peux pas aller chercher bien loin pour trouver les raisons de ce manque de performance.
Enfin pour les résidus, il est recommandé de tracer ceux de deviance et Pearson standardisé (mais vue ce que tu as écris aprés j'imagine que c'est ce que tu as fait). Les valeurs qui sont négatives proviennent peut-être du calcul de ceux de deviance qui sont multipliés par +1 ou -1, le calcul général est en fait le statut - la probabilité tiré via ton équation de régression, aprés il y a subtilité selon l'un ou l'autre type de résidus. Cette partie de ton étude te sert uniquement à regarder, d'une part, les outiers protentiels, et d'une autre part, tester la robustesse de ton modèle en les enlevant petit à petit et en regardant si soudainement des coefficients non significatifs le deviennent.
Voilà, je te conseil d'attendre avec l'avis de gens qui connaissent bien mieux les GLM Poison que moi, personnellement j'ai juste essayer de te répondre sur certaines questions qui m'ont semblé général.
je ne suis pas un pro des modèle GLM de type Poisson mais comme toute régression il faut un certain nombre d'individus pour ne pas se retrouver avec des estimations biaisées, moins tu as de données et moins la façon dont elles varient, et qui permet d'estimer correctement par rapport à l'ensemble des variables, est 'fiable'. De plus je crois comprendre que tu n'as pas une variable réponse binaire, donc j'imagine qu'il te faudrait encore plus de données que si tu étais dans ce cas. Par curiosité, le nombre de plaquette correspond à quoi exactement? (temps? individus? ...).
Aprés il s'agit d'un avis intuitif, tout ce que je sais des GLM type Poisson c'est que c'est des modèles de régression prenant en compte la variabilité selon un temps t qui évolue.
Quand à ton modèle, dés fois il faut pas chercher loin, comme tu le dis, il se peut trés bien que le groupe de variables explicatifs ne soit pas suffisamment lié à la variable réponse ou bien que l'on ne peut dégager de combinaison expliquant trés bien cette dernière, ça énerve mais c'est tristement comme ça... ensuite je ne sais pas sur quel logiciel tu travailles mais je pense que tu es sur R ou SAS, et que tu utilises des packages ou procédures 'implémentées par des pros' (j'ai pas trouvé mieux comme expression). Même si je connais pas tous les paramètres des GLM de Poisson, j'ai envie de dire que logiquement les régressions sont des méthodes assez carrés comparées à d'autre méthodes qui nécessitent une optimisation des paramètres avant de lancer la procédure final. Donc ormi un jeu insuffisant en terme d'informations tu peux pas aller chercher bien loin pour trouver les raisons de ce manque de performance.
Enfin pour les résidus, il est recommandé de tracer ceux de deviance et Pearson standardisé (mais vue ce que tu as écris aprés j'imagine que c'est ce que tu as fait). Les valeurs qui sont négatives proviennent peut-être du calcul de ceux de deviance qui sont multipliés par +1 ou -1, le calcul général est en fait le statut - la probabilité tiré via ton équation de régression, aprés il y a subtilité selon l'un ou l'autre type de résidus. Cette partie de ton étude te sert uniquement à regarder, d'une part, les outiers protentiels, et d'une autre part, tester la robustesse de ton modèle en les enlevant petit à petit et en regardant si soudainement des coefficients non significatifs le deviennent.
Voilà, je te conseil d'attendre avec l'avis de gens qui connaissent bien mieux les GLM Poison que moi, personnellement j'ai juste essayer de te répondre sur certaines questions qui m'ont semblé général.
Re: GLM type Poisson : validation et valers prédites négatives!
Merci beaucoup
J'utilise effectivement une GLM Poisson car ma réponse correspond au temps passé par un individu sur un terrain de chasse.
Une ligne de mon tableau de données correspond alors à une placette décrite. J'ai suivi plusieurs individus qui ont chacun plusieurs terrains de chasse.
Je travaille sous R effectivement et j'ai utilisé le package RCommander afin de sortir des graphiques etc.
Concernant les valeurs négatives, juste pour être certaine qu'on parle de la même chose : il s'agit de mes valeurs prédites qui sont négatives, donc du temps passé estimé par le modèle. Ce qui me paraît bizarre puisqu'on parle de temps donc ça devrait être positif ou nul...
Une petite question supplémentaire :
Les graphiques obtenus me donnent pour chaque variable :
- des "Added-variable plot" : j'ai l'impression que cela permet de visualiser l'apport de la variable en prenant les autres égale à une constante
- des "Component + residual plot" : je vois mal ce que c'est exactement
- des "Effect-Plot" : cela représente le temps en fonction de la variable
Connaissez-vous ces graphiques et ce qu'ils apportent exactement à l'analyse?
Merci!
J'utilise effectivement une GLM Poisson car ma réponse correspond au temps passé par un individu sur un terrain de chasse.
Une ligne de mon tableau de données correspond alors à une placette décrite. J'ai suivi plusieurs individus qui ont chacun plusieurs terrains de chasse.
Je travaille sous R effectivement et j'ai utilisé le package RCommander afin de sortir des graphiques etc.
Concernant les valeurs négatives, juste pour être certaine qu'on parle de la même chose : il s'agit de mes valeurs prédites qui sont négatives, donc du temps passé estimé par le modèle. Ce qui me paraît bizarre puisqu'on parle de temps donc ça devrait être positif ou nul...
Une petite question supplémentaire :
Les graphiques obtenus me donnent pour chaque variable :
- des "Added-variable plot" : j'ai l'impression que cela permet de visualiser l'apport de la variable en prenant les autres égale à une constante
- des "Component + residual plot" : je vois mal ce que c'est exactement
- des "Effect-Plot" : cela représente le temps en fonction de la variable
Connaissez-vous ces graphiques et ce qu'ils apportent exactement à l'analyse?
Merci!
Laure- Nombre de messages : 3
Date d'inscription : 07/07/2010
Re: GLM type Poisson : validation et valers prédites négatives!
Bonjour,
Quelques éléments de réponses.
il semble urgent de lire un livre sur les GLM ou de farfouiller dans la doc que tu peux trouver sur le net. Regarde les cours de Philippe Besse de la fac de toulouse il me semble. La distribution de Poisson est fait pour modéliser des données de comptage (nombre d'individus) ce qui n'est pas du tout le cas ici. A priori cette distribution n'est donc pas adaptée.
Ensuite les valeurs prédites négatives, doivent être les valeurs prédites dans l'espace du lien. Dans un GLM la variable explicative n'est pas directement reliée aux variables expliquées. Elle l'est grâce à la fonction de lien, qui est le log népérien pour la distribution de poisson. Tu as donc log(Y) = a +b*X. Par défaut dans R avec un GLM il te donne les valeurs prédites dans l'espace du lien. Pour les avoirs dans l'espace de la variable il te suffit de faire un exp des valeurs prédites ou alors directement dans la fonction predict d'ajouter l'argument, type="response". Voir ?predict.glm
Pour ce qui est des graphs que tu cites, ce sont des graphiques qui permettent de diagnostiquer tes modèles et plus particulièrement s'il faut transformer la variable explicative, si la relation serait plutôt polynomiale, etc. Voir le livre de Collett Moedlling binary data le chapitre model checking.
Quelques éléments de réponses.
il semble urgent de lire un livre sur les GLM ou de farfouiller dans la doc que tu peux trouver sur le net. Regarde les cours de Philippe Besse de la fac de toulouse il me semble. La distribution de Poisson est fait pour modéliser des données de comptage (nombre d'individus) ce qui n'est pas du tout le cas ici. A priori cette distribution n'est donc pas adaptée.
Ensuite les valeurs prédites négatives, doivent être les valeurs prédites dans l'espace du lien. Dans un GLM la variable explicative n'est pas directement reliée aux variables expliquées. Elle l'est grâce à la fonction de lien, qui est le log népérien pour la distribution de poisson. Tu as donc log(Y) = a +b*X. Par défaut dans R avec un GLM il te donne les valeurs prédites dans l'espace du lien. Pour les avoirs dans l'espace de la variable il te suffit de faire un exp des valeurs prédites ou alors directement dans la fonction predict d'ajouter l'argument, type="response". Voir ?predict.glm
Pour ce qui est des graphs que tu cites, ce sont des graphiques qui permettent de diagnostiquer tes modèles et plus particulièrement s'il faut transformer la variable explicative, si la relation serait plutôt polynomiale, etc. Voir le livre de Collett Moedlling binary data le chapitre model checking.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: GLM type Poisson : validation et valers prédites négatives!
Ma variable à expliquer étant entière, positive ou nulle, il me semblait que la loi de Poisson convenait puisqu'elle est utilisée pour les réponses de type "Count data" (je ne connais pas la traduction exacte).
Je ne vois pas quel type de GLM j'aurais pu utiliser, binomiale? Je serais alors passé à de la présence/absence d'activité de chasse et j'aurais perdu de l'information puisque j'ai le nombre précis de localisations observées par terrain de chasse.
Je vais voir dans la doc.
Merci pour votre réponse et vos conseils
Laure
Je ne vois pas quel type de GLM j'aurais pu utiliser, binomiale? Je serais alors passé à de la présence/absence d'activité de chasse et j'aurais perdu de l'information puisque j'ai le nombre précis de localisations observées par terrain de chasse.
Je vais voir dans la doc.
Merci pour votre réponse et vos conseils
Laure
Laure- Nombre de messages : 3
Date d'inscription : 07/07/2010
Sujets similaires
» wilcoxon valeurs négatives
» prédites selon observées
» Moyenne des valeurs prédites dans un modèle log-linéaire
» Régression linéaire multiple et valeurs prédites
» Résidus studentisés en fonction des valeurs prédites
» prédites selon observées
» Moyenne des valeurs prédites dans un modèle log-linéaire
» Régression linéaire multiple et valeurs prédites
» Résidus studentisés en fonction des valeurs prédites
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum