Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Probit et résidus
2 participants
Page 1 sur 1
Probit et résidus
Bonjour,
si je définis un probit comme étant
P(y=1) = F(XB) (1)
Avec y, une variable dichotomique (1 ou 0), X, les variables explicatives et B, les paramètres.
Je l'estime en considérant:
P(y_i) = F(X_i B) + e_i (2)
où e_i sont les résidus du modèle.
Il s'avère que la moyenne de e_i n'est généralement pas égale à zéro. Est-ce que cela veut dire aussi que E(e_i) est différent de zéro? Dans ce cas, cela voudrait dire que E(y_i = 1) = F(X_i B) + E(e_i) est différent de E(y_i=1) = F(X_i B) ce qui est contraire à (1).
Quelqu'un en sait-il plus sur les propriétés des résidus d'un probit? Sous quelles conditions F(X_i B) est-il un estimateur non biaisé de P(y_i) ?
Merci,
Jacques.
si je définis un probit comme étant
P(y=1) = F(XB) (1)
Avec y, une variable dichotomique (1 ou 0), X, les variables explicatives et B, les paramètres.
Je l'estime en considérant:
P(y_i) = F(X_i B) + e_i (2)
où e_i sont les résidus du modèle.
Il s'avère que la moyenne de e_i n'est généralement pas égale à zéro. Est-ce que cela veut dire aussi que E(e_i) est différent de zéro? Dans ce cas, cela voudrait dire que E(y_i = 1) = F(X_i B) + E(e_i) est différent de E(y_i=1) = F(X_i B) ce qui est contraire à (1).
Quelqu'un en sait-il plus sur les propriétés des résidus d'un probit? Sous quelles conditions F(X_i B) est-il un estimateur non biaisé de P(y_i) ?
Merci,
Jacques.
student196- Nombre de messages : 5
Date d'inscription : 15/09/2009
Re: Probit et résidus
As-tu pris les bons résidus ? Je sais par exemple que dans R par défaut il ne donne pas les résidus sur la variable réponse mais les résidus de déviance. Associé avec un GLM tu peux estimer un très grand nombre de résidus. De plus je ne suis pas sur que les résidus dans un GLM doivent avoir une espérance de 0 comme dans un modèle linéaire. Après tout dépend de la manière dont tu estimes tes paramètres : moindre carée, maximum de vraissemblance, etc ...
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Probit et résidus
Salut droopy et merci pour ta contribution,
Effectivement, R ne donne pas les "bons" résidus. J'estime en effet le probit avec GLM, mais les résidus que j'utilise sont
y_i - F(X_i B) = e_i
Par maximum de vraisemblance, les résidus sont différents de zéro. Néanmoins, je ne comprends pas alors pourquoi F(X_i B) serait une estimation non biaisée de P(y_i = 1). Intuitivement, je dirais que P(y_i = 1) = F(X_i B) + E(e_i), or dans la littérature, on définit P(y_i = 1) = F(X_i B) comme étant le prédicteur. Quelque chose ne tourne pas rond, et je n'arrive pas à mettre le doigt dessus.
une idée ou un article?
Jacques
Effectivement, R ne donne pas les "bons" résidus. J'estime en effet le probit avec GLM, mais les résidus que j'utilise sont
y_i - F(X_i B) = e_i
Par maximum de vraisemblance, les résidus sont différents de zéro. Néanmoins, je ne comprends pas alors pourquoi F(X_i B) serait une estimation non biaisée de P(y_i = 1). Intuitivement, je dirais que P(y_i = 1) = F(X_i B) + E(e_i), or dans la littérature, on définit P(y_i = 1) = F(X_i B) comme étant le prédicteur. Quelque chose ne tourne pas rond, et je n'arrive pas à mettre le doigt dessus.
une idée ou un article?
Jacques
student196- Nombre de messages : 5
Date d'inscription : 15/09/2009
Re: Probit et résidus
Pour ce qui est des résidus tu n'as qu'a faire residuals("ton model", type="response"). Ce n'est pas que R ne donne pas les bons résidus, c'est qu'il donne par défaut des résidus qui ne sont pas les résidus que toi tu souhaites avoir.
Je pense que ce qui ne tourne pas rond c'est que tu essaies d'étendre ce qui est vrai dans le cadre d'un modèle linéaire, aux modèles linéaires généralisés. N'oublie qu'avec un GLM, la combi linéaire des paramètres ne se fait directement entre y et les variables indépendantes, mais entre le lien et les variables indépendantes.
Tu passes donc de y_i = X_iB+ei a y_i=F(X_iB).
C'est la définition même des GLM.
Pour ce qui est d'un référence, je te conseille :
McCullagh, P., and J. A. Nelder. 1989. Generalized Linear Models. 2nd edition. Chapman and Hall, London.
Ou encore :
Le :"Modelling binary data" de Collett qui est un tres bon bouquin et dont tu peux trouver des supléments sur le net.
Je pense que ce qui ne tourne pas rond c'est que tu essaies d'étendre ce qui est vrai dans le cadre d'un modèle linéaire, aux modèles linéaires généralisés. N'oublie qu'avec un GLM, la combi linéaire des paramètres ne se fait directement entre y et les variables indépendantes, mais entre le lien et les variables indépendantes.
Tu passes donc de y_i = X_iB+ei a y_i=F(X_iB).
C'est la définition même des GLM.
Pour ce qui est d'un référence, je te conseille :
McCullagh, P., and J. A. Nelder. 1989. Generalized Linear Models. 2nd edition. Chapman and Hall, London.
Ou encore :
Le :"Modelling binary data" de Collett qui est un tres bon bouquin et dont tu peux trouver des supléments sur le net.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Probit et résidus
Oui, tu as raison, je me raccroche trop à un OLS. C'est juste un peu dur d'avaler que P(y) = F(XB) sans contrainte sur les résidus de prime abord, mais en fait, c'est logique.
Comme d'habitude, la qualité de l'estimateur va dépendre de la spécification des variables explicatives (X) et de la forme choisie de F. Un probit et un logit ne donnent pas les mêmes résultats car la forme fonctionnelle constitue per se une hypothèse. Je cherche la petite bête aux résidus alors que c'est le nez au milieu de la figure mon problème: le choix de F. Un probit est facile à utiliser, mais son utilisation repose sur des hypothèses liée à la distribution de y alors que dans le cas OLS, la distribution des résidus est celle des y par construction d'où ma confusion.
En tant que telle, la distribution des résidus ne constitue donc pas un souci, tant qu'on sait où on met les pieds et pourquoi on choisit un modèle spécifique.
Un tout grand merci pour ton aide et pour les références beaucoup plus fraîches que mon Finney(1971)!
A bientôt,
Jacques.
Comme d'habitude, la qualité de l'estimateur va dépendre de la spécification des variables explicatives (X) et de la forme choisie de F. Un probit et un logit ne donnent pas les mêmes résultats car la forme fonctionnelle constitue per se une hypothèse. Je cherche la petite bête aux résidus alors que c'est le nez au milieu de la figure mon problème: le choix de F. Un probit est facile à utiliser, mais son utilisation repose sur des hypothèses liée à la distribution de y alors que dans le cas OLS, la distribution des résidus est celle des y par construction d'où ma confusion.
En tant que telle, la distribution des résidus ne constitue donc pas un souci, tant qu'on sait où on met les pieds et pourquoi on choisit un modèle spécifique.
Un tout grand merci pour ton aide et pour les références beaucoup plus fraîches que mon Finney(1971)!
A bientôt,
Jacques.
student196- Nombre de messages : 5
Date d'inscription : 15/09/2009
Sujets similaires
» Détermination de la limite de détection via Probit
» régression probit et matrice de confusion
» résidus standardisés et studentisés
» Choix d'un modèle approprié dans l'analyse probit
» Analyse résidus chi-deux
» régression probit et matrice de confusion
» résidus standardisés et studentisés
» Choix d'un modèle approprié dans l'analyse probit
» Analyse résidus chi-deux
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum