régression sur pourcentage

par niaboc Mer 15 Fév 2017 - 15:17

Bonjour,

je cherche à faire une régression sur un pourcentage. Une régression linéaire ne convient pas.

J'ai vu qu'on pouvait faire une régression non linéaire via :

y=1/(1 + exp(-(a+b*x))); (y étant mon pourcentage à expliquer et x une variable explicative)

la proc nlin de SAS le fait bien.

Je me posais la question si ça revenait au même de modéliser via les MCO :
log(y/(1-y)=a+b*x

où y'at-il des biais lorsqu'on refait la transformation inverse pour retrouver le y modélisé??
Par exemple, de mémoire, lorsque j'utilisais une transformation logarithmique sur des modèles de série temporelle, il y avait des biais liés à la transformation logarithmique . Est-ce le cas aussi ici?

et deuxièmement, il me semble qu'une régression beta peut modéliser un pourcentage. Avez-vous des documents sympas sur ce genre de régression?

Merci

Niaboc

par Eric Wajnberg Mer 15 Fév 2017 - 17:02

Niaboc, je vois une confusion ici.

Il faut bien comprendre que le critère des moindres-carrés (MCO) revient certes à minimiser la somme des carrés des écarts. Cependant, l'idée de minimiser la somme des carrés des écarts ne "tombe pas du ciel". L'idée vient que ça revient en fait à maximiser une vraisemblance gaussienne (de variance constante). Une régression, une anova, et plus généralement un modèle linéaire général, qui s'ajuste par MCO, implique donc de facto que la variable à expliquer est gaussienne (et de variance constante).

Si la variable à expliquer est un pourcentage, alors on n'est plus du tout dans ce contexte, car la variable à expliquer est binomiale. On peut toujours trouver un modèle non linéaire et l'ajuster par nlin sous SAS (par exemple), mais - depuis Fisher dont les premiers papiers sur la théorie du maximum de vraisemblance datent de 1913 - il y a plus d'un siècle - on sait que les estimateurs obtenus sont biaisés. Il faut maximiser une vraisemblance binomiale dans ce cas, ce qui implique par exemple de considérer que 20 individus sur 100, ça n'a rien à voir avec 200 sur 1000, alors que dans les deux cas le pourcentage est de 20%.

Depuis McCullagh & Nelder, on a le GLM (ouf!), et notamment la régression logistique, qui s'ajuste justement par maximisation d'une vraisemblance binomiale et non gaussienne (i.e., par par MCO). C'est le seul moyen - à ma connaissance - d'obtenir des estimateurs non biaisés (de pentes, d'ordonnées à l'origine, etc.). Ca implique - oui - l'utilisation d'un lien logit, mais on peut effectivement retomber sur les données dans l'espace d'origine après ajustement.

HTH, Eric.

par niaboc Mer 15 Fév 2017 - 22:19

Eric Wajnberg a écrit:
Il faut bien comprendre que le critère des moindres-carrés (MCO) revient certes à minimiser la somme des carrés des écarts. Cependant, l'idée de minimiser la somme des carrés des écarts ne "tombe pas du ciel". L'idée vient que ça revient en fait à maximiser une vraisemblance gaussienne (de variance constante). Une régression, une anova, et plus généralement un modèle linéaire général, qui s'ajuste par MCO, implique donc de facto que la variable à expliquer est gaussienne (et de variance constante).

Si la variable à expliquer est un pourcentage, alors on n'est plus du tout dans ce contexte, car la variable à expliquer est binomiale. On peut toujours trouver un modèle non linéaire et l'ajuster par nlin sous SAS (par exemple), mais - depuis Fisher dont les premiers papiers sur la théorie du maximum de vraisemblance datent de 1913 - il y a plus d'un siècle - on sait que les estimateurs obtenus sont biaisés. Il faut maximiser une vraisemblance binomiale dans ce cas, ce qui implique par exemple de considérer que 20 individus sur 100, ça n'a rien à voir avec 200 sur 1000, alors que dans les deux cas le pourcentage est de 20%.

Depuis McCullagh & Nelder, on a le GLM (ouf!), et notamment la régression logistique, qui s'ajuste justement par maximisation d'une vraisemblance binomiale et non gaussienne (i.e., par par MCO). C'est le seul moyen - à ma connaissance - d'obtenir des estimateurs non biaisés (de pentes, d'ordonnées à l'origine, etc.). Ca implique - oui - l'utilisation d'un lien logit, mais on peut effectivement retomber sur les données dans l'espace d'origine après ajustement.

Ok, très bien mais... peux-tu vulgariser un peu plus car il m'est difficile de tout comprendre. Notamment sur ces points :

- le MCO pouvait, je pensais jusqu'ici, être vu comme un outil géométrique, une simple projection orthogonale. D'ailleurs la première fois que j'ai fait une régression simple, j'ai fait un MCO sans le savoir, en minimisant la somme des carrés des résidus, sans aucune hypothèse gaussienne... l'idée peut donc "tomber du ciel" cheers

- De plus, les variables à expliquer ne sont jamais gaussiennes lorsque je lance des régressions... par contre les résidus suivent un loi normale. Donc les variables à expliquer suivent surement une loi gaussienne conditionnellement aux variables explicatives, mais ça on ne peut le savoir qu'après la régression, non?

- concernant le biais des estimateurs via une régression non linéaire (en particulier avec la fonction logit pour mon cas), peux-tu me renvoyer sur des documents en ligne? Et dans le cas de pourcentages sur une population identique, les biais sont-ils toujours présents? Et lorsque nous avons des populations importantes, la convergence de la loi binomiale vers la loi normale ne permet pas de supprimer ces biais?

- La régression logistique, si j'ai bien compris, s'applique sur des distributions binomiales ou même de Bernoulli (ce qui est plus commun d'ailleurs). Cependant si les effectifs ne sont pas connus et que l'on possède seulement les pourcentage peut-on toujours utiliser cette méthode? J'ai l'impression qu'il faut préciser, du moins dans SAS, les effectifs pour pouvoir modéliser tout ça...

Niaboc

par Eric Wajnberg Jeu 16 Fév 2017 - 6:23

niaboc a écrit:- le MCO pouvait, je pensais jusqu'ici, être vu comme un outil géométrique, une simple projection orthogonale. D'ailleurs la première fois que j'ai fait une régression simple, j'ai fait un MCO sans le savoir, en minimisant la somme des carrés des résidus, sans aucune hypothèse gaussienne... l'idée peut donc "tomber du ciel"

Oui, ca peut. Mais on peut démontrer que les estimations des paramètres sont biaisés si la variable à expliquer n'est pas gaussienne. Ca peut se comprendre assez facilement dans le cas - justement - où l'on souhaite expliquer un pourcentage. Du MCO vers p=.5 ne peux pas avoir le même poids et la même signification que lorsque p se rapproche de 0.0 ou de 1.0.

niaboc a écrit:- De plus, les variables à expliquer ne sont jamais gaussiennes lorsque je lance des régressions... par contre les résidus suivent un loi normale. Donc les variables à expliquer suivent surement une loi gaussienne conditionnellement aux variables explicatives, mais ça on ne peut le savoir qu'après la régression, non?

Non. Un résidu n'est juste que la variable d'origine moins sa valeur estimée par un modèle. Cette soustraction ne change pas la distribution sous-jacente. C'est bien la variable à expliquer qui doit être gaussienne. Dans une régression linéaire simple, on a par exemple y = ax + b + e, où "e" est le bruit gaussien de la variable d'origine y à expliquer.

niaboc a écrit:- concernant le biais des estimateurs via une régression non linéaire (en particulier avec la fonction logit pour mon cas), peux-tu me renvoyer sur des documents en ligne? Et dans le cas de pourcentages sur une population identique, les biais sont-ils toujours présents? Et lorsque nous avons des populations importantes, la convergence de la loi binomiale vers la loi normale ne permet pas de supprimer ces biais?

Une fois encore, la référence de base, incontournable, est le McCullagh & Nelder sur le GLM (entre autre). Dans le cas d'une régression logistique, le biais est - si je me souviens bien - d'autant plus fort que l'on se rapproche de p=0.0 ou p=1.0, car du MCO colle là-dessus implicitement une loi normale qui peut aller au-delà de p=0.0 ou p=1.0, ce qui est clairement faux.

niaboc a écrit:- La régression logistique, si j'ai bien compris, s'applique sur des distributions binomiales ou même de Bernoulli (ce qui est plus commun d'ailleurs). Cependant si les effectifs ne sont pas connus et que l'on possède seulement les pourcentage peut-on toujours utiliser cette méthode?

Non ! Absolument pas. Pour une raison qui m'échappe, je vois beaucoup de personnes qui ne comprennent pas cela. Nous sommes dans le cadre ici de lois binomiales, et la variance d'une estimation du pourcentage p est p(1-p)/n, et donc les effectifs "n" doivent évidement être connus pour pouvoir faire un ajustement correct. Encore une fois, si je vais dans la rue pour faire un sondage, et que je trouve que 20% des personnes interrogées désirent voter pour un candidat donné aux élections, ca n'a évidement pas le même sens si j'obtiens ce pourcentage en sondant 100 individus ou 3000 !

niaboc a écrit:J'ai l'impression qu'il faut préciser, du moins dans SAS, les effectifs pour pouvoir modéliser tout ça...

Ben oui. Voir mon explication ci-dessus.

HTH, Eric.

par niaboc Jeu 16 Fév 2017 - 7:15

Encore quelques remarques pour essayer de comprendre...

Eric Wajnberg a écrit:C'est bien la variable à expliquer qui doit être gaussienne. Dans une régression linéaire simple, on a par exemple y = ax + b + e, où "e" est le bruit gaussien de la variable d'origine y à expliquer.

ça oui, mais comme j'écrivais au-dessus, c'est forcément conditionnellement aux variables explicatives que l'on a la distribution gaussienne de y?

Eric Wajnberg a écrit:Dans le cas d'une régression logistique, le biais est - si je me souviens bien - d'autant plus fort que l'on se rapproche de p=0.0 ou p=1.0, car du MCO colle là-dessus implicitement une loi normale qui peut aller au-delà de p=0.0 ou p=1.0, ce qui est clairement faux.

Oui ça aussi je comprends. Sauf que dans une régression non linéaire, ce ne sont pas les MCO qu'on applique mais l'algorithme de Marquardt (généralement). A-t-on toujours les mêmes biais? Surtout dans le cas d'effectifs identiques pour tous mes pourcentages à expliquer et de grande taille et une fonction non linéaire qui ne varie qu'entre 0 et 1.

Eric Wajnberg a écrit: et donc les effectifs "n" doivent évidement être connus pour pouvoir faire un ajustement correct.

Ok, c'est logique aussi.
Cependant si je n'ai pas accès à cette donnée, quel type de modèle recommandes-tu?
Quid de la bêta régression des modèles GLM vis-à-vis du modèle de régression non linéaire avec la lien logit 1/(1+e(-x))?

par Eric Wajnberg Jeu 16 Fév 2017 - 10:55

niaboc a écrit:
Eric Wajnberg a écrit:C'est bien la variable à expliquer qui doit être gaussienne. Dans une régression linéaire simple, on a par exemple y = ax + b + e, où "e" est le bruit gaussien de la variable d'origine y à expliquer.
ça oui, mais comme j'écrivais au-dessus, c'est forcément conditionnellement aux variables explicatives que l'on a la distribution gaussienne de y?

Oui, mais ce que je dis reste valide. Un résidu ca reste une valeur mesurée moins une valeur prédite. Cette soustraction ne change par la distribution sous-jacente.

niaboc a écrit:
Eric Wajnberg a écrit:Dans le cas d'une régression logistique, le biais est - si je me souviens bien - d'autant plus fort que l'on se rapproche de p=0.0 ou p=1.0, car du MCO colle là-dessus implicitement une loi normale qui peut aller au-delà de p=0.0 ou p=1.0, ce qui est clairement faux.

Oui ça aussi je comprends. Sauf que dans une régression non linéaire, ce ne sont pas les MCO qu'on applique mais l'algorithme de Marquardt (généralement). A-t-on toujours les mêmes biais? Surtout dans le cas d'effectifs identiques pour tous mes pourcentages à expliquer et de grande taille et une fonction non linéaire qui ne varie qu'entre 0 et 1.

Je vois encore une confusion ici. Un algo de Gauss-Marquardt, c'est juste une procédure numérique (parmi d'autres) pour maximiser/minimiser une fonction dans un espace de paramètres, qu'on utilise lorsqu'il n'y a pas moyen de calculer ceci formellement (en dérivant). Il reste que dans une régression linéaire par défaut (e.g., nlin sans SAS) la fonction à minimiser est celle des MCO, et ça reste faux/biaisé si la variable à expliquer n'est pas gaussienne.

niaboc a écrit:
Eric Wajnberg a écrit: et donc les effectifs "n" doivent évidement être connus pour pouvoir faire un ajustement correct.
Ok, c'est logique aussi.
Cependant si je n'ai pas accès à cette donnée, quel type de modèle recommandes-tu?
Quid de la bêta régression des modèles GLM vis-à-vis du modèle de régression non linéaire avec la lien logit 1/(1+e(-x))?

La vrai question est comment on peut estimer un pourcentage sans savoir sur combien d'individus il est calculé?? La seule chose que je dis, est que si on part sur l'option utilisant du MCO, on abouti dans ce cas à des estimations biaisées. Il ne reste jusqu'à "prier" pour que la vraie distribution des données soit réellement gaussienne (en vertu du théorème central limite, éventuellement). Il reste qu'il n'est pas satisfaisant d'attribuer le même poids (i.e., effectif) a priori à chacune des valeurs mesurées que l'on cherche à expliquer par le modèle. Ce ne peut guère être correct.

Eric.

par niaboc Jeu 16 Fév 2017 - 11:00

Eric Wajnberk a écrit:La vrai question est comment on peut estimer un pourcentage sans savoir sur combien d'individus il est calculé??

Héhé, on fait ce qu'on peut avec ce qu'on a...

par niaboc Jeu 16 Fév 2017 - 16:25

Eric a écrit:Il ne reste jusqu'à "prier" pour que la vraie distribution des données soit réellement gaussienne (en vertu du théorème central limite, éventuellement). Il reste qu'il n'est pas satisfaisant d'attribuer le même poids (i.e., effectif) a priori à chacune des valeurs mesurées que l'on cherche à expliquer par le modèle. Ce ne peut guère être correct.

la convergence de la loi binomiale vers la loi normale fait que mes pourcentages vont suivrent des distributions gaussiennes... Et si je sais que mes effectifs sont les mêmes, je n'ai plus le problème des poids différents à chaque mesure.
Donc je me demandais si au final, dans ce cas, les estimateurs sont sans biais mais par contre il existe un biais sur la variance (pb d'hétéroscédasticité?) et ce sont les tests usuels qui sont donc faux?

par Eric Wajnberg Ven 17 Fév 2017 - 7:10

Oui, les variances (intra) ne sont pas les mêmes et restent d'autant plus faibles par construction que l'on se rapproche de p=0.0 ou p=1.0. l'ajustement n'est donc pas propre, par construction.

Comment peut-on savoir que les effectifs sont les mêmes sans les connaitre??

Eric.

par niaboc Ven 17 Fév 2017 - 9:18

Eric Wajnberg a écrit:
Comment peut-on savoir que les effectifs sont les mêmes sans les connaitre??

Les données sont fournies par une source externe, nous savons juste que ce sont des pourcentages sur de très grands échantillons qui varient légèrement avec le temps...

par niaboc Ven 24 Fév 2017 - 9:48

Eric Wajnberg a écrit:Oui, les variances (intra) ne sont pas les mêmes et restent d'autant plus faibles par construction que l'on se rapproche de p=0.0 ou p=1.0. l'ajustement n'est donc pas propre, par construction.

Comme on connaît la forme de l'hétéroscédasticité (en cloche j'imagine), peut-on gérer cette dernière via une régression non-linéaire pondérée? On aurait donc des estimateurs non biaisés (effectif constant par groupe avec de gros échantillons) et une méthode pour gérer l'hétéroscédasticité.

par Eric Wajnberg Ven 24 Fév 2017 - 20:12

niaboc a écrit:Comme on connaît la forme de l'hétéroscédasticité (en cloche j'imagine), peut-on gérer cette dernière via une régression non-linéaire pondérée? On aurait donc des estimateurs non biaisés (effectif constant par groupe avec de gros échantillons) et une méthode pour gérer l'hétéroscédasticité.

Je reprends : La variance de l'estimation d'un pourcentage p, calculé sur n individus, est p*(1-p)/n. Pas vraiment en cloche, donc.

J'imagine que ce que vous appelez "régression non-linéaire pondérée" veut dire avec du MCO? (un modèle non-linéaire ne s'ajuste pas toujours par du MCO - notamment une régression logistique est une régression non linéaire qui s'ajuste par maximum de vraisemblance). Si vous voulez dire MCO pondérés, alors la pondération à utiliser est proportionnelle à p*(1-p)/n, puisqu'on est dans le cas binomial. Mais vous dites ne pas avoir les effectifs n. On tourne en rond. Et il reste que des MCO, pondérés ou non, conduisent à des estimateurs biaisés dans le cas binomial. La discussion est donc restée - me semble t-il - au même point..

Eric.

par niaboc Sam 25 Fév 2017 - 1:45

Au même point pour vous, mais moi j'avance dans ma compréhension.

p*(1-p)/n avec n constant et p compris entre 0 et 1 n'est pas en cloche??? hum... soit, admettons, puisque vous le dîtes...

le cas binomial mais avec de grands échantillons de tailles identiques=> on converge vers une loi normale, donc le problème des biais sur les estimateurs peut être considéré comme résolu ici? Il reste les biais sur la matrice de variance-covariance.
Soit le problème de l'hétéroscédasticité.
Effectivement, je ne connais pas n. Mais comme dans n'importe quelle MCP, il pourrait m'être possible d'estimer la variance de façon classique en étudiant les résidus... mais cette dernière doit être proportionnelle à p*(1-p) puisque n est constant. Donc si je régresse directement avec un poids en 1/[p*(1-p)], ne corrigerais-je pas le problème d'hétéroscédasticité?

par Eric Wajnberg Sam 25 Fév 2017 - 4:58

Si votre compréhension avance, alors c'est parfait.

Ok, quand je disais ou comprenais "en cloche", je pensais "loi normale" à cause de "bell-shape"..

Il n'y a pas d'un côté le biais sur les estimateurs, et de l'autre les problèmes d'hétéroscédasticité. L'hétéroscédasticité induit aussi un biais sur les estimateurs. C'est bien le problème.

Oui, il y a convergence en loi vers une normale si n est grand. Mais votre problème n'est pas résolu pour autant. Imaginons que vous ayez des situations où p=0.0 ou p=1.0 (très courant). La variance d'un pourcentage dans ces deux cas est 0.0 par définition. Quelle pondération prendriez-vous dans ces deux cas ?

HTH, Eric.

par niaboc Sam 25 Fév 2017 - 7:13

Pourtant quand je lis un document comme celui-là : http://www.foad-mooc.auf.org/IMG/pdf/M04-2.pdf (en page 5/12), il est indiqué que :
" Les conséquences de l’hétéroscédasticité sont, par construction, identiques à
celles de l’autocorrélation :
- les estimateurs des paramètres restent sans biais.
- les estimateurs des paramètres ne sont plus de variance minimale."

Ou encore celui-ci : https://www-perso.gate.cnrs.fr/fournier/Notes_de_cours/Econometrie/3_Heteroscedasticite.pdf qui dit en page 5 que :
"Les MCO restent sans biais et convergents, même en présence d’hétéroscédasticité
La matrice de variance covariance des coefficients estimés est biaisée en présence d’hétéroscédasticité
On ne peut plus appliquer les tests d’hypothèse usuels post-estimation (t statistics, F statistics ou LM statistics)"

Donc les estimateurs seraient bien ans biais et il y aurait un problème d'inférence?

J'ai des données concernant une couverture d'exposition à des choses relativement courantes. Ce qui fait que je n'aurai quasiment jamais de 0, ni de 1 (du moins je n'en ai pas encore rencontré).
Cependant, si un jour je rencontre ce cas... en quoi serait-il faux de leur accorder un poids de 0? Quelque part, s'il n'y a aucune variabilité, ces points ne nous intéressent pas forcément pour construire une courbe de régression?

par Eric Wajnberg Sam 25 Fév 2017 - 7:47

Oui mais (une fois encore) :

- Votre raisonnement est dans le cas gaussien. Ici on est dans le cas binomial. On change de monde !

- Votre pondération est du type 1/[p*(1-p)]. Si p=0.0 ou p=1.0, ca veux dire une pondération à plus l'infini !

De manière générale, dans le cas binomial encore une fois, la pondération par la variance va mettre moins de crédit aux valeurs à expliquées situées dans la zone centrale (p voisin de 0.5) et d'autant plus de poids aux valeurs qui se rapprochent de 0.0 et de 1.0. Est-ce souhaitable. Je crains que non..

Eric.

par gg Sam 25 Fév 2017 - 8:12

Rappel : p(1-p)/n en fonction de p est un polynôme du second degré, la courbe est un arc de parabole.

Cordialement.

par niaboc Sam 25 Fév 2017 - 8:23

Eric Wajnberg a écrit:Oui mais (une fois encore) :

- Votre raisonnement est dans le cas gaussien. Ici on est dans le cas binomial. On change de monde !

- Votre pondération est du type 1/[p*(1-p)]. Si p=0.0 ou p=1.0, ca veux dire une pondération à plus l'infini !

Ah oui au temps pour moi pour la pondération :-)... Après c'était plus à titre informatif car en pratique je n'aurai jamais de cas à 0 et/ou 1, le gros de mes données se situent entre 0.2 et 0.8.

Et encore une fois, on est dans un cas binomial qui converge vers un cas gaussien, donc on ne change pas tant de monde que ça?? (surtout si les effectifs sont très importants, plusieurs milliers d'individus)

par Eric Wajnberg Sam 25 Fév 2017 - 13:08

niaboc a écrit:Et encore une fois, on est dans un cas binomial qui converge vers un cas gaussien, donc on ne change pas tant de monde que ça?? (surtout si les effectifs sont très importants, plusieurs milliers d'individus)

Oui, d'autant plus que j'ai l'impression que - d'après ce que vous dites - vous n'avez pas beaucoup d'alternatives..

Eric.

par Contenu sponsorisé

régression sur pourcentage

régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage

Re: régression sur pourcentage