Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
lm pour variable discrète
3 participants
Page 1 sur 1
lm pour variable discrète
Bonsoir tout le monde,
J'essaie d'expliquer le classement de programmes universitaires en fonction de plusieurs variables quantitatives discrètes et continues. J'ai 100 observations pour 18 variables explicatives.
J'ai dons créer sur R une régression linéaire multiple en supposant la normalité des variables et donc des erreurs.
Ensuite, j'ai estimé les coefficients du modèle et utiliser la méthode step by step backwards pour éliminer les variables explicatives non significatives à alpha = 10%. La régression ainsi obtenue m'affiche que le modèle est plutôt bon dans l'ensemble avec un R2 de 88%.
Cependant, comme ma variable dépendante est discrète (+ quelques variables explicatives qui sont eux aussi discrètes), je me suis demandé n'est- il pas aberrant de supposer qu'elles suivent une loi normale et de créer un modèle linéaire multiple apd ces variables?
Merci d'avance la communauté
J'essaie d'expliquer le classement de programmes universitaires en fonction de plusieurs variables quantitatives discrètes et continues. J'ai 100 observations pour 18 variables explicatives.
J'ai dons créer sur R une régression linéaire multiple en supposant la normalité des variables et donc des erreurs.
Ensuite, j'ai estimé les coefficients du modèle et utiliser la méthode step by step backwards pour éliminer les variables explicatives non significatives à alpha = 10%. La régression ainsi obtenue m'affiche que le modèle est plutôt bon dans l'ensemble avec un R2 de 88%.
Cependant, comme ma variable dépendante est discrète (+ quelques variables explicatives qui sont eux aussi discrètes), je me suis demandé n'est- il pas aberrant de supposer qu'elles suivent une loi normale et de créer un modèle linéaire multiple apd ces variables?
Merci d'avance la communauté
sami carilho- Nombre de messages : 3
Date d'inscription : 27/11/2017
Re: lm pour variable discrète
En cherchant un peu j'ai lu sur la toile que si la variable discrète prend des valeurs assez étendu comme c'est le cas pour la variable "classement" qui prend des valeurs de 1 à 100, on peut la traiter comme une variable continue.
Est-ce correcte?
Que faut- il faire si les valeurs prises par certaines de mes variables explicatives ne sont pas assez "larges" dispersées
Merci encore
Est-ce correcte?
Que faut- il faire si les valeurs prises par certaines de mes variables explicatives ne sont pas assez "larges" dispersées
Merci encore
sami carilho- Nombre de messages : 3
Date d'inscription : 27/11/2017
Re: lm pour variable discrète
Pour les variables explicatives, aucun problème sur leur distribution. Elle peuvent être discrètes ou continues, même être qualitatives, etc.
Pour la variables a expliquer c'est plus délicat. Dans une régression linéaire "classique", elle doit être gaussienne, ce qui n'est pas le cas pour vous, je le crains.Il faut regarder la distribution de cette variable, et peut-être tenter des transformations (racine carrée par exemple, etc.). Sans voir la distribution de cette variable, c'est difficile de vous aider d'avantage.
HTH, Eric.
Pour la variables a expliquer c'est plus délicat. Dans une régression linéaire "classique", elle doit être gaussienne, ce qui n'est pas le cas pour vous, je le crains.Il faut regarder la distribution de cette variable, et peut-être tenter des transformations (racine carrée par exemple, etc.). Sans voir la distribution de cette variable, c'est difficile de vous aider d'avantage.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: lm pour variable discrète
En complément de la réponse d'Eric
La sélection de variables est un problème très complexe qui n'a pas reçu jusqu'ici à ma connaissance, de véritable solution.
Le fait que le R2 soit de 88% ne signifie pas généralement que le modèle inférentiel est satisfaisant, car ce n'est qu'un indice de performance du modèle descriptif. Cela dépend entres autres du degré du modèle. En effet, si on a dix points distincts d'une variable continue, un polynôme de degré 9 donnera toujours un R2 de 100%. Donc, si après la recherche, il reste 2 variables, OK (à des nuances près, notamment celles soulignées dans ce fil de discussion) mais s'il en reste 10, un R2=88% peut quand même poser des questions sur la pertinence du modèle.
Personnellement, même si les variables ne sont pas (approximativement) gaussiennes, je commencerai par une ACP dite 'à la française' dans certains logiciels, dans R voir le package FactoMineR, pour me faire une idée des corrélations entre variables, avec comme variables actives les variables explicatives et comme variable illustrative (supplémentaire), le classement. Même après transformations, il est peu probable que les corrélations entre les nouvelles variables soient fortement modifiées.
D'autre part, j'utiliserais plutôt une approche backward/forward en partant du modèle nul au modèle complet, ce qui assure plus qu'on commence par retenir les variables qui ont le plus d'influence.
Pour vérification, on peut aussi comparer les variables retenues par la procédures ci-dessus aux résultats d'autres procédures de sélection comme celles proposées par la package Boruta de R. Si les résultats ne sont pas cohérents entre eux, il y a lieu de se poser des questions sur le modèle.
Annexes
Des définitions rapides et simples qui peuvent être discutées si on veut être plus formel et précis :
- modèle inférentiel : à partir d'un échantillon représentatif de la population, déduire des paramètres de cette population avec leurs marges d'erreurs.
- modèle descriptif : résumer par quelques paramètres un ensemble de données considéré comme étant la population étudiée.
L'utilisation du critère AIC sur lequel est basé la procédure step ne donne pas forcément la même solution si on part du modèle complet ou du modèle nul. Si les modèles diffèrent deux cas de figures :
1° les AIC sont comparables (différences inférieures à quelques %), alors prendre le modèle le plus simple ;
2° sinon prendre le modèle de plus faible AIC.
La sélection de variables est un problème très complexe qui n'a pas reçu jusqu'ici à ma connaissance, de véritable solution.
Le fait que le R2 soit de 88% ne signifie pas généralement que le modèle inférentiel est satisfaisant, car ce n'est qu'un indice de performance du modèle descriptif. Cela dépend entres autres du degré du modèle. En effet, si on a dix points distincts d'une variable continue, un polynôme de degré 9 donnera toujours un R2 de 100%. Donc, si après la recherche, il reste 2 variables, OK (à des nuances près, notamment celles soulignées dans ce fil de discussion) mais s'il en reste 10, un R2=88% peut quand même poser des questions sur la pertinence du modèle.
Personnellement, même si les variables ne sont pas (approximativement) gaussiennes, je commencerai par une ACP dite 'à la française' dans certains logiciels, dans R voir le package FactoMineR, pour me faire une idée des corrélations entre variables, avec comme variables actives les variables explicatives et comme variable illustrative (supplémentaire), le classement. Même après transformations, il est peu probable que les corrélations entre les nouvelles variables soient fortement modifiées.
D'autre part, j'utiliserais plutôt une approche backward/forward en partant du modèle nul au modèle complet, ce qui assure plus qu'on commence par retenir les variables qui ont le plus d'influence.
Pour vérification, on peut aussi comparer les variables retenues par la procédures ci-dessus aux résultats d'autres procédures de sélection comme celles proposées par la package Boruta de R. Si les résultats ne sont pas cohérents entre eux, il y a lieu de se poser des questions sur le modèle.
Annexes
Des définitions rapides et simples qui peuvent être discutées si on veut être plus formel et précis :
- modèle inférentiel : à partir d'un échantillon représentatif de la population, déduire des paramètres de cette population avec leurs marges d'erreurs.
- modèle descriptif : résumer par quelques paramètres un ensemble de données considéré comme étant la population étudiée.
L'utilisation du critère AIC sur lequel est basé la procédure step ne donne pas forcément la même solution si on part du modèle complet ou du modèle nul. Si les modèles diffèrent deux cas de figures :
1° les AIC sont comparables (différences inférieures à quelques %), alors prendre le modèle le plus simple ;
2° sinon prendre le modèle de plus faible AIC.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: lm pour variable discrète
Merci Eric et Florent pour vos explications. Je vais essayer différentes méthodes de sélection et comparer les modèles obtenus.
Pour ce qui est de la distribution de la variable classement vous trouverez joint l'histogramme de la variable. J'ai essayé plusieurs transformations mais ça n'a rien donné.
https://i.servimg.com/u/f62/19/81/81/85/captur10.png
Pour ce qui est de la distribution de la variable classement vous trouverez joint l'histogramme de la variable. J'ai essayé plusieurs transformations mais ça n'a rien donné.
https://i.servimg.com/u/f62/19/81/81/85/captur10.png
sami carilho- Nombre de messages : 3
Date d'inscription : 27/11/2017
Sujets similaires
» Corrélation entre variable continue et variable discrète
» Variable quantitative discrète
» Comparaison de moyennes variable discrète
» démographie: Variable quantitative discrète ou continue?
» question bête : variable quantitative discrète ou continue
» Variable quantitative discrète
» Comparaison de moyennes variable discrète
» démographie: Variable quantitative discrète ou continue?
» question bête : variable quantitative discrète ou continue
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum