Les posteurs les plus actifs de la semaine
Eric Wajnberg
 
Catz
 
cicino
 
Anny_Nina
 


lm pour variable discrète

Voir le sujet précédent Voir le sujet suivant Aller en bas

lm pour variable discrète

Message par sami carilho le Mer 29 Nov 2017 - 23:09

Bonsoir tout le monde,

J'essaie d'expliquer le classement de programmes universitaires en fonction de plusieurs variables quantitatives discrètes et continues. J'ai 100 observations pour 18 variables explicatives.
J'ai dons créer sur R une régression linéaire multiple en supposant la normalité des variables et donc des erreurs.
Ensuite, j'ai estimé les coefficients du modèle et utiliser la méthode step by step backwards pour éliminer les variables explicatives non significatives à alpha = 10%. La régression ainsi obtenue m'affiche que le modèle est plutôt bon dans l'ensemble avec un R2 de 88%.
Cependant, comme ma variable dépendante est discrète (+ quelques variables explicatives qui sont eux aussi discrètes), je me suis demandé n'est- il pas aberrant de supposer qu'elles suivent une loi normale et de créer un modèle linéaire multiple apd ces variables?

Merci d'avance la communauté


sami carilho

Nombre de messages : 3
Date d'inscription : 27/11/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: lm pour variable discrète

Message par sami carilho le Jeu 30 Nov 2017 - 0:22

En cherchant un peu j'ai lu sur la toile que si la variable discrète prend des valeurs assez étendu comme c'est le cas pour la variable "classement" qui prend des valeurs de 1 à 100, on peut la traiter comme une variable continue.
Est-ce correcte?

Que faut- il faire si les valeurs prises par certaines de mes variables explicatives ne sont pas assez "larges" dispersées

Merci encore

sami carilho

Nombre de messages : 3
Date d'inscription : 27/11/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: lm pour variable discrète

Message par Eric Wajnberg le Jeu 30 Nov 2017 - 6:00

Pour les variables explicatives, aucun problème sur leur distribution. Elle peuvent être discrètes ou continues, même être qualitatives, etc.

Pour la variables a expliquer c'est plus délicat. Dans une régression linéaire "classique", elle doit être gaussienne, ce qui n'est pas le cas pour vous, je le crains.Il faut regarder la distribution de cette variable, et peut-être tenter des transformations (racine carrée par exemple, etc.). Sans voir la distribution de cette variable, c'est difficile de vous aider d'avantage.

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 710
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: lm pour variable discrète

Message par Florent Aubry le Jeu 30 Nov 2017 - 10:22

En complément de la réponse d'Eric

La sélection de variables est un problème très complexe qui n'a pas reçu jusqu'ici à ma connaissance, de véritable solution.

Le fait que le R2 soit de 88% ne signifie pas généralement que le modèle inférentiel est satisfaisant, car ce n'est qu'un indice de performance du modèle descriptif. Cela dépend entres autres du degré du modèle. En effet, si on a dix points distincts d'une variable continue, un polynôme de degré 9 donnera toujours un R2 de 100%. Donc, si après la recherche, il reste 2 variables, OK (à des nuances près, notamment celles soulignées dans ce fil de discussion) mais s'il en reste 10, un R2=88% peut quand même poser des questions sur la pertinence du modèle.

Personnellement, même si les variables ne sont pas (approximativement) gaussiennes, je commencerai par une ACP dite 'à la française' dans certains logiciels, dans R voir le package FactoMineR, pour me faire une idée des corrélations entre variables, avec comme variables actives les variables explicatives et comme variable illustrative (supplémentaire), le classement. Même après transformations, il est peu probable que les corrélations entre les nouvelles variables soient fortement modifiées.

D'autre part, j'utiliserais plutôt une approche backward/forward en partant du modèle nul au modèle complet, ce qui assure plus qu'on commence par retenir les variables qui ont le plus d'influence.

Pour vérification, on peut aussi comparer les variables retenues par la procédures ci-dessus aux résultats d'autres procédures de sélection comme celles proposées par la package Boruta de R. Si les résultats ne sont pas cohérents entre eux, il y a lieu de se poser des questions sur le modèle.

Annexes

Des définitions rapides et simples qui peuvent être discutées si on veut être plus formel et précis :
- modèle inférentiel : à partir d'un échantillon représentatif de la population, déduire des paramètres de cette population avec leurs marges d'erreurs.
- modèle descriptif : résumer par quelques paramètres un ensemble de données considéré comme étant la population étudiée.

L'utilisation du critère AIC sur lequel est basé la procédure step ne donne pas forcément la même solution si on part du modèle complet ou du modèle nul. Si les modèles diffèrent deux cas de figures :
1° les AIC sont comparables (différences inférieures à quelques %), alors prendre le modèle le plus simple ;
2° sinon prendre le modèle de plus faible AIC.

Florent Aubry

Nombre de messages : 163
Date d'inscription : 02/11/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: lm pour variable discrète

Message par sami carilho le Jeu 30 Nov 2017 - 17:46

Merci Eric et Florent pour vos explications. Je vais essayer différentes méthodes de sélection et comparer les modèles obtenus.

Pour ce qui est de la distribution de la variable classement vous trouverez joint l'histogramme de la variable. J'ai essayé plusieurs transformations mais ça n'a rien donné.

https://i62.servimg.com/u/f62/19/81/81/85/captur10.png

sami carilho

Nombre de messages : 3
Date d'inscription : 27/11/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: lm pour variable discrète

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum