Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine
Aucun utilisateur

Le Deal du moment :
TV LED 32” Continental Edison CELED32SAHD24B3
Voir le deal
139.99 €

régression et colinéarité

2 participants

Aller en bas

regression - régression et colinéarité Empty régression et colinéarité

Message par niaboc Ven 29 Avr 2016 - 10:00

Bonjour,

quelques questions diverses sur la régression linéaire multiple et la colinéarité. Notamment, que pensez-vous de la colinéarité causée par :

- les modèles quadratiques? Doit-on laisser les deux termes x et x² dans la régression, même en cas de non significativité du x??
- les modèles avec intéraction? Doit-on laisser les variables "simples" en cas de non significativité?


dans les deux cas on m'a dit, et j'ai lu sur quelques livres qu'il fallait toujours laisser toutes les variables (x ET x², x z ET x*z)  car il s'agit de corrélation "vraie" etc. Mais il n'y a pas de réelles justifications je trouve.
Avez-vous des documents sur ces sujets?



+ une question qui me vient à l'esprit :
on parle parfois de transformation de variables : racine, logarithme, quadratique etc.

Dans le cas quadratique nous avons x et x² qui sont rentrés dans le modèle (y= a+ x + x²)
Pourquoi dans une transformation logarithmique par exemple on ne dit jamais de garder le terme x en plus du ln(x) : y= a + x + ln(x).
Ou alors on peut mais ça ne se fait pas car ça complique le modèle et on pourrait s'amuser à tout "transformer" et ça n'a plus vraiment de sens, tout simplement?

Niaboc
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

regression - régression et colinéarité Empty Re: régression et colinéarité

Message par droopy Ven 29 Avr 2016 - 14:11

Bonjour,

Pour ce qui concerne le modèle quadratique, l'ajout de la variable au carré n'apporte pas une meilleur compréhension de ce qui se passe sur la variable expliquée alors il n'y a pas de raison de la conserver. Tu fais l'analyse de variance et tu vois si la variance résiduelle a significativement été réduite ou non. La conservation de la variable quadratique peut-être intéressante aussi pour que les hypothèses des modèles linéaires soit vérifiées, à savoir l'indépendance et le fait que les erreurs sont centrées et de variance constante. Si la relation est réellement quadratique et non juste linéaire alors tu vas tout de suite voir un pattern sur le graphique des résidus en fonction des valeurs prédites, ce que tu ne devrais pas observer.

Pour réduire la corrélation entre la variable x et x^2 (qui existe forcément dès lors que toutes les valeurs de x sont positives ou toutes négatives), tu peux centrer les variables.

Pour ce qui est des interactions, si elle est significative alors il est effectivement conseillé de conserver tous les paramètres du modèle. L'interprétation des effets marginaux propres à chaque variable n'a plus forcément d'intérêt, ce qui compte c'est de représenter ce qui se passe pour chaque combinaison de variable.

On transforme les variables quand la linéarité n'est pas directe entre les variables expliquées et explicatives ou que l'homoscédasticité n'est vérifiée que sur l'espace du log. Dans ces cas la relation est bien de type Y = a*log(X) + b + epsilon. Tu peux aussi avoir des cas log(Y) = aX + b + epsilon ou log(Y) = a*log(X) + b + epsilon.

Avant de transformer les variables la première chose à faire c'est soit d'avoir un a priori sur le sens de la relation entre les variables par exemple entre le poids et la taille. En général les relations tailles poids marchent très bien mais en transformant le poids en log (une masse c'est lié à un volume et un volume peut-être vu comme un produit d'une taille et d'une largeur et d'une profondeur, donc évoluer au cube par rapport à la taille, la relation n'est pas linéaire). Soit regarder la forme du nuage de points, et sa dispersion.

droopy
droopy
droopy

Nombre de messages : 1156
Date d'inscription : 04/09/2009

Revenir en haut Aller en bas

regression - régression et colinéarité Empty Re: régression et colinéarité

Message par niaboc Ven 29 Avr 2016 - 14:48

Ok merci pour ta réponse.

Juste quelques précisions si tu as le temps :-) :
si x² est significatif et x ne l'est pas, tu vires x ou il vaut mieux le garder, justement parce que ces deux variables sont très corrélées?

quand tu dis :
"Pour ce qui est des interactions, si elle est significative alors il est effectivement conseillé de conserver tous les paramètres du modèle."
Qu'est ce qui permet de justifier ça?
Je n'arrive pas à trouver une source fiable qui en expliquerait vraiment les raisons? Ou il est conseillé de les garder car la variable d'intéraction étant corrélée aux deux autres variables il est difficile d'avoir confiance aux tests de significativité des variables simples.

pour le dernier point, il m'arrive effectivement d'utiliser cette relation :
Y = a*log(X) + b + epsilon.
Mais je me demandais pouruqoi ne trouve-t-on jamais :
Y = c*X + a*log(X) + b + epsilon.

alors qu'on a bien :
Y = c*X + a*X² + b + epsilon.
et qu'on a rarement :
Y = a*X² + b + epsilon.

Niaboc
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

regression - régression et colinéarité Empty Re: régression et colinéarité

Message par droopy Lun 2 Mai 2016 - 14:00

C'est vrai que la question peut se poser de conserver ou non x si elle n'est pas significative mais que x² l'est. Perso j'ai toujours conservé les deux, en regardant si l'ajout de x² apportait un supplément d'information, jamais dans le sens inverse. Du moment que c'est un polynôme je garde les termes de puissances les plus faibles et j'ajoute ou non un terme de puissance plus élevée. Je le fais justement parce que c'est un polynôme et c'est classiquement ce qu'on trouve dans la littérature. Dans le cas de x et de log(x), je n'ai jamais trouvé de justification au fait d'inclure à la fois x et log(x). Je ne suis jamais tombé sur des modèles théoriques qui justifient l'utilisation des deux.

Pour ce qui est des interactions, ce que j'ai pu lire dans la littérature c'est que du moment que le terme d’interaction est significatif ça signifie que les deux facteurs ont de l'importance et que donc on les gardes quelque soit les résultats sur les effets marginaux de ces facteurs (qui n'ont plus d'intérêts du fait que l’interaction est significative).

droopy
droopy
droopy

Nombre de messages : 1156
Date d'inscription : 04/09/2009

Revenir en haut Aller en bas

regression - régression et colinéarité Empty Re: régression et colinéarité

Message par niaboc Lun 2 Mai 2016 - 14:16

Ok, c'est globalement les réponses auxquelles je m'attendais.
Merci beaucoup!

Niaboc
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

regression - régression et colinéarité Empty Re: régression et colinéarité

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut


 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum