Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
intéraction entre 2 variables
2 participants
Page 1 sur 1
intéraction entre 2 variables
Bonjour,
1)J'ai un modèle de régression linéaire multiple avec 7 variables explicatives où tous mes coefficients sont significatifs sauf 1. Mon R² ajusté vaut 0.277
2)J'y ajoute une interaction entre ma variable qui avait un coefficient non significatif et une qui avait un coefficient significatif. Mon R² ajusté vaut maintenant 0.312. Mon problème concerne la variable qui avait un coefficient significatif qui devient non significatif.
3) Je décide de supprimer la variable seule dont le coefficient n'est plus significative en gardant l'interaction. Mon R² ajusté vaut maintenant 0.315.
J'ai le vague souvenir que dans ce cas là il fallait garder la variable avec le coefficient non significatif mais je ne sais plus pour quelles raisons. Si quelqu'un peut m'aider ...
Question plus vaste : Dans quels cas garde ton une variable qui n'a pas de coefficient significatif ?
Il me semble que lorsque un expert dans son domaine précise qu'une variable doit être prise en compte dans le modèle car elle influe sur la variable à expliquer nous, statisticiens, devons la prendre en compte malgré que son coefficient ne soit pas significatif (on a pas la connaissance du terrain).
Merci
1)J'ai un modèle de régression linéaire multiple avec 7 variables explicatives où tous mes coefficients sont significatifs sauf 1. Mon R² ajusté vaut 0.277
2)J'y ajoute une interaction entre ma variable qui avait un coefficient non significatif et une qui avait un coefficient significatif. Mon R² ajusté vaut maintenant 0.312. Mon problème concerne la variable qui avait un coefficient significatif qui devient non significatif.
3) Je décide de supprimer la variable seule dont le coefficient n'est plus significative en gardant l'interaction. Mon R² ajusté vaut maintenant 0.315.
J'ai le vague souvenir que dans ce cas là il fallait garder la variable avec le coefficient non significatif mais je ne sais plus pour quelles raisons. Si quelqu'un peut m'aider ...
Question plus vaste : Dans quels cas garde ton une variable qui n'a pas de coefficient significatif ?
Il me semble que lorsque un expert dans son domaine précise qu'une variable doit être prise en compte dans le modèle car elle influe sur la variable à expliquer nous, statisticiens, devons la prendre en compte malgré que son coefficient ne soit pas significatif (on a pas la connaissance du terrain).
Merci
Thierry25- Nombre de messages : 8
Age : 37
Localisation : Belfort
Date d'inscription : 07/01/2011
Re: intéraction entre 2 variables
Bonjour,
Le test d'hypothèse sur les paramètres n'est pas un bon moyen de savoir si une variable données doit être ou non incluse dans un modèle. Voir plutôt le test du rapport des vraisemblance ou la sélection de modèle sur critère d'information (AIC, BIC, TIC, DIC etc...).
Effectivement une variable peut avoir un effet uniquement lorsqu'une autre variable prend une certaine valeur (effet gachette bien connue dans la modélisation des système biologique par rétro-contrôle). Dans ce cas là l'interaction sera significative. Mais ce n'est pas pour autant qu'il faut enlever l'une ou l'autre des variables. Il faut rester prudent car on travaillle avant tout avec des corrélations ce qui reste une description extrêmement grossière de la relation entre 2 variables soumis à l'influence de la distribution empirique des données.
Pour ton problème il faut donc que tu fasses de la biblio sur la sélection de modèle tout en sachant déjà que test sur les paramètres et R² sont de mauvais indicateurs pour retenir ou non une variable.
Nik
Le test d'hypothèse sur les paramètres n'est pas un bon moyen de savoir si une variable données doit être ou non incluse dans un modèle. Voir plutôt le test du rapport des vraisemblance ou la sélection de modèle sur critère d'information (AIC, BIC, TIC, DIC etc...).
Effectivement une variable peut avoir un effet uniquement lorsqu'une autre variable prend une certaine valeur (effet gachette bien connue dans la modélisation des système biologique par rétro-contrôle). Dans ce cas là l'interaction sera significative. Mais ce n'est pas pour autant qu'il faut enlever l'une ou l'autre des variables. Il faut rester prudent car on travaillle avant tout avec des corrélations ce qui reste une description extrêmement grossière de la relation entre 2 variables soumis à l'influence de la distribution empirique des données.
Pour ton problème il faut donc que tu fasses de la biblio sur la sélection de modèle tout en sachant déjà que test sur les paramètres et R² sont de mauvais indicateurs pour retenir ou non une variable.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: intéraction entre 2 variables
Au départ, avant de retenir 7 variables sur 50, j'ai utilisé les critères BIC, Cp et PRESS mais je n'ai pas rentrer les interactions (j'utilise regsubsets sous R). C'est seulement après que j'ai ajouté l'interaction.
Avec mes trois critères choisis, je n'ai pas un modèle qui ressort mais 3 potentiels. Dans ces trois modèles j'ai des variables redondantes et d'autres qui apparaissent une fois (ou 2) c'est pourquoi j'essayais un modèle avec une ou 2 interactions.
Donc je m'en vais recalculer les mêmes critères mais j'ai l'impression de tourner en rond. En tout cas merci.
Avec mes trois critères choisis, je n'ai pas un modèle qui ressort mais 3 potentiels. Dans ces trois modèles j'ai des variables redondantes et d'autres qui apparaissent une fois (ou 2) c'est pourquoi j'essayais un modèle avec une ou 2 interactions.
Donc je m'en vais recalculer les mêmes critères mais j'ai l'impression de tourner en rond. En tout cas merci.
Thierry25- Nombre de messages : 8
Age : 37
Localisation : Belfort
Date d'inscription : 07/01/2011
Re: intéraction entre 2 variables
Pour mon modèle 1) : BIC = 464, PRESS = 171
Pour mon modèle 2) : BIC = 454, PRESS =152
Pour mon modèle 3) : BIC = 459, PRESS =154
Le meilleur modèle est le 2) suivant ces deux critères mais le coefficient d'une de mes variable est non significatif (p-value = 0.53660 ) alors pour le 3ème modèle tous mes coefficient sont significatifs.
Quel modèle dois-je choisir ?
Pour mon modèle 2) : BIC = 454, PRESS =152
Pour mon modèle 3) : BIC = 459, PRESS =154
Le meilleur modèle est le 2) suivant ces deux critères mais le coefficient d'une de mes variable est non significatif (p-value = 0.53660 ) alors pour le 3ème modèle tous mes coefficient sont significatifs.
Quel modèle dois-je choisir ?
Thierry25- Nombre de messages : 8
Age : 37
Localisation : Belfort
Date d'inscription : 07/01/2011
Re: intéraction entre 2 variables
salut,
Alors
1) pourquoi choisir le BIC ?
2) je ne connais pas le PRESS mais ça c'est pas bien grave
3) Si tu choisi une approche par critère d'information, il faut oublier les tests sur les paramètres. Mais il faut bien faire attention aux variables que l'on rentre dans le modèle. Idéalement il faut se constituer un ensemble de modèles candidats (répondant à des scénarios différent par exemple) et faire les calculs des critères par la suite.
4) il faut savoir que la valeur du critère d'information n'a pas d'intérêt en tant que tel. Ce qui compte c'est la valeur relative par rapport à la valeur minimale trouvée pour l'ensemble des modèles candidats. Plus clairement, il faut ordonnées les modèles selon les valeurs croissantes du critère. Ensuite il faut calculer les delta[i]-delta[min] pour chaque modèle. Du coup le modèle avec la valeur minimale se retrouve avec un delta[i] = 0.
ces delta peuvent permettre de calculer un poids qui est une sorte de proba à posteriori du modèle. Et c'est là dessus qu'il faut baser la sélection des modèles (delta et poids recalculé). Si plusieurs modèles sont très proches en terme de delta et/ou poids il est tout à fait envisageable voire même fortement recommandé de faire du modèle averaging c'est à dire de faire un modèle moyen à partir des modèles retenus.
5) pour tout ça sous R voir la librairie multmod et les références associées (Burnham & Anderson 2002 entre autre...)
Nik
Alors
1) pourquoi choisir le BIC ?
2) je ne connais pas le PRESS mais ça c'est pas bien grave

3) Si tu choisi une approche par critère d'information, il faut oublier les tests sur les paramètres. Mais il faut bien faire attention aux variables que l'on rentre dans le modèle. Idéalement il faut se constituer un ensemble de modèles candidats (répondant à des scénarios différent par exemple) et faire les calculs des critères par la suite.
4) il faut savoir que la valeur du critère d'information n'a pas d'intérêt en tant que tel. Ce qui compte c'est la valeur relative par rapport à la valeur minimale trouvée pour l'ensemble des modèles candidats. Plus clairement, il faut ordonnées les modèles selon les valeurs croissantes du critère. Ensuite il faut calculer les delta[i]-delta[min] pour chaque modèle. Du coup le modèle avec la valeur minimale se retrouve avec un delta[i] = 0.
ces delta peuvent permettre de calculer un poids qui est une sorte de proba à posteriori du modèle. Et c'est là dessus qu'il faut baser la sélection des modèles (delta et poids recalculé). Si plusieurs modèles sont très proches en terme de delta et/ou poids il est tout à fait envisageable voire même fortement recommandé de faire du modèle averaging c'est à dire de faire un modèle moyen à partir des modèles retenus.
5) pour tout ça sous R voir la librairie multmod et les références associées (Burnham & Anderson 2002 entre autre...)
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
|
|