Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Régressions univariées et multivariées
3 participants
Page 1 sur 1
Régressions univariées et multivariées
Bonjour,
Je suis désolé si la réponse à ma question est évidente mais je suis débutant en statistiques.
Je cherche à réaliser dans le cadre d’une étude scientifique une régression de Cox pour trouver des variables en lien avec le pronostic d’une pathologie rare (survie).
J’ai de nombreuses variables dans ma base de données Mais un nombre de patient limité (environ 100).
On m’a conseillé de réaliser une régression univariée pour sélectionner chaque variable puis une régression multivariée sur les variables significatives en univarié. Cependant, lorsque j’inclus l’intégralité de mes variables en multivarié, certaines variables non significatives en univarié le sont dans cette analyse.
Dois-je quand même les exclure ou faut-il les inclure?
Merci énormément pour votre aide!!
Mike
Je suis désolé si la réponse à ma question est évidente mais je suis débutant en statistiques.
Je cherche à réaliser dans le cadre d’une étude scientifique une régression de Cox pour trouver des variables en lien avec le pronostic d’une pathologie rare (survie).
J’ai de nombreuses variables dans ma base de données Mais un nombre de patient limité (environ 100).
On m’a conseillé de réaliser une régression univariée pour sélectionner chaque variable puis une régression multivariée sur les variables significatives en univarié. Cependant, lorsque j’inclus l’intégralité de mes variables en multivarié, certaines variables non significatives en univarié le sont dans cette analyse.
Dois-je quand même les exclure ou faut-il les inclure?
Merci énormément pour votre aide!!
Mike
mike233- Nombre de messages : 8
Date d'inscription : 04/03/2016
Re: Régressions univariées et multivariées
Bonjour,
ce n'est pas forcément étonnant.
Par exemple, sur un jeu de données tel que :
on a pas de significativité en testant une régression linéaire simple, mais la régression linéaire avec les deux variables explicatives expliquent très bien la variable Y.
Dans cet exemple, le phénomène s'explique parce que x1 et x2 sont très corrélées entre elles. Du coup la variabilité de l'une "empêche" de comprendre la variabilité de Y à cause de l'autre. Et il faut les deux variables pour pouvoir expliquer complètement Y.
Niaboc
ce n'est pas forcément étonnant.
Par exemple, sur un jeu de données tel que :
- Code:
> test
y x1 x2
1 54 2 20
2 51 10 0
3 55 15 -10
4 49 20 -25
5 52 3 18
6 48 12 -5
7 46 18 -20
8 51 23 -30
9 49 1 22
10 50 8 5
11 47 10 0
12 46 18 -20
on a pas de significativité en testant une régression linéaire simple, mais la régression linéaire avec les deux variables explicatives expliquent très bien la variable Y.
- Code:
> ggplot(test, aes(x=x1, y=y)) + geom_point() + geom_smooth(method=lm)
`geom_smooth()` using formula 'y ~ x'
> ggplot(test, aes(x=x2, y=y)) + geom_point() + geom_smooth(method=lm)
`geom_smooth()` using formula 'y ~ x'
> summary(lm(data=test, y ~ x1))
Call:
lm(formula = y ~ x1, data = test)
Residuals:
Min 1Q Median 3Q Max
-3.0435 -2.3830 -0.0423 1.4594 5.5824
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 51.2884 1.6281 31.502 2.44e-11 ***
x1 -0.1247 0.1196 -1.043 0.322
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.907 on 10 degrees of freedom
Multiple R-squared: 0.09809, Adjusted R-squared: 0.007896
F-statistic: 1.088 on 1 and 10 DF, p-value: 0.3216
> summary(lm(data=test, y ~ x2))
Call:
lm(formula = y ~ x2, data = test)
Residuals:
Min 1Q Median 3Q Max
-3.048 -2.458 0.025 1.382 5.525
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 50.04835 0.84684 59.100 4.67e-14 ***
x2 0.05734 0.04834 1.186 0.263
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.866 on 10 degrees of freedom
Multiple R-squared: 0.1233, Adjusted R-squared: 0.03568
F-statistic: 1.407 on 1 and 10 DF, p-value: 0.263
> summary(lm(data=test, y ~ x1 + x2))
Call:
lm(formula = y ~ x1 + x2, data = test)
Residuals:
Min 1Q Median 3Q Max
-2.2381 -0.9254 -0.6092 0.9969 2.6591
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -12.5502 14.8059 -0.848 0.41860
x1 6.1788 1.4605 4.231 0.00220 **
x2 2.5874 0.5988 4.321 0.00193 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.747 on 9 degrees of freedom
Multiple R-squared: 0.7067, Adjusted R-squared: 0.6415
F-statistic: 10.84 on 2 and 9 DF, p-value: 0.00401
Dans cet exemple, le phénomène s'explique parce que x1 et x2 sont très corrélées entre elles. Du coup la variabilité de l'une "empêche" de comprendre la variabilité de Y à cause de l'autre. Et il faut les deux variables pour pouvoir expliquer complètement Y.
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Régressions univariées et multivariées
Plusieurs auteurs (notamment Collett justement pour les modèles de Cox) préconisent une version itérative pour la sélection des variables explicatives significatives. On commence effectivement par ajuster le modèle à chaque variable séparément et on garde seulement celles qui sont significatives. On ajuste ensuite le modèle qu'avec ces variables et on rajoute une à une séparément celle qui n'ont pas été choisies dans la première étape. On recommence ensuite jusqu'à qu'on en ait plus aucune à rajouter. Ensuite on fait le contraire. On part du paquet de variables significatives et on les enlève une à une séparément pour éliminer celles qui n'ont pas (plus) d'effets, et on recommence avec celles qui restent. Puis on boucle cycliquement sur l'étape d'ajout puis celle de retrait. L'expérience montre qu'on arrive très rapidement à une situation stable où plus aucune variable ne doive être rajoutée et aucune ne doivent être retirée. Il est conseillé de prendre une seuil d'environ 0.1 pour décider si une variable doit rester ou non à chaque étape.
J'utilise cette méthode sur des modèles de Cox depuis des lustres, et je suis toujours arrivé à des situations stables rapidement. Je me suis écrit des procédures sous R qui font ceci automatiquement. J'ai publié cette méthode dans mes articles scientifiques à plusieurs reprises. Je peux vous fournir des références si nécessaire.
HTH, Eric.
J'utilise cette méthode sur des modèles de Cox depuis des lustres, et je suis toujours arrivé à des situations stables rapidement. Je me suis écrit des procédures sous R qui font ceci automatiquement. J'ai publié cette méthode dans mes articles scientifiques à plusieurs reprises. Je peux vous fournir des références si nécessaire.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Sujets similaires
» Analyses multivariées
» Régressions simple, multiple et test de u
» régressions
» Régressions linéaires multiples et comparaison des résultats
» mélange de lois/ mélange de régressions ???
» Régressions simple, multiple et test de u
» régressions
» Régressions linéaires multiples et comparaison des résultats
» mélange de lois/ mélange de régressions ???
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum