Régressions univariées et multivariées

par mike233 Mar 22 Juin 2021 - 15:50

Bonjour,

Je suis désolé si la réponse à ma question est évidente mais je suis débutant en statistiques.
Je cherche à réaliser dans le cadre d’une étude scientifique une régression de Cox pour trouver des variables en lien avec le pronostic d’une pathologie rare (survie).
J’ai de nombreuses variables dans ma base de données Mais un nombre de patient limité (environ 100).
On m’a conseillé de réaliser une régression univariée pour sélectionner chaque variable puis une régression multivariée sur les variables significatives en univarié. Cependant, lorsque j’inclus l’intégralité de mes variables en multivarié, certaines variables non significatives en univarié le sont dans cette analyse.
Dois-je quand même les exclure ou faut-il les inclure?

Merci énormément pour votre aide!!

Mike

par niaboc Mer 23 Juin 2021 - 6:36

Bonjour,

ce n'est pas forcément étonnant.

Par exemple, sur un jeu de données tel que :

Code:: > test y x1 x2 1 54 2 20 2 51 10 0 3 55 15 -10 4 49 20 -25 5 52 3 18 6 48 12 -5 7 46 18 -20 8 51 23 -30 9 49 1 22 10 50 8 5 11 47 10 0 12 46 18 -20

on a pas de significativité en testant une régression linéaire simple, mais la régression linéaire avec les deux variables explicatives expliquent très bien la variable Y.

Code:: > ggplot(test, aes(x=x1, y=y)) + geom_point() + geom_smooth(method=lm) `geom_smooth()` using formula 'y ~ x' > ggplot(test, aes(x=x2, y=y)) + geom_point() + geom_smooth(method=lm) `geom_smooth()` using formula 'y ~ x' > summary(lm(data=test, y ~ x1)) Call: lm(formula = y ~ x1, data = test) Residuals: Min 1Q Median 3Q Max -3.0435 -2.3830 -0.0423 1.4594 5.5824 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 51.2884 1.6281 31.502 2.44e-11 *** x1 -0.1247 0.1196 -1.043 0.322 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.907 on 10 degrees of freedom Multiple R-squared: 0.09809, Adjusted R-squared: 0.007896 F-statistic: 1.088 on 1 and 10 DF, p-value: 0.3216 > summary(lm(data=test, y ~ x2)) Call: lm(formula = y ~ x2, data = test) Residuals: Min 1Q Median 3Q Max -3.048 -2.458 0.025 1.382 5.525 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 50.04835 0.84684 59.100 4.67e-14 *** x2 0.05734 0.04834 1.186 0.263 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 2.866 on 10 degrees of freedom Multiple R-squared: 0.1233, Adjusted R-squared: 0.03568 F-statistic: 1.407 on 1 and 10 DF, p-value: 0.263 > summary(lm(data=test, y ~ x1 + x2)) Call: lm(formula = y ~ x1 + x2, data = test) Residuals: Min 1Q Median 3Q Max -2.2381 -0.9254 -0.6092 0.9969 2.6591 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -12.5502 14.8059 -0.848 0.41860 x1 6.1788 1.4605 4.231 0.00220 ** x2 2.5874 0.5988 4.321 0.00193 ** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.747 on 9 degrees of freedom Multiple R-squared: 0.7067, Adjusted R-squared: 0.6415 F-statistic: 10.84 on 2 and 9 DF, p-value: 0.00401

Dans cet exemple, le phénomène s'explique parce que x1 et x2 sont très corrélées entre elles. Du coup la variabilité de l'une "empêche" de comprendre la variabilité de Y à cause de l'autre. Et il faut les deux variables pour pouvoir expliquer complètement Y.

Niaboc

par Eric Wajnberg Sam 10 Juil 2021 - 6:30

Plusieurs auteurs (notamment Collett justement pour les modèles de Cox) préconisent une version itérative pour la sélection des variables explicatives significatives. On commence effectivement par ajuster le modèle à chaque variable séparément et on garde seulement celles qui sont significatives. On ajuste ensuite le modèle qu'avec ces variables et on rajoute une à une séparément celle qui n'ont pas été choisies dans la première étape. On recommence ensuite jusqu'à qu'on en ait plus aucune à rajouter. Ensuite on fait le contraire. On part du paquet de variables significatives et on les enlève une à une séparément pour éliminer celles qui n'ont pas (plus) d'effets, et on recommence avec celles qui restent. Puis on boucle cycliquement sur l'étape d'ajout puis celle de retrait. L'expérience montre qu'on arrive très rapidement à une situation stable où plus aucune variable ne doive être rajoutée et aucune ne doivent être retirée. Il est conseillé de prendre une seuil d'environ 0.1 pour décider si une variable doit rester ou non à chaque étape.

J'utilise cette méthode sur des modèles de Cox depuis des lustres, et je suis toujours arrivé à des situations stables rapidement. Je me suis écrit des procédures sous R qui font ceci automatiquement. J'ai publié cette méthode dans mes articles scientifiques à plusieurs reprises. Je peux vous fournir des références si nécessaire.

HTH, Eric.

par Contenu sponsorisé

Régressions univariées et multivariées

Régressions univariées et multivariées

Re: Régressions univariées et multivariées

Re: Régressions univariées et multivariées

Re: Régressions univariées et multivariées