Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
-50%
Le deal à ne pas rater :
Friteuse sans huile – PHILIPS – Airfryer HD9200/90 Série 3000
54.99 € 109.99 €
Voir le deal

Régressions univariées et multivariées

3 participants

Aller en bas

Régressions univariées et multivariées Empty Régressions univariées et multivariées

Message par mike233 Mar 22 Juin 2021 - 15:50

Bonjour,

Je suis désolé si la réponse à ma question est évidente mais je suis débutant en statistiques.
Je cherche à réaliser dans le cadre d’une étude scientifique une régression de Cox pour trouver des variables en lien avec le pronostic d’une pathologie rare (survie).
J’ai de nombreuses variables dans ma base de données Mais un nombre de patient limité (environ 100).
On m’a conseillé de réaliser une régression univariée pour sélectionner chaque variable puis une régression multivariée sur les variables significatives en univarié. Cependant, lorsque j’inclus l’intégralité de mes variables en multivarié, certaines variables non significatives en univarié le sont dans cette analyse.
Dois-je quand même les exclure ou faut-il les inclure?

Merci énormément pour votre aide!!

Mike

mike233

Nombre de messages : 8
Date d'inscription : 04/03/2016

Revenir en haut Aller en bas

Régressions univariées et multivariées Empty Re: Régressions univariées et multivariées

Message par niaboc Mer 23 Juin 2021 - 6:36

Bonjour,

ce n'est pas forcément étonnant.

Par exemple, sur un jeu de données tel que :

Code:
> test
    y x1  x2
1  54  2  20
2  51 10  0
3  55 15 -10
4  49 20 -25
5  52  3  18
6  48 12  -5
7  46 18 -20
8  51 23 -30
9  49  1  22
10 50  8  5
11 47 10  0
12 46 18 -20

on a pas de significativité en testant une régression linéaire simple, mais la régression linéaire avec les deux variables explicatives expliquent très bien la variable Y.

Code:
> ggplot(test, aes(x=x1, y=y)) + geom_point() +  geom_smooth(method=lm)
`geom_smooth()` using formula 'y ~ x'
> ggplot(test, aes(x=x2, y=y)) + geom_point() +  geom_smooth(method=lm)
`geom_smooth()` using formula 'y ~ x'
> summary(lm(data=test, y ~ x1))

Call:
lm(formula = y ~ x1, data = test)

Residuals:
    Min      1Q  Median      3Q    Max
-3.0435 -2.3830 -0.0423  1.4594  5.5824

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept)  51.2884    1.6281  31.502 2.44e-11 ***
x1          -0.1247    0.1196  -1.043    0.322   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.907 on 10 degrees of freedom
Multiple R-squared:  0.09809,   Adjusted R-squared:  0.007896
F-statistic: 1.088 on 1 and 10 DF,  p-value: 0.3216

> summary(lm(data=test, y ~ x2))

Call:
lm(formula = y ~ x2, data = test)

Residuals:
  Min    1Q Median    3Q    Max
-3.048 -2.458  0.025  1.382  5.525

Coefficients:
            Estimate Std. Error t value Pr(>|t|)   
(Intercept) 50.04835    0.84684  59.100 4.67e-14 ***
x2          0.05734    0.04834  1.186    0.263   
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 2.866 on 10 degrees of freedom
Multiple R-squared:  0.1233,   Adjusted R-squared:  0.03568
F-statistic: 1.407 on 1 and 10 DF,  p-value: 0.263

> summary(lm(data=test, y ~ x1 + x2))

Call:
lm(formula = y ~ x1 + x2, data = test)

Residuals:
    Min      1Q  Median      3Q    Max
-2.2381 -0.9254 -0.6092  0.9969  2.6591

Coefficients:
            Estimate Std. Error t value Pr(>|t|) 
(Intercept) -12.5502    14.8059  -0.848  0.41860 
x1            6.1788    1.4605  4.231  0.00220 **
x2            2.5874    0.5988  4.321  0.00193 **
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.747 on 9 degrees of freedom
Multiple R-squared:  0.7067,   Adjusted R-squared:  0.6415
F-statistic: 10.84 on 2 and 9 DF,  p-value: 0.00401

Dans cet exemple, le phénomène s'explique parce que x1 et x2 sont très corrélées entre elles. Du coup la variabilité de l'une "empêche" de comprendre la variabilité de Y à cause de l'autre. Et il faut les deux variables pour pouvoir expliquer complètement Y.

Niaboc
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

Régressions univariées et multivariées Empty Re: Régressions univariées et multivariées

Message par Eric Wajnberg Sam 10 Juil 2021 - 6:30

Plusieurs auteurs (notamment Collett justement pour les modèles de Cox) préconisent une version itérative pour la sélection des variables explicatives significatives. On commence effectivement par ajuster le modèle à chaque variable séparément et on garde seulement celles qui sont significatives. On ajuste ensuite le modèle qu'avec ces variables et on rajoute une à une séparément celle qui n'ont pas été choisies dans la première étape. On recommence ensuite jusqu'à qu'on en ait plus aucune à rajouter. Ensuite on fait le contraire. On part du paquet de variables significatives et on les enlève une à une séparément pour éliminer celles qui n'ont pas (plus) d'effets, et on recommence avec celles qui restent. Puis on boucle cycliquement sur l'étape d'ajout puis celle de retrait. L'expérience montre qu'on arrive très rapidement à une situation stable où plus aucune variable ne doive être rajoutée et aucune ne doivent être retirée. Il est conseillé de prendre une seuil d'environ 0.1 pour décider si une variable doit rester ou non à chaque étape.

J'utilise cette méthode sur des modèles de Cox depuis des lustres, et je suis toujours arrivé à des situations stables rapidement. Je me suis écrit des procédures sous R qui font ceci automatiquement. J'ai publié cette méthode dans mes articles scientifiques à plusieurs reprises. Je peux vous fournir des références si nécessaire.

HTH, Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Régressions univariées et multivariées Empty Re: Régressions univariées et multivariées

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum