nombre de régresseurs maximum

Voir le sujet précédent Voir le sujet suivant Aller en bas

nombre de régresseurs maximum

Message par niaboc le Mar 24 Sep 2013 - 15:14

Bonjour,

un modèle de régression s'ajuste mécaniquement mieux aux données avec l'augmentation du nombre de variables explicatives.

je suis dans un cas où je dois expliquer à une personne pourquoi il peut-être dangereux de rajouter trop de variables explicatives... (sans parler des méthodes de sélection de variables ac le backward, forward, etc.)

A partir de quand le modèle commence à faire "n'importe quoi" juste parce qu'on ajoute des variables et non pas parce les variables explicatives expliquent réellement la variables à expliquer?
Savez-vous jusqu'à quel point il est aberrant de rajouter des variables explicatives?
J'ai lu qu'il fallait avoir un nombre d'individus au moins 20 fois supérieur au nombre de variables, pourquoi??

Merci

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: nombre de régresseurs maximum

Message par droopy le Mer 25 Sep 2013 - 7:15

Bonjour,

tu évoques le problème d'over-fitting (sur ajustement). Plus tu ajoutes de variables dans un modèle plus tu vas arriver à coller aux données qui servent à son estimation. A l'extrême quand tu as autant de variables que d'individus tu prédis exactement la variable expliquée observée pour chaque individus.

Le problème survient quand tu cherches a appliquer ton modèle a des individus qui n'ont pas servis à son estimation. Dans ces cas la le modèle est tellement adapté aux données de départ qu'il devient de moins en moins bon pour d'autres individus.

Quand tu augmentes le nombre de variable, l'erreur sur les données de calibration diminue continuellement, mais l'erreur de prédiction sur des données externes au modèle elle croit. Tu as ce genre de relation théorique entre le nombre de variable explicatives et les erreurs :

En bleu l'erreur d'apprentissage et en rouge l'erreur de validation.

Avec un exemple concret avec R :
Code:
x <- rnorm(200)
x2 <- rnorm(200)
x3 <- rnorm(200)
 
y <- 1.25*x-2+0.75*x2-3*x3+rnorm(100,0,4)

aux <- rep(c(TRUE, FALSE), each=100)

tab <- data.frame(y=y, x=x)

lm1 <- lm(y~., data=tab, subset=aux)

rmse <- function(model, newdata) {
  cal <- 1/length(model$fitted)*sqrt(sum(residuals(model)^2))
  pred <- predict(model, newdata=newdata)
  pred <- 1/length(newdata$y)*sqrt(sum((newdata$y-pred)^2))
  c(cal, pred)
  }

res <- rmse(lm1, tab[!aux,])
 
for (i in 1:40){
  tab[,ncol(tab)+1] <- rnorm(200)
  lm1 <- update(lm1)
  res <- rbind(res, rmse(lm1, tab[!aux,]))
  }

legend("topleft", lty=1:2, col=1:2, legend=c("Train", "Valid"))
Cdlt

droopy

Nombre de messages : 985
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: nombre de régresseurs maximum

Message par niaboc le Mer 25 Sep 2013 - 9:17

Merci pour ta réponse.

J'étais parti là-dessus mais également, mais le souci est que je n'ai pas les moyens d'avoir un échantillon de test à chaque fois... et donc je me demandais s'il existait des "règles" à respecter pour être quasiment sûr de ne pas avoir de sur-apprentissage?

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: nombre de régresseurs maximum

Message par droopy le Mer 25 Sep 2013 - 9:34

Les règles du 20 ou 10x supérieur sont des règles empiriques qui permettent de limiter a la louche le nombre de variables. Perso, je ne connais pas de réelles règles pour limiter le sur apprentissage. Si tu ne peux disposer d'échantillon test tu peux au moins estimer ces deux types d'erreurs avec des procédures de bootstrap ou de cross-validation.

droopy

Nombre de messages : 985
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: nombre de régresseurs maximum

Message par Contenu sponsorisé Aujourd'hui à 18:09


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum