nombre de régresseurs maximum

par niaboc Mar 24 Sep 2013 - 15:14

Bonjour,

un modèle de régression s'ajuste mécaniquement mieux aux données avec l'augmentation du nombre de variables explicatives.

je suis dans un cas où je dois expliquer à une personne pourquoi il peut-être dangereux de rajouter trop de variables explicatives... (sans parler des méthodes de sélection de variables ac le backward, forward, etc.)

A partir de quand le modèle commence à faire "n'importe quoi" juste parce qu'on ajoute des variables et non pas parce les variables explicatives expliquent réellement la variables à expliquer?
Savez-vous jusqu'à quel point il est aberrant de rajouter des variables explicatives?
J'ai lu qu'il fallait avoir un nombre d'individus au moins 20 fois supérieur au nombre de variables, pourquoi??

Merci

par droopy Mer 25 Sep 2013 - 7:15

Bonjour,

tu évoques le problème d'over-fitting (sur ajustement). Plus tu ajoutes de variables dans un modèle plus tu vas arriver à coller aux données qui servent à son estimation. A l'extrême quand tu as autant de variables que d'individus tu prédis exactement la variable expliquée observée pour chaque individus.

Le problème survient quand tu cherches a appliquer ton modèle a des individus qui n'ont pas servis à son estimation. Dans ces cas la le modèle est tellement adapté aux données de départ qu'il devient de moins en moins bon pour d'autres individus.

Quand tu augmentes le nombre de variable, l'erreur sur les données de calibration diminue continuellement, mais l'erreur de prédiction sur des données externes au modèle elle croit. Tu as ce genre de relation théorique entre le nombre de variable explicatives et les erreurs :

En bleu l'erreur d'apprentissage et en rouge l'erreur de validation.

Avec un exemple concret avec R :

Code:: x <- rnorm(200) x2 <- rnorm(200) x3 <- rnorm(200) y <- 1.25*x-2+0.75*x2-3*x3+rnorm(100,0,4) aux <- rep(c(TRUE, FALSE), each=100) tab <- data.frame(y=y, x=x) lm1 <- lm(y~., data=tab, subset=aux) rmse <- function(model, newdata) { cal <- 1/length(model$fitted)*sqrt(sum(residuals(model)^2)) pred <- predict(model, newdata=newdata) pred <- 1/length(newdata$y)*sqrt(sum((newdata$y-pred)^2)) c(cal, pred) } res <- rmse(lm1, tab[!aux,]) for (i in 1:40){ tab[,ncol(tab)+1] <- rnorm(200) lm1 <- update(lm1) res <- rbind(res, rmse(lm1, tab[!aux,])) } legend("topleft", lty=1:2, col=1:2, legend=c("Train", "Valid"))

Cdlt

par niaboc Mer 25 Sep 2013 - 9:17

Merci pour ta réponse.

J'étais parti là-dessus mais également, mais le souci est que je n'ai pas les moyens d'avoir un échantillon de test à chaque fois... et donc je me demandais s'il existait des "règles" à respecter pour être quasiment sûr de ne pas avoir de sur-apprentissage?

par droopy Mer 25 Sep 2013 - 9:34

Les règles du 20 ou 10x supérieur sont des règles empiriques qui permettent de limiter a la louche le nombre de variables. Perso, je ne connais pas de réelles règles pour limiter le sur apprentissage. Si tu ne peux disposer d'échantillon test tu peux au moins estimer ces deux types d'erreurs avec des procédures de bootstrap ou de cross-validation.

par Contenu sponsorisé

nombre de régresseurs maximum

nombre de régresseurs maximum

Re: nombre de régresseurs maximum

Re: nombre de régresseurs maximum

Re: nombre de régresseurs maximum

Re: nombre de régresseurs maximum