Quel inconvénient à rajouter des variables dans un modèle

par zezima Mer 23 Nov 2016 - 9:34

Bonjour,

Je suis en train d'évaluer la normalité d'une variable continue sur des données historiques.

Pour ce faire, j'analyse les résidus issus d'un modèle mixte dans lequel j'essaie d'éliminer la variance (ou le bruit) dû à certaines modalités, qui pourraient expliquer que ma variable n'a pas une allure normale (visuellement).

Dans mon modèle, j'ai implémenté toutes les variables disponibles qui avaient un potentiel impact sur ma variable :
cholesterol ~ espece (fix) + souche (fix) + sexe (fix) + méthode_protocole (random)

Je me demandais si en rajoutant des variables, le modèle pouvait rencontrer un trop plein d'information qui impliquerait qu'on ait des résidus anormaux.

Ma première question est : puis-je mettre autant de variables que je veux dans le modèle ?
Ma seconde est : est-ce important de supprimer du modèle les variables qui n'ont pas un impact statistiquement significatif sur la variabilité de ma variable d'intérêt (cholesterol) ?

En vous remerciant d'avance.

par Eric Wajnberg Mer 23 Nov 2016 - 16:27

zezima a écrit:Je me demandais si en rajoutant des variables, le modèle pouvait rencontrer un trop plein d'information qui impliquerait qu'on ait des résidus anormaux.

Non, pas possible. La loi de la variable à expliquer (et des résidus, donc) est ce qu'elle est. L'ajustement d'un modèle ou d'un autre n'y changera rien.

zezima a écrit:Ma première question est : puis-je mettre autant de variables que je veux dans le modèle ?

Oui, mais il y a une limite. Et celle-ci n'est pas un problème de distribution, mais un problème de degré de liberté. Rajouter des variable explicatives enlève des degrés de liberté à la variance résiduelle, et celle-ci ne peux avoir un degré de liberté négatif! Prenons un exemple simple, d'une régression linéaire. Si je n'ai que trois points, je vais pouvoir ajuster un model linéaire et quadratique, mais pas cubique. Pas assez de donnés dans ce dernier cas pour estimer tout les paramètres.

zezima a écrit:Ma seconde est : est-ce important de supprimer du modèle les variables qui n'ont pas un impact statistiquement significatif sur la variabilité de ma variable d'intérêt (cholesterol) ?

Oui, mais ici l'enjeux est juste d'avoir le modèle le plus parcimonieux et de virer donc des paramètres qui ne servent à rien (et des interprétations sans objet).

HTH, Eric.

par Nik Jeu 24 Nov 2016 - 7:19

Bonjour,

Ma première question est : puis-je mettre autant de variables que je veux dans le modèle ?

Le nombre de variable n'a effectivment que pour seule limite (ou presque, je précise après), celle imposée par la taille de ton jeu de donnée pour faire l'estimation des paramètres. Mais la première des limites doit être tout simplement celle imposée par les hypothèses que tu veux tester au travers de la construction de ton ou tes modèles. Il faut en général éviter de tomber dans du data dredging car on peut alors vite dériver vers des choses mathématiquement robustes mais scientifiquement vides.

Je me demandais si en rajoutant des variables, le modèle pouvait rencontrer un trop plein d'information qui impliquerait qu'on ait des résidus anormaux

Anormaux, je ne sais pas mais en tout cas si tu tends vers de l'overfitting (modèle qui décrit parfaitement les données) en ajoutant trop de paramètres alors à mon avis tes résidus vont avoir une variance assez louche (je parle bien des résidus, pas des erreurs).

Ma seconde est : est-ce important de supprimer du modèle les variables qui n'ont pas un impact statistiquement significatif sur la variabilité de ma variable d'intérêt (cholesterol) ?

Comme le dis Eric, dans un cadre de parcimonie, oui, mais je reste toujours prudent sur ces avis car souvent j'ai vu des dérives qui conduisent à virer tous les paramètres dont le test dans le résumé du modèle indique que la valeur n'est pas significativement différente de 0. Ce n'est pas ça qu'il faut regarder, mais bien si l'inclusion du paramètre permet un gain qu'on estime significatif sur le pouvoir explicatif du modèle. On peut aussi garder des paramètres qui, d'après le jeu de données utilisé, n'apportent rien ou presque mais que l'on sait par ailleurs déterminant du processus à expliquer. Ces cas se présentent parfois pour des jeux de données très particuliers où finalement une seule variable données va complètement couvrir l'explication qu'aurait pu apporter d'autres variables à priori fondamentales selon les connaissances que l'on a.

Bref, le choix d'inclure ou non une variable n'est pas à laisser au seul bon vouloir de la p-value...

Nik

par zezima Jeu 24 Nov 2016 - 16:01

Merci pour vos réponses.

Eric Wajnberg a écrit:Rajouter des variable explicatives enlève des degrés de liberté à la variance résiduelle, et celle-ci ne peux avoir un degré de liberté négatif

Du coup, il ne faut pas prendre trop de paramètres en fonction du nombre d'individus (oui ça semble totalement logique) et surtout ne pas mettre de paramètre qui n'ait pas d'intérêt (théorique et non statistique) sur l'explication de la variabilité de ma variable à analyser.

Nik a écrit:Anormaux, je ne sais pas mais en tout cas si tu tends vers de l'overfitting (modèle qui décrit parfaitement les données) en ajoutant trop de paramètres alors à mon avis tes résidus vont avoir une variance assez louche (je parle bien des résidus, pas des erreurs).

Oui et cela est identifiable au niveau du graphique croisant les résidus observés et prédits ? On peut faire une analyse de l'homogénéité de la variance des groupes de résidus.

Nik a écrit:Comme le dis Eric, dans un cadre de parcimonie, oui, mais je reste toujours prudent sur ces avis car souvent j'ai vu des dérives qui conduisent à virer tous les paramètres dont le test dans le résumé du modèle indique que la valeur n'est pas significativement différente de 0. Ce n'est pas ça qu'il faut regarder, mais bien si l'inclusion du paramètre permet un gain qu'on estime significatif sur le pouvoir explicatif du modèle

Ce que tu préconise donc est d'analyser la normalité des résidus du modèle avec et sans la variable et ne la garder que si la normalité des résidus est plus flagrante avec la variable plutôt que lorsqu'elle n'est pas dans le modèle ?[/quote]

par zezima Jeu 24 Nov 2016 - 16:11

J'ai également sur le même sujet quelques questions sur les critères d'évaluation d'adéquation du modèle à une distribution (normale, logNormale, Si de Johnson...).

Tout d'abord, on a plusieurs paramètres : le -2log(vraisemblance) ainsi que l'AIC et le BIC.
L'avantage de l'AIC est qu'il prend en compte le nombre de paramètre dans le modèle (AICcorrigé pour les petits échantillons), le BIC est même plus sensible au surparamétrage.

Cependant, aujourd'hui, l'expert statistique qui est intervenu s'est intéressé directement au -2log(vraisemblance) de mes modèles, pourquoi est-ce un critère à privilégier par rapport aux autres ?

Ma deuxième question concerne les écarts entre 2 estimateurs de modèles.
Sous JMP (logiciel statistique), je compare chaque distribution de mes résidus à plusieurs distributions statistiques (normale, lognormale, SU de johnson, double ou triple normalité...).
J'ai du coup un AIC associé à chaque comparaison de distribution.
Quelle différence d'AIC peut me permettre de dire qu'une distribution n'est plus acceptable par rapport aux autres ?
EDIT: Une différence suppérieure à 2 indique une différence qui mérite des analyses plus approfondies

par Nik Ven 25 Nov 2016 - 8:34

Oui et cela est identifiable au niveau du graphique croisant les résidus observés et prédits ?

A l'extrême l'overfitting conduit à décrire parfaitement les données. Tu n'as donc plus de résidus Smile

.
Globalement, des valeurs de résidus très faibles doivent être regardé de près pour être sûr qu'on est bien uniquement dans un modèle qui ajuste correctement les données.

Ce que tu préconise donc est d'analyser la normalité des résidus du modèle

Tu te focalises beaucoup trop sur la normalité. La normalité est un des critères que tu regardes mais ce n'est certainement pas le plus structurant dans la validation d'un modèle. D'ailleurs c'est plus l'hétéroscédasticité des résidus qu'il faut regarder dans le détail pour ne pas laisser passer des choses.

EDIT: Une différence suppérieure à 2 indique une différence qui mérite des analyses plus approfondies

oui c'est ça. Par contre les, log-vraisemblance étant généralement calculée par les logiciels en enlevant la constante propre à chaque distrib, les AIC (BIC ou autre), ne sont généralement pas comparables quand tu changes le type de distribution. Il faut pouvoir calculer l'AIC à partir de la log-vraisemblance en incluant la constante.

Nik

par Contenu sponsorisé

Quel inconvénient à rajouter des variables dans un modèle

Quel inconvénient à rajouter des variables dans un modèle

Re: Quel inconvénient à rajouter des variables dans un modèle

Re: Quel inconvénient à rajouter des variables dans un modèle

Re: Quel inconvénient à rajouter des variables dans un modèle

Re: Quel inconvénient à rajouter des variables dans un modèle

Re: Quel inconvénient à rajouter des variables dans un modèle

Re: Quel inconvénient à rajouter des variables dans un modèle