Les posteurs les plus actifs de la semaine
Eric Wajnberg
 
mvergnat
 
zezima
 
Florent Aubry
 
c@ssoulet
 
fmachou
 
adri6666
 
Nik
 
Aeelim
 
Kouakakou
 


Quel inconvénient à rajouter des variables dans un modèle

Voir le sujet précédent Voir le sujet suivant Aller en bas

Quel inconvénient à rajouter des variables dans un modèle

Message par zezima le Mer 23 Nov 2016 - 9:34

Bonjour,

Je suis en train d'évaluer la normalité d'une variable continue sur des données historiques.

Pour ce faire, j'analyse les résidus issus d'un modèle mixte dans lequel j'essaie d'éliminer la variance (ou le bruit) dû à certaines modalités, qui pourraient expliquer que ma variable n'a pas une allure normale (visuellement).

Dans mon modèle, j'ai implémenté toutes les variables disponibles qui avaient un potentiel impact sur ma variable :
cholesterol ~ espece (fix) + souche (fix) + sexe (fix) + méthode_protocole (random)

Je me demandais si en rajoutant des variables, le modèle pouvait rencontrer un trop plein d'information qui impliquerait qu'on ait des résidus anormaux.

Ma première question est : puis-je mettre autant de variables que je veux dans le modèle ?
Ma seconde est : est-ce important de supprimer du modèle les variables qui n'ont pas un impact statistiquement significatif sur la variabilité de ma variable d'intérêt (cholesterol) ?

En vous remerciant d'avance.
avatar
zezima

Nombre de messages : 734
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Quel inconvénient à rajouter des variables dans un modèle

Message par Eric Wajnberg le Mer 23 Nov 2016 - 16:27

zezima a écrit:Je me demandais si en rajoutant des variables, le modèle pouvait rencontrer un trop plein d'information qui impliquerait qu'on ait des résidus anormaux.
Non, pas possible. La loi de la variable à expliquer (et des résidus, donc) est ce qu'elle est. L'ajustement d'un modèle ou d'un autre n'y changera rien.

zezima a écrit:Ma première question est : puis-je mettre autant de variables que je veux dans le modèle ?
Oui, mais il y a une limite. Et celle-ci n'est pas un problème de distribution, mais un problème de degré de liberté. Rajouter des variable explicatives enlève des degrés de liberté à la variance résiduelle, et celle-ci ne peux avoir un degré de liberté négatif! Prenons un exemple simple, d'une régression linéaire. Si je n'ai que trois points, je vais pouvoir ajuster un model linéaire et quadratique, mais pas cubique. Pas assez de donnés dans ce dernier cas pour estimer tout les paramètres.
zezima a écrit:Ma seconde est : est-ce important de supprimer du modèle les variables qui n'ont pas un impact statistiquement significatif sur la variabilité de ma variable d'intérêt (cholesterol) ?
Oui, mais ici l'enjeux est juste d'avoir le modèle le plus parcimonieux et de virer donc des paramètres qui ne servent à rien (et des interprétations sans objet).

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 664
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Quel inconvénient à rajouter des variables dans un modèle

Message par Nik le Jeu 24 Nov 2016 - 7:19

Bonjour,

Ma première question est : puis-je mettre autant de variables que je veux dans le modèle ?
Le nombre de variable n'a effectivment que pour seule limite (ou presque, je précise après), celle imposée par la taille de ton jeu de donnée pour faire l'estimation des paramètres. Mais la première des limites doit être tout simplement celle imposée par les hypothèses que tu veux tester au travers de la construction de ton ou tes modèles. Il faut en général éviter de tomber dans du data dredging car on peut alors vite dériver vers des choses mathématiquement robustes mais scientifiquement vides.
Je me demandais si en rajoutant des variables, le modèle pouvait rencontrer un trop plein d'information qui impliquerait qu'on ait des résidus anormaux
Anormaux, je ne sais pas mais en tout cas si tu tends vers de l'overfitting (modèle qui décrit parfaitement les données) en ajoutant trop de paramètres alors à mon avis tes résidus vont avoir une variance assez louche (je parle bien des résidus, pas des erreurs).
Ma seconde est : est-ce important de supprimer du modèle les variables qui n'ont pas un impact statistiquement significatif sur la variabilité de ma variable d'intérêt (cholesterol) ?
Comme le dis Eric, dans un cadre de parcimonie, oui, mais je reste toujours prudent sur ces avis car souvent j'ai vu des dérives qui conduisent à virer tous les paramètres dont le test dans le résumé du modèle indique que la valeur n'est pas significativement différente de 0. Ce n'est pas ça qu'il faut regarder, mais bien si l'inclusion du paramètre permet un gain qu'on estime significatif sur le pouvoir explicatif du modèle. On peut aussi garder des paramètres qui, d'après le jeu de données utilisé, n'apportent rien ou presque mais que l'on sait par ailleurs déterminant du processus à expliquer. Ces cas se présentent parfois pour des jeux de données très particuliers où finalement une seule variable données va complètement couvrir l'explication qu'aurait pu apporter d'autres variables à priori fondamentales selon les connaissances que l'on a.

Bref, le choix d'inclure ou non une variable n'est pas à laisser au seul bon vouloir de la p-value...

Nik

Nik

Nombre de messages : 1549
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Quel inconvénient à rajouter des variables dans un modèle

Message par zezima le Jeu 24 Nov 2016 - 16:01

Merci pour vos réponses.

Eric Wajnberg a écrit:Rajouter des variable explicatives enlève des degrés de liberté à la variance résiduelle, et celle-ci ne peux avoir un degré de liberté négatif

Du coup, il ne faut pas prendre trop de paramètres en fonction du nombre d'individus (oui ça semble totalement logique) et surtout ne pas mettre de paramètre qui n'ait pas d'intérêt (théorique et non statistique) sur l'explication de la variabilité de ma variable à analyser.

Nik a écrit:Anormaux, je ne sais pas mais en tout cas si tu tends vers de l'overfitting (modèle qui décrit parfaitement les données) en ajoutant trop de paramètres alors à mon avis tes résidus vont avoir une variance assez louche (je parle bien des résidus, pas des erreurs).

Oui et cela est identifiable au niveau du graphique croisant les résidus observés et prédits ? On peut faire une analyse de l'homogénéité de la variance des groupes de résidus.

Nik a écrit:Comme le dis Eric, dans un cadre de parcimonie, oui, mais je reste toujours prudent sur ces avis car souvent j'ai vu des dérives qui conduisent à virer tous les paramètres dont le test dans le résumé du modèle indique que la valeur n'est pas significativement différente de 0. Ce n'est pas ça qu'il faut regarder, mais bien si l'inclusion du paramètre permet un gain qu'on estime significatif sur le pouvoir explicatif du modèle

Ce que tu préconise donc est d'analyser la normalité des résidus du modèle avec et sans la variable et ne la garder que si la normalité des résidus est plus flagrante avec la variable plutôt que lorsqu'elle n'est pas dans le modèle ?[/quote]
avatar
zezima

Nombre de messages : 734
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Quel inconvénient à rajouter des variables dans un modèle

Message par zezima le Jeu 24 Nov 2016 - 16:11

J'ai également sur le même sujet quelques questions sur les critères d'évaluation d'adéquation du modèle à une distribution (normale, logNormale, Si de Johnson...).

Tout d'abord, on a plusieurs paramètres : le -2log(vraisemblance) ainsi que l'AIC et le BIC.
L'avantage de l'AIC est qu'il prend en compte le nombre de paramètre dans le modèle (AICcorrigé pour les petits échantillons), le BIC est même plus sensible au surparamétrage.

Cependant, aujourd'hui, l'expert statistique qui est intervenu s'est intéressé directement au -2log(vraisemblance) de mes modèles, pourquoi est-ce un critère à privilégier par rapport aux autres ?

Ma deuxième question concerne les écarts entre 2 estimateurs de modèles.
Sous JMP (logiciel statistique), je compare chaque distribution de mes résidus à plusieurs distributions statistiques (normale, lognormale, SU de johnson, double ou triple normalité...).
J'ai du coup un AIC associé à chaque comparaison de distribution.
Quelle différence d'AIC peut me permettre de dire qu'une distribution n'est plus acceptable par rapport aux autres ?
EDIT: Une différence suppérieure à 2 indique une différence qui mérite des analyses plus approfondies
avatar
zezima

Nombre de messages : 734
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Quel inconvénient à rajouter des variables dans un modèle

Message par Nik le Ven 25 Nov 2016 - 8:34

Oui et cela est identifiable au niveau du graphique croisant les résidus observés et prédits ?
A l'extrême l'overfitting conduit à décrire parfaitement les données. Tu n'as donc plus de résidus Smile.
Globalement, des valeurs de résidus très faibles doivent être regardé de près pour être sûr qu'on est bien uniquement dans un modèle qui ajuste correctement les données.

Ce que tu préconise donc est d'analyser la normalité des résidus du modèle
Tu te focalises beaucoup trop sur la normalité. La normalité est un des critères que tu regardes mais ce n'est certainement pas le plus structurant dans la validation d'un modèle. D'ailleurs c'est plus l'hétéroscédasticité des résidus qu'il faut regarder dans le détail pour ne pas laisser passer des choses.

EDIT: Une différence suppérieure à 2 indique une différence qui mérite des analyses plus approfondies
oui c'est ça. Par contre les, log-vraisemblance étant généralement calculée par les logiciels en enlevant la constante propre à chaque distrib, les AIC (BIC ou autre), ne sont généralement pas comparables quand tu changes le type de distribution. Il faut pouvoir calculer l'AIC à partir de la log-vraisemblance en incluant la constante.

Nik

Nik

Nombre de messages : 1549
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Quel inconvénient à rajouter des variables dans un modèle

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum