Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Quel inconvénient à rajouter des variables dans un modèle
3 participants
Page 1 sur 1
Quel inconvénient à rajouter des variables dans un modèle
Bonjour,
Je suis en train d'évaluer la normalité d'une variable continue sur des données historiques.
Pour ce faire, j'analyse les résidus issus d'un modèle mixte dans lequel j'essaie d'éliminer la variance (ou le bruit) dû à certaines modalités, qui pourraient expliquer que ma variable n'a pas une allure normale (visuellement).
Dans mon modèle, j'ai implémenté toutes les variables disponibles qui avaient un potentiel impact sur ma variable :
cholesterol ~ espece (fix) + souche (fix) + sexe (fix) + méthode_protocole (random)
Je me demandais si en rajoutant des variables, le modèle pouvait rencontrer un trop plein d'information qui impliquerait qu'on ait des résidus anormaux.
Ma première question est : puis-je mettre autant de variables que je veux dans le modèle ?
Ma seconde est : est-ce important de supprimer du modèle les variables qui n'ont pas un impact statistiquement significatif sur la variabilité de ma variable d'intérêt (cholesterol) ?
En vous remerciant d'avance.
Je suis en train d'évaluer la normalité d'une variable continue sur des données historiques.
Pour ce faire, j'analyse les résidus issus d'un modèle mixte dans lequel j'essaie d'éliminer la variance (ou le bruit) dû à certaines modalités, qui pourraient expliquer que ma variable n'a pas une allure normale (visuellement).
Dans mon modèle, j'ai implémenté toutes les variables disponibles qui avaient un potentiel impact sur ma variable :
cholesterol ~ espece (fix) + souche (fix) + sexe (fix) + méthode_protocole (random)
Je me demandais si en rajoutant des variables, le modèle pouvait rencontrer un trop plein d'information qui impliquerait qu'on ait des résidus anormaux.
Ma première question est : puis-je mettre autant de variables que je veux dans le modèle ?
Ma seconde est : est-ce important de supprimer du modèle les variables qui n'ont pas un impact statistiquement significatif sur la variabilité de ma variable d'intérêt (cholesterol) ?
En vous remerciant d'avance.
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Quel inconvénient à rajouter des variables dans un modèle
Non, pas possible. La loi de la variable à expliquer (et des résidus, donc) est ce qu'elle est. L'ajustement d'un modèle ou d'un autre n'y changera rien.zezima a écrit:Je me demandais si en rajoutant des variables, le modèle pouvait rencontrer un trop plein d'information qui impliquerait qu'on ait des résidus anormaux.
Oui, mais il y a une limite. Et celle-ci n'est pas un problème de distribution, mais un problème de degré de liberté. Rajouter des variable explicatives enlève des degrés de liberté à la variance résiduelle, et celle-ci ne peux avoir un degré de liberté négatif! Prenons un exemple simple, d'une régression linéaire. Si je n'ai que trois points, je vais pouvoir ajuster un model linéaire et quadratique, mais pas cubique. Pas assez de donnés dans ce dernier cas pour estimer tout les paramètres.zezima a écrit:Ma première question est : puis-je mettre autant de variables que je veux dans le modèle ?
Oui, mais ici l'enjeux est juste d'avoir le modèle le plus parcimonieux et de virer donc des paramètres qui ne servent à rien (et des interprétations sans objet).zezima a écrit:Ma seconde est : est-ce important de supprimer du modèle les variables qui n'ont pas un impact statistiquement significatif sur la variabilité de ma variable d'intérêt (cholesterol) ?
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Quel inconvénient à rajouter des variables dans un modèle
Bonjour,
Bref, le choix d'inclure ou non une variable n'est pas à laisser au seul bon vouloir de la p-value...
Nik
Le nombre de variable n'a effectivment que pour seule limite (ou presque, je précise après), celle imposée par la taille de ton jeu de donnée pour faire l'estimation des paramètres. Mais la première des limites doit être tout simplement celle imposée par les hypothèses que tu veux tester au travers de la construction de ton ou tes modèles. Il faut en général éviter de tomber dans du data dredging car on peut alors vite dériver vers des choses mathématiquement robustes mais scientifiquement vides.Ma première question est : puis-je mettre autant de variables que je veux dans le modèle ?
Anormaux, je ne sais pas mais en tout cas si tu tends vers de l'overfitting (modèle qui décrit parfaitement les données) en ajoutant trop de paramètres alors à mon avis tes résidus vont avoir une variance assez louche (je parle bien des résidus, pas des erreurs).Je me demandais si en rajoutant des variables, le modèle pouvait rencontrer un trop plein d'information qui impliquerait qu'on ait des résidus anormaux
Comme le dis Eric, dans un cadre de parcimonie, oui, mais je reste toujours prudent sur ces avis car souvent j'ai vu des dérives qui conduisent à virer tous les paramètres dont le test dans le résumé du modèle indique que la valeur n'est pas significativement différente de 0. Ce n'est pas ça qu'il faut regarder, mais bien si l'inclusion du paramètre permet un gain qu'on estime significatif sur le pouvoir explicatif du modèle. On peut aussi garder des paramètres qui, d'après le jeu de données utilisé, n'apportent rien ou presque mais que l'on sait par ailleurs déterminant du processus à expliquer. Ces cas se présentent parfois pour des jeux de données très particuliers où finalement une seule variable données va complètement couvrir l'explication qu'aurait pu apporter d'autres variables à priori fondamentales selon les connaissances que l'on a.Ma seconde est : est-ce important de supprimer du modèle les variables qui n'ont pas un impact statistiquement significatif sur la variabilité de ma variable d'intérêt (cholesterol) ?
Bref, le choix d'inclure ou non une variable n'est pas à laisser au seul bon vouloir de la p-value...
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Quel inconvénient à rajouter des variables dans un modèle
Merci pour vos réponses.
Du coup, il ne faut pas prendre trop de paramètres en fonction du nombre d'individus (oui ça semble totalement logique) et surtout ne pas mettre de paramètre qui n'ait pas d'intérêt (théorique et non statistique) sur l'explication de la variabilité de ma variable à analyser.
Oui et cela est identifiable au niveau du graphique croisant les résidus observés et prédits ? On peut faire une analyse de l'homogénéité de la variance des groupes de résidus.
Ce que tu préconise donc est d'analyser la normalité des résidus du modèle avec et sans la variable et ne la garder que si la normalité des résidus est plus flagrante avec la variable plutôt que lorsqu'elle n'est pas dans le modèle ?[/quote]
Eric Wajnberg a écrit:Rajouter des variable explicatives enlève des degrés de liberté à la variance résiduelle, et celle-ci ne peux avoir un degré de liberté négatif
Du coup, il ne faut pas prendre trop de paramètres en fonction du nombre d'individus (oui ça semble totalement logique) et surtout ne pas mettre de paramètre qui n'ait pas d'intérêt (théorique et non statistique) sur l'explication de la variabilité de ma variable à analyser.
Nik a écrit:Anormaux, je ne sais pas mais en tout cas si tu tends vers de l'overfitting (modèle qui décrit parfaitement les données) en ajoutant trop de paramètres alors à mon avis tes résidus vont avoir une variance assez louche (je parle bien des résidus, pas des erreurs).
Oui et cela est identifiable au niveau du graphique croisant les résidus observés et prédits ? On peut faire une analyse de l'homogénéité de la variance des groupes de résidus.
Nik a écrit:Comme le dis Eric, dans un cadre de parcimonie, oui, mais je reste toujours prudent sur ces avis car souvent j'ai vu des dérives qui conduisent à virer tous les paramètres dont le test dans le résumé du modèle indique que la valeur n'est pas significativement différente de 0. Ce n'est pas ça qu'il faut regarder, mais bien si l'inclusion du paramètre permet un gain qu'on estime significatif sur le pouvoir explicatif du modèle
Ce que tu préconise donc est d'analyser la normalité des résidus du modèle avec et sans la variable et ne la garder que si la normalité des résidus est plus flagrante avec la variable plutôt que lorsqu'elle n'est pas dans le modèle ?[/quote]
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Quel inconvénient à rajouter des variables dans un modèle
J'ai également sur le même sujet quelques questions sur les critères d'évaluation d'adéquation du modèle à une distribution (normale, logNormale, Si de Johnson...).
Tout d'abord, on a plusieurs paramètres : le -2log(vraisemblance) ainsi que l'AIC et le BIC.
L'avantage de l'AIC est qu'il prend en compte le nombre de paramètre dans le modèle (AICcorrigé pour les petits échantillons), le BIC est même plus sensible au surparamétrage.
Cependant, aujourd'hui, l'expert statistique qui est intervenu s'est intéressé directement au -2log(vraisemblance) de mes modèles, pourquoi est-ce un critère à privilégier par rapport aux autres ?
Ma deuxième question concerne les écarts entre 2 estimateurs de modèles.
Sous JMP (logiciel statistique), je compare chaque distribution de mes résidus à plusieurs distributions statistiques (normale, lognormale, SU de johnson, double ou triple normalité...).
J'ai du coup un AIC associé à chaque comparaison de distribution.
Quelle différence d'AIC peut me permettre de dire qu'une distribution n'est plus acceptable par rapport aux autres ?
EDIT: Une différence suppérieure à 2 indique une différence qui mérite des analyses plus approfondies
Tout d'abord, on a plusieurs paramètres : le -2log(vraisemblance) ainsi que l'AIC et le BIC.
L'avantage de l'AIC est qu'il prend en compte le nombre de paramètre dans le modèle (AICcorrigé pour les petits échantillons), le BIC est même plus sensible au surparamétrage.
Cependant, aujourd'hui, l'expert statistique qui est intervenu s'est intéressé directement au -2log(vraisemblance) de mes modèles, pourquoi est-ce un critère à privilégier par rapport aux autres ?
Ma deuxième question concerne les écarts entre 2 estimateurs de modèles.
Sous JMP (logiciel statistique), je compare chaque distribution de mes résidus à plusieurs distributions statistiques (normale, lognormale, SU de johnson, double ou triple normalité...).
J'ai du coup un AIC associé à chaque comparaison de distribution.
Quelle différence d'AIC peut me permettre de dire qu'une distribution n'est plus acceptable par rapport aux autres ?
EDIT: Une différence suppérieure à 2 indique une différence qui mérite des analyses plus approfondies
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Quel inconvénient à rajouter des variables dans un modèle
A l'extrême l'overfitting conduit à décrire parfaitement les données. Tu n'as donc plus de résidus .Oui et cela est identifiable au niveau du graphique croisant les résidus observés et prédits ?
Globalement, des valeurs de résidus très faibles doivent être regardé de près pour être sûr qu'on est bien uniquement dans un modèle qui ajuste correctement les données.
Tu te focalises beaucoup trop sur la normalité. La normalité est un des critères que tu regardes mais ce n'est certainement pas le plus structurant dans la validation d'un modèle. D'ailleurs c'est plus l'hétéroscédasticité des résidus qu'il faut regarder dans le détail pour ne pas laisser passer des choses.Ce que tu préconise donc est d'analyser la normalité des résidus du modèle
oui c'est ça. Par contre les, log-vraisemblance étant généralement calculée par les logiciels en enlevant la constante propre à chaque distrib, les AIC (BIC ou autre), ne sont généralement pas comparables quand tu changes le type de distribution. Il faut pouvoir calculer l'AIC à partir de la log-vraisemblance en incluant la constante.EDIT: Une différence suppérieure à 2 indique une différence qui mérite des analyses plus approfondies
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Sujets similaires
» Quel modèle choisir?
» modèle de Cox à variables dépendantes du temps
» "bonnes variables" d'un modèle : AIC ou pvalues?
» modèle log-lineaire après une classification de variables
» La constante n'est significative dans mon modèle log log !
» modèle de Cox à variables dépendantes du temps
» "bonnes variables" d'un modèle : AIC ou pvalues?
» modèle log-lineaire après une classification de variables
» La constante n'est significative dans mon modèle log log !
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum