Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
AIC vs p-value sélection de variables
3 participants
Page 1 sur 1
AIC vs p-value sélection de variables
Bonjour,
dans le cadre d'une sélection de variable forward par exemple, il semble qu'il y ait une parfaite équivalence entre un choix avec l'AIC ou un choix à l'aide de la p-value du test du rapport de vraisemblance. Le choix par l'AIC correspondant à une p-value fixée à 0.157.
Du coup une variable significative au seuil de 0.157 <=> baisse d'AIC.
Or on lit parfois qu'il est préférable d'utiliser l'AIC plutôt que des tests pour la sélection de variable... mais qu'est ce qui le justifie du coup?
Merci
Niaboc
dans le cadre d'une sélection de variable forward par exemple, il semble qu'il y ait une parfaite équivalence entre un choix avec l'AIC ou un choix à l'aide de la p-value du test du rapport de vraisemblance. Le choix par l'AIC correspondant à une p-value fixée à 0.157.
Du coup une variable significative au seuil de 0.157 <=> baisse d'AIC.
Or on lit parfois qu'il est préférable d'utiliser l'AIC plutôt que des tests pour la sélection de variable... mais qu'est ce qui le justifie du coup?
Merci
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: AIC vs p-value sélection de variables
Bonjour, je suis un peu étonné de la manière dont votre question est formulée. Il y a certes un lien puisque le critère AIC est analytiquement lié à la vraisemblance. L'approche par l'AIC consiste simplement à retenir parmi plusieurs modèles celui qui possède l'AIC le plus faible. Il n'y a donc pas de niveau absolu d'AIC à viser. Comment pouvez-vous alors le relier à un niveau de p-value ? En fait, que signifie exactement pour vous "choix par AIC" et p-value de 0.157 pour le rapport de vraisemblance ? Comment exploitez-vous cela pour le choix de votre modèle ?
Robsojic- Nombre de messages : 4
Date d'inscription : 03/09/2012
Re: AIC vs p-value sélection de variables
Nous incluons une nouvelle variable dans un modèle M0 via l'AIC si :
AIC(M1)-AIC(M0)<0
2-2*ln(L1)+2*ln(L0)<0, avec L1 et L0 les vraisemblances des 2 modèles.
2*ln(L1)-2*ln(L0)>2
On reconnaît un test du rapport de vraisemblance :
-2*ln(L0/L1) > 2
la statistique de test suit une loi du Chi2 à 1degré de liberté.
Via Excel : "=LOI.KHIDEUX(2;1)" nous renvoie 0.157
D'où l'équivalence (si le raisonnement est correct...)
AIC(M1)-AIC(M0)<0
2-2*ln(L1)+2*ln(L0)<0, avec L1 et L0 les vraisemblances des 2 modèles.
2*ln(L1)-2*ln(L0)>2
On reconnaît un test du rapport de vraisemblance :
-2*ln(L0/L1) > 2
la statistique de test suit une loi du Chi2 à 1degré de liberté.
Via Excel : "=LOI.KHIDEUX(2;1)" nous renvoie 0.157
D'où l'équivalence (si le raisonnement est correct...)
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: AIC vs p-value sélection de variables
C'est très intéressant cette approche. Je vais y réfléchir un peu, mais a priori, le raisonnement me semble correct.
Robsojic- Nombre de messages : 4
Date d'inscription : 03/09/2012
Re: AIC vs p-value sélection de variables
Bonjour,
En effet c'est une très bonne question. Cependant, vu que les tests seront emboités et qu'on va répéter plusieurs fois cette opération. Il faudra appliquer une correction des p-valeurs pour la multiplicité des tests (FDR, Bonferonni, Holm, benjamini-yekutieli : si vos tests sont dépendants ...). En effet, on a un risque de 1ère espèce de rejeter H0 (Modèle 0 vs Modèle 1) qui vaut alpha. On sélectionne donc le modèle M1, ensuite je continue à avancer dans l'algorithme où je teste (Modèle 1 vs Modèle 2) qui a un risque de niveau alpha. Sauf que si je regarde le risque "global" sur les deux tests que je viens de faire, l'erreur de 1ère espèce que je risque de commettre n'est plus égal à alpha mais a augmenté.
Autrement dit, si je supprime plusieurs variables (imaginons 7 variables en moins) : j'aurai fait 7 tests statistiques et je dois faire une correction des p-valeurs sur ces 7 tests car sinon j'aurai un gros risque d'avoir supprimé au moins une variable à tord....
Je pense qu'on ne peut pas le faire car on ne sait pas combien de tests on va faire à priori.
En effet c'est une très bonne question. Cependant, vu que les tests seront emboités et qu'on va répéter plusieurs fois cette opération. Il faudra appliquer une correction des p-valeurs pour la multiplicité des tests (FDR, Bonferonni, Holm, benjamini-yekutieli : si vos tests sont dépendants ...). En effet, on a un risque de 1ère espèce de rejeter H0 (Modèle 0 vs Modèle 1) qui vaut alpha. On sélectionne donc le modèle M1, ensuite je continue à avancer dans l'algorithme où je teste (Modèle 1 vs Modèle 2) qui a un risque de niveau alpha. Sauf que si je regarde le risque "global" sur les deux tests que je viens de faire, l'erreur de 1ère espèce que je risque de commettre n'est plus égal à alpha mais a augmenté.
Autrement dit, si je supprime plusieurs variables (imaginons 7 variables en moins) : j'aurai fait 7 tests statistiques et je dois faire une correction des p-valeurs sur ces 7 tests car sinon j'aurai un gros risque d'avoir supprimé au moins une variable à tord....
Je pense qu'on ne peut pas le faire car on ne sait pas combien de tests on va faire à priori.
AdrienC- Nombre de messages : 93
Date d'inscription : 15/03/2018
Sujets similaires
» sélection de variables
» Urgent svp : sélection du modèle rég log
» stepAIC - Sélection de modèles
» selection de données
» Régression de Cox : sélection de modèle
» Urgent svp : sélection du modèle rég log
» stepAIC - Sélection de modèles
» selection de données
» Régression de Cox : sélection de modèle
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
|
|