AIC vs p-value sélection de variables

par niaboc Ven 2 Juil 2021 - 16:56

Bonjour,

dans le cadre d'une sélection de variable forward par exemple, il semble qu'il y ait une parfaite équivalence entre un choix avec l'AIC ou un choix à l'aide de la p-value du test du rapport de vraisemblance. Le choix par l'AIC correspondant à une p-value fixée à 0.157.

Du coup une variable significative au seuil de 0.157 <=> baisse d'AIC.

Or on lit parfois qu'il est préférable d'utiliser l'AIC plutôt que des tests pour la sélection de variable... mais qu'est ce qui le justifie du coup?

Merci

Niaboc

par Robsojic Sam 17 Juil 2021 - 11:56

Bonjour, je suis un peu étonné de la manière dont votre question est formulée. Il y a certes un lien puisque le critère AIC est analytiquement lié à la vraisemblance. L'approche par l'AIC consiste simplement à retenir parmi plusieurs modèles celui qui possède l'AIC le plus faible. Il n'y a donc pas de niveau absolu d'AIC à viser. Comment pouvez-vous alors le relier à un niveau de p-value ? En fait, que signifie exactement pour vous "choix par AIC" et p-value de 0.157 pour le rapport de vraisemblance ? Comment exploitez-vous cela pour le choix de votre modèle ?

par niaboc Sam 17 Juil 2021 - 16:52

Nous incluons une nouvelle variable dans un modèle M0 via l'AIC si :

AIC(M1)-AIC(M0)<0

2-2*ln(L1)+2*ln(L0)<0, avec L1 et L0 les vraisemblances des 2 modèles.

2*ln(L1)-2*ln(L0)>2

On reconnaît un test du rapport de vraisemblance :
-2*ln(L0/L1) > 2
la statistique de test suit une loi du Chi2 à 1degré de liberté.

Via Excel : "=LOI.KHIDEUX(2;1)" nous renvoie 0.157
D'où l'équivalence (si le raisonnement est correct...)

par Robsojic Sam 17 Juil 2021 - 21:41

C'est très intéressant cette approche. Je vais y réfléchir un peu, mais a priori, le raisonnement me semble correct.

par AdrienC Jeu 22 Juil 2021 - 8:51

Bonjour,

En effet c'est une très bonne question. Cependant, vu que les tests seront emboités et qu'on va répéter plusieurs fois cette opération. Il faudra appliquer une correction des p-valeurs pour la multiplicité des tests (FDR, Bonferonni, Holm, benjamini-yekutieli : si vos tests sont dépendants ...). En effet, on a un risque de 1ère espèce de rejeter H0 (Modèle 0 vs Modèle 1) qui vaut alpha. On sélectionne donc le modèle M1, ensuite je continue à avancer dans l'algorithme où je teste (Modèle 1 vs Modèle 2) qui a un risque de niveau alpha. Sauf que si je regarde le risque "global" sur les deux tests que je viens de faire, l'erreur de 1ère espèce que je risque de commettre n'est plus égal à alpha mais a augmenté.

Autrement dit, si je supprime plusieurs variables (imaginons 7 variables en moins) : j'aurai fait 7 tests statistiques et je dois faire une correction des p-valeurs sur ces 7 tests car sinon j'aurai un gros risque d'avoir supprimé au moins une variable à tord....

Je pense qu'on ne peut pas le faire car on ne sait pas combien de tests on va faire à priori.

par Contenu sponsorisé

AIC vs p-value sélection de variables

AIC vs p-value sélection de variables

Re: AIC vs p-value sélection de variables

Re: AIC vs p-value sélection de variables

Re: AIC vs p-value sélection de variables

Re: AIC vs p-value sélection de variables

Re: AIC vs p-value sélection de variables