Concept d'ajustement de la p-valeur sur plein de tests

par zezima Ven 3 Juil 2015 - 9:20

Bonjour,

Je réalise une analyse sur 450 variables que j'ai croisé grâce à des tests statistiques. Au final j'ai élaboré plus de 90000 tests statistiques donc j'ai dû appliquer un ajustement de la p-valeur pour ne pas augmenter le risque alpha (si j'ai bien compris?).

Ma vision des choses est la suivante : Lorsqu'on croise deux variables entre elles, le risque alpha est toujours basé à 5% mais apparament lorsqu'on fait une boucle sur un logiciel, ce n'est pas le cas (c'est ce qu'on m'a reproché lors de ma soutenance hier).

En faite, je ne comprends pas pourquoi il faut ajuster la p-valeur lorsque l'on croise beaucoup de variables entre elle.

Quelqu'un saurait-il m'expliquer pourquoi on rejette plus facilement H0 ?

J'ai bien sur appliqué un ajustement avec la méthode de monte-carlo pour les tests du Chi2 mais je voudrais savoir si vous saviez comment faire pour ajuster la pvaleur pour des tests de corrélation entre 2 variables numériques (notamment sur R) ?

Je vous remercie d'avance

par c@ssoulet Ven 3 Juil 2015 - 10:28

Explication: dire qu'un risque alpha fixé 0.05 signifie que l’on prend moins de 5% de risque de conclusion erronée n'est vrai que si l'on fait 1 seul test. Si, sur un même échantillon, on fait 2 tests, le risque qu'au moins l'une des 2 conclusions soit erronée (soit l’une, soit l’autre, soit les deux) est supérieur à 5%. On devine intuitivement que plus on fait de comparaisons plus on augmente le risque qu'au moins l'une des conclusions soit erronée. Cette effet pervers (bien que le risque alpha de chaque test soit fixé à 5 %, le risque de conclusion erronée sur l'ensemble des comparaisons peut être considérablement supérieur à 5%) est parfois appelé risque global.

Reformulé en Français: dès que l'on fait plusieurs tests sur un même échantillon, on prend le risque d'observer par hasard une différence significative. Ce risque augmente avec le nombre de comparaisons effectuées.

On peut se faire une idée de l'importance du risque global avec l'exemple suivant: il est admis que, si l'on dispose d'un fichier comprenant une grande quantité de variables mesurées sur 2 groupes issus d'une même population (= 2 groupes identiques) et que l'on effectue au hasard des comparaisons statistiques, on a en moyenne une chance de trouver une différence significative tous les 20 tests.

D'ou le malaise face à la programmation d'une boucle de 90 000 tests. Celle là, je pense qu'ils sont pas prêts de l'oublier lol!

par zezima Ven 3 Juil 2015 - 10:46

Très intéressant merci cassoulet !

Ah oui en effet donc s'il n'y a pas d'ajustement des 90 000 pvaleurs, on a donc 5% de nos interprétations qui sont erronées (en moyenne) (ou tout est supposé faux ?). Le risque alpha est donc globalisé et du coup additionné pour tous les tests.

Ce risque devient donc : Probabilité d'avoir au moins un test erroné sur la série des 90 000... ah oui donc bon...

Pour ceux qui ont le même problème, on peut appliquer un ajustement avec une correction de Bonferoni apparemment, en indiquant le nombre de tests réalisés.

Pour prendre un exemple (car c'est pas très simple à visualiser pour moi).

Si je fais 4 tests, chaque tests aura 5% de risque de mauvaise interprétation (en imaginant que leur pvalue est de 5% pour chacun) et on aura 20% de risque de se tromper en disant que les 4 tests sont significatifs ?

par c@ssoulet Ven 3 Juil 2015 - 11:42

Il y a une alternative plus méthodologique: l'explication ci dessus n'est vraie que si les comparaisons sont effectuées au hasard. C'est à dire selon le principe de "la pêche au p significatif": je fais plein de tests au pif, et parmi tout ca je choisis ce qui m'arrange (ce qui "sort") et j'en déduis une conclusion à posteriori. là, dès que l'on fait plus d'une poignée de tests, ca dérive très vite vers le n'importe quoi.

Par contre, si l'on construit le raisonnement à priori, c'est à dire que AVANT de tester tous azimuts on formule d'abord quelques hypothèses ARGUMENTEES (biblio, revue de l'existant, cohérence avec les connaissances antérieures... etc...), puis on vérifie que l'on peut la tester (biais ... etc) et puis qu'on teste, le calcul basique ne s'applique plus. Il y a une petite hausse (je ne sais pas si il existe des outils pour la calculer), mais limitée par rapport à la tactique de la pêche au filet dérivant.

Dans ton cas, pour en arriver à 90 000 tests, tu as croisé toutes les variables sans chercher à comprendre. C'est ca qui t'es probablement reproché. Tu dois d'abord classer tes variables en fonction du problème que tu étudies (variables d'interet majeur, secondaires, variables d'ajustement... etc...), puis élaborer des hypothèses argumentées (pas trop, dès que ca dépasse ton nombre de doigts, freine. Et si tu peux te limiter à une main, c'est mieux), puis les tester, éventuellement en appliquant une correction.

Une fois que ton raisonnement est construit et que tu as testé les hypothèses majeures (si tu peux définir une seule hypothèse principale et quelques secondaires c'est encore mieux) tu peux faire un peu d'exploration. Mais là, le jeu devient justement purement exploratoire: tu présentes tes données, peut etre quelques trucs un peu étonnants qui mériteraient d'etre approfondis, mais vraiment en descriptif, sans forcément faire de tests. Basiquement et sans faire de maths, c'est facile de comprendre qu'on ne peut pas explorer et prouver en même temps. Quand on explore on dégage des pistes, c'est tout.

par niaboc Ven 3 Juil 2015 - 13:12

c@ssoulet a écrit:Il y a une alternative plus méthodologique: l'explication ci dessus n'est vraie que si les comparaisons sont effectuées au hasard. C'est à dire selon le principe de "la pêche au p significatif": je fais plein de tests au pif, et parmi tout ca je choisis ce qui m'arrange (ce qui "sort") et j'en déduis une conclusion à posteriori. là, dès que l'on fait plus d'une poignée de tests, ca dérive très vite vers le n'importe quoi.

En effet. Ce qui peut amener à des conclusions un peu "dingue". Voici quelques (beaucoup) d'exemples que l'on peut trouver sur ce site :

http://www.tylervigen.com/spurious-correlations

Niaboc

par joyeux_lapin13 Lun 6 Juil 2015 - 5:47

Bonjour Zezima,

Un topic avait été ouvert sur ce forum à ce sujet mais je n'arrive plus à mettre la main dessus. Néanmoins tu pourras rapidement justifier l'utilisation des tests multiples en utilisant la formule de Poincaré qui, de mémoire, montre que si on test 5 croisements de variables avec un seuil de 5% on a déjà entre 10 et 20% de chance de tirer une conclusion fausse.

Dés que je retrouve le topic j'edit ma réponse.

EDIT: https://statistiques.forumpro.fr/t29-multiplicite-des-tests le topic en question avec le graphe.

par zezima Lun 6 Juil 2015 - 9:13

Génial ! Ah oui c'est très puissant l'erreur globale.

Sur un petit pool de variables, on a une grande probabilité de se tromper donc je n'imagine même pas sur 90 000 tests... (Calculée j'obtiens 100% de risque de se tromper haha)

J'ai réalisé des corrections de Bonferoni sur chaque test et j'ai remarqué que la p-valeur était augmentée, même pour les tests non significatifs, atteignant très souvent une pvalue de 1.

En tout cas un grand merci à vous tous, c'est beaucoup plus clair... Par contre j'ai l'impression que toutes les études que j'ai mené depuis 2 ans sont fausses pour le coup...

ps : Pour ceux qui veulent utiliser la correction de Bonferoni et voir l'erreur globale selon le nombre de test, voici ce site :
http://www.quantitativeskills.com/sisa/calculations/bonfer.htm

par joyeux_lapin13 Lun 6 Juil 2015 - 13:53

Après ce qui me dérange dans les tests multiples c'est quand même l'aspect théorique voir philosophique de la chose. Enormément de boîtes ne s'en servent pas et même celles qui s'en servent la plupart du temps l'utilisent comme un argumentaire fort qui ne rend absolument pas caduque les p calculés sans correction.

En général on procède de cette manière: on calcul les p bruts puis leur version ajustées, on met tout ça dans un même tableau et on va dire que tant de variables sortent en corrigées et si on en a pas assez on partira plutôt sur l'interprétation des p bruts.

par zezima Lun 6 Juil 2015 - 14:06

Oui c'est exactement le problème :

J'ai calculé que pour qu'une pvaleur sorte significative après ajustement sur 90 000 pvaleurs, il faut qu'elle soit inférieure à 0.000005.

Code:: p.adjust(c(0.0000005), method = p.adjust.methods, n = 90000) [1] 0.045

Du coup, on a décidé de garder les valeurs brutes des pvaleurs en minimisant au maximum le nombre de variables à analyser. (plus que 81 variables donc 3321 tests d'où le code suivant Smile

Code:: p.adjust(c(0.000015), method = p.adjust.methods, n = 3321) [1] 0.049815

Le calcul de la pvaleur ajustée est simple : pvaleur[A] = Nombre de tests * pvaleur (3321*0.000015=0.049815).

Au final la pvaleur est toujours trop petite donc on va s'appuyer sur les résultats connus de la littérature afin de valider certaines pvaleurs. Je pense que c'est la voie la plus simple à suivre.

AH oui et une dernière question : Est-ce utile de calculer les pvaleurs ajustées si le but final de l'étude est de trouver des groupes de variables liées à l'aide d'une analyse multiple sur plusieurs dimensions ? Sachant que l'analyse univariée sur les "90000" tests sert à sélectionner les variables les plus corrélées.

par Nik Lun 6 Juil 2015 - 21:32

Salut,

C'est vrai qu'avec ces corrections on fini par ne valider que les différences qui sont tellement grosse qu'on a pas besoin de test pour les valider....

Smile

par jeremyJ Mar 7 Juil 2015 - 10:55

Bonjour,

Je rebondis là dessus avec une question, au risque de dire une bêtise mais pour que ce soit clair, est-ce que ce genre de correction s'applique au tests par permutation ?

par Nik Ven 10 Juil 2015 - 8:15

Bonjour,

Sur un test de permutation donné, non. En effet, tu permutes les lignes du tableau de donné et donc tu ne répète pas un test d'hypothèse donné.

Par contre, si tu analyses de nombreux jeux de données avec des tests de permutation alors je suis moins sûr sans être en mesure d'affirmer qu'il faille corriger la p-value ou non.

Nik

par niaboc Ven 10 Juil 2015 - 8:50

Je reviens sur la correction de Bonferroni.

Il faut savoir que cette dernière est très conservatrice voire beaucoup trop sitôt que l'on a trop de test : il va y avoir une tendance net à l'acceptation de H0.

On peut souvent lire des choses comme ça :
"La méthode est trop conservative (elle a tendance à ne rejeter que très rarement
H0, à cause du niveau très faible de chaque test) et s’avère peu intéressante dès que le nombre de niveaux est supérieur ou égal à 5 : en gros, la correction est alors telle que le remède est pire que le mal..."

Tu peux tester :

Dun-Sidak avec alpha=1-(1-alpha)^(1/k)

Mais je ne suis pas certain que ce soit beaucoup moins conservateur...

par Nik Ven 10 Juil 2015 - 9:24

Non cela ne change en effet quasiment rien entre Bonferoni et Dunn-Sidak. En plus, l'écart déjà assez minime diminue avec le nombre de test.

par niaboc Ven 10 Juil 2015 - 9:26

Nik a écrit:Non cela ne change en effet quasiment rien entre Bonferoni et Dunn-Sidak. En plus, l'écart déjà assez minime diminue avec le nombre de test.

Oui, au temps pour moi

par jeremyJ Ven 10 Juil 2015 - 10:52

Nik a écrit:Salut,

C'est vrai qu'avec ces corrections on fini par ne valider que les différences qui sont tellement grosse qu'on a pas besoin de test pour les valider....

Question qui me trotte dans la tête, à partir de quand (combien, quelle différence ?) peut-on valider une différence sans test ?

par zezima Ven 10 Juil 2015 - 10:56

Tout dépend de ton nombre de test.
D'après la formule d'ajustement que j'utilise, il faut multiplier chaque pvaleur par le nombre de tests effectués.

Code:: p.adjust(c(0.015), method = p.adjust.methods, n = 3) [1] 0.045 p.adjust(c(0.015), method = p.adjust.methods, n = 4) [1] 0.06

On valide la pvaleur de 1,5% pour 3 tests mais pas pour 4, après ajustement.

Le calcul de la pvaleur ajustée est simple : pvaleur[A] = Nombre de tests * pvaleur (0.06=0.015*4).

par jeremyJ Ven 10 Juil 2015 - 11:11

Oui j'ai compris cette méthode.
D'après un livre que j'utilise, biostatistique de Bruno Scherrer, il parle de contraste :
"en effet si l'on effectue c tests independant au seuil alfa, le risque global (alfa glob) de prendre au moins une mauvaise décision, si H0 est vraie, s'élève à :

alfa glob = 1 - (1-alfa)^c

Pour maintenir un risque global à un niveau égal au risque nominal, c'est à dire au risque alfa déclaré, le seuil de signification par test indep doit être égal à :

alfa contraste = 1- (1-alfa glob)^c"

Donc si je comprends bien on baisse le seuil de signification des tests unique pour avoir un risque global raisonnable ?

donc exemple : avec un test de comparaison de moyennes 2 à 2 après une anova significative :

alfa glob= 1-(1-0.05)^3 =0.1426

donc si on veut un alfa global = alfa (nominal)=0.05
il faut prendre comme seuil de signification des 3 tests le seuil :

alfa contraste = 1-(1-0.05)^1/3 =0.0169

ainsi on aura un risque global de 0.05.

Suis-je loin ?

EDIT :

Quand je fais un test de comparaison 2 à 2 sur R avec une fonction du package RVaideMemoire
il me dit P value adjustment method: fdr

par Nik Ven 10 Juil 2015 - 11:43

Question qui me trotte dans la tête, à partir de quand (combien, quelle différence ?) peut-on valider une différence sans test ?

C'est bien là que la pratique des statistiques prend tout son sens car il faut faire fonctionner l'interface praticien/statisticien pour répondre à cette question car il n'y a aucune possibilité de définir ça de façon uniforme (ça dépend des unités en premier lieu).
Et à priori on peut valider toutes les différences sans test comme on peut infirmer le résultat d'un test sur son expérience des données. Ceci pour dire qu'un test d'hypothèse simple ça ne sert pas à grand chose Smile

Nik

par jeremyJ Ven 10 Juil 2015 - 12:56

Nik a écrit:
Question qui me trotte dans la tête, à partir de quand (combien, quelle différence ?) peut-on valider une différence sans test ?

C'est bien là que la pratique des statistiques prend tout son sens car il faut faire fonctionner l'interface praticien/statisticien pour répondre à cette question car il n'y a aucune possibilité de définir ça de façon uniforme (ça dépend des unités en premier lieu).
Et à priori on peut valider toutes les différences sans test comme on peut infirmer le résultat d'un test sur son expérience des données. Ceci pour dire qu'un test d'hypothèse simple ça ne sert pas à grand chose

Nik

C'est ce que je pensais mais je me suis dis on sait jamais si quelqu'un aurait une réponse magique !

par Contenu sponsorisé

Concept d'ajustement de la p-valeur sur plein de tests

Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests

Re: Concept d'ajustement de la p-valeur sur plein de tests