multiplicité des tests

par Basaran Dim 19 Fév 2006 - 12:53

Bonjour,

Ma question porte sur ce qu'on appelle la multiplicité des tests. Est ce que quelqu’un pourrais m'expliquer ce principe avec ses mots svp (avc un exemple même si vous voulez Smile

). Parmis tout les profs a qui j'ai posé la question aucun n'a su me répondre de manière satisfaisante.

Moi je vois la chose comme ca. Par exemple apres une anova significative on va chercher quelle(s) moyenne(s) différe(nt) des autres. Si on a 3 moyenne A B C on va comparer A et B, B et C et A et B . C'est la qu intervient la correction du risque alpha car on est en situation de multiplicité des tests : en effet si on test la diff entre A et B et B et C par transition on sait pour A et C,donc a force de faire plein de test on fini par tester la même chose...d'ou la correction voila mais j'ai du mal a génariliser le concept et a trouver ces situations de multiplicité ds la réalitée . Il y la meme histoire en regression pour les variables indicatrices mais j'ai pas d exemple concret...

Voila merci déja si vous avez pris la peine de lire cette question (qui est un peu longue ma fois) et merci encore si vous y répondz Smile

par Laurent Mer 30 Aoû 2006 - 12:20

Un petit topo perso qui n'engage que moi....

Si l'on effectue des comparaisons multiples sur un même échantillon, on constate une augmentation du risque de première espèce (alpha, risque de conclusion erronée) due à la multiplicité des comparaisons.

Explication: dire qu'un risque alpha fixé 0.05 signifie qu'on prend 5% de risque de conclusion erronée n'est vrai que si l'on fait 1 seul test. Si, sur un même échantillon, on fait 2 tests, le risque qu'au moins l'une des 2 conclusions soit erronée est supérieur à 5%. On devine intuitivement que plus on fait de comparaisons plus on augmente le risque qu'au moins l'une des conclusions soit erronée. Cette effet pervers (bien que le risque alpha de chaque test soit fixé à 5 %, le risque de conclusion erronée sur l'ensemble des comparaisons peut être considérablement supérieur à 5%) est parfois appelé risque global.

Reformulé en Français: dès que l'on fait plusieurs tests sur le même échantillon, on prend le risque d'observer par hasard une différence significative. Ce risque augmente avec le nombre de comparaisons effectuées.

On peut se faire une idée de l'importance du risque global avec l'exemple suivant: il est admis que, si l'on dispose d'une grande quantité de variables mesurées sur 2 groupes issus d'une même population (= 2 groupes identiques) et que l'on effectue au hasard des comparaisons statistiques, on a en moyenne une chance de trouver une différence significative tous les 20 tests.

En pratique il est fréquent d'effectuer plusieurs tests sur un même échantillon, mais on doit limiter le risque global en respectant au minimum 3 règles simples.

1 - Ne pas tester tout et n'importe quoi au hasard (résister à la tentation d'aller "à la pêche au p<0,05"). On doit d'abord formuler une hypothèse, puis vérifier que les moyens expérimentaux permettent d'y répondre (absence de biais) et enfin la tester avec le test statistique approprié. L'hypothèse doit être formulée avant de la tester et non l'inverse.

2 - Choisir lorsque la situation l'exige un test statistique permettant de réaliser des comparaisons multiples en un seul test d'hypothèse (analyse de variance)

3 - Tenir compte du risque global dans la méthodologie des essais

par Kolmogorov Ven 6 Oct 2006 - 19:02

Bon voilà j'ai pris un papier et un crayon et finalement la démonstration n'est pas trop compliqué.

C'est juste une application directe de la formule de poincaré.

Bon alors pour ceux que ça intéresse. Voyons ce que ça donne pour 3 tests.

On considère les 3 évènements suivants :

A1 = "le test 1 conclue à tort à une différence"
A2 = "le test 2 conclue à tort à une différence"
A3 = "le test 3 conclue à tort à une différence"

On calcule ensuite la probabilité qu'un de ces trois évènements se produise (formule de poincaré) :

P(A1 U A2 U A3) = P(A1) + P(A2) + P(A3) - P(A1 n A2) - P(A1 n A3) - P(A2 n A3) + P(A1 n A2 n A3)

(remarque : n signifie "intersection")

Si les 3 tests ont un seuil de 0.05, on a :

P(A1 U A2 U A3) = 0.05 + 0.05 + 0.05 - 0.05x0.05 - 0.05x0.05 - 0.05x0.05 + 0.05 x 0.05 x 0.05

(Pour avoir ce résultat, on suppose aussi que les 3 évènements A1, A2 et A3 sont indépendants entre eux, ce qui n'est pas absurde comme hypothèse)

Après pour 4 tests, on applique le même raisonnement (c'est la formule de poincaré), puis de même pour k tests...etc....

Bon alors pour ceux qui lisent le matlab, voilà un exemple de fonction qui calcule, pour n tests, la probabilité qu'un des tests conclue à tort à une différence.

Code:: function[Proba]=comp_mult(n) A=0; alpha=0.05; for i = 0:n-2 combin=factorial(n)/(factorial(n-i)*factorial(i)); A=A+(-1)^(i)*combin*(alpha^(n-i)); end Proba=n*alpha-A;

Effectivement si on fait 20 tests, on a 64% de chance d'en voir un conclure à tort à une différence.

par Skarlett Ven 4 Nov 2011 - 15:38

Pour une étude épidémio, j'ai fait une analyse multivariée en régression logistique. Pour sélectionner les variables à introduire dans mon modèle, j'ai réalisé une série de régressions logistiques univariées sur une 60aine de facteurs que j'avais préalablement identifiés dans la littérature. L'effectif de mon échantillon d'étude était de 2500 sujets.
J'ai donc demandé à mon prof de stat, si dans ce cas de figure, il y avait multiplicité des tests. Il m'a répondu en substance qu'il y avait globalement deux cas de figure où l'on parle de multiplicité des tests :

- lorsque l'on réalise plusieurs tests pour trouver une association avec un seul facteur donné. Supposons que ce dernier soit sous la forme d'une variable continue comme une concentration ou l'âge. Il est souvent judicieux de transformer ce type de variable en variable catégorielle, et s'il n'existe pas de seuils de coupure conventionnels, certains auront tendance à tester autant de transformations que nécessaires des variables 'âge' ou 'concentration' afin de trouver les seuils de coupure aboutissant à un résultat significatif. S'il y a n transformations possibles, il y aura n tests réalisés sur la même variable n fois transformée. Ça c'est la vraie multiplicité des tests.

- lorsque l'on réalise des tests au sein d'un même échantillon sur un grand nombre de facteurs. Deux situations possibles (en caricaturant) :

un faible effectif (30 sujets) et un grand nombre de facteurs à tester (100 facteurs). On échappe difficilement à un problème de significativité et la multiplicité des tests pose effectivement problème. Il y a plus de facteurs que de sujets. L'analyse nécessite des méthodes sophistiquées pour pallier la multiplicité des tests.

un effectif important (2000 sujets) et un nombre de facteurs modéré (40). Soit les p-value sont proches de 10e-4, 10e-3, et on peut difficilement remettre en cause la significativité du résultat. Soit la p-value est inférieure mais proche de 0.05, et en épidémiologie (ma partie) on apporte un petit bémol dans la discussion du résultat avec en perspective une confirmation ultérieure à l'aide d'un autre échantillon; ensuite, le fait que les facteurs en question soient communément reconnus dans la littérature peut justifier leur présence dans l'étude.

par joyeux_lapin13 Mar 8 Nov 2011 - 16:12

@ Kolmogorov = je me suis amusé avec ton petit programme et voici le graphe que j'obtiens si je fais varier le nombre de variables testées et le seuil de confiance:

multiplicité des tests Tests_10

Je suis curieux de la raison (où plutot de la cohérence) pour laquelle la probabilité de conclure à tort quand à la significativité d'un test évolue en dent de scie? à noter que j'ai volontairement mis à 1 les cas où ton programme me retournait une valeur > 1.

PS: par abus il faut comprendre dans ma légende que p-value = alpha... tssss...

Motif: l'algo a une petite faute Smile

, en fonction de la parité du nombre de variables testées il faut changer Proba=n*alpha-A en Proba=n*alpha+A

Et du coup on obtient le graphe suivant:

multiplicité des tests Tests_11

En effet on voit que passé 10 variables testées avec un alpha de 5%, l'utilisation des corrections est plus que justifiée.

par Nik Mar 8 Nov 2011 - 16:45

Pour une étude épidémio, j'ai fait une analyse multivariée en régression logistique. Pour sélectionner les variables à introduire dans mon modèle, j'ai réalisé une série de régressions logistiques univariées sur une 60aine de facteurs que j'avais préalablement identifiés dans la littérature. L'effectif de mon échantillon d'étude était de 2500 sujets.
J'ai donc demandé à mon prof de stat, si dans ce cas de figure, il y avait multiplicité des tests. Il m'a répondu en substance qu'il y avait globalement deux cas de figure où l'on parle de multiplicité des tests :

C'est pour ça qu'on a inventé la sélection de modèles par critère d'information car les corrections de p-values c'est aussi sensé que de faire des stats avec une seule valeur (oui j'exagère un peu Very Happy

). En général les transfo type Bonferroni sont très conservatrice. En outre discuter certaines p-values par rapport au seuil de significativité n'a rien de bien tenable car il n'existe aucune règle autre que le seuil. Quand on se lance là dedans c'est qu'on commence à prendre en compte qu'effectivement les p-values ne sont que des estimations de probabilité et qu'un intervalle de confiance pourrait être dressé...ça commence à devenir sérieusement prise de tête Very Happy

vite l'AIC and co Wink

Nik

par droopy Mar 8 Nov 2011 - 23:29

C'est pour ça qu'on a inventé la sélection de modèles par critère d'information car les corrections de p-values c'est aussi sensé que de faire des stats avec une seule valeur (oui j'exagère un peu Very Happy)

Nik est-ce que tu connais les "Akaike weights (wi)". Si oui est-ce que tu peux me donner plus d'infos la dessus.

En général les transfo type Bonferroni sont très conservatrice. En outre discuter certaines p-values par rapport au seuil de significativité n'a rien de bien tenable car il n'existe aucune règle autre que le seuil

D'accord pour bonferroni. Pour le reste je ne partage pas cet avis. Tu peux tout a fait recalculer des p-values "corrigées" et non pas discuter des p-values par rapport au seuil de significativité. Bonferroni est aussi une vision trop simpliste de ce qu'est les tests multiples et comment gérer l'erreur de première espèce. Il faut notamment savoir qu'il existe plusieurs types d'erreur de première espèce, qui ne se gère pas de la même manière. Bonferoni faisant partie des "family wise error rate" à savoir la proba d'au moins une erreur dans la famille d'hypothèse
multiplicité des tests Gview?url=http%3A%2F%2Fwexler.free.fr%2Flibrary%2Ffiles%2Fshaffer%20(1995)%20multiple%20hypothesis%20testing

multiplicité des tests Gview?url=http%3A%2F%2Fwexler.free.fr%2Flibrary%2Ffiles%2Fshaffer%20(1995)%20multiple%20hypothesis%20testing

Voir ces refs pour de très bonne introduction à cette problématique :
Shaffer, J.P. 1995. Multiple hypothesis-testing. Annual Review of Psychology 46: 561-584. (dispo ici:lien)
Dudoit, S. & van der Laan, M.J. 2008. Multiple testing procedures with applications to genomics. Springer, New York: Springer Series in Statistics.

Après ce qui me gène avec les AIC et consorts c'est que tout ça reste très subjectif même si les test parfois n'apportent pas vraiment d'info. Je m'explique tu peux avoir un modèle A et un modèle B=A+une variable, avec des AICs très proches du genre 219 pour A et 217.4 pour B. Avec ce genre de critère tu vas avoir tendance à dire que B est meilleure que A alors que l'ajout de la variable n'apporte peut-être pas d'info.

par Nik Mer 9 Nov 2011 - 0:31

Tu peux tout a fait recalculer des p-values "corrigées" et non pas discuter des p-values par rapport au seuil de significativité.

oui je ne faisais que rebondir sur le post de Skarlett qui parlait de mettre en balance les résultats avec des p-values proches de 0.05.

Pour les autres types de correction, j'avais regardé ça vite fait à une certaine époque et j'avais vite laisser tomber face à la complexité de la chose et son réel intérêt. Au final, cela ne change pas la nature de la p-value qui ne reste utilisable qu'au regard d'un certains seuil qui lui n'a aucune justification statistique. Sans parler que le fondement de la p-value est le rejet d'une hypothèse nulle qui n'est pas toujours bien intéressante (mal posée ?)

Pour l'alternative critère d'information, il existe aussi un seuil (pour l'AIC au moins) qui dit qu'en dessous de 2 unité de différence, deux modèles ne peuvent être distingués : c'est à dire que les données supportent autant les deux modèles comme le plus adapté. L'avantage dans ce cas est de pouvoir recourir au model averaging (moyenne des paramètres dans les deux modèles) qui permet en outre d'avoir une meilleure balance entre biais et variance.
Pour les wi, il s'agit d'un poids calculé à partir de la différence entre l'AIC du modèle et l'AIC du "meilleur" modèle selon les données (ie, le meilleur modèle a un delta-AIC de 0). Plus le wi est proche de 1, plus le modèle est soutenu par les données (il me seble que la somme des wi d'un ensemble de modèle cancdidat vaut 1). C'est aussi à partir de ces wi qu'on peut faire du modèle averaging. Enfin ils permettent aussi d'évaluer le poids de chaque variable dans les données en faisant la somme des wi des modèles où la variable d'intérêt apparait.
Bien sûr je te renvois à la lecture de Burham & Anderson (2002) pour les détails pratiques et au package MuMin sous R Wink

. Le dernier livre d'Anderson (Model Based Inference in the Life Sciences) est pas mal non plus notamment pour une première approche.

Nik

par droopy Mer 9 Nov 2011 - 7:21

Au final, cela ne change pas la nature de la p-value qui ne reste utilisable qu'au regard d'un certains seuil qui lui n'a aucune justification statistique. Sans parler que le fondement de la p-value est le rejet d'une hypothèse nulle qui n'est pas toujours bien intéressante (mal posée ?)

Je ne partage pas ton avis. Tu peux très bien prendre la p-value pour ce qu'elle est aussi.

Pour moi cette idée de model averaging me chagrine un peu ... mais je suis peut-être trop conservateur ... Comment sont pris en compte les écarts types des paramètres dans ce cas la ?

Je vais regarder avec attention des deux livres (depuis le temps que je "dois" le faire ...)

par Nik Mer 9 Nov 2011 - 7:47

Tu peux très bien prendre la p-value pour ce qu'elle est aussi.

oui...mais pour moi c'est pas grand chose justement. En tout cas ça ne renseigne pas ou peu sur le paramètre en lui même.

Pour moi cette idée de model averaging me chagrine un peu ... mais je suis peut-être trop conservateur ...

Tu vieillis c'est tout ! Razz

...blague à part c'est pas un truc forcément évident à digérer pour moi non plus. En fait, il faut voir les modèles comme des éléments sur lequel tu peux faire de l'inférence directement (il y a une population de modèles possible avec un modèle le plus probable selon les données).
Pour les écarts types, je ne sais plus s'ils sont pris en compte...faut que je retourne dans mon Burnham & Anderson. Sinon charge MuMin et tu auras peut être l'info directement.

Nik

par Contenu sponsorisé

multiplicité des tests

multiplicité des tests

Re: multiplicité des tests

Re: multiplicité des tests

Re: multiplicité des tests

Re: multiplicité des tests

Re: multiplicité des tests

Re: multiplicité des tests

Re: multiplicité des tests

Re: multiplicité des tests

Re: multiplicité des tests

Re: multiplicité des tests