Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
-43%
Le deal à ne pas rater :
-100€ Pack rééquipement Philips Hue Play : 3 barres lumineuses ...
129.99 € 229.99 €
Voir le deal

Comparaison de deux proportions - réflexions sur le chi²

3 participants

Aller en bas

Comparaison de deux proportions - réflexions sur le chi² Empty Comparaison de deux proportions - réflexions sur le chi²

Message par Alexandre Dangléant Mar 25 Fév 2014 - 13:06

Bonjour, merci beaucoup à ceux qui prennent sur leur temps pour m'aider à faire régresser mon ignorance  Smile 

Dans le cadre d'une étude de mortalité d'un parasite, je dispose de proportions de parasites tué par le traitement testé par rapport au nombre total de parasite tué à l'issu du traitement de controle (à l'efficacité reconnue). Je souhaite comparer différents traitements testés. Tous les documents que j'ai pu feuilleter indique que le test d'indépendance du chi² est la seule alternative possible (outre les intervalles de confiance mais là dessus je n'ai pas de question, tout va bien). Soit "ttmt" la variable de comptage des parasites morts pendant le test, et "ctrl" celle des morts pendant le contrôle, et "A" et "B" deux traitements en test. Je voudrais donc savoir si A est plus efficace que B.

1 - La question de l'indépendance des 2 variables "ttmt" et "ctrl" se pose déjà. "ctrl" est très fortement influencée par "ttmt". Ne suis-je pas déjà hors des clous? Si oui, n'y a t-il aucune alternative à ce test?

2 - Si je ne dois pas utiliser le chi², est-il envisageable de faire un test de rang sur des proportions? Tout ce que j'ai pu lire m'oriente vers un non, mais je préfère demander.

3 - Mettons que je puisse utiliser ce test d'indépendance. Je dispose de 8 réplicats par traitement. Dois-je sommer mon nombre total de parasites (donc vbles ttmt et ctrl)? Si je fais des moyennes, les variabilités resterons "cachées" (et elles sont importantes!), je sais qu'il s'agit d'un test non-paramétrique mais tout de même, j'ai l'impression que ce n'est pas très pertinent de moyenner tout ça...

4 - En restant sur des sommes, le pb est que j'ai des effectifs très grands de parasites (même sans somme c'est déjà problématique). La puissance du test de chi² est alors décuplée, jusqu'à atteindre une sensibilité aberrante. 100 parasites de plus ou de moins dans une des catégories et la p.value passe de 0.5 à 10-5, alors que le ratio bouge à peine. J'ai donc cherché à voir les variations de cette p.valeur en fonction des effectifs. Pour cela je prends 2 distributions différentes entre "ttmt" et "ctrl" pour les ttmt A et B, et je réalise 2 tableaux de contingence différents en multipliant les effectifs par 10. Les proportions restent donc les mêmes. Je fais ensuite le test d'indépendance (sous R, par chisq.test(tableau)) et j'obtiens:

Tableau I                             Tableau II
      ttmt     ctrl                         ttmt     ctrl
A      840      160                   A    84        16
B      920      80                     B    92        80
p.val=5.5e-08                        p.val=0.1277

Je n'ai probablement pas inventé l'eau chaude... mais on comprends bien que l'ordre de grandeur de mes variables donne une puissance "artificielle" au test. Et je me demande donc si cela est bien approprié. La démarche vous semble-t-elle correcte? Ou alors je n'ai rien pigé à ce test de base que je suis sensé maitriser depuis longtemps?  confused 

J'en viens à me dire que la démarche la plus pertinente sera d'affecter un critère "réussite du traitement", par ex à partir d'un certain ratio, puis de compter le nombre de réplicats pour lequel chaque traitement a réussi, et faire le test sur ce nouveau tableau. Je n'aime pas vraiment cela car on part sur un critère totalement arbitraire (à partir de 90% de parasites tués le test est un succès, par exemple). Que feriez vous?

Merci d'avance pour votre aide.

Bien cordialement.

Alexandre Dangléant

Nombre de messages : 19
Date d'inscription : 15/10/2013

Revenir en haut Aller en bas

Comparaison de deux proportions - réflexions sur le chi² Empty Re: Comparaison de deux proportions - réflexions sur le chi²

Message par niaboc Mar 25 Fév 2014 - 17:21

bonjour Alexandre,

1- pourquoi penses-tu que "ctrl" est influencée par "ttmt"? soit tu n'as pas bien expliqué ce que tu voulais dire, soit je n'ai pas compris, mais dans les deux cas j'aimerai bien une nouvelle explication :-).

2- A priori le khi² est envisageable. De toute façon tu ne peux pas faire un test de rang sur 2 proportions?

3- Ah! tu as 8 réplicats... donc un test de rang sur les 16 valeurs (test de Mann-whitney). Oui pourquoi pas.
Personnellement, j'aurai peut-être fait 8 tests d'indépendance si les effectifs par réplicat me le permettent, pour éviter d'avoir d'autre biais.

4- Dans ton exemple, je n'arrive pas aux mêmes p-value. Pour le tableau II (avec au passage une erreur, puisque c'est 8 et non pas 80 que tu voulais écrire) ma p-value est de 0.081.

M'enfin, peut importe. La question reste sur les effectifs.
Effectivement le chi² est sensible aux effectifs, donc dans le cas de grands échantillons, il y a aussi un jugement réel à avoir...
Cependant il et préférable d'avoir de grands effectifs car en cas de faible effectif, tu ne peux pas savoir si, lors d'un test non significatif, tu rejettes en cas d'une différence réelle mais d'un effectif trop faible effectif, ou d'une différence non réelle.

Autre chose, pour que ton test d'indépendance permette ici de tester la qualité du traitement, il faut que les 2 échantillons traités sur A et B soient de même taille. Car tu compares la répartition des morts selon le groupe (ttmt/ctrl).
C'est à dire que tu compares ton tableau à :


Tableau I
      ttmt     ctrl
A      88      12
B      88      12

Si H0 est rejeté=>le traitement et le type de groupe sont indépendants, il y a une répartition équivalente du nombre de mort entre le groupe de traitement et de contrôle selon les traitements. Alors que le traitement B est peut-être beaucoup plus efficace s'il y a moins d'individus dedans, à la base.

Si tu n'as pas le même nombre de parasites pour les deux traitements tu pourrais plutôt faire :


TTMT :
    mort   vivant
A     a        c
B     b        d


CTRL :
    mort   vivant
A     a'        c'
B     b'        d'

le khi² ne doit pas être significatif pour le groupe de CTRL pour pouvoir valider les résultats du traitement.
Si le khi² est significatif sur le TTMT, alors il y a une différence significative entre les deux traitements.

Qu'en penses-tu?
Et plus largement, qu'en pensez-vous les autres? :-)


Niaboc
niaboc
niaboc

Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

Comparaison de deux proportions - réflexions sur le chi² Empty Re: Comparaison de deux proportions - réflexions sur le chi²

Message par gg Mar 25 Fév 2014 - 19:03

Bonsoir Alexandre.

Je suis très dubitatif sur ce que tu fais. En effet, je ne vois pas bien la comparaison entre A et B. Comme tu dis "je dispose de proportions de parasites tué par le traitement testé par rapport au nombre total de parasite tué à l'issu du traitement de contrôle ", je m'attendais à ce que tu utilises dans tes tableaux des proportions. or tu utilises des effectifs.
Pour faire du travail sérieux, il faudrait savoir la proportion ...des insectes tués. Par rapport à tous ceux qui ont été soumis aux produits A et B.

Autre chose : Si vraiment, dans les mêmes conditions, le produit contrôle tue 16 insectes et le produit a en tue 84, il n'y a pas besoin de test; il serait déraisonnable de penser que A n'est pas plus puissant. Pour B, il y a une contradiction entre tes tableaux : 920 /80 et 92/80. Si c'est 92/8, même chose. Je n'ai d'ailleurs pas réussi à retrouver le p à 0,1277. Ni avec 80, ni avec 8.

Tout à fait d'accord avec Niaboc sur la faible puissance du test du khi-deux à faibles effectifs. Cependant, si les données sont du type présenté, faible puissance ou pas, il sera évidemment significatif.

Cordialement.

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

Comparaison de deux proportions - réflexions sur le chi² Empty Re: Comparaison de deux proportions - réflexions sur le chi²

Message par Alexandre Dangléant Mar 25 Fév 2014 - 20:53

J'en conviens, je me suis mal expliqué car je suis un peu paumé Sad

Reprenons, le parasite en question est le varroa, ectoparasite de l'abeille (une sorte de tique). Les tests sont fait in situ (donc en ruche). Les varroas sont donc présents en nombre limité dans les ruches (à un instant t, il y a x parasite au total dans la ruche). Pour le déroulement de l'expérience : on test sur 8 colonies le traitement A, et on compte les varroas qui ont chuté de chaque ruche (= variable "ttmt"). Après une période de latence, on applique le traitement de contrôle sur les mêmes ruches et on compte (= variable "ctrl", ce n'est donc pas un groupe contrôle au sens témoin/placébo...). L'efficacité de A est une efficacité relative au traitement de contrôle : ttmt/(ttmt+ctrl). La somme ttmt + ctrl est appelée infestation et peut beaucoup varier d'une ruche à l'autre. On fait pareil avec un traitement B, et on cherche à savoir lequel de A et B a le mieux marché. En fait, cette expérience est reproduite sur 7 régions en France. Je ne voulais pas trop détailler pour être concis, mais effectivement, vous n'êtes pas dans ma tête, et ces informations étaient essentielles. Vous comprenez maintenant qu'il est difficile de considérer que ttmt et ctrl sont indépendants.

En fait, à force de tourner le pb dans ma tête, j'ai un peu progressé, et les vrais questions auxquels je dois répondre sont :

1 - Pour une comparaison "nationale", je dispose de lots de plus de 30 colonies par traitement (et je n'ai pas le même nombre de ruches suivies par traitement / site, le plan d'échantillonnage est une vrai usine à gaz, je n'aurai jamais laissé passé ça si j'avais été dans la conception! Passons...). Puis-je considérer que ces % forment une variable comme une autre? et donc utiliser des tests paramétriques (student en l’occurrence) pour mes comparaisons? Puis-je calculer les intervalles de confiances comme sur n'importe quelle autre variable, ou dois-je utiliser une formule adaptée aux pourcentages ? (Si je prends n = le nombre total de varroas tué par ruches, ces intervalles sont tellement faibles que ça devient aberrant! L'erreur standard chute drastiquement avec n-1 = 10000 parasites moins 1!). Dans ce cas là, pas besoin de chi² et ça m'enlève une belle épine Smile
Et donc même question sur les comparaisons "régionales", donc avec moins de 30 colonies par traitement, suis-je en droit de faire un test de Mann & Whitney?
Je crois que je me suis perdu en faisant des recherches sur google type "comparaison de pourcentages" qui envoient immédiatement sur le khi².

2 - Je crois avoir compris une chose importante : finalement, mon individu statistique, c'est la ruche pas le varroa! Je ne rentre pas dans le cas d'école : on demande à 100 femmes et 100 hommes si ils sont gauchers ou droitiers, y a t-il une différence? En fait ça ressemble plutôt à : on regarde la répartition d'un nombre variable de parasites entre les catégories "ttmt" et "ctrl" sur une colonie traitée avec A et une avec B, et ce sur 8 colonies. Je faisais l'amalgame en prenant la totalité des varroas et en faisant 4 groupe : ttmt de A, de B et ctrl de A et de B... Mais il faudrait peut être dans cette démarche, faire 8 tableaux de contingence et 8 test de chi²... Encore que, en fait, il y a 8 fois 8 combinaisons de 2 colonies parmi deux lots de 8 si je ne m'abuse... Donc, ce serait plutôt 64 tests qu'il me faudrait faire... Et je fais quoi avec tout ça in fine? je regarde le nombre de fois ou A est supérieur à B? Bref je crois que là ça ne va pas!
Et comme vous l'avez souligné, je n'ai jamais une infestation strictement identique d'une ruche à l'autre.

3 - Il reste toujours l'option de considérer un seuil d'efficacité, ou autre critère, à partir duquel on tranche sur le succès / l'échec d'un traitement, et faire un tableau de contingence puis un test de chi². Là on est dans les clous mais on perd en pertinence...

4 - Effectivement, dans le tableau II, c'est bien 8 et non 80. Par copié-collé depuis R :
Code:
> matrix(c(84,16,92,8), nrow=2)
     [,1] [,2]
[1,]   84   92
[2,]   16    8
> matrix(c(84,16,92,8), nrow=2)*10
     [,1] [,2]
[1,]  840  920
[2,]  160   80
> chisq.test(matrix(c(84,16,92,8), nrow=2))

        Pearson's Chi-squared test with Yates' continuity correction

data:  matrix(c(84, 16, 92, 8), nrow = 2)
X-squared = 2.3201, df = 1, p-value = 0.1277

> chisq.test(matrix(c(84,16,92,8), nrow=2)*10)

        Pearson's Chi-squared test with Yates' continuity correction

data:  matrix(c(84, 16, 92, 8), nrow = 2) * 10
X-squared = 29.5502, df = 1, p-value = 5.449e-08
Je retombe bien sur mes p.valeur... C'est peut être la correction de continuité qui fait une différence avec vos p.valeurs, mais pour avoir testé avec et sans, il y a peu de différences. Enfin, il reste la détermination de la p.valeur par processus de Monte Carlo...

5 -
gg a écrit:je m'attendais à ce que tu utilises dans tes tableaux des proportions. or tu utilises des effectifs.
Je ne comprends pas ta remarque. En fait, je suis quasiment sûr qu'on ne peut pas utiliser de % ou de probabilité dans les tableaux de contingence pour chi²... Suis-je dans l'erreur? J'avais essayé de partir des proportions moyennes obtenues pour ensuite répartir un nombre donné de varroas dans les classes A et B et ttmt et contrôle, mais je me suis rendu compte que le nombre donné en question influence bcp (trop!) la sensibilité du test. D'où le point 4...

Un grand merci à vous deux pour votre intérêt. Ca m'aide vraiment bcp :-)

Cordialement!

Alexandre Dangléant

Nombre de messages : 19
Date d'inscription : 15/10/2013

Revenir en haut Aller en bas

Comparaison de deux proportions - réflexions sur le chi² Empty Re: Comparaison de deux proportions - réflexions sur le chi²

Message par gg Mar 25 Fév 2014 - 21:10

Je n'ai pas été clair : Je pensais à des proportions exprimées en termes de tant de morts, tant de vivants.

Je comprends maintenant ce que tu voulais dire. Et je te plains, car exploiter des données aussi peu probantes est assez difficile.

Une première idée : Si tu as suffisamment de ruches traitées avec A d'une part, et traitées avec B d'autre part, en supposant que le nombre de varroas dans les ruches varie de façon aléatoire, tu peux effectivement faire un test de comparaison d'échantillons, style Mann-Whithney, directement avec les nombres de varroas morts. Dans ce cas, tu fais la comparaison A/B. Si tu as des résultats sur des ruches traitées avec le traitement de référence, tu peux aussi faire les comparaisons avec A ou B.

Pour les comparaisons régionales, si les effectifs ne sont pas trop faibles, tu peux essayer (mais la puissance des tests diminue avec la taille de l'échantillon).

Cordialement.

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

Comparaison de deux proportions - réflexions sur le chi² Empty Re: Comparaison de deux proportions - réflexions sur le chi²

Message par Alexandre Dangléant Mar 25 Fév 2014 - 21:29

Re,

Je vois maintenant le pb dans mes tableaux, ils n'étaient pas dans le sens auquel je pensais! Je voulais faire un total de 100 par ligne. Bref, le but était de voir les différences dans les p.valeurs quand on multiplie par 10, et le boulot est fait de ce coté là.

gg a écrit:Je comprends maintenant ce que tu voulais dire. Et je te plains, car exploiter des données aussi peu probantes est assez difficile.
Merci pour la compassion :-) En fait, là, c'était 84 % et 92 % d'efficacité que je prenais en exemple.

Avec plus de 30 ruches suivies par traitement, ne puis-je pas faire des tests de Student plutôt que du non-paramétrique? Et faire du non-paramétrique sur les lots régionaux (généralement 8 colonies par traitement...)...

En somme, je peux très bien faire comme avec n'importe quelle variable, avec n obs> à 30. C a d intervalles de confiance à 95 % = moy + ou - 1,96 * erreur standard. C'est la conclusion à laquelle j'arrive après 2 jours à retourner le net et les docs de tout bord et à déprimer :-) Si je n'avais pas réfléchi j'aurai fait la même chose! Mais au moins je le fait en connaissance de cause.

Finalement, les manuels portent à confusion, quand on a 2 séries de %, on peut les comparer comme toute autre type de données.

Merci pour ça !

Alexandre Dangléant

Nombre de messages : 19
Date d'inscription : 15/10/2013

Revenir en haut Aller en bas

Comparaison de deux proportions - réflexions sur le chi² Empty Re: Comparaison de deux proportions - réflexions sur le chi²

Message par gg Mer 26 Fév 2014 - 5:53

A priori,

on ne peut pas traiter des pourcentages comme des données quelconques, mais ce sont des données numériques comme les autres. Cependant, si ce sont des pourcentages de quantités différentes, il est difficile de les comparer sainement.

C'est pourquoi je te conseillais, éventuellement, de traiter les nombres de morts. Bien que la dispersion naturelle peut être gênante.

Cordialement.

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

Comparaison de deux proportions - réflexions sur le chi² Empty Re: Comparaison de deux proportions - réflexions sur le chi²

Message par Alexandre Dangléant Mer 26 Fév 2014 - 8:06

Je suis vraiment étonné de ne pas trouver de cas d'école là-dessus... Auriez vous de la biblio à me conseiller?

Travailler directement sur les morts pdt contrôle peut en effet être un angle d'attaque, mais un peu différent. Je le traite à part car une même efficacité va se traduire différemment en fonction de l'infestation : 90 % d'efficacité peut correspondre à 100 comme à 1000 survivants au traitement testé. Il s'agit d'un critère essentiel puisqu'il va conditionner le redémarrage de la pop de parasites au printemps, et de la pression qu'ils représentent pour la colonie. Donc il est bien sûr capital à prendre en compte, mais plus aisé de le faire d'un point de vue méthodo (variable de comptage classique) et là dessus je n'ai pas de problème. Néanmoins, il reste intéressant de regarder l'efficacité, et donc je suis toujours dans l'impasse là-dessus... Une autre partie de mon travail a été de réalisé un glm sur les chutes pendant traitement avec en offset l'infestation (loi de quasipoisson car j'ai une grosse sur-dispersion). Mais la démarche était de voir si, dans les covariables mesurées, nous avions des liens permettant de déboucher sur des préconisations d'emploi des traitement testé (T°, etc...). Finalement, n'est-ce pas là la manière la plus "carrée" de comparer les efficacités?

Bon, pour résumé, j'oublie les tests paramétriques (ou non-paramétriques aussi d'ailleurs)?

J'ai bien sûr regardé la distribution des données, et on ne peut pas dire que cela ressemble à une loi normale (la majorité des valeurs sont comprises entre 80 et 100 %). Mais avec plus de 30 ruches par traitements, je me rabattais sur le TCL pour faire du paramétrique. Je voudrais quand même garder les 2 approches, finalement, cette efficacité est bien une variable quantitative et continue (même si bornée...). Vu que je n'arrive pas à mettre la main sur un document clair sur ce point, je ne pense pas qu'on me le reprochera... En tout cas, il y a de quoi discuter!

Cordialement.

Alexandre Dangléant

Nombre de messages : 19
Date d'inscription : 15/10/2013

Revenir en haut Aller en bas

Comparaison de deux proportions - réflexions sur le chi² Empty Re: Comparaison de deux proportions - réflexions sur le chi²

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut


 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum