gestion des limites de quantification en stats

par cecimu Mer 8 Nov 2017 - 14:44

Bonjour le forum,
Je travaille dans un bureau d'étude en environnement où nous effectuons des analyses de qualité de l'eau. J'ai une formation en environnement et statistiques mais je n'ai pas jamais été confrontée à cette question...

Les données fournies par les labos indiquent pour chaque analyse une "limite de quantification" (LQ)

wikipédia a écrit: la plus faible concentration d’un produit à analyser dans un échantillon qui puisse être quantifiée avec une précision (n'a aucun sens en terme métrologique légal) et une exactitude acceptables dans des conditions expérimentales indiquées.

Les analyses qui ont comme valeur indiquée la LQ (données "non quantifiées") sont ceux qui ont une valeur réelle (inconnue) comprise entre zéro et la LQ. Dit autrement, aucun des résultats n'est nul, le minimum pour un paramètre donné est sa LQ minimum.

J'aimerais savoir comment traiter ces données "non quantifiées" dans les statistiques, c'est-à-dire quelle valeur leur donner : zéro, LQ/2, LQ ? ce nombre peut modifier les statistiques : corrélation, et même moyenne, médiane, etc. En plus, selon les campagnes de mesures, il peut y avoir plusieurs LQ pour un paramètre. Y a-t-il une méthode "officielle" ? LQ/2, la valeur centrale de [0 ; LQ] semblerait la plus juste, au contraire de zéro ou LQ...

Merci pour votre aide ! Smile

par Eric Wajnberg Mer 8 Nov 2017 - 16:29

J'ai bien envie de répondre: qu'est ce que ça change ? La valeur LQ est de toute façon - par définition - suffisamment faible pour ne rien changer si on fait les calculs avec cette valeur, avec zéro, ou LQ/2, etc. Si ce n'est pas le cas, c'est que les autres valeurs sont proches de cette valeur LQ, et qu'il n'y a donc pas grand chose d’intéressant dans les données.

L'alternative, si on veut adopter une démarche conservative (et frileuse) est de considérer ces valeurs comme des données manquantes. On peut faire des calculs statistiques avec des données manquantes, etc.

HTH, Eric.

par cmoi Jeu 9 Nov 2017 - 10:13

Bonjour,

C'est une problématique qui comme le dit Eric peut-être négligeable dans de bonnes conditions car en effet si tous les échantillons sont récoltés exactement de la même manière, les valeurs en-dessous de la limite de quantification peuvent être considérées comme négligeables par rapport aux autres valeurs quantifiées puisque plus petites de plusieurs ordres de grandeur.
L'imputation de ces valeurs par 0 pose problème lors d'une éventuelle transformation par le log. Leur imputation par une autre constante est critiquable car le choix de la constante est la plupart du temps arbitraire. Cependant dans le cas énoncé plus haut, le choix de la constante (1, LQ/2, LQ) ne changera que très peu les résultats.

Cette problématique devient très contraignante quand l'échantillonnage présente des biais et/ou une variabilité importante. Un échantillon (A) avec 10 fois moins de matériel à doser qu'un échantillon B présentera des analytes (X) inférieurs à LQ alors qu'ils ne le sont pas dans l'échantillon B. De fait en comparant ces deux échantillons, les analytes X seront considérés comme différents alors qu'il ne s'agit que d'une différence de quantité de matériel échantillonné. Et si cette différence de matériel n'est pas estimable et donc prise en compte, les résultats seront biaisés.

Une des solutions est la simulation. Tu imputes les valeurs inférieures à LQ par une certaine valeur (constante, qui dépend du groupe, du sample, ...) et tu réalises l'analyse. En faisant ceci avec plusieurs valeurs d'imputation tu verras les résultats qui sont indépendant des valeurs d'imputations et donc dans lesquels tu peux avoir confiance.

Je suis confronté à cette problématique en Spectrométrie de Masse et en dosage de protéine. Elle ne me perturbe pas en transcritomique (dosage des ARNm) car dans ce dernier cas les valeurs inférieures à LQ sont supprimées et les ARNm ayant trop peu de données quantifiées sont supprimés. C'est l'approche que je trouve la plus sûr, cependant dans certaines thématiques la suppression d'analytes n'est pas envisageable.
Et il faut garder en mémoire que la suppression de données n'est valable que sous l'hypothèse que les données manquantes le sont de manière totalement aléatoire.

Verdict cette thématique est complexe, et à ma connaissance n’a pas de solution "officielle". Mais je serais plus que ravi de me tromper !!

HTH,
Bastien

par Contenu sponsorisé

gestion des limites de quantification en stats

gestion des limites de quantification en stats

Re: gestion des limites de quantification en stats

Re: gestion des limites de quantification en stats

Re: gestion des limites de quantification en stats