Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine
Aucun utilisateur

-15%
Le deal à ne pas rater :
(Adhérents) LEGO® Icons 10318 Le Concorde
169.99 € 199.99 €
Voir le deal

casse tête (pour moi !)

3 participants

Aller en bas

POUR - casse tête (pour moi !) Empty casse tête (pour moi !)

Message par bloup Ven 22 Aoû 2014 - 20:27

Bonsoir,

Je me retrouve face à un problème que j'ai du mal à résoudre.

Comme d'habitude j'arrive sur un projet en bout de chaîne et j'hérite d'un jeu de données qui est loin d'être idéal.

Voilà la situation : une substance particulière pouvant être retrouvée dans l'urine à historiquement été décrite comme étant d'origine exogène et a été interdite. Au fil des années on s'est rendu compte que dans de nombreux cas d'analyse la substance est détectée mais à de faibles quantités remettant en cause aujourd'hui l'origine exogène de cette substance. Pour explorer l'hypothèse d'une origine endogène une (petite) étude de population a été faite. Je me retrouve donc avec le jeu de données de cette étude de population qui est bien particulier car en fait, dans les limites de la méthode de mesure utilisée, la substance est détectée dans seulement 20% des echantillons.

Dans un premiers temps pour évaluer la liaison entre détection de la substance et des facteurs tels que la saisonalité, le genre, l'ethnie, l'age, etc... j'ai utilisé les tests d'indépendance du Khi2 et exact de fisher. Je pense que cette approche est correcte mais n'hésitez pas à commenter.

Maintenant ce qu'on me demande et qui me pose problème c'est de déterminer à partir du jeu de données une concentration limite pour laquelle on peut être sûr avec une forte probabilité que l'origine est bien endogène. Généralement, les décideurs choisissent un risque de 1/10 000. Facile à faire lorsqu'on a un jeu de données dans lequel tous les échantillons présentent la substance et dont la distribution avoisine une loi de probabilité.
Je peux tenter d'appliquer cette approche à mes 20% d'échantillons dans lesquels la substances est détectée mais cela ne me satisfait pas de ne pas prendre en compte les 80% de non détectés dans ce calcul de valeur limite.

Je ne vous demande pas une solution clé en main ni de faire le travail à ma place mais auriez vous des pistes vers lesquelles m'aiguiller ?

Merci d'avance.

Remarque : la répartition 80/20 vient de me faire penser au principe de pareto. Pensez vous que cela puisse être une bonne piste de travail ?

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par bloup Lun 25 Aoû 2014 - 8:53

bon sinon, en y réfléchissant ce weekend je pensais peut être faire un ajustement sur les 20% de données qui me le permettent puis de pondérer le résultat par la probabilité mise en évidence lors de l'étude de détecter (dans les conditions de la méthode d'analyse) ou non la substance.

En gros je déduis de mon risque de pfinal=p(X>x)=1/10 000 la probabilité de détecter ou non la substance (p(détecté)=1/4) pour ensuite déterminer sur mon ajustement la bonne limite p'(X>x)=pfinal/p(dérecté)=(1/10 000)/(1/4)=4/10 000=1/2 500

Est ce que ça vous semble correct comme démarche ou je me plante complètement ?
Attention, je ne dis pas que c'est la bonne réponse à ma question mais l'approximation tient elle la route ?

Merci d'avance.


Dernière édition par bloup le Lun 25 Aoû 2014 - 10:02, édité 1 fois

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par c@ssoulet Lun 25 Aoû 2014 - 9:11

La première question à se poser c'est le seuil de détection du dosage. 80% de négatifs, c'est 80% de personnes avec une concentration des urines sous le seuil. Pas forcément une absence du produit dans les urines donc.

Deuxième question : conditions de recueil urinaire standardisées ou non ? rapportée au volume (recueil sur 24H) ou pas? La concentration d'une substance dépend évidemment du volume ...

La première chose à faire est d'être parfaitement au clair avec les conditions expérimentales, histoire de ne pas échafauder des hypothèses sur des résultats tout simplement biaisés.

Pour le reste, je ne vois pas comment une analyse purement mathématique peut prouver qu'une substance est d'origine endogène

c@ssoulet

Nombre de messages : 925
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par bloup Lun 25 Aoû 2014 - 9:52

Je suis bien d'accord sur tous ces points.

Les 80% de négatifs correspondent à des échantillons pour lesquels la méthode de détection n'a permis de mesurer ni une concentration ni même une présence de la substance. Nous sommes donc en présence soit de vrais négatifs, soit de faux négatifs dont les concentrations sont en dessous des limites de détection de la méthode, soit d'une combinaison des deux. Aucun seuil n'a été ici appliqué sur les données (mis à part celui inhérent à la méthode de détection) et je suis d'accord que dans ces 80% de non détectés, il est fort probable que la substance soit présente mais en dessous des capacités de mesures. Donc comment les gérer ?

Les analyses sont faites de manière routinière chez l'animal. Il n'y a pas comme chez l'humain ou en recherche fondamentale de protocole standardisé pour normaliser les résultats en fonction du volume, de l'osmolarité ou du taux de créatinine. Les résultats sont de toute façon biaisés mais la communauté dans laquelle j'évolue est opposée à toute normalisation par un des 3 facteurs cité. L'urine est prélevée puis analysée telle quelle. Evil or Very Mad

Là, il s'agit pour être clair de pouvoir dire avec plus ou moins de certitude que si la substance est retrouvée dans une urine au-dessus d'une certaine valeur, il y a un risque que son origine ne soit pas "normale" (comprendre frauduleuse).

Prouver l'origine endogène était le but de l'étude de population. L'hypothèse de départ était de montrer a priori que quasiment tous les échantillons contiennent de la substance même en très faible quantité. A posteriori, il s'avère finalement que la substance n'est détectable (dans nos conditions analytiques) que dans 20% des cas...

Le problème est que ma direction exige de ma part (je rappelle que j'ai hérité du jeu de données sans avoir eu à dire mon mot sur toutes les étapes antérieures) que je leur communique une valeur limite avec un risque associé au-delà de laquelle il est raisonnable de penser que la concentration retrouvée de la dite substance n'est pas normale/naturelle (pour ne pas parler d'endogène)...

voilà mon problème

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par c@ssoulet Lun 25 Aoû 2014 - 12:12

Le seul truc que j'imagine, c'est de sortir l'intervalle de confiance à 95% mesuré dans une population tout venant. Ca ne voudra pas dire du tout que si on est hors IC l'origine est exogène, mais plus simplement mettre le doigt sur des valeurs extremes meritant une attention particulière. Ceci dit, sachant que tu as 80% de valeurs à 0, l'IC ne va pas etre super informatif non plus.

Je pense qu'en la matière aucun calcul à posteriori sur ton échantillon ne te permettra de definir une valeur frontière te garantissant avec certitude un apport exogène. Surtout si tu n'as aucune base scientifique sur laquelle te reposer pour avoir des indications sur le mécanisme de sécrétion endogène du composé.

Un biais très commun est lié à l'heure des prélèvements. En pratique, les prélèvements "au hasard" ne sont justement pas du tout réalisés au hasard. Ils sont réalisés pendant les heures ouvrables. Et l'immense majorité le matin. Si sécrétion nyctémérale, il suffit que le patient ait été prélevé à une heure inhabituelle pour etre hors normes...


c@ssoulet

Nombre de messages : 925
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par gg Lun 25 Aoû 2014 - 12:18

Bonjour Bloup.

Si tu es sûr que la substance détectée est toujours d'origine endogène, soit a le taux maximum détecté. Il est évident qu'aucun t&aux inférieur ou égal à a ne peut décemment être pris pour un indice d'origine exogène (Si ton étude sert de référence dans un procès, l'argument sera imparable). Et même des valeurs un peu supérieures. Donc on peut rajouter un facteur de sécurité. Pour le tirer d'une raison statistique, il faut avoir un modèle des valeurs prévisibles, modèle compatible avec tes données.

Cordialement.

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par bloup Lun 25 Aoû 2014 - 13:23

@c@ssoulet: l'IC est tentant mais comment le calculer sur une distribution telle que celle de mon jeu de données ?
Pour l'impossibilité d'extrapoler une limite à partir des données c'était ma conclusion qui a été refusée aussi sec par ma hiérarchie.
Des expériences ont bien été réalisées pour tenter d'expliquer la présence de cette substance dans l'urine. Une des hypothèse serait qu'un précurseur arriverait par l'alimentation et que sa métabolisation aboutirait à la présence de la substance dans l'urine. De tels précurseurs ont été trouvés mais leur métabolisation est accompagnée de la production d'autres molécules que l'on ne détecte pas habituellement. Les conditions expérimentales ne reproduisent pas exactement les résultats observés.
Pour le biais de prélèvement, nous le connaissons mais comme je le disais dans la plupart des cas il s'agit de prélèvement de routine tout venant. Je n'ai donc aucune information me permettant d'investiguer dans ce sens.

@gg: je suis d'accord avec ta remarque et ce serait si simple si je pouvais dire à mes supérieurs de se référer à la plus haute concentration mesurée sur l'étude de population mais cette solution a été écartée avant même que je puisse la proposer. Pour le facteur de sécurité (ce qui m'est demandé finalement), c'est là que je bloque car je ne vois pas comment ajuster un modèle sur mes données. As tu des pistes à me donner ?

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par gg Lun 25 Aoû 2014 - 14:36

Je ne peux avoir de piste, c'est toi qui as les données ...

En fait, la plus grande valeur, c'est l'estimateur classique de l'intervalle d'une loi uniforme (si n est faible, il faut le corriger). Si tes données peuvent provenir d'une loi uniforme, tu peux faire un bel habillage statistique pour proposer la valeur évidente.

Mais si c'est trop pour eux, tu ne pourras rien faire de bon !

Cordialement.

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par bloup Lun 25 Aoû 2014 - 19:15

C'est une solution effectivement. Pas très satisfaisante mais comme tu dis avec un bel habillage...
Pour le nombre d'echantillons, n=600 environ.


Dernière édition par bloup le Mar 26 Aoû 2014 - 7:15, édité 1 fois

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par gg Lun 25 Aoû 2014 - 19:29

Tu as les données, tu peux facilement représenter leur répartition. Et regarder si ça te donne une idée de modèle.

Toi seul peux le faire.

Cordialement.

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par bloup Lun 25 Aoû 2014 - 19:34

Je vais regarder ça mais je sais d'avance que j'aurais une "sur-representation" au niveau de ma classe 0. Je fais ça demain et j'essaierai de mettre les illustrations en ligne.
Merci beaucoup.

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par gg Mar 26 Aoû 2014 - 7:43

On peut négliger la classe 0, c'est l'ensemble des "non détection". Comme le but est de détecter un défaut, les sans défaut n'ont pas vraiment d'importance (sauf par leur proportion).
Cependant, je suis assez surpris que tu n'aies pas fait ça avant de poser des questions de test. C'est quand même très élémentaire (représenter les données).

Cordialement.

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par bloup Mar 26 Aoû 2014 - 8:26

Bonjour,

Voilà les histogrammes de distribution de mes données.
Le premier est sur l'ensemble des données et le second uniquement sur les 20% de données "détectées".
Comme on peut le voir la plus grosse classe est bien celle des 0 (non détectés) et un saut existe entre cette classe et la suivante car la concentration minimale détectée est de 0.15 ng/mL.
Sur les 20% de détecté j'ai essayé d'ajuster (fitdistr) plusieurs distributions (uniforme, exponentielle, lognormale) et à chaque fois le test de kolmogorov est revenu avec une probabilité critique très largement inférieure à 0.05 (<10^-8 ).
J'espère que ça vous aide à y voir plus clair et merci d'avance pour vos conseils.

POUR - casse tête (pour moi !) Histo_10

POUR - casse tête (pour moi !) Histo_12


Dernière édition par bloup le Mar 26 Aoû 2014 - 8:48, édité 1 fois

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par bloup Mar 26 Aoû 2014 - 8:45

gg a écrit:On peut négliger la classe 0, c'est l'ensemble des "non détection". Comme le but est de détecter un défaut, les sans défaut n'ont pas vraiment d'importance (sauf par leur proportion).
Cependant, je suis assez surpris que tu n'aies pas fait ça avant de poser des questions de test. C'est quand même très élémentaire (représenter les données).

Cordialement.

oui j'ai fais les choses un peu dans le désordre mais dans ce cas précis j'avais pré-travaillé sur les données juste avant que la collecte soit terminée (le jeu de données n'était pas totalement complet) et j'avais bien fait les représentations de la distribution des données ce qui m'avait donné la même chose que sur le jeu de données complet. Par la suite au vu de cette "pré-analyse", j'ai directement traité le jeu de données complet sous forme de tableaux de contingence pour tester l'apport de différents facteurs (genre, saison, ethnie, etc...) sur les proportions de détectés/non détectés. Du coup sans avoir fait de représentation sous forme d'histogrammes ni tester la distribution je savais à quoi m'attendre... d'où mes premières conclusions remontées à ma hiérarchie et l'approche choisie (test d'indépendance du Khi-2 et test exact de Fisher) pour tester les différents facteurs.

J'aurais dû prendre le temps de mieux exposer la situation.

Quand tu dis que les "non détectés" sont négligeable sauf par leur proportion, cela veut-il dire que comme je le proposais plus tôt, il est admis d'ajuster un modèle sur les 20% de "détecté" puis de pondérer le résultat par la probabilité observée entre détecté/non détecté ?

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par gg Mar 26 Aoû 2014 - 11:41

Oui,

on a quand même bien l'impression qu'il s'agit d'un modèle exponentiel censuré (en dessous de 0.15 ng/mL). Mais la présence de valeurs rares mais très au delà de la moyenne rend le modèle malsain, faute de savoir à quoi est due cette concentration inhabituelle.

J'en reste à mon premier avis : faute d'avoir prouvé que les cas au delà de 1 sont exogènes, il ne peut être décidée aucune limite inférieure à 6. Ce qui n'interdit pas de refuser les cas au delà de 1, sans indiquer qu'il s'agit de cas exogènes (c'est ce qu'on fait en cyclisme, avant les courses, pour les tests sanguins : le coureur n'est pas sanctionné pour dopage, mais ne peut pas participer à la course, ses taux sanguins étant trop élevés).

Mais je ne vois ici aucune aide statistique, sauf si tu arrives à relier les cas au dessus de 1 à des caractéristiques particulières.

Cordialement.

gg

Nombre de messages : 2174
Date d'inscription : 10/01/2011

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par c@ssoulet Mar 26 Aoû 2014 - 12:38

De toutes facons, il a été dit plus haut qu'il était probable que ce soit un métabolite d'un precurseur alimentaire, inconnu pour l'instant il me semble.

Il y a tellement de variables inconnues là dedans qu'il est impossible de sortir quelque chose de vaguement argumenté sans une bonne méthodologie de recueil / caractérisation de la population. Qui dit précurseur alimentaire dit concentration variant en post prandial précoce ou tardif (en plus de la composition du bol alimentaire), et qui dit métabolite dit outliers (individus métaboliseurs rapides ou métaboliseurs lents).

Il semble donc parfaitement normal d'observer quelques valeurs extremes sur un effectif d'environ 500 prélèvements, et il est apparemment impossible de déterminer si ces valeurs extrêmes ou certaines d'entre elles peuvent être imputables à des biais purement expérimentaux (depuis le début, la lumière rouge "heure du prélèvement" clignote très fort dans ma tête, parmi bien d'autres).

Donc toute analyse mathématique de ce jeu de données, quelle que soit la méthode, reposera sur des bases extrêmement fragiles et produira des résultats très incertains.

Dans ce cas, il faut a mon sens tirer un trait sur toute tentative de modelisation "fine" et appliquer la méthode la plus simple possible. Et surtout mettre en avant les faiblesses méthodologiques dans les conclusions du rapport, afin de donner une idée de la grande incertitude des chiffres qui en sortiront.

Ca serait vraiment dommage de porter préjudice à la carrière sportive de quelqu'un sur des chiffres reposant sur du vent. Les stats n'en sortiraient pas grandies...

c@ssoulet

Nombre de messages : 925
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par bloup Mar 26 Aoû 2014 - 13:42

merci beaucoup pour ces remarques et explications.

oui, les valeurs extrêmes déséquilibrent le modèle et ce n'est malheureusement pas la seule étude dans laquelle j'ai ce phénomène... et je ne sais pas encore comment le gérer. Y a t'il des approches de décrites et de développées pour solutionner ou du moins gérer ce problème ?

Dans cette étude, de nombreuses pistes ont été explorer pour tenter d'expliquer d'une par la présence de la substance et d'autre part les valeurs élevées mais malheureusement rien n'a abouti... ce qui est tout de même un résultat intéressant en soi !

Les outils développés pour le cyclisme (et plus généralement le contrôle du sport humain) sont vraiment intéressants et vont maintenant bien au delà avec les modèles bayésiens et les différents modules du passeport biologique. Ce type d'approches m'intéresse beaucoup.

bloup

Nombre de messages : 41
Date d'inscription : 13/03/2012

Revenir en haut Aller en bas

POUR - casse tête (pour moi !) Empty Re: casse tête (pour moi !)

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum