Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Evaluation de résidus dans un modèle
4 participants
Page 1 sur 1
Evaluation de résidus dans un modèle
Bonjour, ma question porte sur le caractère "itératif" d'évaluation des résidus dans un modèle.
Je suis en train d'évaluer des résidus d'un modèle logistic.
Mon évaluation des résidus les plus extrêmes m'a amené à exclure 3 patients qui n'étaient pas raccords avec le reste des patients.
J'ai donc relancé mon modèle logistic et réévalué les résidus.
J'ai désormais de nouveaux résidus détectés.
Avec cette façon de procéder, j'ai l'impression qu'il est possible d'avoir plusieurs étapes d'évaluation du modèle.
Est-ce nécessaire d'évaluer plus d'une fois les résidus d'un modèle ?
Merci
Je suis en train d'évaluer des résidus d'un modèle logistic.
Mon évaluation des résidus les plus extrêmes m'a amené à exclure 3 patients qui n'étaient pas raccords avec le reste des patients.
J'ai donc relancé mon modèle logistic et réévalué les résidus.
J'ai désormais de nouveaux résidus détectés.
Avec cette façon de procéder, j'ai l'impression qu'il est possible d'avoir plusieurs étapes d'évaluation du modèle.
Est-ce nécessaire d'évaluer plus d'une fois les résidus d'un modèle ?
Merci
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Evaluation de résidus dans un modèle
Salut,
je dirais qu'il est préférable de le faire qu'une fois pour ne pas dénaturer ton modèle. Plus tu enlèves de patients, plus ton modèle sera bon mais moins il sera "vrai" par rapport à la problématique de base je pense... si tu retrouves beaucoup de patients aberrants à chaque itération peut-être qu'il manque des informations à prendre en compte, ou que le modèle n'est pas le bon?
Il existe des méthodes itératives de régression pondérées (IRLS) qui permet de moins prendre en compte l'influence de certains points et obtenir des M-estimateurs. Je ne sais pas si c'est perspicace d'utiliser ces méthodes à chaque fois qu'on peut... ça peut biaiser l'estimation des paramètres si la source de l'hétéroscédasticité n'est pas celle de la correction, dans le cas d'une régression linéaire.
Mais dans le cas d'une régression logistique, les méthodes IRLS permettent peut-être d'améliorer les estimations dans tous les cas?
Niaboc
je dirais qu'il est préférable de le faire qu'une fois pour ne pas dénaturer ton modèle. Plus tu enlèves de patients, plus ton modèle sera bon mais moins il sera "vrai" par rapport à la problématique de base je pense... si tu retrouves beaucoup de patients aberrants à chaque itération peut-être qu'il manque des informations à prendre en compte, ou que le modèle n'est pas le bon?
Il existe des méthodes itératives de régression pondérées (IRLS) qui permet de moins prendre en compte l'influence de certains points et obtenir des M-estimateurs. Je ne sais pas si c'est perspicace d'utiliser ces méthodes à chaque fois qu'on peut... ça peut biaiser l'estimation des paramètres si la source de l'hétéroscédasticité n'est pas celle de la correction, dans le cas d'une régression linéaire.
Mais dans le cas d'une régression logistique, les méthodes IRLS permettent peut-être d'améliorer les estimations dans tous les cas?
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Evaluation de résidus dans un modèle
J'ai pas d'avis mathématique. Par contre l'exclusion de patients sur des critères purement mathématiques est un jeu dangereux.
Normalement, quand on travaille sur des patients, on peut exclure sur des critères cliniques mais pas mathématiques.
Pourquoi ? Parce que le "patient moyen" ou "l'être humain moyen" est une notion qui n'existe pas réellement: quand tu sélectionnes un échantillon, il y a toujours une proportion de sujets qui présentent des valeurs extremes. C'est comme ca, ca reflète la variabilité naturelle.
Si tu fais une sélection itérative sur un ou des critères par définition arbitraires, tu vas trouver des outliers sur x itérations. Ce processus te conduit à sélectionner un sous groupe très homogène sur tes variables de sélection, qui n'est donc plus représentatif de l'échantillon de départ. Echantillon de départ qui, lui même, est sensé etre représentatif d'une certaine population cible.
Il y a d'autres problèmes méthodo liés aux processus de sélection post inclusion, mais celui là est le plus évident.
En synthèse, si tu mets en évidence une différence sur ce type de population (après élimination des outliers), quel que soit le p tu ne peux jamais réellement savoir si il reflète une "vraie" différence ou est tout simplement la conséquence du processus de sélection. Donc finalement tu prends le risque de mettre en évidence des différences que tu as toi-même créées.
Normalement, quand on travaille sur des patients, on peut exclure sur des critères cliniques mais pas mathématiques.
Pourquoi ? Parce que le "patient moyen" ou "l'être humain moyen" est une notion qui n'existe pas réellement: quand tu sélectionnes un échantillon, il y a toujours une proportion de sujets qui présentent des valeurs extremes. C'est comme ca, ca reflète la variabilité naturelle.
Si tu fais une sélection itérative sur un ou des critères par définition arbitraires, tu vas trouver des outliers sur x itérations. Ce processus te conduit à sélectionner un sous groupe très homogène sur tes variables de sélection, qui n'est donc plus représentatif de l'échantillon de départ. Echantillon de départ qui, lui même, est sensé etre représentatif d'une certaine population cible.
Il y a d'autres problèmes méthodo liés aux processus de sélection post inclusion, mais celui là est le plus évident.
En synthèse, si tu mets en évidence une différence sur ce type de population (après élimination des outliers), quel que soit le p tu ne peux jamais réellement savoir si il reflète une "vraie" différence ou est tout simplement la conséquence du processus de sélection. Donc finalement tu prends le risque de mettre en évidence des différences que tu as toi-même créées.
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Evaluation de résidus dans un modèle
A mon avis, toute la discussion tient dans ce que veux vraiment dire :
HTH, Eric.
Ca veut dire quoi "pas raccords" ? Ca ressemble à quelque chose de suffisamment arbitraire pour dire que la démarche n'est pas la bonne. Ou bien une explication est nécessaire.zezima a écrit:exclure 3 patients qui n'étaient pas raccords avec le reste des patients.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Evaluation de résidus dans un modèle
Oui je trouve ça logique qu'il ne faille pas lancer trop souvent l'évaluation du modèle, et ton interprétation "meilleur modèle mais moins vrai" me semble logique.Niaboc a écrit:Niaboc
Je ne connaissais pas l'IRLS mais je vais investiguer tout ça et lancer des simulations.
Merci
Merci pour ton point, c'est très pertinent. (et ça remet en question tout ce que je suis en train de faire)Cassoulet a écrit:Cassoulet
Donc logiquement dès qu'on veut faire le choix de supprimer des points d'un modèle, il faut avoir une explication clinique ?
Une solution simple peut être de transformer les données (de manière pertinente) pour par exemple avoir une distribution qui définit bien les données.
Mais d'un autre côté, si on travaille sur la distance de Cook par exemple, on ne s'intéresse pas qu'à une seule variable, on suspecte un patient d'avoir des valeurs extrêmes au niveau de plusieurs variables, il y a alors deux hypothèses qui me viennent :
- Le patient a rencontré un problème lors de sa visite ou du processus de recueil de ses données
- Le patient est atypique mais les données ne sont pas aberrantes, il est censé rester dans le modèle
J'ai l'impression que c'est très tricky de savoir si on peut ou non exclure un patient pour améliorer le modèle (sachant que je n'ai aucun accès aux mode de recueil des données ou des potentiels biais de mesure qui ont pu être faits).
J'entends pas raccords des patients qui ont des valeurs extrêmes par rapport au reste des autres patients, par exemple qui sont mal situés (très éloignés du reste des points) sur une courbe qui croise la valeur prédite d'un modèle logistique avec les variables continues d'un modèle ou alors qui ont des résidus très élevés/une distance de Cook élevée.Eric Wajnberg a écrit:Ca veut dire quoi "pas raccords" ?
Ensuite je n'ai pas accès à plus d'informations que mon jeu de données donc je ne peux pas vérifier avec les ARCs si les données sont vraiment aberrantes. (donc il ne reste plus que l'évaluation arbitraire)
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Evaluation de résidus dans un modèle
Transformer les données ne pose aucun problème méthodo. Ca complique juste l'expression des résultats en langage courant.
Méthodologiquement, quand on constate des trucs étranges, d'abord on vérifie ses données. Quand on est absolument sur que les données cliniques et biologiques sont exactes et qu'on constate que le modèle mathématique ne "matche" pas, on en conclut généralement que c'est le modèle qui n'est pas bon. Pas que certains patients ne sont pas bons.
Pour interpréter des données d'essais cliniques interventionnels, 2 stratégies sont applicables
- l'intention de traiter: tous les patients sont inclus dans l'analyse quelle que soit la déviation. Y compris les arrêts précoces, les sorties d'étude.. etc. C'est l'analyse qui reflète le mieux la future "vraie vie du médicament" en pratique clinique courante. On peut travailler sur le "Full Analysis Set" pour exclure les éventuelles sorties très précoces: il est composé de tous les sujets randomisés ayant pris au moins une dose du traitement à l’étude et ayant au moins une évaluation du critère de jugement principal après la randomisation. C'est facile à justifier et ca n'enlève pas grand chose au niveau de preuve.
- le per protocol: La population Per Protocole est composée des patients qui ont été traités en pleine conformité avec le protocole. Les inclusions à tort, les sorties d'étude, les patients non observants ou les patients traités avec le traitement de l'autre groupe sont exclus de l'analyse.
Selon le type de population analysée (IT ou PP) on ne répond donc pas tout à fait à la même question. Mais dans ces cas on exclut sur des critères "méthodologiques", jamais parce que le patient est outlier sur une variable.
Sur des analyses d'études non interventionnelles c'est moins cadré. Donc on doit faire des choix méthodologiques et les justifier. Ces choix doivent être décidés et argumentés AVANT d'analyser les données.
Les aleas de mode de recueil des données ou les biais de mesure ne font que rajouter de la variabilité. Ils ne devraient pas influer de façon majeure sur la modelisation.
Dernière remarque: si tu dis à un clinicien que tu exclus des patients pour améliorer un modèle mathématique, il va faire demi-tour et se barrer en courant. Il attend de toi que tu choisisses le modèle décrivant au mieux tes patients. Pas que tu tordes les patients pour les faire rentrer dans le modèle :-)
Méthodologiquement, quand on constate des trucs étranges, d'abord on vérifie ses données. Quand on est absolument sur que les données cliniques et biologiques sont exactes et qu'on constate que le modèle mathématique ne "matche" pas, on en conclut généralement que c'est le modèle qui n'est pas bon. Pas que certains patients ne sont pas bons.
Pour interpréter des données d'essais cliniques interventionnels, 2 stratégies sont applicables
- l'intention de traiter: tous les patients sont inclus dans l'analyse quelle que soit la déviation. Y compris les arrêts précoces, les sorties d'étude.. etc. C'est l'analyse qui reflète le mieux la future "vraie vie du médicament" en pratique clinique courante. On peut travailler sur le "Full Analysis Set" pour exclure les éventuelles sorties très précoces: il est composé de tous les sujets randomisés ayant pris au moins une dose du traitement à l’étude et ayant au moins une évaluation du critère de jugement principal après la randomisation. C'est facile à justifier et ca n'enlève pas grand chose au niveau de preuve.
- le per protocol: La population Per Protocole est composée des patients qui ont été traités en pleine conformité avec le protocole. Les inclusions à tort, les sorties d'étude, les patients non observants ou les patients traités avec le traitement de l'autre groupe sont exclus de l'analyse.
Selon le type de population analysée (IT ou PP) on ne répond donc pas tout à fait à la même question. Mais dans ces cas on exclut sur des critères "méthodologiques", jamais parce que le patient est outlier sur une variable.
Sur des analyses d'études non interventionnelles c'est moins cadré. Donc on doit faire des choix méthodologiques et les justifier. Ces choix doivent être décidés et argumentés AVANT d'analyser les données.
Les aleas de mode de recueil des données ou les biais de mesure ne font que rajouter de la variabilité. Ils ne devraient pas influer de façon majeure sur la modelisation.
Dernière remarque: si tu dis à un clinicien que tu exclus des patients pour améliorer un modèle mathématique, il va faire demi-tour et se barrer en courant. Il attend de toi que tu choisisses le modèle décrivant au mieux tes patients. Pas que tu tordes les patients pour les faire rentrer dans le modèle :-)
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Evaluation de résidus dans un modèle
Merci cassoulet pour toutes ces précisions.
Je suis totalement raccord avec toi sur le fait qu'il faut décider en amont de l'analyse des choix méthodologiques qui vont être faits sinon on peut être amené à faire du data-dredging.
Ensuite, je te suis au niveau du fait qu'il faille plutôt blâmer le modèle plutôt que les données lorsqu'on obtient un mauvais fit.
Pour le coup, ce sur quoi je travaille n'est ni de la clinique, ni de la pré-clinique, je suis sur de la recherche de BMK pour certaines pathologies donc l'ITT et le Per protocol sont déjà appliqués en amont (et je n'ai aucun accès aux infos liées à ces deux stratégies).
Je te remercie pour ces infos, ça m'a fait réfléchir.
Je vais essayer de ne pas faire peur aux cliniciens
Je suis totalement raccord avec toi sur le fait qu'il faut décider en amont de l'analyse des choix méthodologiques qui vont être faits sinon on peut être amené à faire du data-dredging.
Ensuite, je te suis au niveau du fait qu'il faille plutôt blâmer le modèle plutôt que les données lorsqu'on obtient un mauvais fit.
Pour le coup, ce sur quoi je travaille n'est ni de la clinique, ni de la pré-clinique, je suis sur de la recherche de BMK pour certaines pathologies donc l'ITT et le Per protocol sont déjà appliqués en amont (et je n'ai aucun accès aux infos liées à ces deux stratégies).
Je te remercie pour ces infos, ça m'a fait réfléchir.
Je vais essayer de ne pas faire peur aux cliniciens
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Sujets similaires
» évaluation de la performance d'un modèle de prédiction
» Evaluation d'un modèle de classification (arbre de décision)
» Evaluation qualité eau et ACP
» Evaluation de l'hétérogénéité d'une variable à la baseline
» Critéres d'évaluation de l'état des eaux / pesticides
» Evaluation d'un modèle de classification (arbre de décision)
» Evaluation qualité eau et ACP
» Evaluation de l'hétérogénéité d'une variable à la baseline
» Critéres d'évaluation de l'état des eaux / pesticides
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum