Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Régression de Cox : sélection de modèle
4 participants
Page 1 sur 1
Régression de Cox : sélection de modèle
Bonjour à tous,
Je travaille actuellement sur un jeu de données médicales sur lequel je souhaite réaliser une analyse de survie. Pour cela, j'ai choisi d'utiliser (entre autres) une régression de Cox multivariée.
Ma question est la suivante : comment procède-t-on à une sélection de variables/modèles dans le cas d'une telle régression ? Existe-t-il des procédures comme dans le cas d'une régression linéaire "classique" telles que par exemple l'utilisation des critères AIC, BIC ?
Je vous remercie par avance.
Cordialement,
A.D.
Je travaille actuellement sur un jeu de données médicales sur lequel je souhaite réaliser une analyse de survie. Pour cela, j'ai choisi d'utiliser (entre autres) une régression de Cox multivariée.
Ma question est la suivante : comment procède-t-on à une sélection de variables/modèles dans le cas d'une telle régression ? Existe-t-il des procédures comme dans le cas d'une régression linéaire "classique" telles que par exemple l'utilisation des critères AIC, BIC ?
Je vous remercie par avance.
Cordialement,
A.D.
Re: Régression de Cox : sélection de modèle
Bonjour,
Pour toute etude, et c'est d'autant plus vrai sur des donnees medicales, le choix des variables se fait en termes de pertinence clinique plutot qu'en termes de criteres statistiques. Il faut toujours ajuster sur les variables connues dans la litterature comme etant lie au critere de jugement (la variable dependante) et/ou au traitement a l'etude. Attention toutefois a ne pas inclure trop de variables. Meme s'il n'y a pas vraiment de regle etablie, c'est pas mal de garder la regle utilisee en regression logistique, a savoir une variable pour 10 evenements. Donc si ton evenement est le deces, par exemple et que tu observes 30 deces, tu pourras avoir au maximum 3 variables dans ton modele.
Ayana
Pour toute etude, et c'est d'autant plus vrai sur des donnees medicales, le choix des variables se fait en termes de pertinence clinique plutot qu'en termes de criteres statistiques. Il faut toujours ajuster sur les variables connues dans la litterature comme etant lie au critere de jugement (la variable dependante) et/ou au traitement a l'etude. Attention toutefois a ne pas inclure trop de variables. Meme s'il n'y a pas vraiment de regle etablie, c'est pas mal de garder la regle utilisee en regression logistique, a savoir une variable pour 10 evenements. Donc si ton evenement est le deces, par exemple et que tu observes 30 deces, tu pourras avoir au maximum 3 variables dans ton modele.
Ayana
Ayana- Nombre de messages : 550
Localisation : Londres
Date d'inscription : 18/08/2009
Re: Régression de Cox : sélection de modèle
Bonjour Ayana,
Merci beaucoup pour ta réponse
Petite question subsidiaire : comment justifier cette règle "une variable pour 10 événements" ?
Egalement, je sors peut-être un peu du sujet initial mais j'aurais aimé savoir qu'est-ce qui est en général préconisé pour la gestion des "vides" (individus pour lesquels on n'a pas d'information pour une ou plusieurs variables données) pour un modèle de régression de Cox multivariée (notamment dans le cas de données médicales) ?
Merci d'avance !
Cordialement,
A.D.
Merci beaucoup pour ta réponse
Petite question subsidiaire : comment justifier cette règle "une variable pour 10 événements" ?
Egalement, je sors peut-être un peu du sujet initial mais j'aurais aimé savoir qu'est-ce qui est en général préconisé pour la gestion des "vides" (individus pour lesquels on n'a pas d'information pour une ou plusieurs variables données) pour un modèle de régression de Cox multivariée (notamment dans le cas de données médicales) ?
Merci d'avance !
Cordialement,
A.D.
Re: Régression de Cox : sélection de modèle
Bonjour,
Sauf erreur de ma part l'estimation dans les modèles de cox se fait au maximum de vraisemblance donc on peut utiliser tout ce qui est critère d'information.
Donc, je suis tout à fait dans la ligne d'Ayana lorsqu'il dit que le choix se fait sur la pertinence clinique mais cela a également ses limites puisque notre pauvre petit cerveau n'est pas en mesure de visualiser tout seul tout les phénomènes d'interaction qui peuvent se produire dans les estimations de paramètre dans une régression multiple.
La méthodo consiste effectivement à définir ses variables d'intérêt sur des critères cliniques afin d'éviter des variables absurdes mais ensuite il faut définir les hypothèses à tester en ce qui concerne l'assemblage de ces variables. Cette seconde étape ne peut se faire sur une simple connaissance des processus clinique car elle dépend avant tout des données. Il faut alors établir une liste de modèle candidat pour lesquels on peut calculer les critères d'information.
En l'absence de connaissance à priori permettant d'établir les modèles candidats une procédure de dredging ou de stepwise pourra être employée.
Pour les 10 évènements, à mon avis il n'y a pas de règle car pour moi cela dépend avant tout d'une analyse de puissance et pour les modèles de Cox je ne sais pas si c'est possible. 10 me semble être vraiment un minimum absolu. Par exemple Burnham et Anderson donnent une règle à n/k = 40 (n, nb d'obs et k, nb de paramètre du modèle) pour pouvoir utiliser l'AIC.
pour les données manquantes, je ne sais pas.
HTH
Nik
Sauf erreur de ma part l'estimation dans les modèles de cox se fait au maximum de vraisemblance donc on peut utiliser tout ce qui est critère d'information.
Donc, je suis tout à fait dans la ligne d'Ayana lorsqu'il dit que le choix se fait sur la pertinence clinique mais cela a également ses limites puisque notre pauvre petit cerveau n'est pas en mesure de visualiser tout seul tout les phénomènes d'interaction qui peuvent se produire dans les estimations de paramètre dans une régression multiple.
La méthodo consiste effectivement à définir ses variables d'intérêt sur des critères cliniques afin d'éviter des variables absurdes mais ensuite il faut définir les hypothèses à tester en ce qui concerne l'assemblage de ces variables. Cette seconde étape ne peut se faire sur une simple connaissance des processus clinique car elle dépend avant tout des données. Il faut alors établir une liste de modèle candidat pour lesquels on peut calculer les critères d'information.
En l'absence de connaissance à priori permettant d'établir les modèles candidats une procédure de dredging ou de stepwise pourra être employée.
Pour les 10 évènements, à mon avis il n'y a pas de règle car pour moi cela dépend avant tout d'une analyse de puissance et pour les modèles de Cox je ne sais pas si c'est possible. 10 me semble être vraiment un minimum absolu. Par exemple Burnham et Anderson donnent une règle à n/k = 40 (n, nb d'obs et k, nb de paramètre du modèle) pour pouvoir utiliser l'AIC.
pour les données manquantes, je ne sais pas.
HTH
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Régression de Cox : sélection de modèle
Merci pour ton retour et ces infos complémentaires Nik
Cordialement,
A.D.
Cordialement,
A.D.
Re: Régression de Cox : sélection de modèle
Lien données manquantes cox model
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2998703/
Pour la sélection des covariables, j'apporterais un petit bemol a ce qui a été dit. Certes notre petit cerveau ne peut pas visualiser les phenomenes d'interaction, mais ce pauvre petit cerveau a aussi une forte tendance à considérer comme vrai tout ce qui est chiffré et mathématique. On n'y peut rien, on est faits comme ca et c'est assez dur de se forcer a lutter contre cette tendance naturelle.
Les modèles de régression multiples ayant très souvent été utilisés à tord et à travers, en particulier dans des thèses pas très bien ficelées mais aussi dans certains papiers, ils ont trop souvent amené à conclure à des stupidités monumentales. J'observe une tendance relativement forte dans le milieu de la recherche clinique: tout ce qui repose sur de la "régression multiple et compagnie" est de plus en plus considéré comme pas très solide, pour ne pas dire suspect. Des qu'ils voient régression multiple ou - pire- qu'ils soupconnent l'auteur d'etre allé à la pêche en envoyant des matrices de corrélation au pif, les lecteurs ont tendance a regarder de très près la méthodo.
Tout ca pour dire qu'il faut assurer le lecteur qu'on n'a pas fait du pif en introduisant tout et n'importe quoi "jusqu'à ce que ca sorte" : apporter un soin particulier à la justification des covariables introduites dans le modèle, ne jamais trop s'éloigner d'une certaine logique clinique et se poser en permanence la question : puis je justifier (cliniquement ou mathématiquement) ce que je suis en train de faire?
http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2998703/
Pour la sélection des covariables, j'apporterais un petit bemol a ce qui a été dit. Certes notre petit cerveau ne peut pas visualiser les phenomenes d'interaction, mais ce pauvre petit cerveau a aussi une forte tendance à considérer comme vrai tout ce qui est chiffré et mathématique. On n'y peut rien, on est faits comme ca et c'est assez dur de se forcer a lutter contre cette tendance naturelle.
Les modèles de régression multiples ayant très souvent été utilisés à tord et à travers, en particulier dans des thèses pas très bien ficelées mais aussi dans certains papiers, ils ont trop souvent amené à conclure à des stupidités monumentales. J'observe une tendance relativement forte dans le milieu de la recherche clinique: tout ce qui repose sur de la "régression multiple et compagnie" est de plus en plus considéré comme pas très solide, pour ne pas dire suspect. Des qu'ils voient régression multiple ou - pire- qu'ils soupconnent l'auteur d'etre allé à la pêche en envoyant des matrices de corrélation au pif, les lecteurs ont tendance a regarder de très près la méthodo.
Tout ca pour dire qu'il faut assurer le lecteur qu'on n'a pas fait du pif en introduisant tout et n'importe quoi "jusqu'à ce que ca sorte" : apporter un soin particulier à la justification des covariables introduites dans le modèle, ne jamais trop s'éloigner d'une certaine logique clinique et se poser en permanence la question : puis je justifier (cliniquement ou mathématiquement) ce que je suis en train de faire?
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Sujets similaires
» Anova appliquée sur un modèle de régression ?
» Urgent svp : sélection du modèle rég log
» glmmPQL - surdispersion et selection de modèle
» choix entre méthodes de selection régression logistique
» Modèle de régression
» Urgent svp : sélection du modèle rég log
» glmmPQL - surdispersion et selection de modèle
» choix entre méthodes de selection régression logistique
» Modèle de régression
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum