Taille de données d'apprentissage

par toussaZK Mer 12 Oct 2016 - 8:31

Bonjour,

Dans le cadre des essais clinique,on veut prédire une variable d’intérêt.
Ils ont fait deux phases de l'étude :
1- utilisation de la régression logistique pour identifier les facteurs pertinents( sur 175 patients )
2- deuxième phase, un questionnaire, ne comportant que les variables identifiées comme pertinentes au cours de la première phase, sera appliqué à une population indépendante de patients consultant pour le même motif et le score sera calculé( encore 175 patients)

Ce raisonnement me semble pas logique, et je me demande s'il est nécessaire de faire les 2 phases ? Pour construire un score il n'est pas suffisant de découper les jeux de données en 80% pour l'apprentissage et 20% pour le test et valider ainsi le modèle de régression ?

par Florent Aubry Mer 12 Oct 2016 - 9:01

L'approche consistant à diviser l'ensemble en deux parties, apprentissage 80%, test 20%, relève de la technique de la validation croisée. Il faut cependant faire tourner les 20% de telles façon que tous les individus soient utilisés (si possible un même nombre de fois selon la méthode utilisée) dans l'ensemble d'apprentissage et dans l'ensemble de test. Elle est préférable pour donner une idée réaliste des performances à l'approche consistant à construire le modèle sur toutes les données puis calculer l'erreur d'estimation à partir du modèle construit. Cependant, comme les données sont utilisées à la fois dans l'ensemble d'apprentissage et l'ensemble de test, cela induit un biais. Donc quand c'est possible, il faut utiliser deux ensembles disjoints.

On peut toujours utiliser un ensemble d'apprentissage de 140 (ce que tu proposes) et un ensemble de test de 35 individus mais il est certain que la précision du modèle sera (légèrement) affectée, 175 permettant une meilleure identification, et que la précision de l'erreur d'estimation sera grandement affectée d'un facteur 5 en termes d'erreur quadratique.

Ensuite, c'est une question de choix en fonction des objectifs et des moyens. S'il est possible d'avoir 175 + 175 individus, c'est la solution à adopter.

par toussaZK Mer 12 Oct 2016 - 9:24

Je vous remercie pour réponse, donc l'utilisation de la validation croisée envisageable.
Ce que je n'ai pas compris est l'utilisation de 175 observation pour identifier les facteurs les plus pertinents par régression logistiquee, et ensuite construire le score sur une nouvelle base de donnée en utilisant( le deuxième jeu de données sera découpé en 80% et 20 pour construire et validé le score )

Ma question: peut on se débarrasser de la première phase de l'identification des facteurs pertinents et passer directement à la construction du score par régression logistique ( avec 140 obs pour l'apprentissage et 35 pour le test ) et utilisé ainsi la méthode de stepAIC pour identifier le modèle le plus pertinent de la régression ?

par Florent Aubry Mer 12 Oct 2016 - 10:03

On est toujours dans la même problématique. La première phase, trouver les paramètres les plus pertinents, relève de l'identification du modèle, la seconde phase de sa validation.

Si je comprends ta démarche, tu veux utiliser la fonction stepAIC (sous R ?) pour chercher le modèle le plus pertinent dans la première phase. stepAIC va donner un modèle d'ajustement et non de prédiction en tenant compte du nombre de paramètres à estimer. Il faut savoir que cette fonction peut présenter des minima locaux et qu'elle s'arrête quand elle rencontre le premier minimum. Cela signifie que si on part du modèle nul (ou vide) de type Y ~ 1 en remontant vers le modèle saturé et qu'on part de ce modèle saturé pour descendre vers le modèle nul, on ne trouve pas forcément le même modèle. Si c'est le cas, le choix peut être le modèle le plus simple en absolu, ou de comparer les AIC et de choisir celui dont l'AIC est le plus faible ou d'utiliser une comparaison par la fonction anova...

Ensuite, dans une seconde étape tu veux valider ce modèle par une technique du type validation croisée mais sur quel critère pourras-tu affirmer que ce modèle est le 'meilleur' modèle de prédiction compte-tenu des données disponibles ? Le fait que ce soit un 'bon' modèle d'ajustement (phase 1) n'implique pas obligatoirement que c'est un 'bon' modèle de prédiction. Il est plus cohérent d'utiliser le premier jeu pour identifier les paramètres d'un modèle de prédiction et d'appliquer ces paramètres sur le second jeu. Puisqu'il s'agit de régression logistique, tu peux mesurer les performances du modèle par des courbes ROC et la comparaison des modèles se fera par la comparaison des aires sous les courbes ROC (AUC). Il est alors nécessaire d'écrire sa propre procédure.

On peut penser commencer par sélectionner plusieurs sous-ensemble de variables à tester en utilisant d'autres techniques que le modèle glm (par exemple, random forest) ou un modèle de type greedy, glouton en français (c'est-à-dire qui ne revient pas sur les choix antérieurs contrairement au fonctionnement par défaut de stepAIC sous R) à partir de glm.

Essaies de fouiller du côté des techniques de machine learning et de data mining dont les objectifs se rapprochent du tien.

par toussaZK Mer 12 Oct 2016 - 10:20

Merci pour retour,

Au fait le problème est que je reprend une étude faite par une autre personne et n'est pas du tout commentée et mon rôle est de justifier ses choix.

Donc pour calculer le score il faut utiliser une autre méthode ? existe il des méthodes conseillées pour calculer le score ?

par Florent Aubry Mer 12 Oct 2016 - 11:44

toussaZK a écrit:je reprend une étude faite par une autre personne et n'est pas du tout commentée et mon rôle est de justifier ses choix

Alors bon courage.

Plaisanterie mis à part, à mon avis, le meilleur score à utiliser est l'AUC sous la courbe ROC. La matrice de confusion correspond en fait à un calcul en un point particulier de la courbe ROC. On peut le déterminer de différentes manières : point le plus éloigné de la diagonale (la diagonale correspond au classement au hasrd), point qui minimise une fonction de coût...

par c@ssoulet Mer 12 Oct 2016 - 11:54

C'est vraiment difficile de répondre sans connaitre le fond de l'étude.

Mais la réponse est peut etre tout simplement dans l'effectif. Là tu as un effectif total de 175*2=350 patients

Avec la règle des 80/20, si l'objectif est de tester sur 175 patients, il faut inclure 875 patients : 700 pour l'apprentissage et 175 pour le test. Ca fait une sacrée différence de budget, de moyens mis en oeuvre et de durée.

par toussaZK Mer 12 Oct 2016 - 12:14

Merci pour vos réponses,

Je pense que j'ai trouvé un article expliquant la méthodologie de la construction d'un score de diagnostic, je le met en lien ça peut aider d'autres personnes ^^
http://www.revmed.ch/RMS/2011/RMS-295/Developpement-implementation-et-utilisation-pratique-d-un-score-diagnostique

par c@ssoulet Mer 12 Oct 2016 - 12:28

merci ++ !

par Contenu sponsorisé

Taille de données d'apprentissage

Taille de données d'apprentissage

Re: Taille de données d'apprentissage

Re: Taille de données d'apprentissage

Re: Taille de données d'apprentissage

Re: Taille de données d'apprentissage

Re: Taille de données d'apprentissage

Re: Taille de données d'apprentissage

Re: Taille de données d'apprentissage

Re: Taille de données d'apprentissage

Re: Taille de données d'apprentissage