Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Urgent svp : sélection du modèle rég log
4 participants
Page 2 sur 2
Page 2 sur 2 • 1, 2
Re: Urgent svp : sélection du modèle rég log
Ben disons que dans ton cas ça marche, c'est sur, mais c'est pas pour autant que tes estimateurs ne sont pas biaisé.
Si ton seul interêt c'est de dégager le meilleur modèle prédictif, je te conseil de faire du forward directement. Si par contre ton but est de prendre le modèle complet et d'observer l'influence de chaque modalités alors tu risques d'avoir les soucis que tu as rencontrés, au final...
Pour ce qui est de la marge (5 individus pour 1 variable) c'est en fait subjectif, c'est un peu comme le critère pour pouvoir utiliser le test d'indépendance du chi-2.... on dit qu'il faut au moins 5 individus dans chaque groupe de la variable réponse mais...
Si ton seul interêt c'est de dégager le meilleur modèle prédictif, je te conseil de faire du forward directement. Si par contre ton but est de prendre le modèle complet et d'observer l'influence de chaque modalités alors tu risques d'avoir les soucis que tu as rencontrés, au final...
Pour ce qui est de la marge (5 individus pour 1 variable) c'est en fait subjectif, c'est un peu comme le critère pour pouvoir utiliser le test d'indépendance du chi-2.... on dit qu'il faut au moins 5 individus dans chaque groupe de la variable réponse mais...
Re: Urgent svp : sélection du modèle rég log
Ok merci beaucoup, je vais suivre tous ces précieux conseils et essayer de relire de la doc maintenant que tout ça se concrétise un peu... A+!
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
D'accord merci, mais dans ce cas si je comprends bien dans mon cas mon nombre d'individus est suffisant vis-à-vis du nombre de paramètres?...Donc je ne vois toujours pas le problème?...
Non...
Le ratio entre le nombre d'indiv et le nombre de paramètre doit être d'environ 40 (e.g. Burnham & Anderson, 2002) et toi tu as 32 paramètres estimés pour 277 individus soit un ratio ~9. On est très loin du compte. Ceci provient du fait que l'ajout de paramètres à estimer dans un modèle entraine l'apparition d'une incertitude plus grande sur l'estimation de la distance de Kullback-Leibler qui est à l'origine du calcule de l'AIC. Du coup ton estimation de l'AIC le plus bas (celui du meilleur modèle) peut devenir complètement foireuse.
Pour ce qui est de la forward/backward and co, je ne sais pas ce que tu utilises mais s'il s'agit d'une sélection basée sur la p-value ou autre R² je te la déconseille fortement car c'est beaucoup trop dépendant du jeu de donnée et en général assez peu reproductible. Si tu base ta sélection sur l'AIC, alors choisi plutôt l'AICc qui intègre une correction supplémentaire liée à ton effectif.
Pour donner mon avis un peu perso sur la question, toutes les méthodes automatisées de sélection de modèle relève plus de la boite à magie que d'une réelle approche statistique de la question. Cela incite les gens à mettre de plus en plus de variables dans leur routine sans plus se poser de question sur les bases de ce qu'ils pratiquent. A la fin on obtient des modèles soutenus par des p-values et des étoiles dont personne ne comprend réellement la signification. Bref c'est vraiment dommage.
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Urgent svp : sélection du modèle rég log
Pour donner mon avis un peu perso sur la question, toutes les méthodes
automatisées de sélection de modèle relève plus de la boite à magie que
d'une réelle approche statistique de la question. Cela incite les gens à
mettre de plus en plus de variables dans leur routine sans plus se
poser de question sur les bases de ce qu'ils pratiquent. A la fin on
obtient des modèles soutenus par des p-values et des étoiles dont
personne ne comprend réellement la signification. Bref c'est vraiment
dommage.
C'est bien pour ça qu'il est conseillé de choisir au préalable des variables dont on sait ou on soupçonne quelles ont un effet sur la variable réponse (hypothèse théorique, littérature, etc.). D'ailleurs Burnham & Anderson, 2002 recommande l'utilisation de sous modèle qui contiennent des variables avec de vrais hypothèses derrières. Sinon tu as d'autres types d'approches qui consistent à calculer tous les sous modèles et choisir un modèle selon un critère, par exemple AIC (je n'ai plus la ref en tête).
De plus ici il y a un gros soucis au départ sur la formalisation des hypothèses. Le plus d'une procédure de sélection est de choisir un sous ensemble de variable selon un critère lambda qui prédise le mieux la réponse. On est ici dans la construction d'un modèle prédictif et pas du tout inférentiel, le but n'étant pas de tester l'effet de la variable Xi sur Y.
On peut très bien avoir une variable X avec un effet significatif sur Y qui ne soit pas sélectionner si tu as un couple de variable Xa et Xb qui explique "mieux" Y que X toute seule. Donc il te faut au préalable regarder la structure de ton jeu de données. Ensuite il te fau savoir ce que tu cherches à faire : tester l'effet des variables environnementales sur Y ou chercher à construire un modèle qui explique le mieux Y ?
Inférentiel ou prédictif ?
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Urgent svp : sélection du modèle rég log
C'est bien pour ça qu'il est conseillé de choisir au préalable des variables dont on sait ou on soupçonne quelles ont un effet sur la variable réponse (hypothèse théorique, littérature, etc.).
Tout à fait.C'est certainement l'étape la plus importante et peut être la plus longue suivant le système étudié. C'est peut être pour cela que la plupart des gens ont tendance à éliminer cette étape...?
Si je comprend bien, je pense que c'est une méthode à éviter car tu vas toujours avoir tendance à sélectionner le modèle qui a le plus de paramètre même s'il n'est pas "réellement" le "meilleur" modèle. Burnham & Anderson parlent de data dredging car c'est encore une fois une manière automatisée de gérer la sélection de modèle.Sinon tu as d'autres types d'approches qui consistent à calculer tous les sous modèles et choisir un modèle selon un critère, par exemple AIC (je n'ai plus la ref en tête).
oui ! remarque bien formulée. Je souhaite ajouter que dans une approche "test d'effet" il faut se méfier des approches univariées bien trop souvent priviliégiées car plus facile à percevoir pour l'utilisateur.De plus ici il y a un gros soucis au départ sur la formalisation des hypothèses. Le plus d'une procédure de sélection est de choisir un sous ensemble de variable selon un critère lambda qui prédise le mieux la réponse. On est ici dans la construction d'un modèle prédictif et pas du tout inférentiel, le but n'étant pas de tester l'effet de la variable Xi sur Y.
Les approches basées sur les critères d'information peuvent aussi être employées dans ce cas notamment par l'utilisation des poids d'Akaike : tout un programme !
Pour être plus général, travailler avec la théorie de l'information est un choix qui doit être vu comme une alternative au test d'hypothèse nulle et ses p-values. Il faut bien distinguer cela d'une mode même si l'engouement pour ce type d'approche y fait un peu penser car la philosophie derrière est bien différente.
J'espère que liou ne vas pas s'enfuir à toutes enjambées !
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Urgent svp : sélection du modèle rég log
Non pas forcément puisque si tu te bases sur des critères comme l'AIC ou ces variantes, les valeurs de ces indices prennent en compte le nombre de paramètres dans les modèles et ce n'est pas le modèle avec le plus de paramètres qui a le plus faible AIC. C'est juste une autre approche qui a mon avis n'a pas plus de sens que ça mais elle existe et est utiliser quand a l'inverse de la méthode de B&A les utilisateurs n'ont pas d'hypothèses à priori. Elle est souvent utiliser en lieu et place de la stepwise qui est critiqué par sa tendance à conserver dans les modèles des variables sans intérêt (je peux te retrouver la ref si tu veux).Si je comprend bien, je pense que c'est une méthode à éviter car tu vas
toujours avoir tendance à sélectionner le modèle qui a le plus de
paramètre même s'il n'est pas "réellement" le "meilleur" modèle. Burnham
& Anderson parlent de data dredging car c'est encore une fois une
manière automatisée de gérer la sélection de modèle.
Je partage ton avis à 100%, mais peut-être parce que nous avons suivi les memes apprentissages stats ...Pour être plus général, travailler avec la théorie de l'information est
un choix qui doit être vu comme une alternative au test d'hypothèse
nulle et ses p-values. Il faut bien distinguer cela d'une mode même si
l'engouement pour ce type d'approche y fait un peu penser car la
philosophie derrière est bien différente.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Urgent svp : sélection du modèle rég log
à conserver dans les modèles des variables sans intérêt (je peux te retrouver la ref si tu veux
oui je veux bien
un petit EDIT :
Je parlais plutôt des modèles qui sont proches en terme de nombre de paramètres mais sur lesquels l'incertitude de l'estimation de la distance de KL va jouer. Tu peux alors parfaitement sélectionner un modèle avec plus de paramètres malgré la pénalisation le K. C'est ce qui se passera si dans un ensemble de "bons modèles" la variance de l'estimation de KL est telle l'intervalle de valeurs se chevauche le long d'un gradient de nombre de paramètre. J'espère que je suis clair mais c'est pas sûrnon pas forcément puisque si tu te bases sur des critères comme l'AIC ou ces variantes, les valeurs de ces indices prennent en compte le nombre de paramètres dans les modèles et ce n'est pas le modèle avec le plus de paramètres qui a le plus faible AIC.
je préciserai au besoin
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Urgent svp : sélection du modèle rég log
Non non je ne m'enfuie pas, ravie que mon sujet provoque d'aussi intenses débats mais j'avoue que je perds un peu le fil... Réponse à une remarque récurrente : je n'ai pas du tout choisi mes variables explicatives au hasard, mais après de longues recherches biblio, et avec des hypothèses précises. C'est pourquoi toutes mes variables explicatives initiales sont potentiellement intéressantes, et cela m'ennuie d'en éliminer trop rapidement. De plus, si je comprends bien, d'après les remarques de Nik, en gardant seulement les variables qui apparaissent liées à ma variable dépendante suite à des tests univariés ou bivariés je fais fausse route?
Pour répondre à Droopy, je cherche plus à étudier l'effet de mes variables explicatives qu'à produire un bon modèle prédictif...
Pour répondre à Droopy, je cherche plus à étudier l'effet de mes variables explicatives qu'à produire un bon modèle prédictif...
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
Salut,
la sélection de modèle est vraiment une question complexe qui demande une approche posée et réfléchie de la question scientifique sous jacente. En fait on peut en parler des heures car beaucoup d'éléments théoriques sont toujours discutables et discutés .
Pour ce qui est de l'approche univariée (ou plutôt bivariée ), c'est une chose à regarder c'est sûr mais je ne pense pas que cela doive être le facteur principal dans l'orientation du choix des variables. Une variable à priori non corrélée à la variable dépendante peut tout à fait jouer un rôle clef dans le système étudié s'il s'agit d'un élément relais entre plusieurs autre. A noter aussi, chose philosophiquement et pratiquement très importante, que la corrélation n'est en rien une mesure de causalité et qu'il faut donc prendre du recul sur le jugement que l'on a sur les données vis à vis des corrélations et de la question scientifique.
Donc pour résumer, les graph bivarié c'est important à regarder mais ça ne doit pas remplacer la connaissance que l'on a du système et les hypothèses émises à partir de cette connaissance.
nik
la sélection de modèle est vraiment une question complexe qui demande une approche posée et réfléchie de la question scientifique sous jacente. En fait on peut en parler des heures car beaucoup d'éléments théoriques sont toujours discutables et discutés .
Pour ce qui est de l'approche univariée (ou plutôt bivariée ), c'est une chose à regarder c'est sûr mais je ne pense pas que cela doive être le facteur principal dans l'orientation du choix des variables. Une variable à priori non corrélée à la variable dépendante peut tout à fait jouer un rôle clef dans le système étudié s'il s'agit d'un élément relais entre plusieurs autre. A noter aussi, chose philosophiquement et pratiquement très importante, que la corrélation n'est en rien une mesure de causalité et qu'il faut donc prendre du recul sur le jugement que l'on a sur les données vis à vis des corrélations et de la question scientifique.
Donc pour résumer, les graph bivarié c'est important à regarder mais ça ne doit pas remplacer la connaissance que l'on a du système et les hypothèses émises à partir de cette connaissance.
nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Urgent svp : sélection du modèle rég log
Bonjour,
je viens de réaliser une régression logistique sur d'autres données, et j'obtiens des résultats satisfaisants tant d'un point de vue statistique que biologique. Mais j'ai à nouveau une question : l'une de mes variables, que je suppose très importante dans l'explication de ma variable binaire, se voit associer dans le modèle complet ou après plusieurs modes de sélection un coefficient très important relativement aux autres explicatives, mais selon le test de Wald ce coefficient a une pente non significativement différente de 0. Cela me paraît un peu contradictoire, et surtout comment interpréter cela? J'hésite à supprimer du modèle cette variable assez fondamentale selon moi, mais puis-je conserver dans un modèle une telle variable si la pente est non significativement différente de 0?
Merci! (Rassurez-vous, mon étude approche de son terme je ne vous embêterai plus...)
je viens de réaliser une régression logistique sur d'autres données, et j'obtiens des résultats satisfaisants tant d'un point de vue statistique que biologique. Mais j'ai à nouveau une question : l'une de mes variables, que je suppose très importante dans l'explication de ma variable binaire, se voit associer dans le modèle complet ou après plusieurs modes de sélection un coefficient très important relativement aux autres explicatives, mais selon le test de Wald ce coefficient a une pente non significativement différente de 0. Cela me paraît un peu contradictoire, et surtout comment interpréter cela? J'hésite à supprimer du modèle cette variable assez fondamentale selon moi, mais puis-je conserver dans un modèle une telle variable si la pente est non significativement différente de 0?
Merci! (Rassurez-vous, mon étude approche de son terme je ne vous embêterai plus...)
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
Salut,
Comme j'ai essayé de le dire précédemment, les test sur les valeurs des paramètres via une p-value sont généralement dangereux. Le fait que ton paramètre ait une certaine proba d'être à 0 peut provenir d'une incertitude élevée sur sa valeur. Cette incertitude a de forte chance d'être reliée à tes données et pas à la nature réelle du modèle qui explique au mieux tes données (i.e. celui qui se rapproche le plus de la réalité).
Donc si tu as choisi une approche type AICc, alors ne t'embête pas avec les p-value associée au paramètre et ce, surtout si tu as des hypothèses solides pour argumenter l'inclusion de la variable dans le modèle. C'est l'étape du raisonnement par hypothèse qui est cruciale pas celle de l'association d'une p-value qui ne veut pas dire grand chose quant à la qualité du modèle.
La significativité est plus une question de tradition de la pratique des stat qu'une réalité par rapport au modèle : il ne faut pas lui accorder plus de crédit qu'elle n'en mérite!
nik
Comme j'ai essayé de le dire précédemment, les test sur les valeurs des paramètres via une p-value sont généralement dangereux. Le fait que ton paramètre ait une certaine proba d'être à 0 peut provenir d'une incertitude élevée sur sa valeur. Cette incertitude a de forte chance d'être reliée à tes données et pas à la nature réelle du modèle qui explique au mieux tes données (i.e. celui qui se rapproche le plus de la réalité).
Donc si tu as choisi une approche type AICc, alors ne t'embête pas avec les p-value associée au paramètre et ce, surtout si tu as des hypothèses solides pour argumenter l'inclusion de la variable dans le modèle. C'est l'étape du raisonnement par hypothèse qui est cruciale pas celle de l'association d'une p-value qui ne veut pas dire grand chose quant à la qualité du modèle.
La significativité est plus une question de tradition de la pratique des stat qu'une réalité par rapport au modèle : il ne faut pas lui accorder plus de crédit qu'elle n'en mérite!
nik
tatata...une étude n'est jamais finie, on la laisse juste en état faute de mieux !(Rassurez-vous, mon étude approche de son terme je ne vous embêterai plus...)
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Urgent svp : sélection du modèle rég log
Je suis d'accord en partie avec ce que dit Nik. Effectivement si l'écart type associé a ton paramètre est grand alors tu vas avoir tendance à ne pas rejeter H0, et dire qu'il n'est pas significativement différente de 0. De plus la valeur du coefficient va dépendre de l'échelle de ta variable explicative. La même variable exprimée en mètre ou en kilomètre n'aura pas le même coefficient (facteur x près). Par contre tu peux regarder l'effet de cette variable sur la différence de déviance, et si la aussi tu n'as rien de significatif alors peut-être bien que cette variable n'explique en rien la variable expliquée. Si tu la gardes alors tu peux être confronter à des problèmes d'overfitting par la suite.
De plus un rapport, article ou quelque soit le support avec lequel tu communiques tes résultats et où tu ne joins pas la significativité de l'effet de tes variables (et non pas la significativité de ton coefficient) trouvera difficilement grâce auprès de tes examinateurs, ou collègues. Par contre on est tout a fait d'accord sur le fait que significativité statistique et significativité biologique sont deux choses à part.
De plus un rapport, article ou quelque soit le support avec lequel tu communiques tes résultats et où tu ne joins pas la significativité de l'effet de tes variables (et non pas la significativité de ton coefficient) trouvera difficilement grâce auprès de tes examinateurs, ou collègues. Par contre on est tout a fait d'accord sur le fait que significativité statistique et significativité biologique sont deux choses à part.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Page 2 sur 2 • 1, 2
Sujets similaires
» Régression de Cox : sélection de modèle
» selection de données
» sélection de variables
» AIC vs p-value sélection de variables
» stepAIC - Sélection de modèles
» selection de données
» sélection de variables
» AIC vs p-value sélection de variables
» stepAIC - Sélection de modèles
Page 2 sur 2
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum