Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Urgent svp : sélection du modèle rég log
4 participants
Page 1 sur 2
Page 1 sur 2 • 1, 2
Urgent svp : sélection du modèle rég log
Bonjour,
je rencontre des soucis en interprétation d'une régression logistique :
je cherche à mettre en évidence la relation entre des variables environnementales (qualitatives et quantitatives) et la présence/absence d'une espèce. J'ai dans un premier temps réalisé ma régression avec 4 variables environnementales seulement, que j'ai sélectionnées par deux approches : des X² entre les explicatives et ma variable à expliquer, et des tests de comparaison de moyenne ou position (test t ou Mann-Whitney) entre mes échantillons "présence d'espèce" et "absence d'espèce". J'obtiens un modèle intéressant selon le test du rapport de vraisemblance et le critère de Wald, avec si je sélectionne un modèle au sens du critère AIC, j'obtiens un modèle "optimal" pour deux variables (qui sont en l'occurrence les variables "lisière" et "hauteur de l'arbre").
Si j'ai déjà fait des erreurs à ce stade vous pouvez me corriger...
Là où tout se complique pour moi, c'est que j'ai ensuite fait, pour comparer, une régression avec toutes mes variables environnementales (une quinzaine), qui étaient peu corrélées entre elles.
Sans sélection du modèle, j'obtiens un résultat intéressant selon le rapport de vraisemblance (mais pas le critère de Wald, ce qui il me semble est courant, le test de Wald étant plus "conservateur"). Voici mes problèmes :
1 - Le critère AIC est bien supérieur à celui obtenu dans ma première régression. Cela signifie-t-il que ce modèle est mieux que le premier? Il intègre pourtant des variables apparemment non corrélées à ma variable dépendante...
2 - Si la variable lisière semble toujours intéressante, la hauteur de l'arbre ne l'est plus du tout dans cette régression.A l'inverse, d'autres variables semblent intéressantes (p-value faible), alors qu'elles n'apparaissaient pas liées à ma variable dépendante.
Si vous pouvez m'aider dans ce bazar...
PS : j'utilise pour l'instant xlstat
Merci!!!
je rencontre des soucis en interprétation d'une régression logistique :
je cherche à mettre en évidence la relation entre des variables environnementales (qualitatives et quantitatives) et la présence/absence d'une espèce. J'ai dans un premier temps réalisé ma régression avec 4 variables environnementales seulement, que j'ai sélectionnées par deux approches : des X² entre les explicatives et ma variable à expliquer, et des tests de comparaison de moyenne ou position (test t ou Mann-Whitney) entre mes échantillons "présence d'espèce" et "absence d'espèce". J'obtiens un modèle intéressant selon le test du rapport de vraisemblance et le critère de Wald, avec si je sélectionne un modèle au sens du critère AIC, j'obtiens un modèle "optimal" pour deux variables (qui sont en l'occurrence les variables "lisière" et "hauteur de l'arbre").
Si j'ai déjà fait des erreurs à ce stade vous pouvez me corriger...
Là où tout se complique pour moi, c'est que j'ai ensuite fait, pour comparer, une régression avec toutes mes variables environnementales (une quinzaine), qui étaient peu corrélées entre elles.
Sans sélection du modèle, j'obtiens un résultat intéressant selon le rapport de vraisemblance (mais pas le critère de Wald, ce qui il me semble est courant, le test de Wald étant plus "conservateur"). Voici mes problèmes :
1 - Le critère AIC est bien supérieur à celui obtenu dans ma première régression. Cela signifie-t-il que ce modèle est mieux que le premier? Il intègre pourtant des variables apparemment non corrélées à ma variable dépendante...
2 - Si la variable lisière semble toujours intéressante, la hauteur de l'arbre ne l'est plus du tout dans cette régression.A l'inverse, d'autres variables semblent intéressantes (p-value faible), alors qu'elles n'apparaissaient pas liées à ma variable dépendante.
Si vous pouvez m'aider dans ce bazar...
PS : j'utilise pour l'instant xlstat
Merci!!!
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
Un modèle ne se sélectionne pas uniquement avec le critère AIC en fait. Il faut regarder le critère BIC ainsi que les performances du modèle (paire concordante/discordante, valeur de D/c/tau/gamma, taux de correct/sens/spé/F>0 et F<0).
Ensuite par méthode de calcul il est logique que plus tu gardes d'informations plus tu obtiens des prédictions précises. Mais justement ce qu'on explique pas dans tout ça c'est que le but d'une méthode d'approche est de sortir le modèle le plus économique et le plus fiable.
Par exemple pour un commercial, dans le cadre de kit de détection de pathologie, c'est extremement couteux pour lui de faire 15 prélèvements aussi il veut au final un kit qui marche bien et fonctionnant avec 3-5 biomarqueurs/facteurs cliniques à regarder.
Donc tes résultats sont normaux au final... mais dans la réalité économique il faut s'orienter vers le plus simple possible.
Aprés pour ce qui est de ta variable qui sort alors qu'elle te semblait bien... le souci est que c'est des maths, il n'y a pas de logique 'biologique' dans tout ça, donc il faut garder à l'esprit que la logique doit l'emporter sur le résultat final. Ca doit faire partie de la gamme de critère de décision. Surtout qu'au final on travail sur des populations plus ou moins représentative, donc ce choix s'équilibre à ce moment là.
Au final, on aura tendance à privilégier un modèle à la fois simple/performant/logique(enfin dans le sens qu'on le souhaite au final).
Maintenant tu devrais peu être lancer une régression sur un modèle pré-sélectionné en univarié mais avec une p-valeur plus grande et lancer une méthode FORWARD/BACKWARD/STEPWISE. Dans le premier le critère sera le score test, le second le test de wald et le troisème un combiné des deux, ça a le mérite d'être des techniques fiables (qui logiquement, vue la taille de tes données, devraient + ou - converger vers un modèle commun) et qui test en gros le gain et la perte d'information par itérations.
Ensuite par méthode de calcul il est logique que plus tu gardes d'informations plus tu obtiens des prédictions précises. Mais justement ce qu'on explique pas dans tout ça c'est que le but d'une méthode d'approche est de sortir le modèle le plus économique et le plus fiable.
Par exemple pour un commercial, dans le cadre de kit de détection de pathologie, c'est extremement couteux pour lui de faire 15 prélèvements aussi il veut au final un kit qui marche bien et fonctionnant avec 3-5 biomarqueurs/facteurs cliniques à regarder.
Donc tes résultats sont normaux au final... mais dans la réalité économique il faut s'orienter vers le plus simple possible.
Aprés pour ce qui est de ta variable qui sort alors qu'elle te semblait bien... le souci est que c'est des maths, il n'y a pas de logique 'biologique' dans tout ça, donc il faut garder à l'esprit que la logique doit l'emporter sur le résultat final. Ca doit faire partie de la gamme de critère de décision. Surtout qu'au final on travail sur des populations plus ou moins représentative, donc ce choix s'équilibre à ce moment là.
Au final, on aura tendance à privilégier un modèle à la fois simple/performant/logique(enfin dans le sens qu'on le souhaite au final).
Maintenant tu devrais peu être lancer une régression sur un modèle pré-sélectionné en univarié mais avec une p-valeur plus grande et lancer une méthode FORWARD/BACKWARD/STEPWISE. Dans le premier le critère sera le score test, le second le test de wald et le troisème un combiné des deux, ça a le mérite d'être des techniques fiables (qui logiquement, vue la taille de tes données, devraient + ou - converger vers un modèle commun) et qui test en gros le gain et la perte d'information par itérations.
Re: Urgent svp : sélection du modèle rég log
Merci pour ta réponse si rapide!
Je comprends bien qu'avec plus d'information, on "colle" plus aux données mais ce qui me trouble c'est que des données non liées (a priori) à ma variable -réponse apportent quand même quelque-chose. De même, la courbe ROC est bien meilleure dans le cas où j'intègre toutes mes variables.
Pour répondre à ta suggestion, j'ai déjà pris un risque très élevé (25%) dans ma première étape de sélection des variables, afin de ne pas éliminer trop rapidement de variables explicatives. Les variables que je n'ai pas sélectionnées sont donc non liées à ma variable binaire avec un risque de se tromper assez faible...
Concernant la procédure de sélection, j'ai l'impression qu'elle n'est pas très efficace avec xlstat... Si je l'applique à toutes ms variables explicatives, elle n'aboutit jamais, et si je veux des résultats il faut que je limite d'office le nombre de variables que je veux dans le modèle final, ce qui a priori n'est pas évident, et limite grandement l'intérêt... Je vais refaire des essais, mais je débute en régression logistique et tout ce que j'ai pu lire ces derniers mois se mélange un peu...
Je comprends bien qu'avec plus d'information, on "colle" plus aux données mais ce qui me trouble c'est que des données non liées (a priori) à ma variable -réponse apportent quand même quelque-chose. De même, la courbe ROC est bien meilleure dans le cas où j'intègre toutes mes variables.
Pour répondre à ta suggestion, j'ai déjà pris un risque très élevé (25%) dans ma première étape de sélection des variables, afin de ne pas éliminer trop rapidement de variables explicatives. Les variables que je n'ai pas sélectionnées sont donc non liées à ma variable binaire avec un risque de se tromper assez faible...
Concernant la procédure de sélection, j'ai l'impression qu'elle n'est pas très efficace avec xlstat... Si je l'applique à toutes ms variables explicatives, elle n'aboutit jamais, et si je veux des résultats il faut que je limite d'office le nombre de variables que je veux dans le modèle final, ce qui a priori n'est pas évident, et limite grandement l'intérêt... Je vais refaire des essais, mais je débute en régression logistique et tout ce que j'ai pu lire ces derniers mois se mélange un peu...
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
Je sais pas s'il s'agit d'un exercice ou d'une vrai étude, mais dans le second cas on peut trés bien imaginer qu'il n'est pas possbile de dégager un modèle optimal.
Pour la variable dont tu parles il peut y avoir deux explications:
- soit toute seule elle semble pas influente, voir même lié à une seconde non plus, mais elle peut trés bien devenir influente par combinaison avec plusieurs autre.
- soit tu te retrouves dans le cas dont je t'ai parlé, c'est à dire c'est des maths sans logique biologique et là tu dois toi même décider de rejeter le modèle, la raison serait une mauvaise coincidence entre ta variable à expliquer et la taille/sélection de ton échantillon d'étude.
J'ai personnellement été dans le second cas, avec un modèle plus efficace mais qui n'était pas logique au sens du contexte, du coup j'ai du rejeté le modèle et m'orienter vers un autre plus logique mais moins performant.
Ensuite la régression logistique connait des difficultés dans plusieurs cas, entre la taille des données ou la multicolinéarité tu as des variantes de régression logistique. Ce que je veux dire c'est que si il s'agit d'un exercice il n'est peu être pas nécessaire de chercher midi à 14h, si ce n'est pas le cas alors il te faut t'orienter vers ces variantes.
Aprés là aussi, je préviens, il s'agit de mon avis personnel et ce que j'ai pu observé pour le moment, il faudrait voir ce qu'en pense d'autre personne histoire d'être sur que je ne t'aiguille pas mal...
Une dernière chose, as-tu tenté de mettre des intéractions dans ton modèle? c'est à dire X1*X2 ect ect ect... ?
Pour la variable dont tu parles il peut y avoir deux explications:
- soit toute seule elle semble pas influente, voir même lié à une seconde non plus, mais elle peut trés bien devenir influente par combinaison avec plusieurs autre.
- soit tu te retrouves dans le cas dont je t'ai parlé, c'est à dire c'est des maths sans logique biologique et là tu dois toi même décider de rejeter le modèle, la raison serait une mauvaise coincidence entre ta variable à expliquer et la taille/sélection de ton échantillon d'étude.
J'ai personnellement été dans le second cas, avec un modèle plus efficace mais qui n'était pas logique au sens du contexte, du coup j'ai du rejeté le modèle et m'orienter vers un autre plus logique mais moins performant.
Ensuite la régression logistique connait des difficultés dans plusieurs cas, entre la taille des données ou la multicolinéarité tu as des variantes de régression logistique. Ce que je veux dire c'est que si il s'agit d'un exercice il n'est peu être pas nécessaire de chercher midi à 14h, si ce n'est pas le cas alors il te faut t'orienter vers ces variantes.
Aprés là aussi, je préviens, il s'agit de mon avis personnel et ce que j'ai pu observé pour le moment, il faudrait voir ce qu'en pense d'autre personne histoire d'être sur que je ne t'aiguille pas mal...
Une dernière chose, as-tu tenté de mettre des intéractions dans ton modèle? c'est à dire X1*X2 ect ect ect... ?
Re: Urgent svp : sélection du modèle rég log
Bonjour,
Dans la sélection de modèle on ne conserve pas le modèle qui présente le plus grand AIC, mais bien celui qui présente le plus petit.
Pour ce qui est d'incorporer des variables à priori peu explicative dans ton modèle, ce que tu décris est un phénomène relativement bien connu. Ce qui se passe c'est que plus tu rentres de variables dans ton modèle et mieux tu vas expliquées les données qui ont servies à calculer le modèle, puisque ta variable Y va être une combinaison linéaire (en fait ici le logit) d'un grand nombre de variables. Par contre ce qui va se passer c'est que plus tu vas coller à tes données de calibration (de ton jeu de donnes "training") et moins ton modèle va coller à des données indépendantes. Plus tu vas coller a tes données et plus tu vas perdre en pouvoir prédictif. Regarde le graph de ce lien, il explique très bien tout ça :
http://books.google.fr/books?id=tVIjmNS3Ob8C&lpg=PR2&dq=Hastie&hl=en&pg=PA38#v=onepage&q&f=false
La courve du bas est l'erreur que tu fais sur le jeu de données de calibration et la courbe du dessus l'erreur que tu fas lorsque tu utilises ton modèle pour prédire l'absence-présence de tes espèces sur un jeu de données indépendant.
Arriver à un certains moment quand le modèle devient de + en + complexe alors tu colles de mieux en mieux à tes données initiales mais de - en - à un jeu de données indépendant.
Ensuite ce qu'il te faut savoir c'est qu'elle est le but de ce modèle ? savoir qu'elles sont les variables qui influencent la présence-absence de tes espèces ou est-ce que tu cherches à bâtir un modèle prédictif. Dans le premier cas tu n'as pas besoin de sélectionner tes variables tu vas justes regarder leur effet relatif sur la présence-absence. Dans le deuxième cas tu vas effectivement chercher à sélectionner un sous jeu de variables qui prédit le mieux tes données.
Dans tous les cas et je suis entièrement d'accord avec joyeux_lapin, le choix optimal de tes variables d'entrée dans le modèle devrait se faire sur des bases théoriques ou des connaissances à priori que tu as pu obtenir de la littérature.
De plus ce qu'il te faut voir, c'est que les paramètres estimées dans ton modèle sont les effets d'une variable quand les autres sont fixés. Ce qui veut dire que tu peux très bien avoir le cas ou quand tu regardes la relation entre Y et X1 et la relation Y et X2 et voir que tu as une corrélation positive à la fois entre Y et X1 et X2 et une fois que tu fais le modèle en intégrant ces deux variables alors avoir une relation positive entre y et x1 et une relation négative entre y et x2 uniquement parce qu'en moyenne x2 augmente avec x1 mais que l'effet de x2 sur y une fois l'effet de x1 fixé est négatif. C'est tout l'intérêt des régressions multiples.
Dans la sélection de modèle on ne conserve pas le modèle qui présente le plus grand AIC, mais bien celui qui présente le plus petit.
Pour ce qui est d'incorporer des variables à priori peu explicative dans ton modèle, ce que tu décris est un phénomène relativement bien connu. Ce qui se passe c'est que plus tu rentres de variables dans ton modèle et mieux tu vas expliquées les données qui ont servies à calculer le modèle, puisque ta variable Y va être une combinaison linéaire (en fait ici le logit) d'un grand nombre de variables. Par contre ce qui va se passer c'est que plus tu vas coller à tes données de calibration (de ton jeu de donnes "training") et moins ton modèle va coller à des données indépendantes. Plus tu vas coller a tes données et plus tu vas perdre en pouvoir prédictif. Regarde le graph de ce lien, il explique très bien tout ça :
http://books.google.fr/books?id=tVIjmNS3Ob8C&lpg=PR2&dq=Hastie&hl=en&pg=PA38#v=onepage&q&f=false
La courve du bas est l'erreur que tu fais sur le jeu de données de calibration et la courbe du dessus l'erreur que tu fas lorsque tu utilises ton modèle pour prédire l'absence-présence de tes espèces sur un jeu de données indépendant.
Arriver à un certains moment quand le modèle devient de + en + complexe alors tu colles de mieux en mieux à tes données initiales mais de - en - à un jeu de données indépendant.
Ensuite ce qu'il te faut savoir c'est qu'elle est le but de ce modèle ? savoir qu'elles sont les variables qui influencent la présence-absence de tes espèces ou est-ce que tu cherches à bâtir un modèle prédictif. Dans le premier cas tu n'as pas besoin de sélectionner tes variables tu vas justes regarder leur effet relatif sur la présence-absence. Dans le deuxième cas tu vas effectivement chercher à sélectionner un sous jeu de variables qui prédit le mieux tes données.
Dans tous les cas et je suis entièrement d'accord avec joyeux_lapin, le choix optimal de tes variables d'entrée dans le modèle devrait se faire sur des bases théoriques ou des connaissances à priori que tu as pu obtenir de la littérature.
De plus ce qu'il te faut voir, c'est que les paramètres estimées dans ton modèle sont les effets d'une variable quand les autres sont fixés. Ce qui veut dire que tu peux très bien avoir le cas ou quand tu regardes la relation entre Y et X1 et la relation Y et X2 et voir que tu as une corrélation positive à la fois entre Y et X1 et X2 et une fois que tu fais le modèle en intégrant ces deux variables alors avoir une relation positive entre y et x1 et une relation négative entre y et x2 uniquement parce qu'en moyenne x2 augmente avec x1 mais que l'effet de x2 sur y une fois l'effet de x1 fixé est négatif. C'est tout l'intérêt des régressions multiples.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Urgent svp : sélection du modèle rég log
Merci beaucoup pour vos réponses qui m'orientent bien. Pour répondre à Joyeux-lapin, je n'ai pas mis de terme d'interaction dans mon modèle pour l'instant, car comme je l'ai déjà dit je débute, et je préfère rester assez "basique" quitte à avoir un faible pouvoir prédictif. Si par contre cela s'impose, j'essaierai d'en intégrer mais j'aimerais d'abord bien comprendre la méthode et l'interprétation.
Ma régression n'est pas un simple exercice mais s'intègre dans une étude d'écologie que je suis en train de mener. Mon principal objectif est de dégager le rôle de chaque variable, plutôt que de prédire quelque-chose du moins dans un premier temps. Donc Droopy, si j'ai bien compris, dans ce cas j'ai plutôt intérêt à garder toutes mes variables explicatives? Mais comment interpréter un rôle important d'une variable initialement non corrélée à ma variable réponse? En précisant, comme vous me l'avez dit, que ce rôle important n'est vraisemblablement actif qu'en interaction avec les autres variables?
De plus,suivant les conseils de Joyeux-lapin, j'ai commencé une procédure de sélection en gardant toutes mes variables, ascendante (avec pour critère la vraissemblance) et descendante (critère de Wald) (je n'ai pas encore fait la stepwise). Mais déjà, les deux ne me donnent pas du tout le même résultat : l'ascendante m'amène à un modèle à deux variables, le même que celui obtenu sur la base du critère AIC à partir de mes 4 variables pré-sélectionnées, donc plutôt concluant. Par contre, la méthode descendante m'amène à conserver mes 16 variables explicatives...(gloups!).
Je veux bien croire que mes données de terrain ne puissent être bien modélisées, la régression n'est peut-être pas la solution, mais je voudrais être sûre que ce n'est pas moi qui manipule mal l'outil...
Merci encore!
Ma régression n'est pas un simple exercice mais s'intègre dans une étude d'écologie que je suis en train de mener. Mon principal objectif est de dégager le rôle de chaque variable, plutôt que de prédire quelque-chose du moins dans un premier temps. Donc Droopy, si j'ai bien compris, dans ce cas j'ai plutôt intérêt à garder toutes mes variables explicatives? Mais comment interpréter un rôle important d'une variable initialement non corrélée à ma variable réponse? En précisant, comme vous me l'avez dit, que ce rôle important n'est vraisemblablement actif qu'en interaction avec les autres variables?
De plus,suivant les conseils de Joyeux-lapin, j'ai commencé une procédure de sélection en gardant toutes mes variables, ascendante (avec pour critère la vraissemblance) et descendante (critère de Wald) (je n'ai pas encore fait la stepwise). Mais déjà, les deux ne me donnent pas du tout le même résultat : l'ascendante m'amène à un modèle à deux variables, le même que celui obtenu sur la base du critère AIC à partir de mes 4 variables pré-sélectionnées, donc plutôt concluant. Par contre, la méthode descendante m'amène à conserver mes 16 variables explicatives...(gloups!).
Je veux bien croire que mes données de terrain ne puissent être bien modélisées, la régression n'est peut-être pas la solution, mais je voudrais être sûre que ce n'est pas moi qui manipule mal l'outil...
Merci encore!
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
1) choisir les variables en fonction d'hypothèse à priori ou de connaissance a priori
2) mettre les variable en tant prédicteur
3) si tes variables explicative ne sont pas trop corrélées entre elles un analyse de déviance
4) sinon un hierarchical partitionning
3 et 4 pour voir l'effet de chaque variable sur la réponse.
Il est normal que tu n'obtiennes pas les mêmes modèles, les critères ne sont pas les mêmes (vraissemblance et wald).
2) mettre les variable en tant prédicteur
3) si tes variables explicative ne sont pas trop corrélées entre elles un analyse de déviance
4) sinon un hierarchical partitionning
3 et 4 pour voir l'effet de chaque variable sur la réponse.
Il est normal que tu n'obtiennes pas les mêmes modèles, les critères ne sont pas les mêmes (vraissemblance et wald).
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Urgent svp : sélection du modèle rég log
Merci! Mais je ne connais pas le "hierarchical partitioning"... Je ne veux pas trop vous embêter, c'est très sympa pour l'aide!
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
J'ai une dernière question : sous xlstat, l'analyse de déviance correspond-elle à l'"analyse de type III"? Sinon je ne vois pas à quoi cela correspond... Un très grand merci et à bientôt!
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
L'analyse de Type III c'est en fait les effets (en terme de score test) de tes variable sur le modèle.
Plus particulièrement c'est une table qui donne 'l'ordre de significativité' de tes variables en terme d'influence. Logiquement ton algorithme d'approche (BACKWARD/FORWARD/STEPWISE) se sert de cette table pour déterminer dans quel ordre il fait entrer les variables pour les tester et les conserver ou les rejeter.
Par contre une question que je me posais c'était ton nombre d'individus?
Plus particulièrement c'est une table qui donne 'l'ordre de significativité' de tes variables en terme d'influence. Logiquement ton algorithme d'approche (BACKWARD/FORWARD/STEPWISE) se sert de cette table pour déterminer dans quel ordre il fait entrer les variables pour les tester et les conserver ou les rejeter.
Par contre une question que je me posais c'était ton nombre d'individus?
Re: Urgent svp : sélection du modèle rég log
J'ai 277 individus... Sais-tu comment je peux obtenir les résultats d'une analyse de déviance sous xlstat? Je ne comprends pas trop : selon l'analyse de type III toutes mes variables sont significatives (p-value<0,0001), par contre dans le tableau des paramètres la p-value associée au X² ne me donne aucune variable significative... Je crois que je n'ai pas fini avec mes questions en fait...
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
Non mais la table de type III en fait elle prend toutes tes variables présentent dans ton modèle, les enlève une à une et calcul le score test/rapport de vraisemblance (selon le type d'approche et de logiciel... partie pénible de la biblio où tu trouves pas deux pdf qui te disent la même chose...), en gros la stat de cette table qui figure pour la variable Xi c'est ce calcul pour le modèle mais sans Xi.
De plus la méthode d'approche se moque que ça soit significative ou pas, elle se contente de calculer cette stat, de la ranger dans l'ordre, et de tester les variables en commençant par la moins/plus significative... si tu veux, la seule raison pour laquel il passe par la p-value et non la stat de test c'est que si tu es en format modal et bien le nombre de modalités influe sur la p-value pouvant ainsi changé l'ordre d'introduction des variables.
Pour revenir aux individus, je demandais juste pour voir si tu pouvais rencontrer des problèmes de population vis à vis de ton nombre de variable mais étant donné que tu as 16 variables et tant d'individus, la régression ne devrait pas avoir de souci de ce point de vue là.
Par contre je suis sous SAS, je ne connais pas xlstat... désolé...
Maintenant pour les p-values des paramètres qui ne sont pas significative... en effet tu as un petit souci... as tu vérifié que les OR correspondent à ces p-value, c'est à dire 1 appartient ou pas à l'OR correspond à la significativité de tes coeffs, ça peut paraitre stupide mais ça arrive que les informations se contredise, trés rarement mais j'ai déjà vue ça... aprés pour ce qui en est concrêtement j'avoue être perplexe... tes variables sont en format modal ou continue? je demande car logiquement si tu es en format modal, les modalités correspondant aux OR les plus/moins fort par rapport à la modalité de référence devrait au moins être lié à des coefficients significatifs...
De plus la méthode d'approche se moque que ça soit significative ou pas, elle se contente de calculer cette stat, de la ranger dans l'ordre, et de tester les variables en commençant par la moins/plus significative... si tu veux, la seule raison pour laquel il passe par la p-value et non la stat de test c'est que si tu es en format modal et bien le nombre de modalités influe sur la p-value pouvant ainsi changé l'ordre d'introduction des variables.
Pour revenir aux individus, je demandais juste pour voir si tu pouvais rencontrer des problèmes de population vis à vis de ton nombre de variable mais étant donné que tu as 16 variables et tant d'individus, la régression ne devrait pas avoir de souci de ce point de vue là.
Par contre je suis sous SAS, je ne connais pas xlstat... désolé...
Maintenant pour les p-values des paramètres qui ne sont pas significative... en effet tu as un petit souci... as tu vérifié que les OR correspondent à ces p-value, c'est à dire 1 appartient ou pas à l'OR correspond à la significativité de tes coeffs, ça peut paraitre stupide mais ça arrive que les informations se contredise, trés rarement mais j'ai déjà vue ça... aprés pour ce qui en est concrêtement j'avoue être perplexe... tes variables sont en format modal ou continue? je demande car logiquement si tu es en format modal, les modalités correspondant aux OR les plus/moins fort par rapport à la modalité de référence devrait au moins être lié à des coefficients significatifs...
Re: Urgent svp : sélection du modèle rég log
J'ai des variables modales et d'autres quantitatives...
Après je ne vois pas trop ce que tu veux dire avec les Odds-ratio, voici ce que j'obtiens pour les paramètres dans mon modèle complet, incluant toutes mes variables... Aucun paramètre n'est significatif à 5%. Dans le modèle sélectionné à deux variables, seule la variable lisière/modalitéO a une p-value<5%.
J'espère qu'on va finir par y voir plus clair, mais si tu en as marre de me répondre ça peut quand même attendre demain! Pour moi c'est très instructif ce cours particulier mais j'admets que ça peut être lassant...
Après je ne vois pas trop ce que tu veux dire avec les Odds-ratio, voici ce que j'obtiens pour les paramètres dans mon modèle complet, incluant toutes mes variables... Aucun paramètre n'est significatif à 5%. Dans le modèle sélectionné à deux variables, seule la variable lisière/modalitéO a une p-value<5%.
Source | Valeur | Ecart-type | Khi² de Wald | Pr > Khi² | Wald Borne inf. (95%) | Wald Borne sup. (95%) | Odds ratio | Odds ratio Borne inf. (95%) | Odds ratio Borne sup. (95%) |
Constante | -1,021 | 8,705 | 0,014 | 0,907 | -18,082 | 16,040 | |||
Alt | 0,001 | 0,005 | 0,071 | 0,790 | -0,009 | 0,012 | 1,001 | 0,991 | 1,012 |
Expo ver | -0,008 | 0,005 | 2,924 | 0,087 | -0,017 | 0,001 | 0,992 | 0,983 | 1,001 |
Dist eau | -0,004 | 0,006 | 0,408 | 0,523 | -0,015 | 0,008 | 0,996 | 0,985 | 1,008 |
Diam arbre | -0,006 | 0,023 | 0,062 | 0,804 | -0,050 | 0,039 | 0,994 | 0,951 | 1,040 |
Orientation cav | -0,002 | 0,003 | 0,286 | 0,593 | -0,007 | 0,004 | 0,998 | 0,993 | 1,004 |
Haut cav | 0,005 | 0,003 | 2,486 | 0,115 | -0,001 | 0,012 | 1,005 | 0,999 | 1,012 |
V eau | -0,359 | 0,865 | 0,172 | 0,678 | -2,055 | 1,337 | 0,698 | 0,128 | 3,808 |
Diam ouv | 0,012 | 0,040 | 0,091 | 0,763 | -0,066 | 0,090 | 1,012 | 0,936 | 1,094 |
V cav | -0,050 | 0,068 | 0,538 | 0,463 | -0,184 | 0,084 | 0,951 | 0,832 | 1,087 |
Lisière-N | 0,000 | 0,000 | |||||||
Lisière-O | 1,321 | 0,742 | 3,164 | 0,075 | -0,135 | 2,776 | 3,746 | 0,874 | 16,055 |
Hauteur-20_30 | 0,000 | 0,000 | |||||||
Hauteur-10_20 | -1,204 | 1,422 | 0,717 | 0,397 | -3,990 | 1,583 | 0,300 | 0,018 | 4,869 |
Hauteur-0_10 | -0,089 | 1,506 | 0,003 | 0,953 | -3,040 | 2,862 | 0,915 | 0,048 | 17,498 |
Exploitation passée-T | 0,000 | 0,000 | |||||||
Exploitation passée-F | -0,738 | 0,596 | 1,537 | 0,215 | -1,906 | 0,429 | 0,478 | 0,149 | 1,536 |
Etat-D | 0,000 | 0,000 | |||||||
Etat-O | -0,986 | 0,852 | 1,340 | 0,247 | -2,655 | 0,684 | 0,373 | 0,070 | 1,981 |
Etat-C | -0,775 | 0,723 | 1,150 | 0,284 | -2,192 | 0,642 | 0,461 | 0,112 | 1,899 |
Cuvette-N | 0,000 | 0,000 | |||||||
Cuvette-O | -0,145 | 0,535 | 0,074 | 0,786 | -1,195 | 0,904 | 0,865 | 0,303 | 2,469 |
Origine-B | 0,000 | 0,000 | |||||||
Origine-I | -1,279 | 0,794 | 2,592 | 0,107 | -2,836 | 0,278 | 0,278 | 0,059 | 1,320 |
Origine-S.B. | 0,517 | 0,836 | 0,382 | 0,536 | -1,122 | 2,156 | 1,677 | 0,326 | 8,638 |
Origine-Bl | 1,737 | 1,578 | 1,212 | 0,271 | -1,355 | 4,830 | 5,682 | 0,258 | 125,206 |
Origine-S.B. & Bl | -1,001 | 2,457 | 0,166 | 0,684 | -5,817 | 3,814 | 0,367 | 0,003 | 45,336 |
Humidité-2 | 0,000 | 0,000 | |||||||
Humidité-3 | -0,171 | 1,042 | 0,027 | 0,869 | -2,214 | 1,871 | 0,842 | 0,109 | 6,493 |
J'espère qu'on va finir par y voir plus clair, mais si tu en as marre de me répondre ça peut quand même attendre demain! Pour moi c'est très instructif ce cours particulier mais j'admets que ça peut être lassant...
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
En ce qui concerne les odd-ratio en fait il est remarqué que quand un coeff n'est pas significatif il y a également 1 qui appartient à l'intervalles qui y correspond.
Ex: Expo ver a une p-value de 0.087 > 5% et si on prend les bornes inf et supp de l'OR qui y correspond on a 1 appartient à [0.983-1.001].
Mais il arrive que cette remarque soit contredite... si ça avait été le cas eventuellement tu aurais pu tenter d'approfondir dans ce sens pour voir ce que ça peut vouloir dire... mais bon là c'est pas le cas.
Aprés je sais pas trop, réessaye avec toutes tes variables en format modal, mais là je sais pas... le souci avec les formats continues c'est qu'ils ne sont pas trés recommandé si ta variable ne vérifie pas l'hypothèse de log-linéarité, ce qui peut-être éventuellement le cas...
Question bête: as tu des warnings en fin d'étude? sinon tu peux éventuellement retester cette étude en régression logistique pénalisée, tu devrais prendre le temps de voir si tu as pas des problèmes de multicolinéarité, ça serait la seule des deux raisons qui pourrait motiver cette approche...
EDIT: as tu les même résultats aprés avoir fait de la sélection?
Ex: Expo ver a une p-value de 0.087 > 5% et si on prend les bornes inf et supp de l'OR qui y correspond on a 1 appartient à [0.983-1.001].
Mais il arrive que cette remarque soit contredite... si ça avait été le cas eventuellement tu aurais pu tenter d'approfondir dans ce sens pour voir ce que ça peut vouloir dire... mais bon là c'est pas le cas.
Aprés je sais pas trop, réessaye avec toutes tes variables en format modal, mais là je sais pas... le souci avec les formats continues c'est qu'ils ne sont pas trés recommandé si ta variable ne vérifie pas l'hypothèse de log-linéarité, ce qui peut-être éventuellement le cas...
Question bête: as tu des warnings en fin d'étude? sinon tu peux éventuellement retester cette étude en régression logistique pénalisée, tu devrais prendre le temps de voir si tu as pas des problèmes de multicolinéarité, ça serait la seule des deux raisons qui pourrait motiver cette approche...
EDIT: as tu les même résultats aprés avoir fait de la sélection?
Re: Urgent svp : sélection du modèle rég log
Voici ce que j'obtiens après stepwise ascendante selon le critère de vraissemblance:
Seul le paramètre "lisière" est significatif, du coup je ne comprends pas trop pourquoi le modèle garde aussi "hauteur arbre"... C'est aussi le cas du meilleur modèle selon le critère AIC...
Source | Valeur | Ecart-type | Khi² de Wald | Pr > Khi² | Wald Borne inf. (95%) | Wald Borne sup. (95%) | Odds ratio | Odds ratio Borne inf. (95%) | Odds ratio Borne sup. (95%) |
Constante | -1,099 | 1,033 | 1,132 | 0,287 | -3,123 | 0,926 | |||
Alt | 0,000 | 0,000 | |||||||
Expo ver | 0,000 | 0,000 | |||||||
Dist eau | 0,000 | 0,000 | |||||||
Diam arbre | 0,000 | 0,000 | |||||||
Orientation cav | 0,000 | 0,000 | |||||||
Haut cav | 0,000 | 0,000 | |||||||
V eau | 0,000 | 0,000 | |||||||
Diam ouv | 0,000 | 0,000 | |||||||
V cav | 0,000 | 0,000 | |||||||
Lisière-N | 0,000 | 0,000 | |||||||
Lisière-O | 1,338 | 0,613 | 4,761 | 0,029 | 0,136 | 2,539 | 3,810 | 1,146 | 12,667 |
Hauteur-20_30 | 0,000 | 0,000 | |||||||
Hauteur-10_20 | -0,829 | 1,095 | 0,572 | 0,449 | -2,975 | 1,318 | 0,437 | 0,051 | 3,735 |
Hauteur-0_10 | 0,567 | 1,088 | 0,271 | 0,602 | -1,565 | 2,699 | 1,762 | 0,209 | 14,858 |
Exploitation passée-T | 0,000 | 0,000 | |||||||
Exploitation passée-F | 0,000 | 0,000 | |||||||
Etat-D | 0,000 | 0,000 | |||||||
Etat-O | 0,000 | 0,000 | |||||||
Etat-C | 0,000 | 0,000 | |||||||
Cuvette-N | 0,000 | 0,000 | |||||||
Cuvette-O | 0,000 | 0,000 | |||||||
Origine-B | 0,000 | 0,000 | |||||||
Origine-I | 0,000 | 0,000 | |||||||
Origine-S.B. | 0,000 | 0,000 | |||||||
Origine-Bl | 0,000 | 0,000 | |||||||
Origine-S.B. & Bl | 0,000 | 0,000 | |||||||
Humidité-2 | 0,000 | 0,000 | |||||||
Humidité-3 | 0,000 | 0,000 |
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
La seule chose que je puisse te dire c'est de relancer ton analyse en mettant toutes tes données en format modale.
Sinon je ne vois pas, comme je te l'ai dit c'est une méthode assez 'carré' et vue que tu sembles ne pas souffir de la taille de tes données ou de multicolinéarité... enfin ça semble être une analyse 'sain' donc les résultats qui te seront sorti sont fiables.
Essaye ce que je t'ai dit et puis si c'est toujours pareil tu pourras conclure, en fonction de la logique que tu as évoqué plusieurs fois, que tes variables n'arrivent pas à expliquer le modèle, et donc passer par d'autre technique d'analyse.
Disons que le seul interêt d'insister vers la régression logistique est, outre la classification bien sur, l'information des OR qui sont trés parlante pour les gens a qui tu vas présenter tes résultats, mais quand on peut pas on peut pas, ceci dit il reste de nombreuses techniques de classification supervisée tel que l'analyse discriminante...
Enfin bon avant essaye de toute mettre en format modal. Aprés attends de voir l'avis d'autre personne... mais si tu as du temps, te tourner vers d'autre technique de classification est une chose assez naturel, a moins qu'on t'ai dit de faire ça avec une reg log...
Sinon je ne vois pas, comme je te l'ai dit c'est une méthode assez 'carré' et vue que tu sembles ne pas souffir de la taille de tes données ou de multicolinéarité... enfin ça semble être une analyse 'sain' donc les résultats qui te seront sorti sont fiables.
Essaye ce que je t'ai dit et puis si c'est toujours pareil tu pourras conclure, en fonction de la logique que tu as évoqué plusieurs fois, que tes variables n'arrivent pas à expliquer le modèle, et donc passer par d'autre technique d'analyse.
Disons que le seul interêt d'insister vers la régression logistique est, outre la classification bien sur, l'information des OR qui sont trés parlante pour les gens a qui tu vas présenter tes résultats, mais quand on peut pas on peut pas, ceci dit il reste de nombreuses techniques de classification supervisée tel que l'analyse discriminante...
Enfin bon avant essaye de toute mettre en format modal. Aprés attends de voir l'avis d'autre personne... mais si tu as du temps, te tourner vers d'autre technique de classification est une chose assez naturel, a moins qu'on t'ai dit de faire ça avec une reg log...
Re: Urgent svp : sélection du modèle rég log
Merci beaucoup pour tous ces conseils, je vais refaire mes analyses comme tu le dis, en espérant que ça marche car mon délai est un peu serré et je n'aurai sûrement pas le temps de me tourner vers autre-chose pour cette fois-ci!
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
le test de wald ne teste pas l'effet d'une variable sur la variable expliquée mais juste si le coefficient associée à ta variable est différent ou non de 0. Pour se rapprocher de l'analyse de variance il te faut regarder du côté de l'analyse de déviance. Je crois que la première étape serait quand même de lire de la doc sur la regression logistique. Regarde les précédentes posts sur la question tu trouveras pas mal de lien vers des pdfs ou vers des références de livre.
De plus comme l'a souligné joyeux_lapin tu devrais d'abord aussi t'intéresser à la distribution de tes variables explicatives et à leur corrélation. Il se peut que tu doives transformer certaines variables au préalable.
De plus comme l'a souligné joyeux_lapin tu devrais d'abord aussi t'intéresser à la distribution de tes variables explicatives et à leur corrélation. Il se peut que tu doives transformer certaines variables au préalable.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Urgent svp : sélection du modèle rég log
euh... en fait ça fait deux mois que je lis de la doc sur la régression, j'ai consulté à peu près tous vos messages et les liens vers des cours... Mais ça fait beaucoup d'infos à intégrer d'un coup, et maintenant que la théorie s'éclaircit un peu pour moi il me manque la pratique... Merci!
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
Salut,
J'ai parcouru ce fil de discussion et il me semble que tu vas dans le mur avec ton approche de la sélection de modèle.
Alors tout d'abord c'est bien d'avoir choisi les critères d'information type AIC, c'est une approche rigoureuse et théoriquement solide.
Cependant, tu ne peux utiliser l'AIC sous sa forme basique car au niveau nombre d'individu par rapport au nombre de paramètre à estimer (j'en compte 32 dans ton tableau mais peut être qu'il y en a plus !!!). Raisonnablement si n/K
J'ai parcouru ce fil de discussion et il me semble que tu vas dans le mur avec ton approche de la sélection de modèle.
Alors tout d'abord c'est bien d'avoir choisi les critères d'information type AIC, c'est une approche rigoureuse et théoriquement solide.
Cependant, tu ne peux utiliser l'AIC sous sa forme basique car au niveau nombre d'individu par rapport au nombre de paramètre à estimer (j'en compte 32 dans ton tableau mais peut être qu'il y en a plus !!!). Raisonnablement si n/K
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Urgent svp : sélection du modèle rég log
Il me semble en avoir lu 277 individus en fait...
De toute manière vue le nombre de variables si il y en a si peu il y aurait surement un souci de convergence, et si ce n'est pas le cas en effet l'estimation va être biaisé et alors il faut se tourner vers de la régression logistique pénalisée pour pouvoir espérer avoir des résultats corrects...
Mais il me semble avoir lu 277 individus.
EDIT: j'avais pas compris que tu parlais du nombre de paramètres... je suis confus... en effet Nik a raison, si tu fais de la régression BACKWARD tu vas saturé ton modèle, par contre ça n'empêche pas que la régression par méthode FORWARD ou STEPWISE reste possible.
De toute manière vue le nombre de variables si il y en a si peu il y aurait surement un souci de convergence, et si ce n'est pas le cas en effet l'estimation va être biaisé et alors il faut se tourner vers de la régression logistique pénalisée pour pouvoir espérer avoir des résultats corrects...
Mais il me semble avoir lu 277 individus.
EDIT: j'avais pas compris que tu parlais du nombre de paramètres... je suis confus... en effet Nik a raison, si tu fais de la régression BACKWARD tu vas saturé ton modèle, par contre ça n'empêche pas que la régression par méthode FORWARD ou STEPWISE reste possible.
Re: Urgent svp : sélection du modèle rég log
oui ce n'est pas une question de faisabilité de la régression mais de qulité d'estimation des paramètres et aussi de la sélection des variables. Avec peu d'indiv par rapport au nb de paramètre il se peut que des effets soient sélectionnés alors que cela est simplement du aux données et non à une réalité. Sur un tout autre jeu de données il est fort probable que le modèle retenu ajusterait très mal les données.
nik
nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Urgent svp : sélection du modèle rég log
Excusez-moi mais je ne comprends pas trop où est le problème avec le nombre de paramètres... J'ai bien 277 observations et 16 variables dont certaines qualitatives ayant 2 à 4 modalités. Quel problème cela pose-t-il avec l'AIC? Je comprends bien le souci de saturation du logiciel en sélection backward, mais pas le souci de fiabilité des résultats...
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: Urgent svp : sélection du modèle rég log
Le souci c'est que tes paramètres sont contruits sur tes données, donc en gros si tu as trop de paramètres pour pas assez de données tu vas plus ou moins provoquer un biais dans tes calculs. C'est pour ça qu'il existe les régressions pénalisées qui les 'débiaises' en les pénalisant par un produit variance(des variables) * lambda_pénalisation.
Logiquement le bon rapport estimateurs/populations est de 5 individus pour 1 estimateurs (de ce que j'ai pu lire... c'était en anglais... je parle à peine correctement le français... il était tard.... j'avais bu... enfin à appronfondir voir confirmer même pour ce point).
Aprés si tu fais que de l'approche forward/stepwise normalement ça craint rien car il part de l'intercept pour petit à petit constuire le modèle donc tu connais pas ce souci, par contre dans le cas backward il part du modèle complet et élimine petit à petit, tu vois donc pourquoi ça pose problème.
C'est à peu prés l'idée...
Logiquement le bon rapport estimateurs/populations est de 5 individus pour 1 estimateurs (de ce que j'ai pu lire... c'était en anglais... je parle à peine correctement le français... il était tard.... j'avais bu... enfin à appronfondir voir confirmer même pour ce point).
Aprés si tu fais que de l'approche forward/stepwise normalement ça craint rien car il part de l'intercept pour petit à petit constuire le modèle donc tu connais pas ce souci, par contre dans le cas backward il part du modèle complet et élimine petit à petit, tu vois donc pourquoi ça pose problème.
C'est à peu prés l'idée...
Re: Urgent svp : sélection du modèle rég log
D'accord merci, mais dans ce cas si je comprends bien dans mon cas mon nombre d'individus est suffisant vis-à-vis du nombre de paramètres?...Donc je ne vois toujours pas le problème?...
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Page 1 sur 2 • 1, 2
Sujets similaires
» Régression de Cox : sélection de modèle
» selection de données
» sélection de variables
» AIC vs p-value sélection de variables
» stepAIC - Sélection de modèles
» selection de données
» sélection de variables
» AIC vs p-value sélection de variables
» stepAIC - Sélection de modèles
Page 1 sur 2
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum