Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
études préalables à une régression logistique
2 participants
Page 1 sur 1
études préalables à une régression logistique
Bonjour,
dans le cadre d'une étude d'écologie je vais bientôt avoir à réaliser une régression logistique. Je pose rapidement mon sujet : j'étudie les processus de formation de cavités sur des hêtres, et je voudrais mettre en relation l'état de variables environnementales explicatives (quantitatives et qualitatives) avec la présence/absence des cavités. La régression logistique me paraît adaptée, mais je n'en ai jamais fait. Je me pose deux problèmes majeurs :
1 - Est -ce problématique si mon échantillon ne représente pas les proportions réelles de ma population? (je m'explique : je pense prendre autant d'arbres à cavité que d'arbres sans cavité pour faire ma régression, car c'est plus simple à mettre en place pour moi et en soit les proportions ne m'intéressent pas, mais ce n'est sûrement pas le cas dans ma population totale. C'est gênant?)
2 - Quelles études préliminaires dois-je réaliser sur mes variables? Je pense calculer les coeff. de corrélations entre toutes mes variables quantitatives, mais que faire avec les qualitatives? Est-ce possible de montrer une corrélation entre des variables qualitatives et quantitatives? Faut-il pour cela utiliser une régression logistique simple? Quelles autres manips faut-il faire? Y-a-t-il des transformations à faire? (j'ai entendu parler de transformations Box-Cox, y compris sur ce forum, mais je ne comprends pas dans quel cas cela s'applique, comment cela se réalise et quelle en est l'utilité)...
Bref, pour l'instant je ne sais pas grand chose, si quelqu'un peut me renseigner! Merci beaucoup
dans le cadre d'une étude d'écologie je vais bientôt avoir à réaliser une régression logistique. Je pose rapidement mon sujet : j'étudie les processus de formation de cavités sur des hêtres, et je voudrais mettre en relation l'état de variables environnementales explicatives (quantitatives et qualitatives) avec la présence/absence des cavités. La régression logistique me paraît adaptée, mais je n'en ai jamais fait. Je me pose deux problèmes majeurs :
1 - Est -ce problématique si mon échantillon ne représente pas les proportions réelles de ma population? (je m'explique : je pense prendre autant d'arbres à cavité que d'arbres sans cavité pour faire ma régression, car c'est plus simple à mettre en place pour moi et en soit les proportions ne m'intéressent pas, mais ce n'est sûrement pas le cas dans ma population totale. C'est gênant?)
2 - Quelles études préliminaires dois-je réaliser sur mes variables? Je pense calculer les coeff. de corrélations entre toutes mes variables quantitatives, mais que faire avec les qualitatives? Est-ce possible de montrer une corrélation entre des variables qualitatives et quantitatives? Faut-il pour cela utiliser une régression logistique simple? Quelles autres manips faut-il faire? Y-a-t-il des transformations à faire? (j'ai entendu parler de transformations Box-Cox, y compris sur ce forum, mais je ne comprends pas dans quel cas cela s'applique, comment cela se réalise et quelle en est l'utilité)...
Bref, pour l'instant je ne sais pas grand chose, si quelqu'un peut me renseigner! Merci beaucoup
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: études préalables à une régression logistique
- Etudie tes variables explicatives vs variable binaire, fixe une p-valeur seuil, genre 5 ou 20% en fonction de la taille de tes données. Et aussi en pensant au fait que passé 18 variables, sous SAS, la régression sature....
- Etude des corrélations via une AFC si tu t'orientes vers un dossier à rendre ou présenter, l'intêret serait de relever les multicolinéarités (je peux pas t'en dire plus vue que moi j'en arrive bientôt à ce chapitre là une fois que j'aurais enfin réussi mon ACM...) et aussi pour déceler des intéractions qu'il faudra que tu insères dans ton modèle à régresser. Mais là aussi les intéractions c'est assez subjectif dans le sens où tu vas devoir jouer avec les cas qui sépare parfaitement tes données.
- Pour les proportions je suis pas sur d'avoir compris mais logiquement la régression dégage les valeurs manquantes, donc si ça peut t'aider...
- Enfin pour les régressions logistiques fouille un peu partour sur internet, les capacités de cet outil son énorme et pas toujours évident de comprendre ce qu'il fait et ce que ça veut dire, disons que la finalité, outre les performances du modèle finale que tu vas sortir, c'est de trouver les individus qui peuvent biaiser ton étude et pouvoir relancer une étude plus fiable en les enlevant.
Bref la régression logistique c'est trés consistant donc résumé ça comme ça....
- Etude des corrélations via une AFC si tu t'orientes vers un dossier à rendre ou présenter, l'intêret serait de relever les multicolinéarités (je peux pas t'en dire plus vue que moi j'en arrive bientôt à ce chapitre là une fois que j'aurais enfin réussi mon ACM...) et aussi pour déceler des intéractions qu'il faudra que tu insères dans ton modèle à régresser. Mais là aussi les intéractions c'est assez subjectif dans le sens où tu vas devoir jouer avec les cas qui sépare parfaitement tes données.
- Pour les proportions je suis pas sur d'avoir compris mais logiquement la régression dégage les valeurs manquantes, donc si ça peut t'aider...
- Enfin pour les régressions logistiques fouille un peu partour sur internet, les capacités de cet outil son énorme et pas toujours évident de comprendre ce qu'il fait et ce que ça veut dire, disons que la finalité, outre les performances du modèle finale que tu vas sortir, c'est de trouver les individus qui peuvent biaiser ton étude et pouvoir relancer une étude plus fiable en les enlevant.
Bref la régression logistique c'est trés consistant donc résumé ça comme ça....
Re: études préalables à une régression logistique
"1 - Est -ce problématique si mon échantillon ne représente pas les proportions réelles de ma population? (je m'explique : je pense prendre autant d'arbres à cavité que d'arbres sans cavité pour faire ma régression, car c'est plus simple à mettre en place pour moi et en soit les proportions ne m'intéressent pas, mais ce n'est sûrement pas le cas dans ma population totale. C'est gênant?)"
Je viens de comprendre en fait, désolé mais le lundi est une journée qui commence vraiment trop tot pour moi du coup j'ai du mal à suivre en milieu d'aprem...
Alors il faut evident un minimum de statu 0 et 1 evidemment sinon tu te retrouves dans des cas de complète séparation des données, mais sinon tu as pas vraiment besoin d'équilibré.
Aprés attention à ce qu'on appel, je crois mais j'en suis pas sur car j'ai jamais eu ce souci, au problème de redressement. Il me semble que c'est bien le nom, mais disons qu'il faut que la sélection de ta population soit aléatoire et non calculé. Ce qui est logique en soit en fait...
Je viens de comprendre en fait, désolé mais le lundi est une journée qui commence vraiment trop tot pour moi du coup j'ai du mal à suivre en milieu d'aprem...
Alors il faut evident un minimum de statu 0 et 1 evidemment sinon tu te retrouves dans des cas de complète séparation des données, mais sinon tu as pas vraiment besoin d'équilibré.
Aprés attention à ce qu'on appel, je crois mais j'en suis pas sur car j'ai jamais eu ce souci, au problème de redressement. Il me semble que c'est bien le nom, mais disons qu'il faut que la sélection de ta population soit aléatoire et non calculé. Ce qui est logique en soit en fait...
Re: études préalables à une régression logistique
Bonjour, merci de m'avoir répondu! Il y a une chose que je ne comprends pas bien : qu'entends-tu par étudier les variables quantitatives vs variable binaire? Faire des régressions simples entre ces types de variables? Sinon, comment puis-je montrer une corrélation entre variable binaire/variable quantitative? Merci!
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: études préalables à une régression logistique
Pardon, je me suis laissé aller dans les raccourcis.
La question est: combien as tu de variables? si pas beaucoup (genre 4-6) lance une régression directement même si au préalable une procédure corrélation s'impose vue que si tu as de trop forte interaction il y a des chances que tu te retrouves avec une instabilité de modèle.
Si au contraire tu en as énormément, lance une procédure corrélation ainsi que des tests du chi2 ou de Fisher pour sélectionner en univariée uniquement les variables (transformées en variables modales au passage) qui semblent liées à ta variable à expliquer (ton Y quoi si on prend la formule de base d'un modèle régressif).
Maintenant j'ignore dans quel cadre ce place ton étude, si c'est juste un exo comme ça te prend pas la tête et régresse comme une folle dans tous les sens en ne conservant que les informations pertinentes comme modèle final et odd ratio. Si tu as un rapport à rendre alors il est conseillé une analyse univariée rigoureuse avec ACP, puis du multivariée avec la régression logistique et enfin une jolie ACM sur le modèle finale.
Mais dans tous les cas, si tu es dans le second contexte disons que les capacités de la régression logistique sont trés trés trés trés grande avec l'analyse des résidus ou encore les performances des modèles prédictifs.
La question est: combien as tu de variables? si pas beaucoup (genre 4-6) lance une régression directement même si au préalable une procédure corrélation s'impose vue que si tu as de trop forte interaction il y a des chances que tu te retrouves avec une instabilité de modèle.
Si au contraire tu en as énormément, lance une procédure corrélation ainsi que des tests du chi2 ou de Fisher pour sélectionner en univariée uniquement les variables (transformées en variables modales au passage) qui semblent liées à ta variable à expliquer (ton Y quoi si on prend la formule de base d'un modèle régressif).
Maintenant j'ignore dans quel cadre ce place ton étude, si c'est juste un exo comme ça te prend pas la tête et régresse comme une folle dans tous les sens en ne conservant que les informations pertinentes comme modèle final et odd ratio. Si tu as un rapport à rendre alors il est conseillé une analyse univariée rigoureuse avec ACP, puis du multivariée avec la régression logistique et enfin une jolie ACM sur le modèle finale.
Mais dans tous les cas, si tu es dans le second contexte disons que les capacités de la régression logistique sont trés trés trés trés grande avec l'analyse des résidus ou encore les performances des modèles prédictifs.
Re: études préalables à une régression logistique
Merci beaucoup! Ca me précise les choses, disons que je suis plutôt dans le second contexte, mais qu'étant donné mon niveau initial en statistiques je préfère rester modeste et en rester aux conclusions générales, quitte à ce que mes résultats soient limités. En tout cas, encore merci de ton aide, je re-solliciterai sûrement le forum au moment de l'interprétation des résultats!
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: études préalables à une régression logistique
Pense à préciser avec quel logiciel tu fais ton étude, personnellement si tu es sous SAS je pourrais t'aider niveau syntaxe sinon....
Re: études préalables à une régression logistique
C'est sympa, mais je ne pense pas faire mes analyses sous SAS, mais plutôt sous R si je suis courageuse ou plus simplement sous une version d'essai de xlstat, ce qui me semble beaucoup moins ambitieux...Sous xlstat, l'avantage est que je n'aurai pas trop de soucis de synthaxe mais l'inconvénient est que j'aurai peu de choix d'options... Je vais faire des essais sous R, mais je ne pense pas maîtriser assez le sujet pour faire une programmation cohérente. Sinon j'ai aussi Tanagra et OpenStat, mais je ne les ai jamais utilisés, si tu y connais quelque chose et peux me conseiller sur le choix du logiciel... Sinon je vais essayer un peu tout, mais là je n'ai pas encore toutes mes données. Voili! Merci des conseils
liou- Nombre de messages : 25
Date d'inscription : 03/05/2010
Re: études préalables à une régression logistique
Salut, désolé mais je ne connais que SAS, par conséquent je peux t'aider uniquement dans la théorie et l'interprétation des résultats que tu sortiras...
Mais je te rassure, les logiciels que tu as cité sont performant et relativement complet. Et puis niveau maîtrise je crois savoir que c'est SAS le plus chiant donc logiquement tu devrais pas trop galérer sur les autre.
Mais je te rassure, les logiciels que tu as cité sont performant et relativement complet. Et puis niveau maîtrise je crois savoir que c'est SAS le plus chiant donc logiquement tu devrais pas trop galérer sur les autre.
Sujets similaires
» régression multiple et régression logistique
» Régression Logistique vs Régression Linéaire
» régression logistique
» régression logistique
» Régression logistique
» Régression Logistique vs Régression Linéaire
» régression logistique
» régression logistique
» Régression logistique
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum