Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Regression logistique, la bonne méthode pour mon sujet ?
3 participants
Page 1 sur 1
Regression logistique, la bonne méthode pour mon sujet ?
Bonjour à tous !
Voilà, je travaille dans un service anti fraude (site internet), et je dispose de très grandes quantités de données.
Après voir lu une description de la régression logistique, et quelques exemples (en épidémiologie, ou un système pour prédire qui survit ou non au naufrage du Titanic !), je me suis dit que cette méthode serait toute adaptée :
Seulement, quand j'y réfléchis, mon expérience me permet de dire que certaines modalité de certains variables n'ont de sens que quand elles surviennent en même temps que certaines autres modalités de certaines autres variables. Imaginons que j'étudie les serpents et leur dangerosité. Imaginons qu'il existe des serpents venimeux de toutes les couleurs, mais que je découvre que chez les serpents verts, seules les femelles sont dangereuses :
D'avance, un grand merci à ceux qui liront mon message Je précise que je peux être considéré comme débutant, mais motivé et curieux. J'ai d'énooooooormes quantité de données, et voudraient bien avoir une approche plus scientifique de tout cela. Je compte sur mon expérience pour guider le processus, évaluer ce qui fait sens...
Merci !
Voilà, je travaille dans un service anti fraude (site internet), et je dispose de très grandes quantités de données.
Après voir lu une description de la régression logistique, et quelques exemples (en épidémiologie, ou un système pour prédire qui survit ou non au naufrage du Titanic !), je me suis dit que cette méthode serait toute adaptée :
- les variables prédictives peuvent être quantitatives ou qualitatives, ce qui est mon cas !
- la variable à prédire est binaire : elle prendra la valeur fraudeur/non fraudeur. Je voulais justement éviter un système de scoring comme dans les "random forest"
- on choisit les variables qu'on veut retenir après une étude préalable des odds ratio, c'est bien cela
Seulement, quand j'y réfléchis, mon expérience me permet de dire que certaines modalité de certains variables n'ont de sens que quand elles surviennent en même temps que certaines autres modalités de certaines autres variables. Imaginons que j'étudie les serpents et leur dangerosité. Imaginons qu'il existe des serpents venimeux de toutes les couleurs, mais que je découvre que chez les serpents verts, seules les femelles sont dangereuses :
- est ce que la régression logistique va "découvrir" cet état de fait, en imaginant que je dispose de suffisamment de données ?
- si ca ne ressort pas de la régression logistique, les résultats seront ils fossés, à savoir que le facteur "serpent vert" serait considéré comme facteur de diminution de risque ?
- si cela pose souci, quelle autre méthode choisir ? Car j'ai des tas de biais comme celui ci, de petites particularités... Et je me demande comment cela peut affecter la possibilité même d'un système prédictif, puisque c'est bien là mon objectif
D'avance, un grand merci à ceux qui liront mon message Je précise que je peux être considéré comme débutant, mais motivé et curieux. J'ai d'énooooooormes quantité de données, et voudraient bien avoir une approche plus scientifique de tout cela. Je compte sur mon expérience pour guider le processus, évaluer ce qui fait sens...
Merci !
Doudouman- Nombre de messages : 2
Date d'inscription : 14/02/2017
Re: Regression logistique, la bonne méthode pour mon sujet ?
Une régression logistique n'est rien moins qu'une régression ou une anova sur données binaires. Il n'y a rien de magique. Dans votre exemple, vous aurez une interaction significative entre le facteur "espèce de serpent" et "sexe", si la variable à expliquer est le fait d'être dangereux ou pas. Il faut donc s'en servir (également) comme un mode exploratoire pour voir ce qu'il y a dans vos données. Ensuite, creuser (e.g., avec des graphiques) les informations recueillies, etc.
HTH, Eric.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Regression logistique, la bonne méthode pour mon sujet ?
Merci pour votre message.
Très bien, je vais commencer par bien me renseigner sur ce qu'est une anova, et irai pas à pas avec des tutoriaux.
Bonne journée à tous,
Très bien, je vais commencer par bien me renseigner sur ce qu'est une anova, et irai pas à pas avec des tutoriaux.
Bonne journée à tous,
Doudouman- Nombre de messages : 2
Date d'inscription : 14/02/2017
Re: Regression logistique, la bonne méthode pour mon sujet ?
tutoriels est le pluriel de tutoriel (en anglais tutorial-s).
Cordialement.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Sujets similaires
» Regression logistique avec que des zéro pour un groupe
» Régression logistique pour petit échantillon
» Regression logistique pour prediction réussite a un examen
» Quel indicateur pour un bon modèle de régression logistique
» Calculer un sample-size pour régression logistique ordinale
» Régression logistique pour petit échantillon
» Regression logistique pour prediction réussite a un examen
» Quel indicateur pour un bon modèle de régression logistique
» Calculer un sample-size pour régression logistique ordinale
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum