Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Régression logistique basé sur des variables binaires
3 participants
Page 1 sur 1
Régression logistique basé sur des variables binaires
Bonjour a tous,
Je suis actuellement dans un projet d’apprentissage supervisé.
Je dois faire un régression logistique multinomial, pour cela j’ai 140 individus avec 110 variables binaires et le groupe de chaque individu.
D’après les documents que j’ai lus cela est possible mais une petite question me perturbe.
Combien de faut-il de 0 ou de 1 au minimum pour que mes variables binaires soit significative ?
Je me doute que si une variable a 2 TRUE et 138 FALSE, elle n’est pas utilisable.
Mais je me demandais s’il existait un seuil connu ou une variance minimal nécessaire pour garder une variable prédictrice ?
Merci de votre avis la dessus
Edit : Les variables binaires doivent me permettre de prédire des clusters
Je suis actuellement dans un projet d’apprentissage supervisé.
Je dois faire un régression logistique multinomial, pour cela j’ai 140 individus avec 110 variables binaires et le groupe de chaque individu.
D’après les documents que j’ai lus cela est possible mais une petite question me perturbe.
Combien de faut-il de 0 ou de 1 au minimum pour que mes variables binaires soit significative ?
Je me doute que si une variable a 2 TRUE et 138 FALSE, elle n’est pas utilisable.
Mais je me demandais s’il existait un seuil connu ou une variance minimal nécessaire pour garder une variable prédictrice ?
Merci de votre avis la dessus
Edit : Les variables binaires doivent me permettre de prédire des clusters
Dernière édition par falques le Mer 29 Mai 2019 - 13:15, édité 2 fois (Raison : Remise au propre de la question)
falques- Nombre de messages : 14
Date d'inscription : 07/05/2019
Re: Régression logistique basé sur des variables binaires
Moi pas bien comprendre ta question. Plus sérieusement, si tu as 140 individus et 110 réponses possibles exclusives, abandonne l'idée de faire de la régression multinomiale, et encore plus si les réponses ne sont pas exclusives. D'ailleurs abandonne l'idée de faire de l'apprentissage sur tes données.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Régression logistique basé sur des variables binaires
Haha je n'ai pas été claire pardon !
Les 110 variables binaires sont les variables à utiliser pour la prédiction et non celle à prédire !
Mon apprentissage supervisé a pour but de modélisé des clusters déjà existants !
Elles ne sont pas liées entre elles et corresponde à différente caractéristiques des individus.
La question portait sur le choix des variables binomiales en tant que variables prédictrices.
Je cherche un moyen de faire du tri dans mes 110 variables car beaucoup d'entre elles n'ont presque aucun TRUE.
La question était donc de savoir à partir de quel % de TRUE ou de FALSE la variable n'est plus fiable (95%, 98 %)
Les 110 variables binaires sont les variables à utiliser pour la prédiction et non celle à prédire !
Mon apprentissage supervisé a pour but de modélisé des clusters déjà existants !
Elles ne sont pas liées entre elles et corresponde à différente caractéristiques des individus.
La question portait sur le choix des variables binomiales en tant que variables prédictrices.
Je cherche un moyen de faire du tri dans mes 110 variables car beaucoup d'entre elles n'ont presque aucun TRUE.
La question était donc de savoir à partir de quel % de TRUE ou de FALSE la variable n'est plus fiable (95%, 98 %)
falques- Nombre de messages : 14
Date d'inscription : 07/05/2019
Re: Régression logistique basé sur des variables binaires
Quelle est la variable à prédire ? Les clusters ? Si c'est cela, comment sont-ils obtenus ?
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Régression logistique basé sur des variables binaires
La variable à prédire est bien la classification.
Elle a était obtenue via d'autre données (données d'observance).
Je cherche à retrouver les cluster via une régression logistique multinomiale pour pouvoir, pour de nouveau patient retrouver les clusters.
Elle a était obtenue via d'autre données (données d'observance).
Je cherche à retrouver les cluster via une régression logistique multinomiale pour pouvoir, pour de nouveau patient retrouver les clusters.
falques- Nombre de messages : 14
Date d'inscription : 07/05/2019
Re: Régression logistique basé sur des variables binaires
Si tu travailles sur des patients c'est risqué d'éliminer sur un simple critere de fréquence. Surtout avec seulement 140 individus. Une variable à prévalence faible peut avoir un poids clinique fort.
D’après moi il faut que tu discutes avec un clinicien et faire un premier tri sur des critères cliniques.
D’après moi il faut que tu discutes avec un clinicien et faire un premier tri sur des critères cliniques.
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Régression logistique basé sur des variables binaires
Qu'appelles-tu 'donnée d'observance' et comment associes-tu un individu à un cluster ? De plus es-tu sûr de ta démarche ? Généralement, ce qu'on fait est d'apprendre le classifieur par une technique ensemble d'apprentissage / ensemble de test ou validation croisée. Ta démarche ne me semble pas très claire ni quand tu l'expliques aux autres mais peut-être aussi pour toi.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Régression logistique basé sur des variables binaires
Merci c@ssoulet, Je vais toute les garder dans un premier temps ! Et chercher un clinicien pour le choix de mes variables.
Florent Aubry l'observance est l'adéquation entre le comportement du patient et le traitement proposé.
Dans mon cas il s'agit de données sur le suivit d'un traitement.
Une classification à était faite sur ces données par mon supérieur.
Mon rôle est juste de retrouvé les groupes à partir de données anthropométriques.
Avant toute validation croisée ou même modélisation je souhaitai présélectionner mes variables prédictives anthropométriques (ce sont les variables binaires). Et c'est pour cela que je demander le nombre minimum de 1 (ou 0) pour qu'une variable soit significative.
Florent Aubry l'observance est l'adéquation entre le comportement du patient et le traitement proposé.
Dans mon cas il s'agit de données sur le suivit d'un traitement.
Une classification à était faite sur ces données par mon supérieur.
Mon rôle est juste de retrouvé les groupes à partir de données anthropométriques.
Avant toute validation croisée ou même modélisation je souhaitai présélectionner mes variables prédictives anthropométriques (ce sont les variables binaires). Et c'est pour cela que je demander le nombre minimum de 1 (ou 0) pour qu'une variable soit significative.
falques- Nombre de messages : 14
Date d'inscription : 07/05/2019
Re: Régression logistique basé sur des variables binaires
Donc, le tableau est :
Données anthropométriques (binaires) comme variables explicatives - groupe (facteur à plusieurs niveaux) déterminé par une 'autorité' indépendante comme variable à expliquer. Alors, regarde aussi du côté des techniques d'apprentissage supervisé.
Quant à déterminer un % permettant d'éliminer la variable explicative, oublie cette stratégie. En effet, prenons comme exemple 100 sujets avec 4 classes de 15 individus chaque. Soit une variable explicative binaire de 50 vrai et 50 faux telle qu'elle soit vrai pur deux classes et fausses pour les deux autres. Alors cette variable est à conserver puisqu'elle sera la première à ressortir dans une procédure d'arbre de décision dichotomique.
Données anthropométriques (binaires) comme variables explicatives - groupe (facteur à plusieurs niveaux) déterminé par une 'autorité' indépendante comme variable à expliquer. Alors, regarde aussi du côté des techniques d'apprentissage supervisé.
Quant à déterminer un % permettant d'éliminer la variable explicative, oublie cette stratégie. En effet, prenons comme exemple 100 sujets avec 4 classes de 15 individus chaque. Soit une variable explicative binaire de 50 vrai et 50 faux telle qu'elle soit vrai pur deux classes et fausses pour les deux autres. Alors cette variable est à conserver puisqu'elle sera la première à ressortir dans une procédure d'arbre de décision dichotomique.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Sujets similaires
» ACP variables binaires
» régression logistique et variables ordinales
» Régression logistique : indépendance des variables
» Régression logistique, variables, statistiques descriptives
» Regression logistique (codages variables quantitatives)
» régression logistique et variables ordinales
» Régression logistique : indépendance des variables
» Régression logistique, variables, statistiques descriptives
» Regression logistique (codages variables quantitatives)
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum