Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Le Deal du moment : -50%
[Adhérents Fnac] -50% Casque Pro Gaming HyperX ...
Voir le deal
49.99 €

Régression logistique basé sur des variables binaires

3 participants

Aller en bas

Régression logistique basé sur des variables binaires Empty Régression logistique basé sur des variables binaires

Message par falques Mer 29 Mai 2019 - 9:51

Bonjour a tous,
Je suis actuellement dans un projet d’apprentissage supervisé.
Je dois faire un régression logistique multinomial, pour cela j’ai 140 individus avec 110 variables binaires et le groupe de chaque individu.
D’après les documents que j’ai lus cela est possible mais une petite question me perturbe.

Combien de faut-il de 0 ou de 1 au minimum pour que mes variables binaires soit significative ?

Je me doute que si une variable a 2 TRUE et 138 FALSE, elle n’est pas utilisable.
Mais je me demandais s’il existait un seuil connu ou une variance minimal nécessaire pour garder une variable prédictrice ?

Merci de votre avis la dessus Very Happy


Edit : Les variables binaires doivent me permettre de prédire des clusters


Dernière édition par falques le Mer 29 Mai 2019 - 13:15, édité 2 fois (Raison : Remise au propre de la question)

falques

Nombre de messages : 14
Date d'inscription : 07/05/2019

Revenir en haut Aller en bas

Régression logistique basé sur des variables binaires Empty Re: Régression logistique basé sur des variables binaires

Message par Florent Aubry Mer 29 Mai 2019 - 12:30

Moi pas bien comprendre ta question. Plus sérieusement, si tu as 140 individus et 110 réponses possibles exclusives, abandonne l'idée de faire de la régression multinomiale, et encore plus si les réponses ne sont pas exclusives. D'ailleurs abandonne l'idée de faire de l'apprentissage sur tes données.

Florent Aubry

Nombre de messages : 251
Date d'inscription : 02/11/2015

Revenir en haut Aller en bas

Régression logistique basé sur des variables binaires Empty Re: Régression logistique basé sur des variables binaires

Message par falques Mer 29 Mai 2019 - 12:55

Haha je n'ai pas été claire pardon !

Les 110 variables binaires sont les variables à utiliser pour la prédiction et non celle à prédire !
Mon apprentissage supervisé a pour but de modélisé des clusters déjà existants !

Elles ne sont pas liées entre elles et corresponde à différente caractéristiques des individus.

La question portait sur le choix des variables binomiales en tant que variables prédictrices.

Je cherche un moyen de faire du tri dans mes 110 variables car beaucoup d'entre elles n'ont presque aucun TRUE.

La question était donc de savoir à partir de quel % de TRUE ou de FALSE la variable n'est plus fiable (95%, 98 %)

falques

Nombre de messages : 14
Date d'inscription : 07/05/2019

Revenir en haut Aller en bas

Régression logistique basé sur des variables binaires Empty Re: Régression logistique basé sur des variables binaires

Message par Florent Aubry Jeu 30 Mai 2019 - 14:32

Quelle est la variable à prédire ? Les clusters ? Si c'est cela, comment sont-ils obtenus ?

Florent Aubry

Nombre de messages : 251
Date d'inscription : 02/11/2015

Revenir en haut Aller en bas

Régression logistique basé sur des variables binaires Empty Re: Régression logistique basé sur des variables binaires

Message par falques Lun 3 Juin 2019 - 7:06

La variable à prédire est bien la classification.
Elle a était obtenue via d'autre données (données d'observance).

Je cherche à retrouver les cluster via une régression logistique multinomiale pour pouvoir, pour de nouveau patient retrouver les clusters.

falques

Nombre de messages : 14
Date d'inscription : 07/05/2019

Revenir en haut Aller en bas

Régression logistique basé sur des variables binaires Empty Re: Régression logistique basé sur des variables binaires

Message par c@ssoulet Lun 3 Juin 2019 - 7:33

Si tu travailles sur des patients c'est risqué d'éliminer sur un simple critere de fréquence. Surtout avec seulement 140 individus. Une variable à prévalence faible peut avoir un poids clinique fort.

D’après moi il faut que tu discutes avec un clinicien et faire un premier tri sur des critères cliniques.

c@ssoulet

Nombre de messages : 925
Date d'inscription : 05/05/2008

Revenir en haut Aller en bas

Régression logistique basé sur des variables binaires Empty Re: Régression logistique basé sur des variables binaires

Message par Florent Aubry Lun 3 Juin 2019 - 9:23

Qu'appelles-tu 'donnée d'observance' et comment associes-tu un individu à un cluster ? De plus es-tu sûr de ta démarche ? Généralement, ce qu'on fait est d'apprendre le classifieur par une technique ensemble d'apprentissage / ensemble de test ou validation croisée. Ta démarche ne me semble pas très claire ni quand tu l'expliques aux autres mais peut-être aussi pour toi.

Florent Aubry

Nombre de messages : 251
Date d'inscription : 02/11/2015

Revenir en haut Aller en bas

Régression logistique basé sur des variables binaires Empty Re: Régression logistique basé sur des variables binaires

Message par falques Lun 3 Juin 2019 - 11:20

Merci c@ssoulet, Je vais toute les garder dans un premier temps ! Et chercher un clinicien pour le choix de mes variables.

Florent Aubry l'observance est l'adéquation entre le comportement du patient et le traitement proposé.
Dans mon cas il s'agit de données sur le suivit d'un traitement.
Une classification à était faite sur ces données par mon supérieur.


Mon rôle est juste de retrouvé les groupes à partir de données anthropométriques.

Avant toute validation croisée ou même modélisation je souhaitai présélectionner mes variables prédictives anthropométriques (ce sont les variables binaires). Et c'est pour cela que je demander le nombre minimum de 1 (ou 0) pour qu'une variable soit significative.

falques

Nombre de messages : 14
Date d'inscription : 07/05/2019

Revenir en haut Aller en bas

Régression logistique basé sur des variables binaires Empty Re: Régression logistique basé sur des variables binaires

Message par Florent Aubry Lun 3 Juin 2019 - 13:24

Donc, le tableau est :
Données anthropométriques (binaires) comme variables explicatives - groupe (facteur à  plusieurs niveaux) déterminé par une 'autorité' indépendante comme variable à expliquer. Alors, regarde aussi du côté des techniques d'apprentissage supervisé.
Quant à déterminer un % permettant d'éliminer la variable explicative, oublie cette stratégie. En effet, prenons comme exemple 100 sujets avec 4 classes de 15 individus chaque. Soit une variable explicative binaire de 50 vrai et 50 faux telle qu'elle soit vrai pur deux classes et fausses pour les deux autres. Alors cette variable est à conserver puisqu'elle sera la première à ressortir dans une procédure d'arbre de décision dichotomique.

Florent Aubry

Nombre de messages : 251
Date d'inscription : 02/11/2015

Revenir en haut Aller en bas

Régression logistique basé sur des variables binaires Empty Re: Régression logistique basé sur des variables binaires

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum