Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Comprendre les constantes d'un modèle logistique ordinal
3 participants
Page 1 sur 1
Comprendre les constantes d'un modèle logistique ordinal
Bonjour,
Le titre était trop court, je parle du modèle logistique ordinal multinomial.
Ma variable à expliquer est donc ordonnée en trois catégories : "maladie peu présente" ; "maladie présente" ; "maladie très présente".
Mon objectif est de créer un modèle dans lequel je pourrais prédire à quelle catégorie un patient appartiendra en fonction des données explicatives qui lui sont propres.
Dans le modèle logistique ordinal multinomial, il y a au moins 2 constantes (ici 2) :
- Maladie peu présente | Maladie présente
- Maladie présente | Maladie très présente
Je n'arrive pas à comprendre à quoi correspondent les différentes constantes.
Dans un modèle logistique basique (une variable à expliquer binaire), la constante correspond à la valeur de notre variable à expliquer lorsque les variables explicatives sont nulles.
Pour un modèle ordinal, si on suit la même logique, la phrase du dessus n'a plus aucun sens.
J'ai une hypothèse sur l'interprétation : le modèle va calculer les probabilités pour un patient d'appartenir à une catégorie, afin de calculer la valeur prédite du patient, le modèle va utiliser la constante qui sera adaptée à la prédiction qui va être faite parmi les 3 catégories de sévérité du patient (ici encore, je ne suis pas sur de ça car nous avons 2 constantes pour 3 catégories).
Est-ce que vous savez comment interpréter les constantes d'un modèle ordinal ?
Merci d'avance
Le titre était trop court, je parle du modèle logistique ordinal multinomial.
Ma variable à expliquer est donc ordonnée en trois catégories : "maladie peu présente" ; "maladie présente" ; "maladie très présente".
Mon objectif est de créer un modèle dans lequel je pourrais prédire à quelle catégorie un patient appartiendra en fonction des données explicatives qui lui sont propres.
Dans le modèle logistique ordinal multinomial, il y a au moins 2 constantes (ici 2) :
- Maladie peu présente | Maladie présente
- Maladie présente | Maladie très présente
Je n'arrive pas à comprendre à quoi correspondent les différentes constantes.
Dans un modèle logistique basique (une variable à expliquer binaire), la constante correspond à la valeur de notre variable à expliquer lorsque les variables explicatives sont nulles.
Pour un modèle ordinal, si on suit la même logique, la phrase du dessus n'a plus aucun sens.
J'ai une hypothèse sur l'interprétation : le modèle va calculer les probabilités pour un patient d'appartenir à une catégorie, afin de calculer la valeur prédite du patient, le modèle va utiliser la constante qui sera adaptée à la prédiction qui va être faite parmi les 3 catégories de sévérité du patient (ici encore, je ne suis pas sur de ça car nous avons 2 constantes pour 3 catégories).
Est-ce que vous savez comment interpréter les constantes d'un modèle ordinal ?
Merci d'avance
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Comprendre les constantes d'un modèle logistique ordinal
Bonjour,
Je ne suis pas certain que la valeur du coefficient en lui même est un sens très précis. Par contre tu peux l'interpréter avec l'odd ratio. Imaginons que tes constantes soient :
- Maladie peu présente | Maladie présente : 1.2
- Maladie présente | Maladie très présente : 0.2
alors tu as, quand toutes les variables explicatives sont nulles, exp(1.2)=3.26 fois plus de chance d'avoir une maladie présente plutôt que peu présente et exp(0.2)=1.22 fois plus de chance d'avoir une maladie très présente plutôt que présente.
C'est comme ça que je le comprends du moins...
Niaboc
Je ne suis pas certain que la valeur du coefficient en lui même est un sens très précis. Par contre tu peux l'interpréter avec l'odd ratio. Imaginons que tes constantes soient :
- Maladie peu présente | Maladie présente : 1.2
- Maladie présente | Maladie très présente : 0.2
alors tu as, quand toutes les variables explicatives sont nulles, exp(1.2)=3.26 fois plus de chance d'avoir une maladie présente plutôt que peu présente et exp(0.2)=1.22 fois plus de chance d'avoir une maladie très présente plutôt que présente.
C'est comme ça que je le comprends du moins...
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Comprendre les constantes d'un modèle logistique ordinal
Salut,
Dans le modèle ordinal on cherche généralement à prédire l'influence des variables explicatives sur le passage d'un niveau du facteur à l'autre. On a donc pour un facteur à k modalités, k-1 constantes.
Globalement l'interprétation d'un modèle ordinal n'est pas simple et le choix de la fonction de lien (logit adjacent, logits cumulatifs...) ajoute une certaine dose de complexité.
ça fait longtemps que je n'ai pas travaillé là-desus et à l'époque les travaux d'Agresti ou ceux de ce site http://eric.univ-lyon2.fr/~ricco/cours/index.html m'avait permis d'éclairer un peu ma lanterne.
HTH
Nik
Dans le modèle ordinal on cherche généralement à prédire l'influence des variables explicatives sur le passage d'un niveau du facteur à l'autre. On a donc pour un facteur à k modalités, k-1 constantes.
Globalement l'interprétation d'un modèle ordinal n'est pas simple et le choix de la fonction de lien (logit adjacent, logits cumulatifs...) ajoute une certaine dose de complexité.
ça fait longtemps que je n'ai pas travaillé là-desus et à l'époque les travaux d'Agresti ou ceux de ce site http://eric.univ-lyon2.fr/~ricco/cours/index.html m'avait permis d'éclairer un peu ma lanterne.
HTH
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Comprendre les constantes d'un modèle logistique ordinal
Bonjour, merci à tous les deux pour vos réponses.
J'ai trouvé une réponse assez intéressante (sur un site pas forcément très recommandé) :
https://www.quora.com/What-do-cut-points-or-thresholds-mean-when-doing-ordered-probit-or-ordered-logit-analysis-on-Stata-or-R-or-Gretl-etc
En gros, les valeurs des différents intercept sont des cut-offs.
La variable latente du modèle est calculée pour chaque patient.
Chaque patient a donc une valeur qui se range en fonction des différents intercepts et permet d'avoir une prédiction sur le stade de sévérité de la maladie le plus probable.
Dans l'exemple de Niaboc (désolé d'avoir trafiqué tes données) :
- Maladie peu présente | Maladie présente : 0.2
- Maladie présente | Maladie très présente : 1.2
Un patient ayant une valeur de 0.1 pour la variable latente sera prédit comme "Maladie peu présente".
Un patient ayant une valeur de 0.9 pour la variable latente sera prédit comme "Maladie présente".
Un patient ayant une valeur de 1.8 pour la variable latente sera prédit comme "Maladie très présente".
J'ai trouvé une réponse assez intéressante (sur un site pas forcément très recommandé) :
https://www.quora.com/What-do-cut-points-or-thresholds-mean-when-doing-ordered-probit-or-ordered-logit-analysis-on-Stata-or-R-or-Gretl-etc
En gros, les valeurs des différents intercept sont des cut-offs.
La variable latente du modèle est calculée pour chaque patient.
Chaque patient a donc une valeur qui se range en fonction des différents intercepts et permet d'avoir une prédiction sur le stade de sévérité de la maladie le plus probable.
Dans l'exemple de Niaboc (désolé d'avoir trafiqué tes données) :
- Maladie peu présente | Maladie présente : 0.2
- Maladie présente | Maladie très présente : 1.2
Un patient ayant une valeur de 0.1 pour la variable latente sera prédit comme "Maladie peu présente".
Un patient ayant une valeur de 0.9 pour la variable latente sera prédit comme "Maladie présente".
Un patient ayant une valeur de 1.8 pour la variable latente sera prédit comme "Maladie très présente".
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Comprendre les constantes d'un modèle logistique ordinal
Par contre je pense que cette interprétation n'est valable que sur les modèles à Odd ratio cumulatifs proportionnels où l'on modélise donc la P(Y<=k|X). Avec l'exemple ça serait plus :
- <=maladie peu présente : 0.2
- <= maladie présente : 1.2
Puisqu’effectivement seule la constante permet de hiérarchiser les probabilités d'appartenance à tel ou tel groupe pour un individu donné, il est possible de se construire des seuils d'affectations à l'aide du logit.
Je suppose que ces seuils ne sont pas contre par les constantes du modèle de régression, ils sont construits a posteriori. (même s'ils sont appelé "intercept" dans le lien que tu donnes).
Niaboc
- <=maladie peu présente : 0.2
- <= maladie présente : 1.2
Puisqu’effectivement seule la constante permet de hiérarchiser les probabilités d'appartenance à tel ou tel groupe pour un individu donné, il est possible de se construire des seuils d'affectations à l'aide du logit.
Je suppose que ces seuils ne sont pas contre par les constantes du modèle de régression, ils sont construits a posteriori. (même s'ils sont appelé "intercept" dans le lien que tu donnes).
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Comprendre les constantes d'un modèle logistique ordinal
Oui exactement, dans ce modèle ils ne sont pas considérés comme des intercept classiques.
Selon toi il y a plusieurs types de modèles ordinaux ? (ça m'intéresserait)
Peut-être qu'ils sont sous un autre nom ?
Selon toi il y a plusieurs types de modèles ordinaux ? (ça m'intéresserait)
Peut-être qu'ils sont sous un autre nom ?
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Comprendre les constantes d'un modèle logistique ordinal
Comme ça j'ai en tête les modèles ordinaux à logits adjacents (avec coefficients constants ou pas) mais je trouve que le modèle à Odds ratios cumulatifs a l'avantage d'avoir des interprétations plus aisées.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Comprendre les constantes d'un modèle logistique ordinal
Bonjour, merci niaboc,
Je reviens vers vous pour résumer ce que j'ai trouvé dans les articles/sites.
Il y a deux types majeurs de régression ordinale:
-La régression ordinale adjacente (à pentes parallèles ou non)
-La régression ordinale cumulative (à odds proportionnels ou non)
La régression adjacente va comparer deux à deux toutes les classes qui se touchent :
Hypertension 0 | Hypertension 1
Hypertension 1 | Hypertension 2
Hypertension 2 | Hypertension 3
La régression cumulative va comparer chaque groupe avec les autres groupes qui lui sont supérieurs :
Hypertension 0 | Hypertension 1 ou 2 ou 3 (Hypertension>=1)
Hypertension 0,1 | Hypertension 2 ou 3 (Hypertension>=2)
Hypertension 0,1,2 | Hypertension 3 (Hypertension>=3)
L'hypothèse d'odds proportionnels ou pentes adjacentes sera une hypothèse à vérifier concernant les variables prédictrices (i.e. le coefficient de la variable prédictrice est constante entre chaque paire de seuils 0|1, 1|2, 2|3).
Si l'hypothèse est prise en compte, le modèle sortira un seul coefficient par prédicteur.
Si l'hypothèse n'est pas prise en compte, le modèle sortira K-1 coefficients par prédicteur (K étant le nombre de classes de la variable ordinale).
Je reviens vers vous pour résumer ce que j'ai trouvé dans les articles/sites.
Il y a deux types majeurs de régression ordinale:
-La régression ordinale adjacente (à pentes parallèles ou non)
-La régression ordinale cumulative (à odds proportionnels ou non)
La régression adjacente va comparer deux à deux toutes les classes qui se touchent :
Hypertension 0 | Hypertension 1
Hypertension 1 | Hypertension 2
Hypertension 2 | Hypertension 3
La régression cumulative va comparer chaque groupe avec les autres groupes qui lui sont supérieurs :
Hypertension 0 | Hypertension 1 ou 2 ou 3 (Hypertension>=1)
Hypertension 0,1 | Hypertension 2 ou 3 (Hypertension>=2)
Hypertension 0,1,2 | Hypertension 3 (Hypertension>=3)
L'hypothèse d'odds proportionnels ou pentes adjacentes sera une hypothèse à vérifier concernant les variables prédictrices (i.e. le coefficient de la variable prédictrice est constante entre chaque paire de seuils 0|1, 1|2, 2|3).
Si l'hypothèse est prise en compte, le modèle sortira un seul coefficient par prédicteur.
Si l'hypothèse n'est pas prise en compte, le modèle sortira K-1 coefficients par prédicteur (K étant le nombre de classes de la variable ordinale).
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Sujets similaires
» LA NO SPECIFICITE DU MODELE LOGISTIQUE
» Modèle logistique polytomique ordonné
» Suite "Interprét sortie SAS Reg.log stepwise"
» valeurs initiales modèle logistique
» modèle optimal en regression logistique
» Modèle logistique polytomique ordonné
» Suite "Interprét sortie SAS Reg.log stepwise"
» valeurs initiales modèle logistique
» modèle optimal en regression logistique
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum