Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Régression logistique R
2 participants
Page 1 sur 1
Régression logistique R
Bonjour,
C’est la première fois que j’utilise R, pour analyser des données avec un modèle linéaire généralisé « binomial » « logit ».
Il s’agit de déterminer si des patients qui ont bien progressé dans une mesure donnée (EVA) ont certaines caractéristiques initiales particulières (ex. âge, BMI…). Cependant, si dans certains cas, j'obtiens des valeurs "cohérentes", et dans d'autres "aberrantes"
Sont joints:
- un exemple des résultats auxquels je m’attends : les coefficients, et les seuils de significativité correspondants
- les valeurs aberrantes qui me posent question
En cherchant un peu, j'ai réalisé que le message suivant apparaissait de façon récurrente: "Warning: glm.fit: algorithm did not converge".
En entrant cela sur google je suis tombé sur diverses discussions. J'en ai dégagé qu'il s'agissait d'un "problème de convergence" du modèle logit.
Les questions suivantes me viennent donc:
-Quelqu'un peut-il m'expliquer la raison du problème: valeurs manquantes ? effectif réduits (n=57) ?
-Comment puis-je faire correspondre le modèle à mes données (si c'est possible et réalisable pour un débutant en stat et en R...)
-Si cela n'est pas possible, est-il cohérent d'un point de vue statistique de procéder à une régression "régresseur par régresseur" (donc au lieu de faire: (EVA ~ a.âge + b.BMI + ...) plutot faire (EVA~a.âge) puis (EVA~a.BMI))
J'espère que je me suis exprimé suffisamment clairement et que je n'ai pas été trop long...
Merci d'avance pour vos réponses !
C’est la première fois que j’utilise R, pour analyser des données avec un modèle linéaire généralisé « binomial » « logit ».
Il s’agit de déterminer si des patients qui ont bien progressé dans une mesure donnée (EVA) ont certaines caractéristiques initiales particulières (ex. âge, BMI…). Cependant, si dans certains cas, j'obtiens des valeurs "cohérentes", et dans d'autres "aberrantes"
Sont joints:
- un exemple des résultats auxquels je m’attends : les coefficients, et les seuils de significativité correspondants
- les valeurs aberrantes qui me posent question
En cherchant un peu, j'ai réalisé que le message suivant apparaissait de façon récurrente: "Warning: glm.fit: algorithm did not converge".
En entrant cela sur google je suis tombé sur diverses discussions. J'en ai dégagé qu'il s'agissait d'un "problème de convergence" du modèle logit.
Les questions suivantes me viennent donc:
-Quelqu'un peut-il m'expliquer la raison du problème: valeurs manquantes ? effectif réduits (n=57) ?
-Comment puis-je faire correspondre le modèle à mes données (si c'est possible et réalisable pour un débutant en stat et en R...)
-Si cela n'est pas possible, est-il cohérent d'un point de vue statistique de procéder à une régression "régresseur par régresseur" (donc au lieu de faire: (EVA ~ a.âge + b.BMI + ...) plutot faire (EVA~a.âge) puis (EVA~a.BMI))
J'espère que je me suis exprimé suffisamment clairement et que je n'ai pas été trop long...
Merci d'avance pour vos réponses !
vladimir aron- Nombre de messages : 2
Date d'inscription : 24/05/2016
Re: Régression logistique R
En vous lisant, on n'arrive pas vraiment à comprendre pourquoi vous utilisez une régression logistique. Plus précisément qu'est cette variable DIFF.EVA ? Elle ne devrait contenir que des 0 et 1, puisque la variable à expliquer est supposée binomiale. Or vous appeler ça "une mesure donnée", ce qui n'est pas l'indication d'un trait binomial, selon moi. Pouvez vous préciser ça ?
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Régression logistique R
Bonjour Eric,
Je vais essayer de clarifier.
L'EVA (échelle visuelle analogue) est une mesure de la douleur normalement comprise entre 0 et 10 (0 min et 10 max). Dans le cas présent , j'ai fixé un seuil (2/10). Les sujets obtenant un score <2 se voyaient attribuer un 1 et >2 un 0. 1 représente donc la notion "a effectivement réduit sa douleur" et 0 "n'a pas effectivement réduit sa douleur"
Le but de mon analyse est donc de déterminer si des variables telles que l'age, le BMI ont un impact sur la douleur.
Je vais essayer de clarifier.
L'EVA (échelle visuelle analogue) est une mesure de la douleur normalement comprise entre 0 et 10 (0 min et 10 max). Dans le cas présent , j'ai fixé un seuil (2/10). Les sujets obtenant un score <2 se voyaient attribuer un 1 et >2 un 0. 1 représente donc la notion "a effectivement réduit sa douleur" et 0 "n'a pas effectivement réduit sa douleur"
Le but de mon analyse est donc de déterminer si des variables telles que l'age, le BMI ont un impact sur la douleur.
vladimir aron- Nombre de messages : 2
Date d'inscription : 24/05/2016
Re: Régression logistique R
Ok, ceci semble bien binomial. Rapidement, les problèmes que je vois dans ce que vous nous donnez sont :
1) Il y a un paramètre non estimé (NA) ce qui signifie probablement que la variable ajustée n'est pas représentée. Il faut tirer ceci au clair.
2) Les erreurs standards des paramètres estimés sont énormes (!) ce qui signe un problème. Est-il possible par exemple que la variable DIF.EVA n'ait que des 0 ou que des 1 pour certaines valeurs des variables de la régression? Si oui, ça pose un problème majeure pour une régression logistique (je me suis exprimé plusieurs fois sur ce point dans ce forum).
Enfin, je ne comprends pas l’intérêt de remplacer une variable entre 0 et 10 par une variable binaire. Vous perdez énormément d'information ce qui est dommage. Pourquoi ne pas travailler sur la variable EVA d'origine ?
HTH, Eric.
1) Il y a un paramètre non estimé (NA) ce qui signifie probablement que la variable ajustée n'est pas représentée. Il faut tirer ceci au clair.
2) Les erreurs standards des paramètres estimés sont énormes (!) ce qui signe un problème. Est-il possible par exemple que la variable DIF.EVA n'ait que des 0 ou que des 1 pour certaines valeurs des variables de la régression? Si oui, ça pose un problème majeure pour une régression logistique (je me suis exprimé plusieurs fois sur ce point dans ce forum).
Enfin, je ne comprends pas l’intérêt de remplacer une variable entre 0 et 10 par une variable binaire. Vous perdez énormément d'information ce qui est dommage. Pourquoi ne pas travailler sur la variable EVA d'origine ?
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Sujets similaires
» Régression Logistique vs Régression Linéaire
» régression multiple et régression logistique
» regression logistique
» SAS Regression logistique
» Régression logistique
» régression multiple et régression logistique
» regression logistique
» SAS Regression logistique
» Régression logistique
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum