capacités prédictives du modèle

par amal38 Lun 29 Juin 2009 - 11:08

Bonjour,

J'ai utilisé un modèle de régression logistique en suivant la méthode stepwise, j'obtient avec ce modèle les valeurs suivantes : (voir la sortie sas sur le lien : http://imagik.fr/view-rl/81876
% pairs concordantes = 32.1
% pairs discordantes = 10.2

est ce que ces valeurs semblent bonnes pour un bon modèle???? (j'ai l'impression que non, je crois, que le % des pairs concordantes doit être élevé, à l'inverse du % des pairs discordantes qui lui, doit être faible!!!!!ce qui n'est pas le cas ici) alors si la réponse est que les valeurs sont pas assez suffisantes pour un bon modèle, que pourrai-je conclure (que le modèle que j'ai fait n'est pas bon???? et dans ce cas, y a t-il une solution pour le rendre bon modèle???

En outre, je voudrais savoir ce que veulent dire les statistiques "percent tied, somers' D, Gamma, Tau-a, c"

merci bien.

par sai9004 Lun 29 Juin 2009 - 16:45

Rebonjour, Smile

32% de pairs concordantes , 10.2% de pairs discordantes et un D de Somer de 0.21...ma foi c'est pas fameux tout ça.

j'ai l'impression que non, je crois, que le % des pairs concordantes doit être élevé, à l'inverse du % des pairs discordantes qui lui, doit être faible!!!!!ce qui n'est pas le cas ici

Eh, ben t'as tout a fait raison.

Le D de somer c'est comme un indice de Gini, il permet d'apprécier le pouvoir discriminant de ton modèle. Il varit entre 0 et 1; plus il est proche de 1 mieux c'est.

Pour les tau de Kendall tu trouveras des explications ici: http://eric.univ-lyon2.fr/~ricco/cours/cours/Dependance_Variables_Qualitatives.pdf

Tu peux conclure, que ton modèle n'est pas suffisamment discriminant. Pour l'améliorer tu peux essayer d'introduire d'autres variables, d'améliorer la discrétisation de tes variables quantitatives (en utilisant le critère du khi-deux + T de Tschuprow), essayer d'introduire des croisements de variables explicatives...

Si après tout ça, tu n'obtiens pas un meilleur modèle, cela signifie qu'il n'y a pas assez d'informations dans tes variables excplicatives pour prédire correctement ta variable d'intérêt.
En stat quand il n'y a pas assez d'info, ben il n'y en a pas assez et pis c'est tout. Smile

Bon courage!

par amal38 Lun 29 Juin 2009 - 21:45

sai9004 a écrit:Rebonjour,

32% de pairs concordantes , 10.2% de pairs discordantes et un D de Somer de 0.21...ma foi c'est pas fameux tout ça.

j'ai l'impression que non, je crois, que le % des pairs concordantes doit être élevé, à l'inverse du % des pairs discordantes qui lui, doit être faible!!!!!ce qui n'est pas le cas ici
Eh, ben t'as tout a fait raison.

Le D de somer c'est comme un indice de Gini, il permet d'apprécier le pouvoir discriminant de ton modèle. Il varit entre 0 et 1; plus il est proche de 1 mieux c'est.

Pour les tau de Kendall tu trouveras des explications ici: http://eric.univ-lyon2.fr/~ricco/cours/cours/Dependance_Variables_Qualitatives.pdf

Tu peux conclure, que ton modèle n'est pas suffisamment discriminant. Pour l'améliorer tu peux essayer d'introduire d'autres variables, d'améliorer la discrétisation de tes variables quantitatives (en utilisant le critère du khi-deux + T de Tschuprow), essayer d'introduire des croisements de variables explicatives...

Si après tout ça, tu n'obtiens pas un meilleur modèle, cela signifie qu'il n'y a pas assez d'informations dans tes variables excplicatives pour prédire correctement ta variable d'intérêt.
En stat quand il n'y a pas assez d'info, ben il n'y en a pas assez et pis c'est tout.
Bon courage!

Bonjour,

Suite à ce que mon modèle n'était pas discriminant, (voir mon message précédent intitulé du suejt "capacités prédictives du modèle", j'ai essayé d'introduire plus de variables, mais sas refuse en citant suite à l'intrduction de la première variable dans ma stepwise

"État de convergence du modèle
Quasi-complete separation of data points detected.
AVERTISSEMENT: The maximum likelihood estimate may not exist.
AVERTISSEMENT: The LOGISTIC procedure continues in spite of the above warning. Results shown are based on the last maximum
likelihood iteration. Validity of the model fit is questionable."

Ainsi, je vais opter pour la dernière solution que Sai m'avait déjà citée: créer un modèle de régression en suivant une méthode stepwise manuelle, alors pour que je comprenne bien, il faut faire ce qui suit ???????
pour chaque variable explicative continue, calculer la statistique de Kruskal wallis entre cette variable et la variable d'intérêt qui est binaire???? et c'est avec la p-valeur de ce test qu'on déduit que la variable a une liaison ou pas avec la variable d'intérêt (p-val<0,05), si c'est le cas, je la retiens pour faire la méthode stepwise avec, sinon je la rejette, est ce que j'ai raison??????

pour chaque variable qualitative, il faut calculer le T schuprow avec la variable d'intérêt et retenir que les variables explicatives qui ont un T schuprow élevé avec la variable d'intérêt???? si c'est le cas, à partir de quelle valeur de cette statistique je peux considérer que la T schuprow est élevée???? et que je peux retenir ma var explicative en question pour l'introduire dans la stepwise????)

En outre, je n'ai pas compris ce que tu voulais dire SAI par implémentation du T Schupraw sous sas, comment le calculer concrètement????
et donc ces deux statistiques calculées, je commence ma stepwise en suivant la démarche déjà enoncée par SAI

merci pour votre aide, celà fait des jours que je tourne à rond, et j'en ai besoin de vos connaissances pour avancer un petit peu!!!!!!

par sai9004 Mar 30 Juin 2009 - 7:57

Salut,
Ce serait plus pratique de faire "répondre", plutôt que "citer" quand tu veux répondre à un message. Smile

Bon continuons!!!

La quasi-sépartion complète de tes données, signifie que parmi des variables explicatives, il y en a une qui est quasiment égale à ta variable d'intérêt. Ca peut être aussi une combinaison de variables explicatives qui expliquent quasi parfaitement ta varaible d'intérêt.
Google t'en diras plus.

Sinon c'est quoi la taille de ton échantillon? Car on rencontre souvent ces cas sur de petits échantillons.

pour chaque variable explicative continue, calculer la statistique de Kruskal wallis entre cette variable et la variable d'intérêt qui est binaire???? et c'est avec la p-valeur de ce test qu'on déduit que la variable a une liaison ou pas avec la variable d'intérêt (p-val<0,05), si c'est le cas, je la retiens pour faire la méthode stepwise avec, sinon je la rejette, est ce que j'ai raison??????

Oui exact!! si la p-value est supérieur 0.05, disons qu'on ne rejette pas la variable mais qu'on l'a met de côté pour essayer de l'introduire plus tard.
Parce que le test de Kruskal wallis, ne donne pas un dégré de liaison, je préfère transformer toutes mes variables quantitatives en variables qualitatives en faisant des classes. C'est très subjectif comme vision, d'autant plus que c'est étape peut s'avérer pénible. C'est à toi de voir!

pour chaque variable qualitative, il faut calculer le T schuprow avec la variable d'intérêt et retenir que les variables explicatives qui ont un T schuprow élevé avec la variable d'intérêt???? si c'est le cas, à partir de quelle valeur de cette statistique je peux considérer que la T schuprow est élevée???? et que je peux retenir ma var explicative en question pour l'introduire dans la stepwise????)

T_tschuprow = 0 --> liaison nulle
0 < T_tschuprow <0.1 --> liaison faible
0.1 < T_tschuprow <0.3 --> liaison moyenne
0.3 < T_tschuprow <0.5 --> liaison forte
0.5 < T_tschuprow < 1 --> liaison très forte
T_tschuprow = 1 --> liaison parfaite
Evidemment tout ça est subjectif, en ce moment par exemple je travaille sur un modèle dans lequels mes T_schuprow culminent à 0.1; Il faut savoir s'adapter.
Après tout les stats c'est un peu de l'art!!!.

En outre, je n'ai pas compris ce que tu voulais dire SAI par implémentation du T Schupraw sous sas, comment le calculer concrètement????

C'est simple. Il faut soit le calculer manuellement (google te donnera la formule), soit écrire un marco-programme sous SAS pour le calculer!
J'espère que tu t'y connais en language macro-SAS, parce qu'en fonction de ton nombre de variables explicatives ça peut vite devenir pénible de le faire manuellement.

++

par amal38 Mer 1 Juil 2009 - 9:36

Bonjour,

Ma question est plus adressée à SAI, car c'est lui qui m'a proposé que mon modèle que j'ai déjà construit avec la stepwise n'était pas bon en se basant sur le pourcentage des pairs concordants et discordants et la valeur du sommers ' D (ils étaient tous très faibles) "voir mes messages précédents"

Or, quand j'ai cherché sur des articles, qualifier un modèle revient à faire des tests d'adéquation du modèle, parmi ces tests on fait le test de Hosmer lemeshow, j'ai alors fait ce test sur ma méthode stepwise faite précédemment (où le sommer'D, les % concorandats étaint trsè faible) , le test est validé avec une p-valeur de 0.9577, ce qui veut dire que j'accepte H0 l'hypothèse d'adéquation du modèle.

(H0 : modèle est adéquat Vs H1 : le modèle ne l'est pas)

Alors ce que j'en conclus est que les pourcentages concordanets et pourcentages discordantes et d somemr etc.... ne sont pas ces critères qu'il faut voir pour valider la qualité d'un modèle, peut être quand ils sont faible, ça met en question les capacités prédictives du modèle oui, mais pas le modèle explicatif de la variable d'intérêt!!!!

Qu'en pensez-vous SAI, évidemment la question est posée à tout le monde lol!

par Invité Mer 1 Juil 2009 - 12:02

re,

tout d'abord il y a un truc que je trouve bizarre c'est la proportion de "tied" and la sortie des analyses qui représentent environ 60%, il faudrait savoir à quoi ils correspondent car il semble difficile de conclure quoi que ce soit sur les autres pourcentages vu que leur somme est loin de faire 100%. Même ici je n'ai pas trop vu ce que c'était :http://www.ats.ucla.edu/stat/sas/output/SAS_logit_output.htm

Une autre mesure de la qualité d'une régression logistique est la la courbe ROC. Cette analyse te permet de connaître la qualité de prédiction de ton modèle de par l'aire sur la surface (entre 0 et 1), 0.7-0.8 moyen, 0.8-0.9 bon et >0.9 très bon, mais aussi la spécificité et la sensibilité de ton modèle à savoir si les succès et les échecs sont bien classés comme tel par ton modèle.

C'est une mesure couremment utiliser qui à mon avis pourra être utile.

micros

Edit: un lien vers un doc pour créer une macro SAS pour estimer la courbe ROC
http://www2.sas.com/proceedings/sugi22/POSTERS/PAPER219.PDF

par sai9004 Mer 1 Juil 2009 - 14:48

resalut,

tout d'abord il y a un truc que je trouve bizarre c'est la proportion de "tied" and la sortie des analyses qui représentent environ 60%, il faudrait savoir à quoi ils correspondent car il semble difficile de conclure quoi que ce soit sur les autres pourcentages vu que leur somme est loin de faire 100%.

Si je ne me trompe pas c'est la somme des pourcentages de paires concordantes, discordantes et indéterminées qui doit faire 100%! Et c'est bien son cas ici, puisqu'on a :

paires concordantes: 32.1%
paires discordantes: 10.2%
paires indéterminées: 57.7%

Confèr son premier post, précisement le lien vers la sortie SAS.
Je connais pas le test de Hosmer lemeshow, je ne pourrais donc pas te renseigner.
Cela dit, quel est ton objectif?
Prédire ta variable d'intérêt ou juste monter que les variables explicatives que tu as expliquent (même en partie) ta variable d'intérêt?
Dernière question, j'ai regardé les sorties SAS, dans un de tes messages précédents et je suis tombé sur ça:
http://www.hostingpics.net/viewer.php?id=61819derniere_sortie.jpg

Je pense que ce modèle là a déjà plus de qualité (notamment au niveau des paires)que celui du lien posté dans ton premier message de ce post --> http://imagik.fr/view-rl/81876

par amal38 Mer 1 Juil 2009 - 15:10

Bonjour SAI

merci pour ta réponse.

en effet, les étapes que j'ai faites sont les suivantes :
- tout dabord je fais une régression logistique simple, entre la variable réponse et la var explicative en question

-aprés, pour mon modèle de régression multiple, j'ai retenu que les var explicatives significatives AVEC UN ODDS RATIO SIGINIFICATIF AUSSI, ce qui donne la sortie
Par contre, le fait de prendre également les var explicatives sans s'intéresser à la significativité de l'Odds ratio, donne la sortie suivante où le % des pairs concordantes est meilleur http://www.hostingpics.net/viewer.php?id=61819derniere_sortie.jpg, mais bon, je ne crois pas que c'est un bon modèle car il n'a pas introduit les bonnes var pour lesquelles le OR est significatif

alors que sur la sortie http://imagik.fr/view-rl/81876 toutes les variables introduites dans la stepwise avaint un OR significatif

d'autre part, ma démarche consiste en l'explication d'une variable réponse avec un modèle adéquat. Ensuite, modéliser la probabilité de la modalité à risque de la var réponse (var d'intéret) , pour celà j'azi besoin de qualifier la prédiction de mon modèle.

Merci pour ton soutien.

par Invité Jeu 2 Juil 2009 - 6:25

par sai9004 le Mer 1 Juil - 16:48resalut,
tout
d'abord il y a un truc que je trouve bizarre c'est la proportion de
"tied" and la sortie des analyses qui représentent environ 60%, il
faudrait savoir à quoi ils correspondent car il semble difficile de
conclure quoi que ce soit sur les autres pourcentages vu que leur somme
est loin de faire 100%.
Si je ne me trompe pas
c'est la somme des pourcentages de paires concordantes, discordantes et
indéterminées qui doit faire 100%! Et c'est bien son cas ici, puisqu'on
a :

paires concordantes: 32.1%
paires discordantes: 10.2%
paires indéterminées: 57.7%

Confèr son premier post, précisement le lien vers la sortie SAS.

... que dire, je pense ne pas être assez stupide pour savoir qu'effectivement la somme totale des pourcentages doit faire 100%. Ma remarque provenait du fait qu'une grande partie des se concentre pour les "tied", du coup je me demande quelle information est reflétée par les 32% et les 10% pour les paires concordantes et discordantes ... Dans la plupart des exemples que tu trouves et notamment dans les bouquins qui traitent de la regression logistique avec le logiciel SAS, le pourcentage représenté par les "tied" est très faible et dans ce cas tirer des conclusions sur les deux autres catégories semblent avoir un sens, alors qu'ici ça semble beaucoup moins évident.

micros

par sai9004 Jeu 2 Juil 2009 - 8:38

Réponse à Micros:
Au temps pour moi. Au fait je crois que je n'ai compris ni ta remarque, ni ton dernier message d'ailleurs. Je m'en excuse.
Passons.

Sinon je pense que la grande part de paires liées ou indéterminées (tied) est dûe aux mauvaises capacités discriminantes du modèle.

par sai9004 Jeu 2 Juil 2009 - 13:59

A Amal38,

qu'appelles-tu un Odds ratio significatif?
J'ai beau chercher, je ne vois pas où SAS effectue un test de significativité des Odds ratio. Shocked

par amal38 Jeu 2 Juil 2009 - 14:01

Bonjour SAI

J'ai vu cela en cours. En effet un OR est significatif, si son intervalle de confiance ne contient pas la valeur 1

Cordialement

par sai9004 Jeu 2 Juil 2009 - 14:37

Désolé, mais sur ce coup je ne pourrais pas t'aider.
Je n'ai pas l'habitude d'utiliser les OR dans mes modélisations, ni leurs intervalles de confiance.

par Contenu sponsorisé

capacités prédictives du modèle

capacités prédictives du modèle

Re: capacités prédictives du modèle

Je ne m'en sors pas, que dois-je faire exactement?

Re: capacités prédictives du modèle

test de Hosmet lemeshow sur la régression logistique!!!!!!

Re: capacités prédictives du modèle

Re: capacités prédictives du modèle

Non, c'était un modèle pas très juste "on va dire"

Re: capacités prédictives du modèle

Re: capacités prédictives du modèle

Re: capacités prédictives du modèle

re : capacités prédictives du modèle

Re: capacités prédictives du modèle

Re: capacités prédictives du modèle