Suite "Interprét sortie SAS Reg.log stepwise"

par amal38 Ven 26 Juin 2009 - 11:53

Bonjour, j'expose maintenant mes questions qui ont un lien avec mes messages diffusées précédemment "interprétation sortie SAS régression logistique stepwise / Sas première sortie / SAS, 2ème sortie, je vous en remercie infiniment :

Mes questions sur la sortie :
1. au début, SAS fait entrer l'intercept, mais sur quel critère il se base pour le faire???

2. le test de Khi2 résiduel sert à quoi???

3. à l'étape 1, il rentre FAM_AVC, là encore sur quel critère se bas-t-il pour en décider ainsi?

4. à l'étape 1 toujours, il présente le AIC (tout ce que je sais, est que cette valeur est pour comparer des modèles, mais ici, de quels modèles s'agit-ils?

5. pour tester l'hypothèse H0, les test LR et wald étaient effectuées, sauf que j'ai la p-val du LR<0.05 ce qui veut dire que les variables explique la variable d'intérêt, or le test de wald, a une p-valeur>0.05, que dois-je conclure????

6. que représentent les statistiques SC, -2 log L, et le test du score??

7. à l'étape2, on rentre dans le modèle la variable surfcorp, là encore, sur quel critère se bas-t-il pr en décider ainsi

8. Enfin, il présente 3 tableaux (un pour récapituler la séléction séquentielle, ce tableau me servira à qoi???

9. un tableau qui s'appelle "analyse des effets type3?????" de quoi s'agit-il????

10. la tableau de l'analyse de la vraisemblance maximum, je pense que c'est ce tableau là qui me donne les p-valeur de signification de l'explication de la variable d'intérêt par les variables explicatives, ai je raison???

par sai9004 Ven 26 Juin 2009 - 12:35

En vrac:
1. SAS fait entrer les variables dans le modèle en sélectionnant à chaque fois la plus discriminante.Il commence d'abord par faire entrer l'intercept (la constante), puis teste toute les variables et fait entrer la plus discriminante si elle respecte le seuil de significativité d'entrée que tu as définit avec slsentry. SAS test la validité globale de ton modèle (cste + première variable) avec des tests de Wald, LR et score. Ensuite si ton nouveau modèle (cste + première variable) est globalement valide SAS compare les deux modèles à l'aide des critères SC(Schwarz Criterion), AIC (AIC = -2LogL + 2k) et BIC (BIC = -2LogL + klog(n) avec k nombre de paramètre à estimer et n le nombre d'observation). Le meilleur modèle au sens de l'AIC (BIC) est celui qui a le plus petit AIC (pareil pour le BIC et le SC).
Il choisit le meilleur modèle, puis fait reteste encore les variables restantes pour faire entrer la variable la plus discriminante et recommence les tests réalisés après l'entrée de la 1ere variable.
Je répondrais à la suite, plus tard...
Sinon t'as essayé l'aide de SAS?
++

par amal38 Ven 26 Juin 2009 - 13:13

sai9004 a écrit:En vrac:
1. SAS fait entrer les variables dans le modèle dans le même ordre que celles ci citées dans l'instruction "MODEL" de ta proc logistique.
Il commence d'abord par faire entrer l'intercept (la constante), puis la première variable citée dans l'instruction "MODEL" si elle respecte le seuil de significativité d'entrée que tu as définit avec slsentry. SAS test la validité globale de ton modèle (cste + première variable) avec des tests de Wald, LR et score. Ensuite si ton nouveau modèle (cste + première variable) est globalement valide SAS compare les deux modèles à l'aide des critères SC(Schwarz Criterion), AIC (AIC = -2LogL + 2k) et BIC (BIC = -2LogL + klog(n) avec k nombre de paramètre à estimer et n le nombre d'observation). Le meilleur modèle au sens de l'AIC (BIC) est celui qui a le plus petit AIC (pareil pour le BIC et le SC).
Il choisit le meilleur modèle, puis fait entrer la variable suivante et recommence les tests réalisés après l'entrée de la 1ere variable.
Je répondrais à la suite, plus tard...
Sinon t'as essayé l'aide de SAS?
++

merci beaucoup SAI, grâce à ta réponse, je commence déjà à voir un peu mieux.

par sai9004 Ven 26 Juin 2009 - 14:47

La suite:
2. le test de Khi2 résiduel sert à quoi???
Je ne sais plus exactement, et j'ai trop peur de me tromper pour te donner une réponse. Néanmoins, on peut très bien s'en passer.
Si quelqu'un a l'explication exacte je suis preneur!!

8. Enfin, il présente 3 tableaux (un pour récapituler la séléction séquentielle, ce tableau me servira à qoi???
C'est un résumé de ta procédure de sélection, il te donne pour chaque variable son seuil (de significativité) d'entrée dans de modèle.

9.un tableau qui s'appelle "analyse des effets type3?????" de quoi s'agit-il????
SAS analyse la significativité des effets des variables introduites dans ton modèle. si pour une variable X t'as une p-value < 0.005 elle a donc un effet significatif dans le modèle.

10. la tableau de l'analyse de la vraisemblance maximum, je pense que c'est ce tableau là qui me donne les p-valeur de signification de l'explication de la variable d'intérêt par les variables explicatives, ai je raison???

SAS te donne les p-value des différentes modalités de chaque variables, sachant que pour chaque variable le coefficient la modalité de référence est fixée à 0.

Je pense avoir fait le tour...si t'as d'autres questions n'hésite pas.

++

par amal38 Ven 26 Juin 2009 - 15:25

sai9004 a écrit:La suite:
2. le test de Khi2 résiduel sert à quoi???
Je ne sais plus exactement, et j'ai trop peur de me tromper pour te donner une réponse. Néanmoins, on peut très bien s'en passer.
Si quelqu'un a l'explication exacte je suis preneur!!

8. Enfin, il présente 3 tableaux (un pour récapituler la séléction séquentielle, ce tableau me servira à qoi???
C'est un résumé de ta procédure de sélection, il te donne pour chaque variable son seuil (de significativité) d'entrée dans de modèle.

9.un tableau qui s'appelle "analyse des effets type3?????" de quoi s'agit-il????
SAS analyse la significativité des effets des variables introduites dans ton modèle. si pour une variable X t'as une p-value < 0.005 elle a donc un effet significatif dans le modèle.

10. la tableau de l'analyse de la vraisemblance maximum, je pense que c'est ce tableau là qui me donne les p-valeur de signification de l'explication de la variable d'intérêt par les variables explicatives, ai je raison???

SAS te donne les p-value des différentes modalités de chaque variables, sachant que pour chaque variable le coefficient la modalité de référence est fixée à 0.

Je pense avoir fait le tour...si t'as d'autres questions n'hésite pas.

++

Merci beaucoup, vous m'avez beaucoup aidé

mais j'ai une question concernant mon exmple, à la fin de la stepwise, aucune variable, même "FAM_AVC" n'était significative (p-valeur=0.0536), et surfcorp (p-valeur=0.0952) sachant que le modèle fait valider les deux variables ( il les valide parcequ'elles respectent bien les seuils d'entrée et de sortie de la méthode)
Par la suite, est ce qu'après chaque méthode faite "stepwise ou backward ou farward), on devrait faire un modèle de régression classique pour valider au final les variables explicatives, ou faudrait-il s'arrêter à la méthode de sélection choisie???
De ma part, j'ai pris les deux variables "FAM_AVC, SURFCORP", le modèle classique déduit la variable FAM_AVC comme celle qui explique la variable d'intérêt. Est ce que j'ai bien fait de faire la stepwise pour la valider avec le modèle classique???

Merci infiniment à ce forum.

par sai9004 Dim 28 Juin 2009 - 13:14

Salut,
Moi je dirais que tes variables sont significatives au seuil de 10%.
Le seuil de de 5% généralement usité peut être adapté, ce n'est pas un seuil fatidique.

Par la suite, est ce qu'après chaque méthode faite "stepwise ou
backward ou forward), on devrait faire un modèle de régression
classique pour valider au final les variables explicatives, ou
faudrait-il s'arrêter à la méthode de sélection choisie???

euh, j'ai pas tout compris!!! Si par modèle de régression classique tu entends modèle de régression linéaire ça ne servirait pas à grand chose parce que:

tes variables explicatives sont qualitatives
ta variable d'intérêt l'est aussi
le modèle linéaire comme sont l'indique ne mesure que les relations "linéaire" contrairement à un modèle logistique.

Les options, Backward, foward et stepwise de SAS ne te fournissent pas forcément le meilleur modèle. Tu peux même avoir trois modèles différents en utilisant chacune des options.
La technique j'utilise, c'est de faire rentrer manuellement dans le modèle les variables explicatives par ordre de degré de liaison (avec la variable d'intérêt) croissant. Les variables explicatives étant rentrées les unes après les autres. Je m'explique.
Pour chaque variable explicative (découpée en classe) je calcule le coefficient de corrélation avec la variable d'intérêt. J'utilise un V de Cramer et un T de Tschuprow en privilégiant le second. Ensuite j'estime le modèle (intercept + V1; V1 étant la variable explicative la plus corrélée à la variable d'intérêt). S'il est valide, j'estime le modèle (intercept + V1 + V2). Et j'apprécie l'apport d'information de la variable V2, en comparant les deux modèles à l'aide des critères usuels (AIC,BIC,-2LogL, D de Somers, les paires concordantes et discordantes...) et je regarde aussi le comportement de la variable V1 (a-t-elle perdue en significativté? ce qui pourrais être la conséquence d'une trop forte corrélation entre V1 et V2). En fonction de tous ça je décide ou non de garder V2, puis j'introduit V3 et ainsi de suite...
C'est en quelque sorte une Stepwise manuelle. Cette technique me permet généralement d'obtenir un meilleur modèle que les méthodes de sélections automatiques.

De ma part, j'ai pris les deux variables "FAM_AVC, SURFCORP", le modèle
classique déduit la variable FAM_AVC comme celle qui explique la
variable d'intérêt. Est ce que j'ai bien fait de faire la stepwise pour
la valider avec le modèle classique???

La question que tu dois te poser c'est: pourquoi j'ai fait un modèle logistique plutôt qu'un modèle de régression linéaire?
Si tu conclues que t'as fait un modèle logistique parce qu'il correspond mieux à ton objectif et à tes données (par exemple) alors il est unitile de la valider avec un modèle linéaire.
Si tu conclues qu'un modèle liénaire est plus adapté alors unitile de faire un modèle logistique!!

par amal38 Lun 29 Juin 2009 - 8:01

sai9004 a écrit:Salut,
Moi je dirais que tes variables sont significatives au seuil de 10%.
Le seuil de de 5% généralement usité peut être adapté, ce n'est pas un seuil fatidique.

Par la suite, est ce qu'après chaque méthode faite "stepwise ou
backward ou forward), on devrait faire un modèle de régression
classique pour valider au final les variables explicatives, ou
faudrait-il s'arrêter à la méthode de sélection choisie???
euh, j'ai pas tout compris!!! Si par modèle de régression classique tu entends modèle de régression linéaire ça ne servirait pas à grand chose parce que:

tes variables explicatives sont qualitatives
ta variable d'intérêt l'est aussi
le modèle linéaire comme sont l'indique ne mesure que les relations "linéaire" contrairement à un modèle logistique.

Les options, Backward, foward et stepwise de SAS ne te fournissent pas forcément le meilleur modèle. Tu peux même avoir trois modèles différents en utilisant chacune des options.
La technique j'utilise, c'est de faire rentrer manuellement dans le modèle les variables explicatives par ordre de degré de liaison (avec la variable d'intérêt) croissant. Les variables explicatives étant rentrées les unes après les autres. Je m'explique.
Pour chaque variable explicative (découpée en classe) je calcule le coefficient de corrélation avec la variable d'intérêt. J'utilise un V de Cramer et un T de Tschuprow en privilégiant le second. Ensuite j'estime le modèle (intercept + V1; V1 étant la variable explicative la plus corrélée à la variable d'intérêt). S'il est valide, j'estime le modèle (intercept + V1 + V2). Et j'apprécie l'apport d'information de la variable V2, en comparant les deux modèles à l'aide des critères usuels (AIC,BIC,-2LogL, D de Somers, les paires concordantes et discordantes...) et je regarde aussi le comportement de la variable V1 (a-t-elle perdue en significativté? ce qui pourrais être la conséquence d'une trop forte corrélation entre V1 et V2). En fonction de tous ça je décide ou non de garder V2, puis j'introduit V3 et ainsi de suite...
C'est en quelque sorte une Stepwise manuelle. Cette technique me permet généralement d'obtenir un meilleur modèle que les méthodes de sélections automatiques.

De ma part, j'ai pris les deux variables "FAM_AVC, SURFCORP", le modèle
classique déduit la variable FAM_AVC comme celle qui explique la
variable d'intérêt. Est ce que j'ai bien fait de faire la stepwise pour
la valider avec le modèle classique???

La question que tu dois te poser c'est: pourquoi j'ai fait un modèle logistique plutôt qu'un modèle de régression linéaire?
Si tu conclues que t'as fait un modèle logistique parce qu'il correspond mieux à ton objectif et à tes données (par exemple) alors il est unitile de la valider avec un modèle linéaire.
Si tu conclues qu'un modèle liénaire est plus adapté alors unitile de faire un modèle logistique!!

Bonjour Sai,

Merci pour ta réponse, je pense que je n'ai pas exprimé correctement le problème. Ma problématique est : j'ai une variable qualitative (dipper/non dipper) que je voudrais expliquer avec des variables mélangées entre qualitatives et quantitatives (sachant que j'ai transformé certaines variables quantitaives en qualitatives en prenant un ceratin seuil de la variable quanti en question, par exemple le tour de taille est une variable quantitative que je code en binaire "tour de taille élevé/tour de taille noraml" à partir d'un seuil de 94cm) mais toutes mes variables quanti n'ont pas subit le même sort, ce qui fait que j'ai toujours mes variables qualitatives mélangées entre quali et quanti.

dans une première étape, je fais la stepwise automatique avec un seuil d'entrée de 0.10 et un seuil de sortie de 0.15, le modèle finale obtenu avec la stepwise retient les variables FAM_AVC (variable quali) et Surfcorp (variable quanti) (avec les degrées d'entrée de 0.0479 et 0.0914 respectivement) d'ailleurs, j'ai utilisé la backaward et la forward, j'obtient exactement le même modèle finale avec les mêmes deux variables citées ci-dessus)

dans une deuxième étape, je prend ces deux variables et je les introduis dans un modèle de régression logistique (ce que j'entendais dire par le mot "modèle classique" dans un message précédent, et en aucun cas je faisais allusion à un modèle linéaire car il n'est pas du tout adapté à mon problème).

Au finale, le modèle fait lors de la 2ème étape, valide au seuil 0.05 (seuil par défaut du logiciel SAS de la p-valeur significative) la seule variable FAM_AVC comme la variable qui explique la variable réponse "dipper/non dipper", ce que je conclus pour la médecine est que seule FAM_AVC explique le statut "dipper/non dipper" et ainsi, une personne apnéique (non dipper) doit être prise en charge si elle a FAM_AVC (antécédents familaux d'accidents vasculaires).

Voilà, j'espère que j'ai meiux exprimé le problème cette fois-ci et je tacherai à faire de la sorte les prochaines fois.

Merci infiniment.

par sai9004 Lun 29 Juin 2009 - 8:42

Salut,
Si j'ai bien compris, dans la première étape tu fais une stepwise, puis tu réestimes ton modèle avec les variables retenues par cette stepwise!!!
Et ta question c'est "a-t-on besoin de réestimer un modèle logistique (classique) avec les variables retenues par la stepwise?"
Ma réponse est: non.
Tu peux garder seulement la variable FAM_AVC, comme tu peux garder les deux dans ton modèle; tout dépend du niveau de significativé que tu désires.

J'espère que j'ai répondu à ta préoccupation.

par amal38 Lun 29 Juin 2009 - 8:58

Bonjour Sai,

oui c'était exactement cela, merci de tout mon ceour cheers

En revanche, je suis interessée par la méthode stepwise manuelle que t'as citée précédemment, comme la méthode qui permet d'obtenir le meilleure modèle possible que les méthodes de sélection automatique.

celà dit, sais-tu quelle instruction lancer sous SAS pour calculer le T de Tschuprow entre deux variables quali??? également l'instruction à taper pour mesurer l'intensité de liaison entre une variable quali et une variable quanti??? (t'avais répondu à un des utilisateurs de ce forum que c'est le test kruskal wallis, mais je ne connais pas l'instruction)

d'autre part, le test de Khi2 d'indépendance ne peut-il pas jouer le rôle du T schuprow pour mesurer l'intensité de la liaison entre deux variables quali?????

Cordialement.

par sai9004 Lun 29 Juin 2009 - 13:29

Pour calculer la statistique de kruskal wallis, tu peux utiliser la PROC NPAR1WAY avec la syntaxe suivante:

PROC NPAR1WAY WILCOXON DATA = ma_table;
CLASS ma_var_d_interet;
VAR ma_var_explicative;
RUN;

Pour le T de Tschuprow, il faut l'implémenter manuellement. Aucune procédure SAS, du moins à ma connaissance ne le calcul automatiquement. Cela dit, il n'est pas très difficile à implémenter.

Le test du Khi2 d'indépendance ne peut pas remplacer le T De Schuprow parce que le premier te dit s'il y a indépendance ou pas alors que le second de renseigne sur l'intensité de la liaison. Un T de schuprow de 0.1 entre 2 variables, n'a pas la même valeur qu'un T de schuprow de 0.9.
++

par Contenu sponsorisé

Suite "Interprét sortie SAS Reg.log stepwise"

Suite "Interprét sortie SAS Reg.log stepwise"

Re: Suite "Interprét sortie SAS Reg.log stepwise"

Re: Suite "Interprét sortie SAS Reg.log stepwise"

Re: Suite "Interprét sortie SAS Reg.log stepwise"

Re: Suite "Interprét sortie SAS Reg.log stepwise"

Re: Suite "Interprét sortie SAS Reg.log stepwise"

Non , c'était un modèle logistique que j'utilisais

Re: Suite "Interprét sortie SAS Reg.log stepwise"

Re: Suite "Interprét sortie SAS Reg.log stepwise"

Re: Suite "Interprét sortie SAS Reg.log stepwise"

Re: Suite "Interprét sortie SAS Reg.log stepwise"