Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Choix de la meilleure variable dépendante
5 participants
Page 1 sur 2
Page 1 sur 2 • 1, 2
Choix de la meilleure variable dépendante
Bonjour,
Je travaille sur un modèle de régression multiple. La variable dépendante (Y) est une variable qualitative multinomiale ordonnée. Pour faire une analyse de régression, j'ai transformé cette variable qualitative en variable numérique de trois manières différentes (linéaire, logistique et exponentielle).
Pouvez-vous, svp, me dire comment choisir la meilleure méthode de transformation ? Dois-je faire un test sur les résidus de chacun des 3 modèles de régression ou quelque chose de ce genre ? La meilleure transformation serait-elle celle qui présente le résidu le plus faible ?
Merci beaucoup de votre aide.
Je travaille sur un modèle de régression multiple. La variable dépendante (Y) est une variable qualitative multinomiale ordonnée. Pour faire une analyse de régression, j'ai transformé cette variable qualitative en variable numérique de trois manières différentes (linéaire, logistique et exponentielle).
Pouvez-vous, svp, me dire comment choisir la meilleure méthode de transformation ? Dois-je faire un test sur les résidus de chacun des 3 modèles de régression ou quelque chose de ce genre ? La meilleure transformation serait-elle celle qui présente le résidu le plus faible ?
Merci beaucoup de votre aide.
goldenboy- Nombre de messages : 13
Date d'inscription : 06/08/2012
goldenboy- Nombre de messages : 13
Date d'inscription : 06/08/2012
Re: Choix de la meilleure variable dépendante
salut,
Si tu transformes ton Y de 3 manières différentes, ça fait 3 jeux de données différents. Tu ne peux alors plus rien comparer.
Je ne vois d'aillerus pas comment on peut tranformer une variable qualitative en une variable numérique...
Nik
Si tu transformes ton Y de 3 manières différentes, ça fait 3 jeux de données différents. Tu ne peux alors plus rien comparer.
Je ne vois d'aillerus pas comment on peut tranformer une variable qualitative en une variable numérique...
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Choix de la meilleure variable dépendante
Hello
Tenez, voici 3 méthodes de transformation de la variable quali :
1. transformation linéaire : A=6, B=5,C=4.. F=1
2. trans. logistique: A=1, B=0,98, C=0,89, .. F=0.01
3. trans. exponentielle : A=10, B=8, C=5 .. F=1
Et ma question : Quelle transformation faut-il choisir parmis ces 3 techniques ?
Cordialement
Tenez, voici 3 méthodes de transformation de la variable quali :
1. transformation linéaire : A=6, B=5,C=4.. F=1
2. trans. logistique: A=1, B=0,98, C=0,89, .. F=0.01
3. trans. exponentielle : A=10, B=8, C=5 .. F=1
Et ma question : Quelle transformation faut-il choisir parmis ces 3 techniques ?
Cordialement
goldenboy- Nombre de messages : 13
Date d'inscription : 06/08/2012
Re: Choix de la meilleure variable dépendante
Aucune !
Car il en existe encore une infinité d'autres, et les conclusions qu'on en tirera seront surtout dues au codage.
Mais si tu aimes la numérologie ...
Cordialement.
Car il en existe encore une infinité d'autres, et les conclusions qu'on en tirera seront surtout dues au codage.
Mais si tu aimes la numérologie ...
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Choix de la meilleure variable dépendante
Hemm, mais comment peut on faire une régression sans variable numérique ?
PS : Seules ces 3 techniques de transformation ont un fondement théorique (du moins c'est ce que montrent des recherches académiques dans des revues de premier rang (selon le CNRS..))
PS : Seules ces 3 techniques de transformation ont un fondement théorique (du moins c'est ce que montrent des recherches académiques dans des revues de premier rang (selon le CNRS..))
goldenboy- Nombre de messages : 13
Date d'inscription : 06/08/2012
Re: Choix de la meilleure variable dépendante
Bonjour,
regarde du côté des ordered logit :
http://www.ats.ucla.edu/stat/r/dae/ologit.htm
regarde du côté des ordered logit :
http://www.ats.ucla.edu/stat/r/dae/ologit.htm
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Choix de la meilleure variable dépendante
Oui bravo droopy, c'est tout à fait ce que je fais : une régression logistique miltinomiale ordonnée (en données de panel --> reoprob). Ologit étant pour une régression en coupe.
Sur le site de l'université de Californie LA on explique comment faire une telle régression, mais on n'aborde pas ma question. J'avoue que j'ai sollicité leur aide avant de poster ici, mais leur support académique est assuré uniquement pour les étudiants de la fac UCLA.. ..
C'est pourquoi je sollicite l'aide de la communauté Forum des Stats..
Merci par avance pour votre aide précieuse.
Sur le site de l'université de Californie LA on explique comment faire une telle régression, mais on n'aborde pas ma question. J'avoue que j'ai sollicité leur aide avant de poster ici, mais leur support académique est assuré uniquement pour les étudiants de la fac UCLA.. ..
C'est pourquoi je sollicite l'aide de la communauté Forum des Stats..
Merci par avance pour votre aide précieuse.
Dernière édition par goldenboy le Lun 3 Déc 2012 - 15:16, édité 1 fois
goldenboy- Nombre de messages : 13
Date d'inscription : 06/08/2012
Re: Choix de la meilleure variable dépendante
Alors je ne vois pas pourquoi tu veux numériser ta variable.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Choix de la meilleure variable dépendante
Simplement parce qu'il n'est possible de faire une analyse de régression qu'avec des variables numériques.
Attention : Dans l'exemple d'UCLA (
lien vers la page web : http://www.ats.ucla.edu/stat/r/dae/ologit.htm
lien vers la base de données : http://www.ats.ucla.edu/stat/data/ologit.dta
), la variable dépendante "apply" est bien une variable numérique (même si elle semble ne pas l'être). Voici les différentes modalités de cette variable :
apply - apply_byte (ou numérique)
very likely --> 2
somewhat likely --> 1
unlikely --> 0
Voili voilou
Attention : Dans l'exemple d'UCLA (
lien vers la page web : http://www.ats.ucla.edu/stat/r/dae/ologit.htm
lien vers la base de données : http://www.ats.ucla.edu/stat/data/ologit.dta
), la variable dépendante "apply" est bien une variable numérique (même si elle semble ne pas l'être). Voici les différentes modalités de cette variable :
apply - apply_byte (ou numérique)
very likely --> 2
somewhat likely --> 1
unlikely --> 0
Voili voilou
goldenboy- Nombre de messages : 13
Date d'inscription : 06/08/2012
Re: Choix de la meilleure variable dépendante
Non la variable apply n'est pas numérique. C'est bien une variable catégorielle. Mais comme dans une regression logistique classique R va te créer un tableau des indicatrices avec autant de colonnes que de niveau de ton facteur apply.
Le logiciel va ensuite te calculer les odd ratios cumulés selon l'ordre des niveaux du facteur que tu auras défini. Il faut donc juste faire attention à l'interprétation des coefficients du modèle.
Tu n'a donc pas à t'occuper de "numériser" ta variable, les logiciels de stat savent très bien se débrouiller de ce genre de variable.
Le logiciel va ensuite te calculer les odd ratios cumulés selon l'ordre des niveaux du facteur que tu auras défini. Il faut donc juste faire attention à l'interprétation des coefficients du modèle.
Tu n'a donc pas à t'occuper de "numériser" ta variable, les logiciels de stat savent très bien se débrouiller de ce genre de variable.
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Choix de la meilleure variable dépendante
Ok, merci.
Dans ce cas, ma variable étant une string (des lettres), lorsque je fais une régression, j'obtiens le résultat "no observations". C'est probablement parce que ma variable dépendante est considérée comme une string.
--> Savez-vous, svp, comment déclarer une variable catégorielle.. dans stata ? L'idée c'est de refaire la régression non pas avec la variable string mais avec la même variable déclarée autrement (catégorielle ~ numeric, byte.)..
Pas d'info ici : http://www.ats.ucla.edu/stat/stata/webbooks/reg/chapter3/statareg3.htm
Merci bcp.
Dans ce cas, ma variable étant une string (des lettres), lorsque je fais une régression, j'obtiens le résultat "no observations". C'est probablement parce que ma variable dépendante est considérée comme une string.
--> Savez-vous, svp, comment déclarer une variable catégorielle.. dans stata ? L'idée c'est de refaire la régression non pas avec la variable string mais avec la même variable déclarée autrement (catégorielle ~ numeric, byte.)..
Pas d'info ici : http://www.ats.ucla.edu/stat/stata/webbooks/reg/chapter3/statareg3.htm
Merci bcp.
goldenboy- Nombre de messages : 13
Date d'inscription : 06/08/2012
Re: Choix de la meilleure variable dépendante
pose ta question dans (la section du forum appropriée (logiciel). tu auras plus de chance d'avoir une réponse appropriée.
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Choix de la meilleure variable dépendante
Cela vient d'être fait ici : https://statistiques.forumpro.fr/t3658-stata-declaration-de-variable#12588
J’écris ce message afin de lier les deux discussions.. au cas où une autre personne a le même prob que moi..
Merci
J’écris ce message afin de lier les deux discussions.. au cas où une autre personne a le même prob que moi..
Merci
goldenboy- Nombre de messages : 13
Date d'inscription : 06/08/2012
Re: Choix de la meilleure variable dépendante
Hello,
J'ai suivi ta recommandation Nik et j'ai transcodé ma variable de string à numeric via une commande propre au logiciel*. Ce qui s'est passé c'est que mon logiciel a fait une transformation linéaire de ma variable string (comme je l'ai fait - voir mon msg ci-dessus du Lun 3 Déc 2012 - 11:08) et exactement de la même façon que dans l'exemple d'UCLA (http://www.ats.ucla.edu/stat/r/dae/ologit.htm).
Maintenant, d'autres méthodes de transcodage sont possibles et ont un fondement théorique (Comme le transcodage logistique et exponentiel). Par conséquent, ma question reste non résolue :
Supposons que le transcodage automatique peut se faire avec différentes options (linéaire, log, exp, etc.). Comment choisir la meilleure option de transcodage ? Dois-je utiliser l'option qui minimise les résidus de la régression ?
* Petit conseil : si vous voulez faire le transcodage automatique :
1. Voici la commande pour STATA : encode var_string, generate (var_num)
2. Attention : le transcodage suit l'ordre alphabétique des valeurs de la variable string. Si votre variable est multinomiale ordonnée, alors l'ordre généré automatiquement peut ne pas correspondre à l'odre souhaité.
Merci
J'ai suivi ta recommandation Nik et j'ai transcodé ma variable de string à numeric via une commande propre au logiciel*. Ce qui s'est passé c'est que mon logiciel a fait une transformation linéaire de ma variable string (comme je l'ai fait - voir mon msg ci-dessus du Lun 3 Déc 2012 - 11:08) et exactement de la même façon que dans l'exemple d'UCLA (http://www.ats.ucla.edu/stat/r/dae/ologit.htm).
Maintenant, d'autres méthodes de transcodage sont possibles et ont un fondement théorique (Comme le transcodage logistique et exponentiel). Par conséquent, ma question reste non résolue :
Supposons que le transcodage automatique peut se faire avec différentes options (linéaire, log, exp, etc.). Comment choisir la meilleure option de transcodage ? Dois-je utiliser l'option qui minimise les résidus de la régression ?
* Petit conseil : si vous voulez faire le transcodage automatique :
1. Voici la commande pour STATA : encode var_string, generate (var_num)
2. Attention : le transcodage suit l'ordre alphabétique des valeurs de la variable string. Si votre variable est multinomiale ordonnée, alors l'ordre généré automatiquement peut ne pas correspondre à l'odre souhaité.
Merci
goldenboy- Nombre de messages : 13
Date d'inscription : 06/08/2012
Re: Choix de la meilleure variable dépendante
non désolé. il n'y a aucune transformation à réaliser. je ne sais pas ce que fais statistica mais ce n'est certainement asp ce qu'il faut faire en tout cas. Ce n'est pas parce que le logiciel fais ce qui te semble le plus logique que c'est la meilleure solution ou alors tu exprimes vraiment mal ton pb mais à priori je ne pense pas.
Tout bon logiciel de stat devrait interpréter ta variable comme un facteur, une variable catégorielle ordinale et dans ce cadre, les logit cumulatifs sont tout indiqués ou en tout cas constituent une solution dont on connait assez bien les tenants et aboutissants.
En tout cas, ce qui est sûr et certains, c'est que toute transformation de la variable à expliquer (en dehors des transfo strictement linéaire) changent définitivement la relation entre les valeurs et de ce fait des transfo différentes donnent des ensembles de valeurs qui ne sont plus comparables à quelque niveau que ce soit.
Donc la réponse est sans appel : il n'y a pas de meilleure transfo qu'une autre.
Tout bon logiciel de stat devrait interpréter ta variable comme un facteur, une variable catégorielle ordinale et dans ce cadre, les logit cumulatifs sont tout indiqués ou en tout cas constituent une solution dont on connait assez bien les tenants et aboutissants.
En tout cas, ce qui est sûr et certains, c'est que toute transformation de la variable à expliquer (en dehors des transfo strictement linéaire) changent définitivement la relation entre les valeurs et de ce fait des transfo différentes donnent des ensembles de valeurs qui ne sont plus comparables à quelque niveau que ce soit.
Donc la réponse est sans appel : il n'y a pas de meilleure transfo qu'une autre.
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Choix de la meilleure variable dépendante
goldenboy a écrit:* Petit conseil : si vous voulez faire le transcodage automatique :
1. Voici la commande pour STATA : encode var_string, generate (var_num)
2. Attention : le transcodage suit l'ordre alphabétique des valeurs de la variable string. Si votre variable est multinomiale ordonnée, alors l'ordre généré automatiquement peut ne pas correspondre à l'odre souhaité.
Merci
Mon message "help encode" sur l'autre topic était peut etre un peu succint. Il y a plein de fonctions utiles pour l'encodage/recodage sous stata. Il faut chercher dans l'aide.
help encode
help recode
help gen pour encoder "a la main"
help egen, tu trouveras des fonctions utiles pour certains encodages: concat, ends, group, cut... etc...
help string_functions permet de "préparer" des variables texte à l'encodage: tim, itrim, ltrim, rtrim, string, substring... etc
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Choix de la meilleure variable dépendante
Merci à vous tous pour vos messages.
J'ai trouvé un autre avis dans un journal académique. Ce qu'il faut faire pour choisir entre les 3 méthodes de transformation :
1/ Faire les régressions par chacune des méthodes.
2/ Faire les prévisions avec le modèle dveloppé.
3/ Calculer le Mean Absolute Percentage Error
4/ La meilleure transformation est celle qui minimise cette erreur.
Cordialement
J'ai trouvé un autre avis dans un journal académique. Ce qu'il faut faire pour choisir entre les 3 méthodes de transformation :
1/ Faire les régressions par chacune des méthodes.
2/ Faire les prévisions avec le modèle dveloppé.
3/ Calculer le Mean Absolute Percentage Error
4/ La meilleure transformation est celle qui minimise cette erreur.
Cordialement
Dernière édition par goldenboy le Lun 17 Déc 2012 - 13:30, édité 1 fois
goldenboy- Nombre de messages : 13
Date d'inscription : 06/08/2012
Re: Choix de la meilleure variable dépendante
Est-ce que tu peux donner la référence de cet article ?
Tout ce qui est publié n'a pas forcément de sens. Publié ne veut pas forcément dire pertinent. Après peut-être qu'on a pas non plus très bien vu ce que tu cherches à faire et que cet article nous aidera grandement.
@+
Tout ce qui est publié n'a pas forcément de sens. Publié ne veut pas forcément dire pertinent. Après peut-être qu'on a pas non plus très bien vu ce que tu cherches à faire et que cet article nous aidera grandement.
@+
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Choix de la meilleure variable dépendante
Afonso 2003 - Journal of Economics and Finance.
goldenboy- Nombre de messages : 13
Date d'inscription : 06/08/2012
Re: Choix de la meilleure variable dépendante
Salut,
Comme Droopy l'a souligné, publié ne veut pas dire valable et d'autant plus à l'heure actuelle où la publication est devenue la finalité de la Sicence et non un simple moyen de la communiquer.
Le raisonnement que tu présentes ne tiens pas la route car il va dépendre du jeu de données qu tu manipules. Si tu refais une expérience, donc que tu as un nouveau jeu de données, il y a des chances pour que la transformation dite optimale ne soit plus la même. Du coup les 2 expériences deviennent complètement incomparable.
D'autre part, les MAPE issues de différentes variables dépendantes ne sont pas comparables. Ce n'est pas fait pour ça.
Après tu peux ne rien avoir à faire de ce qu'on écrit ici mais la transformation de la variable dépendante doit se faire sur la base de connaissances théoriques solides. Ce n'est pas du domaine des stats mais bien de l'expertise du domaine concerné.
Nik
Comme Droopy l'a souligné, publié ne veut pas dire valable et d'autant plus à l'heure actuelle où la publication est devenue la finalité de la Sicence et non un simple moyen de la communiquer.
Le raisonnement que tu présentes ne tiens pas la route car il va dépendre du jeu de données qu tu manipules. Si tu refais une expérience, donc que tu as un nouveau jeu de données, il y a des chances pour que la transformation dite optimale ne soit plus la même. Du coup les 2 expériences deviennent complètement incomparable.
D'autre part, les MAPE issues de différentes variables dépendantes ne sont pas comparables. Ce n'est pas fait pour ça.
Après tu peux ne rien avoir à faire de ce qu'on écrit ici mais la transformation de la variable dépendante doit se faire sur la base de connaissances théoriques solides. Ce n'est pas du domaine des stats mais bien de l'expertise du domaine concerné.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Choix de la meilleure variable dépendante
J'ajoute que même si tu ne veux pas écouter ce qu'on te dit, tu ne dois pas propager de fausses affirmations surtout dans ce domaine ou tout et n'importe quoi a été fait.
Pour rappel les stats sont un outil d'analyse dont les contraintes ne doivent pas guider le choix des hypothèses à tester.
Nik
Pour rappel les stats sont un outil d'analyse dont les contraintes ne doivent pas guider le choix des hypothèses à tester.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Choix de la meilleure variable dépendante
Bon, il faut aussi reconnaitre qu'en la matière c'est le foutoir , on lit un peu tout et n'importe quoi et il n'y a pas grand chose de solide sur lequel s'appuyer. Beaucoup de gens font au doigt mouillé, emballent ca dans quelques termes bien abscons pour le reviewer moyen, et roule ma poule.
On ne peut quand même pas reprocher à notre ami de s'etre donné la peine de faire de la biblio et de citer une reference.
On ne peut quand même pas reprocher à notre ami de s'etre donné la peine de faire de la biblio et de citer une reference.
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: Choix de la meilleure variable dépendante
sauf si ça fait qqs messages où on lui indique ces éléments et qu'il fini par ignorer ce qu'on lui a écrit.On ne peut quand même pas reprocher à notre ami de s'etre donné la peine de faire de la biblio et de citer une reference.
C'est toujours délicat de poser une question et de chercher ensuite une réponse par soit-même car ça ne correspond pas à ce qu'on voulait. Effectivement, le piège de la biblio est tellement tentant avec la quantité pharaonique de publi à l'heure actuelle, on est quasiment certains de pouvoir trouver le contraire de toute affirmation.
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Choix de la meilleure variable dépendante
Je partage cet avis.c@ssoulet a écrit:Bon, il faut aussi reconnaitre qu'en la matière c'est le foutoir , on lit un peu tout et n'importe quoi et il n'y a pas grand chose de solide sur lequel s'appuyer. Beaucoup de gens font au doigt mouillé, emballent ca dans quelques termes bien abscons pour le reviewer moyen, et roule ma poule.
On ne peut quand même pas reprocher à notre ami de s'etre donné la peine de faire de la biblio et de citer une reference.
Je partage cet avis au bémol près qu'il faudrait être sur que nous détenions la "bonne" solution ou la vérité en la matière...Nik a écrit:sauf si ça fait qqs messages où on lui indique ces éléments et qu'il fini par ignorer ce qu'on lui a écrit. Rolling Eyes
C'est toujours délicat de poser une question et de chercher ensuite une réponse par soit-même car ça ne correspond pas à ce qu'on voulait. Effectivement, le piège de la biblio est tellement tentant avec la quantité pharaonique de publi à l'heure actuelle, on est quasiment certains de pouvoir trouver le contraire de toute affirmation. Razz
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Page 1 sur 2 • 1, 2
Sujets similaires
» Simulation d'une variable DÉPENDANTE Y par variables ind. Xn
» ACP avant régression linéaire-variable dépendante
» régression linéaire avec variable dépendante retardée
» Variance partagée entre variable indépendante et dépendante
» Linear probability model (OLS avec variable dependante 1 é 0
» ACP avant régression linéaire-variable dépendante
» régression linéaire avec variable dépendante retardée
» Variance partagée entre variable indépendante et dépendante
» Linear probability model (OLS avec variable dependante 1 é 0
Page 1 sur 2
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum