Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Régression logistique, variables, statistiques descriptives
3 participants
Page 1 sur 1
Régression logistique, variables, statistiques descriptives
Bonjour à tous,
Je dois vous avouer que j'ai des connaissances limitées en statistiques et on me demande de faire une régression avec tout ce qui va avec. On me dit que c'est facile, même si dans notre cursus on en a jamais fait...
Bref, voici les problèmes que je rencontre, et j'aurais besoin de votre aide.
J'ai choisi une régression logistique vu le sujet de mon mémoire. Les hypothèses sous-jacentes ne sont pas les mêmes qu'une OLS classique si j'ai bien compris. Mes variables ne suivent pas une loi normale. Donc là, finalement, je crois que je n'ai pas fait de fautes, bien que j'ai stressais suite à la mauvaise compréhension des hypothèses des différents modèle-
Au niveau des statistiques descriptives, j'ai décidé de scindé mon échantillon en 2, par rapport à ma variable dépendante (oui ou non). Je veux tester les différences entre les moyennes et les médianes de ces deux groupes issus du même échantillon. Or. je vois certains auteurs faire des t-test par exemple, pour tester la différence entre les moyennes de deux groupes. Je suis quasiment certains que leurs données ne suivent pas une loi normale. Quid? Et que me conseilleriez-vous? Je veux absolument comparer 2 groupes issus du même échantillons en ce qui concerne leurs moyennes et leurs médianes. Je signale également qu'il y a des variables dichotomiques dans mon modèle. Je suppose que les tests à utiliser pour ce type de variables sont également différents.
Au niveau des corrélations, j'ai décidé de partir sur celle de Spearman (non paramétrique) vu l'échantillon de mes données. Par contre, je vois pleins de tutoriel, mais je n'arrive pas à mettre en place le ranking dans mon échantillon. Je veux voir la corrélation entre les variables que j'utilise dans ma régression.
J'attends impatiemment vos avis.
Je dois vous avouer que j'ai des connaissances limitées en statistiques et on me demande de faire une régression avec tout ce qui va avec. On me dit que c'est facile, même si dans notre cursus on en a jamais fait...
Bref, voici les problèmes que je rencontre, et j'aurais besoin de votre aide.
J'ai choisi une régression logistique vu le sujet de mon mémoire. Les hypothèses sous-jacentes ne sont pas les mêmes qu'une OLS classique si j'ai bien compris. Mes variables ne suivent pas une loi normale. Donc là, finalement, je crois que je n'ai pas fait de fautes, bien que j'ai stressais suite à la mauvaise compréhension des hypothèses des différents modèle-
Au niveau des statistiques descriptives, j'ai décidé de scindé mon échantillon en 2, par rapport à ma variable dépendante (oui ou non). Je veux tester les différences entre les moyennes et les médianes de ces deux groupes issus du même échantillon. Or. je vois certains auteurs faire des t-test par exemple, pour tester la différence entre les moyennes de deux groupes. Je suis quasiment certains que leurs données ne suivent pas une loi normale. Quid? Et que me conseilleriez-vous? Je veux absolument comparer 2 groupes issus du même échantillons en ce qui concerne leurs moyennes et leurs médianes. Je signale également qu'il y a des variables dichotomiques dans mon modèle. Je suppose que les tests à utiliser pour ce type de variables sont également différents.
Au niveau des corrélations, j'ai décidé de partir sur celle de Spearman (non paramétrique) vu l'échantillon de mes données. Par contre, je vois pleins de tutoriel, mais je n'arrive pas à mettre en place le ranking dans mon échantillon. Je veux voir la corrélation entre les variables que j'utilise dans ma régression.
J'attends impatiemment vos avis.
FlyS- Nombre de messages : 2
Date d'inscription : 12/11/2017
Re: Régression logistique, variables, statistiques descriptives
Le problème que je vois est que la question que vous posez n'est pas claire.
Dans le cadre de la régression logistique, on veut exprimer/modéliser une variable dichotomique binomiale (dans votre cas oui/non) par une ou plusieurs autres. Vous expliquez alors que vous voulez en fait faire le contraire, à savoir expliquer des variables pas la variable dichotomique (i.e., comparer les individus qui répondent oui à ceux qui répondent non). Dans le second cas, on n'est plus du tout dans le cadre d'une régression logistique mais dans dans le cadre de l'ANOVA (ou test-t) et seulement alors il conviendra de se poser le problème de la distribution des données, etc. Il faudrait savoir. Quelle est la question que vous poser à vos données ? Il faut d'abord clarifier ceci avant de vous lancer dans les calculs.
HTH, Eric.
Dans le cadre de la régression logistique, on veut exprimer/modéliser une variable dichotomique binomiale (dans votre cas oui/non) par une ou plusieurs autres. Vous expliquez alors que vous voulez en fait faire le contraire, à savoir expliquer des variables pas la variable dichotomique (i.e., comparer les individus qui répondent oui à ceux qui répondent non). Dans le second cas, on n'est plus du tout dans le cadre d'une régression logistique mais dans dans le cadre de l'ANOVA (ou test-t) et seulement alors il conviendra de se poser le problème de la distribution des données, etc. Il faudrait savoir. Quelle est la question que vous poser à vos données ? Il faut d'abord clarifier ceci avant de vous lancer dans les calculs.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Régression logistique, variables, statistiques descriptives
Bonsoir,
Merci pour votre réponse.
Je me suis sans doute mal exprimé.
Dans le cadre de mon mémoire, je scinde mon étude empirique en deux parties.
Dans une première partie, j'ai les statistiques descriptives et l'analyse univariée. C'est du classique: moyenne, médiane, etc. de mes observations (environ 140). J'ai décidé de scinder mon échantillon en deux, par rapport à ma variable dépendante (le oui/non) et j'aimerais les comparer. Or, l'ensemble de mes données ne suit pas une loi normale. Du coup, quid du t-test?
Dans ma seconde partie, je voulais faire mon analyse multivariée: celle de la régression. J'utilise stata et la commande est assez facile. Les résultats sont facilement interprétables.
Mon soucis c'est ma partie descriptive et la comparaison de mes deux échantillons.
Je ne sais pas si c'est plus clair comme ça. Je remarque une chose: c'est que dans le domaine de l'économie, les chercheurs font vraiment tout ce qu'ils veulent en statistiques...
Merci pour votre réponse.
Je me suis sans doute mal exprimé.
Dans le cadre de mon mémoire, je scinde mon étude empirique en deux parties.
Dans une première partie, j'ai les statistiques descriptives et l'analyse univariée. C'est du classique: moyenne, médiane, etc. de mes observations (environ 140). J'ai décidé de scinder mon échantillon en deux, par rapport à ma variable dépendante (le oui/non) et j'aimerais les comparer. Or, l'ensemble de mes données ne suit pas une loi normale. Du coup, quid du t-test?
Dans ma seconde partie, je voulais faire mon analyse multivariée: celle de la régression. J'utilise stata et la commande est assez facile. Les résultats sont facilement interprétables.
Mon soucis c'est ma partie descriptive et la comparaison de mes deux échantillons.
Je ne sais pas si c'est plus clair comme ça. Je remarque une chose: c'est que dans le domaine de l'économie, les chercheurs font vraiment tout ce qu'ils veulent en statistiques...
FlyS- Nombre de messages : 2
Date d'inscription : 12/11/2017
Re: Régression logistique, variables, statistiques descriptives
Vous n'avez pas lu ma réponse, et ne répondez par à ma question.
Voulez-vous expliquer la variable binomiale par les autres, ou bien voulez-vous expliquer les autres variables par la variable binomiale ?
Le premier choix est un problème de régression logistique, le second ne l'est pas.
L'idée des tests-t -ou ANOVA- correspond au second choix. Et les données dans ce cas doivent être gaussiennes.
Parler de multivarié, régression ou pas, n'apporte pas de réponse à ma question.
La clarification que je vous demande reste toujours à faire. La vraie question n'est pas quel calcul faire, mais qu'elle est la question que vous posez à vos données. Vous ne répondez pas non plus à cette demande.
Eric.
Voulez-vous expliquer la variable binomiale par les autres, ou bien voulez-vous expliquer les autres variables par la variable binomiale ?
Le premier choix est un problème de régression logistique, le second ne l'est pas.
L'idée des tests-t -ou ANOVA- correspond au second choix. Et les données dans ce cas doivent être gaussiennes.
Parler de multivarié, régression ou pas, n'apporte pas de réponse à ma question.
La clarification que je vous demande reste toujours à faire. La vraie question n'est pas quel calcul faire, mais qu'elle est la question que vous posez à vos données. Vous ne répondez pas non plus à cette demande.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Régression logistique, variables, statistiques descriptives
Bonjour,
Je pose ma question ici je ne sais pas si je fais bien mais ça concerne la régression logistique...je me lance:
Mon objectif: expliquer une variable binaire par plusieurs autres (des binaires et des quantitatives). J'utilise R et la fonction glm() pour cela.
Je souhaite savoir comment calculer l'intervalle de confiance de mes coefficients fournis par R: est ce que je peux le faire à partir de l'écart type fournit dans la ligne de résultat avec la fonction summary(glm(vary~varx1+varx2...)))?
Cordialement
Je pose ma question ici je ne sais pas si je fais bien mais ça concerne la régression logistique...je me lance:
Mon objectif: expliquer une variable binaire par plusieurs autres (des binaires et des quantitatives). J'utilise R et la fonction glm() pour cela.
Je souhaite savoir comment calculer l'intervalle de confiance de mes coefficients fournis par R: est ce que je peux le faire à partir de l'écart type fournit dans la ligne de résultat avec la fonction summary(glm(vary~varx1+varx2...)))?
Cordialement
ptroy- Nombre de messages : 5
Date d'inscription : 03/11/2018
Re: Régression logistique, variables, statistiques descriptives
Ok, vous arrivez à présent avec une toute autre question..
Oui, vous pouvez. Les sorties de summary() vous donnent les valeurs estimées des pentes de la régression (coefficients), et leur SE. Ces paramètres sont asymptotiquement gaussiens, du coup le paramètre plus ou moins 1.96 sa SE représente l'estimation de son intervalle de confiance à 5%.
Il reste que vous ne dites toujours pas pourquoi vous avez besoin de ces intervalles de confiance, et quelle est la question que vous posez à vos données. (Des montagnes de gens font des régressions logistiques, et je n'ai pratiquement jamais vu des personnes qui avaient besoin d'estimer des intervalles de confiance sur les paramètres. Je serais curieux de savoir pourquoi ceci vous intéresse hormis peut-être le fait de reporter ceci dans une publication ou un rapport).
Cordialement, Eric.
Oui, vous pouvez. Les sorties de summary() vous donnent les valeurs estimées des pentes de la régression (coefficients), et leur SE. Ces paramètres sont asymptotiquement gaussiens, du coup le paramètre plus ou moins 1.96 sa SE représente l'estimation de son intervalle de confiance à 5%.
Il reste que vous ne dites toujours pas pourquoi vous avez besoin de ces intervalles de confiance, et quelle est la question que vous posez à vos données. (Des montagnes de gens font des régressions logistiques, et je n'ai pratiquement jamais vu des personnes qui avaient besoin d'estimer des intervalles de confiance sur les paramètres. Je serais curieux de savoir pourquoi ceci vous intéresse hormis peut-être le fait de reporter ceci dans une publication ou un rapport).
Cordialement, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Sujets similaires
» régression logistique et variables ordinales
» Régression logistique : indépendance des variables
» Regression logistique (codages variables quantitatives)
» Régression logistique basé sur des variables binaires
» Influence de variables statistiques sur la sinistralité
» Régression logistique : indépendance des variables
» Regression logistique (codages variables quantitatives)
» Régression logistique basé sur des variables binaires
» Influence de variables statistiques sur la sinistralité
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum