Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Questionnement variable à expliquer (cadre d'un projet)
2 participants
Page 1 sur 1
Questionnement variable à expliquer (cadre d'un projet)
Bonsoir !
Voila je suis en licence professionnelle en statistique, et je travaille actuellement sur un projet intéressant à propos de l'inégalité des genres dans les différents pays (niveau mondial).
Le travail se fait en partie sur Rstudio (partie statistique)!
Le projet est assez libre: j'ai construis un indicateur d'inégalité des genres à partir d'une base de donnée (cet indicateur est quantitative, variant de 0 à 1; 1 représentant l'égalité des sexes et 0 le contraire).
J'aimerais ensuite pouvoir expliquer cet indicateur en fonction de paramètres extérieur à la base (et non directement lié aux problèmes des genres).
Donc j'ai regroupé quelques données me paraissant pertinentes (et facile d'accès ): par exemple le continent, la religion prédominante, le pib, l'idh, le taux d'urbanisation et autres...
Ainsi je me retrouve avec des potentiels variables explicatives: certaines qualitatives et d'autres quantitatives.
(Je vais appeler par la suite X les variables explicatives et Y la variable à expliquer!)
J'ai séparé ces 2 types de variables (je sais pas traiter les 2 en même temps):
- pour les variables qualitatives j'ai d'abord fais une représentation graphique en affichant les boxplot pour chaque modalité de X par rapport à Y pour regarder s'il y avait ou non une séparation entre chaque modalité.
Ensuite j'ai juste fais une anova pour regarder si chaque modalité était égale ou non.
Dans chaque cas, ayant un pvalue très petit, je conclus en rejetant H0 ==) chaque modalité ne sont pas égales implique la dépendance de X par rapport à Y .
- pour les variables quantitatives, j'ai simplement fais d'abord une régression linéaire multiple, j'ai gardé les X qui ont pvalue<0.05, puis refais ma régression pour regarder à nouveau les pvalue et vérifier que le modèle soit correct (mon R² avoisine les 0.4, je crois que c'est pas trop mauvais mais j'ai vu sur un cours que les X doivent normalement pas être dépendante entres elles, mais en regardant matrice de corrélation entre mes X, je trouve rarement corr<0.7).
J'ai aussi regardé les graphiques de chaque X en fonction de Y en regardant le pente de la droite des moindres carrés, pour voir si l'augmentation de X implique l'augmentation de Y ou vis versa.
Je sais pas trop si ce que je fais est correct (c'est ma première année de stat), si j’oublie des phases essentiels, si je dois faire des tests ou autre...
Si vous avez des conseils je suis preneur .
Merci d'avance!
Vincent
Voila je suis en licence professionnelle en statistique, et je travaille actuellement sur un projet intéressant à propos de l'inégalité des genres dans les différents pays (niveau mondial).
Le travail se fait en partie sur Rstudio (partie statistique)!
Le projet est assez libre: j'ai construis un indicateur d'inégalité des genres à partir d'une base de donnée (cet indicateur est quantitative, variant de 0 à 1; 1 représentant l'égalité des sexes et 0 le contraire).
J'aimerais ensuite pouvoir expliquer cet indicateur en fonction de paramètres extérieur à la base (et non directement lié aux problèmes des genres).
Donc j'ai regroupé quelques données me paraissant pertinentes (et facile d'accès ): par exemple le continent, la religion prédominante, le pib, l'idh, le taux d'urbanisation et autres...
Ainsi je me retrouve avec des potentiels variables explicatives: certaines qualitatives et d'autres quantitatives.
(Je vais appeler par la suite X les variables explicatives et Y la variable à expliquer!)
J'ai séparé ces 2 types de variables (je sais pas traiter les 2 en même temps):
- pour les variables qualitatives j'ai d'abord fais une représentation graphique en affichant les boxplot pour chaque modalité de X par rapport à Y pour regarder s'il y avait ou non une séparation entre chaque modalité.
Ensuite j'ai juste fais une anova pour regarder si chaque modalité était égale ou non.
Dans chaque cas, ayant un pvalue très petit, je conclus en rejetant H0 ==) chaque modalité ne sont pas égales implique la dépendance de X par rapport à Y .
- pour les variables quantitatives, j'ai simplement fais d'abord une régression linéaire multiple, j'ai gardé les X qui ont pvalue<0.05, puis refais ma régression pour regarder à nouveau les pvalue et vérifier que le modèle soit correct (mon R² avoisine les 0.4, je crois que c'est pas trop mauvais mais j'ai vu sur un cours que les X doivent normalement pas être dépendante entres elles, mais en regardant matrice de corrélation entre mes X, je trouve rarement corr<0.7).
J'ai aussi regardé les graphiques de chaque X en fonction de Y en regardant le pente de la droite des moindres carrés, pour voir si l'augmentation de X implique l'augmentation de Y ou vis versa.
Je sais pas trop si ce que je fais est correct (c'est ma première année de stat), si j’oublie des phases essentiels, si je dois faire des tests ou autre...
Si vous avez des conseils je suis preneur .
Merci d'avance!
Vincent
Terme- Nombre de messages : 4
Date d'inscription : 17/02/2016
Re: Questionnement variable à expliquer (cadre d'un projet)
Plusieurs réponses :
1) L'indice qui va de 1 (égalité) à 0 (inégalité) est-il pertinent? Je ne suis pas sûr de cela car - par exemple - l'inégalité peut être en faveur d'un sexe ou de l'autre, information qui n'est pas donnée par l'indice.
2) La syntaxe (sous R) pour traiter une variable qualitative est de la mettre à droite du signe "~", et c'est la même syntaxe pour traiter une variable quantitative. Le modèle derrière est en fait exactement le même (une régression n'est rien moins qu'une anova et réciproquement). Du coup, avec cette syntaxe on peut mettre à droite du signe "~" à la fois des variables quantitatives et qualitatives, et surtout également leurs interactions. Ca s'appele une analyse de covariance, et tout ceci relève du modèle linéaire général. Je vous invite à vous documenter sur ce point.
3) Tout ceci n'est possible que si l'indice que vous calculez est gaussien, ce qui peut probable. Du coup, l'ensemble de votre explication quant à la manière d'interpréter les résultats, qui semble correct, en fait ne l'est probablement pas. Un autre point qu'il faut creuser.
4) "vice versa" vient du latin, et pas de la mécanique ou de l'outillage ("vice" plutôt que "vis")..
Bref, il vous reste des points à creuser, sur un modèle de base en stat, le modèle linéaire général, et il y a plein de ressources sur le web qui devraient vous aider pour ça.
Bonnes chances, Eric.
1) L'indice qui va de 1 (égalité) à 0 (inégalité) est-il pertinent? Je ne suis pas sûr de cela car - par exemple - l'inégalité peut être en faveur d'un sexe ou de l'autre, information qui n'est pas donnée par l'indice.
2) La syntaxe (sous R) pour traiter une variable qualitative est de la mettre à droite du signe "~", et c'est la même syntaxe pour traiter une variable quantitative. Le modèle derrière est en fait exactement le même (une régression n'est rien moins qu'une anova et réciproquement). Du coup, avec cette syntaxe on peut mettre à droite du signe "~" à la fois des variables quantitatives et qualitatives, et surtout également leurs interactions. Ca s'appele une analyse de covariance, et tout ceci relève du modèle linéaire général. Je vous invite à vous documenter sur ce point.
3) Tout ceci n'est possible que si l'indice que vous calculez est gaussien, ce qui peut probable. Du coup, l'ensemble de votre explication quant à la manière d'interpréter les résultats, qui semble correct, en fait ne l'est probablement pas. Un autre point qu'il faut creuser.
4) "vice versa" vient du latin, et pas de la mécanique ou de l'outillage ("vice" plutôt que "vis")..
Bref, il vous reste des points à creuser, sur un modèle de base en stat, le modèle linéaire général, et il y a plein de ressources sur le web qui devraient vous aider pour ça.
Bonnes chances, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Questionnement variable à expliquer (cadre d'un projet)
Merci d'avoir pris du temps pour me répondre !
1) Je ne l'ai pas expliqué car ma question ne porte pas sur la construction de cet indice, mais ce dernier représente l'inégalité des femmes par rapport aux hommes dans les différents pays (peut être interprété sous forme de pourcentage femmes/hommes comme par exemple le ratio sur les différences de salaires). Les sources des données permettant à le calculer proviennent d'organisations internationales. Je fais l'hypothèse que cet indice est pertinent pour pouvoir m'en servir pour essayer de l'expliquer! (sinon en effet sa sert à rien d'expliquer une variable incohérente)
3) Ah oui, j'avais oublié de le mentionner, j'ai utilisé le test de shapiro sous R pour évaluer la normalité de mon indice, j'ai obtenu une pvalue de 0.13 qui me permet d'accepter H0 et de pouvoir utiliser l'hypothèse que ma variable suit une loi normale, mais je suis pas sûr que ce simple test me permet de le faire, c'est vrai que l'histogramme n'est pas très ressemblant à une LN.
2) Je sais bien que je peux faire une régression à la fois sur les variables quant et qual mais je ne sais interpréter ma régression linéaire (lm) sur les variables qual: on m'affiche des informations sur chaque modalité, mais moi je veux l'information sur la variable regroupant les modalités pour avoir directement des infos sur la dépendance de la variable et pas de chacune ses modalités (ce que fait l'aov, enfin, je crois...). Si j'ai posé mes questions sur le forum, c'est que j'ai déjà essayé de chercher des informations sur le net, mais ça m'a plus embrouillé qu'autre chose.
4) Simple faute d’orthographe !
1) Je ne l'ai pas expliqué car ma question ne porte pas sur la construction de cet indice, mais ce dernier représente l'inégalité des femmes par rapport aux hommes dans les différents pays (peut être interprété sous forme de pourcentage femmes/hommes comme par exemple le ratio sur les différences de salaires). Les sources des données permettant à le calculer proviennent d'organisations internationales. Je fais l'hypothèse que cet indice est pertinent pour pouvoir m'en servir pour essayer de l'expliquer! (sinon en effet sa sert à rien d'expliquer une variable incohérente)
3) Ah oui, j'avais oublié de le mentionner, j'ai utilisé le test de shapiro sous R pour évaluer la normalité de mon indice, j'ai obtenu une pvalue de 0.13 qui me permet d'accepter H0 et de pouvoir utiliser l'hypothèse que ma variable suit une loi normale, mais je suis pas sûr que ce simple test me permet de le faire, c'est vrai que l'histogramme n'est pas très ressemblant à une LN.
2) Je sais bien que je peux faire une régression à la fois sur les variables quant et qual mais je ne sais interpréter ma régression linéaire (lm) sur les variables qual: on m'affiche des informations sur chaque modalité, mais moi je veux l'information sur la variable regroupant les modalités pour avoir directement des infos sur la dépendance de la variable et pas de chacune ses modalités (ce que fait l'aov, enfin, je crois...). Si j'ai posé mes questions sur le forum, c'est que j'ai déjà essayé de chercher des informations sur le net, mais ça m'a plus embrouillé qu'autre chose.
4) Simple faute d’orthographe !
Terme- Nombre de messages : 4
Date d'inscription : 17/02/2016
Re: Questionnement variable à expliquer (cadre d'un projet)
Sous R, il vous faut utiliser la fonction glm() et ensuite anova(). Vous aurez - pour les variables qualitatives - l'information sous la forme d'un tableau d'anova qui teste globalement les différences de moyennes entre toutes les modalités. Il y a plein d'exemples sur le web. Et ca vous permettra d'ajuster des modèles linéaires généraux.
Bonnes chances,
Eric.
Bonnes chances,
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Questionnement variable à expliquer (cadre d'un projet)
Mais lorsque je fais une anova(glm) sous le test de Fisher (sur mes variables quali), on me retourne les mêmes informations que de faire un summary(aov) comme je l'ai déjà fais ...
Terme- Nombre de messages : 4
Date d'inscription : 17/02/2016
Re: Questionnement variable à expliquer (cadre d'un projet)
Voici une exemple bidon sous R, avec une seule variable qualitative, en espérant que ca vous aidera :
HTH, Eric.
- Code:
Y=gl(3,3,labels=c("a","b","c"))
x=rnorm(9)
anova(glm(x~Y),test="F")
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Sujets similaires
» Expliquer un groupe par des var Quali
» Déterminer "loadings" régionaux dans le cadre d'un bootstrap
» liaison:variable quali#variable quanti, très urgent
» Corrélation entre variable continue et variable discrète
» Relation entre variable nominale et variable ordinale
» Déterminer "loadings" régionaux dans le cadre d'un bootstrap
» liaison:variable quali#variable quanti, très urgent
» Corrélation entre variable continue et variable discrète
» Relation entre variable nominale et variable ordinale
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum