Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine
Aucun utilisateur

-40%
Le deal à ne pas rater :
Tefal Ingenio Emotion – Batterie de cuisine 10 pièces (induction, ...
59.99 € 99.99 €
Voir le deal

Questionnement variable à expliquer (cadre d'un projet)

2 participants

Aller en bas

Questionnement variable à expliquer (cadre d'un projet) Empty Questionnement variable à expliquer (cadre d'un projet)

Message par Terme Mer 17 Fév 2016 - 19:35

Bonsoir !
Voila je suis en licence professionnelle en statistique, et je travaille actuellement sur un projet intéressant à propos de l'inégalité des genres dans les différents pays (niveau mondial).
Le travail se fait en partie sur Rstudio (partie statistique)!
Le projet est assez libre: j'ai construis un indicateur d'inégalité des genres à partir d'une base de donnée (cet indicateur est quantitative, variant de 0 à 1; 1 représentant l'égalité des sexes et 0 le contraire).

J'aimerais ensuite pouvoir expliquer cet indicateur en fonction de paramètres extérieur à la base (et non directement lié aux problèmes des genres).
Donc j'ai regroupé quelques données me paraissant pertinentes (et facile d'accès Very Happy ): par exemple le continent, la religion prédominante, le pib, l'idh, le taux d'urbanisation et autres...
Ainsi je me retrouve avec des potentiels variables explicatives: certaines qualitatives et d'autres quantitatives.
(Je vais appeler par la suite X les variables explicatives et Y la variable à expliquer!)

J'ai séparé ces 2 types de variables (je sais pas traiter les 2 en même temps):
- pour les variables qualitatives j'ai d'abord fais une représentation graphique en affichant les boxplot pour chaque modalité de X par rapport à Y pour regarder s'il y avait ou non une séparation entre chaque modalité.
Ensuite j'ai juste fais une anova pour regarder si chaque modalité était égale ou non.
Dans chaque cas, ayant un pvalue très petit, je conclus en rejetant H0 ==) chaque modalité ne sont pas égales implique la dépendance de X par rapport à Y confused .

- pour les variables quantitatives, j'ai simplement fais d'abord une régression linéaire multiple, j'ai gardé les X qui ont pvalue<0.05, puis refais ma régression pour regarder à nouveau les pvalue et vérifier que le modèle soit correct (mon R² avoisine les 0.4, je crois que c'est pas trop mauvais mais j'ai vu sur un cours que les X doivent normalement pas être dépendante entres elles, mais en regardant matrice de corrélation entre mes X, je trouve rarement corr<0.7).
J'ai aussi regardé les graphiques de chaque X en fonction de Y en regardant le pente de la droite des moindres carrés, pour voir si l'augmentation de X implique l'augmentation de Y ou vis versa.

Je sais pas trop si ce que je fais est correct (c'est ma première année de stat), si j’oublie des phases essentiels, si je dois faire des tests ou autre...
Si vous avez des conseils je suis preneur Smile .

Merci d'avance!

Vincent

Terme

Nombre de messages : 4
Date d'inscription : 17/02/2016

Revenir en haut Aller en bas

Questionnement variable à expliquer (cadre d'un projet) Empty Re: Questionnement variable à expliquer (cadre d'un projet)

Message par Eric Wajnberg Jeu 18 Fév 2016 - 8:13

Plusieurs réponses :

1) L'indice qui va de 1 (égalité) à 0 (inégalité) est-il pertinent? Je ne suis pas sûr de cela car - par exemple - l'inégalité peut être en faveur d'un sexe ou de l'autre, information qui n'est pas donnée par l'indice.

2) La syntaxe (sous R) pour traiter une variable qualitative est de la mettre à droite du signe "~", et c'est la même syntaxe pour traiter une variable quantitative. Le modèle derrière est en fait exactement le même (une régression n'est rien moins qu'une anova et réciproquement). Du coup, avec cette syntaxe on peut mettre à droite du signe "~" à la fois des variables quantitatives et qualitatives, et surtout également leurs interactions. Ca s'appele une analyse de covariance, et tout ceci relève du modèle linéaire général. Je vous invite à vous documenter sur ce point.

3) Tout ceci n'est possible que si l'indice que vous calculez est gaussien, ce qui peut probable. Du coup, l'ensemble de votre explication quant à la manière d'interpréter les résultats, qui semble correct, en fait ne l'est probablement pas. Un autre point qu'il faut creuser.

4) "vice versa" vient du latin, et pas de la mécanique ou de l'outillage ("vice" plutôt que "vis")..

Bref, il vous reste des points à creuser, sur un modèle de base en stat, le modèle linéaire général, et il y a plein de ressources sur le web qui devraient vous aider pour ça.

Bonnes chances, Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1237
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Questionnement variable à expliquer (cadre d'un projet) Empty Re: Questionnement variable à expliquer (cadre d'un projet)

Message par Terme Jeu 18 Fév 2016 - 21:51

Merci d'avoir pris du temps pour me répondre !

1) Je ne l'ai pas expliqué car ma question ne porte pas sur la construction de cet indice, mais ce dernier représente l'inégalité des femmes par rapport aux hommes dans les différents pays (peut être interprété sous forme de pourcentage femmes/hommes comme par exemple le ratio sur les différences de salaires). Les sources des données permettant à le calculer proviennent d'organisations internationales. Je fais l'hypothèse que cet indice est pertinent pour pouvoir m'en servir pour essayer de l'expliquer! (sinon en effet sa sert à rien d'expliquer une variable incohérente)

3) Ah oui, j'avais oublié de le mentionner, j'ai utilisé le test de shapiro sous R pour évaluer la normalité de mon indice, j'ai obtenu une pvalue de 0.13 qui me permet d'accepter H0 et de pouvoir utiliser l'hypothèse que ma variable suit une loi normale, mais je suis pas sûr que ce simple test me permet de le faire, c'est vrai que l'histogramme n'est pas très ressemblant à une LN.

2) Je sais bien que je peux faire une régression à la fois sur les variables quant et qual mais je ne sais interpréter ma régression linéaire (lm) sur les variables qual: on m'affiche des informations sur chaque modalité, mais moi je veux l'information sur la variable regroupant les modalités pour avoir directement des infos sur la dépendance de la variable et pas de chacune ses modalités (ce que fait l'aov, enfin, je crois...). Si j'ai posé mes questions sur le forum, c'est que j'ai déjà essayé de chercher des informations sur le net, mais ça m'a plus embrouillé qu'autre chose.

4) Simple faute d’orthographe !

Terme

Nombre de messages : 4
Date d'inscription : 17/02/2016

Revenir en haut Aller en bas

Questionnement variable à expliquer (cadre d'un projet) Empty Re: Questionnement variable à expliquer (cadre d'un projet)

Message par Eric Wajnberg Ven 19 Fév 2016 - 6:13

Sous R, il vous faut utiliser la fonction glm() et ensuite anova(). Vous aurez - pour les variables qualitatives - l'information sous la forme d'un tableau d'anova qui teste globalement les différences de moyennes entre toutes les modalités. Il y a plein d'exemples sur le web. Et ca vous permettra d'ajuster des modèles linéaires généraux.

Bonnes chances,

Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1237
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Questionnement variable à expliquer (cadre d'un projet) Empty Re: Questionnement variable à expliquer (cadre d'un projet)

Message par Terme Ven 19 Fév 2016 - 19:44

Mais lorsque je fais une anova(glm) sous le test de Fisher (sur mes variables quali), on me retourne les mêmes informations que de faire un summary(aov) comme je l'ai déjà fais ...

Terme

Nombre de messages : 4
Date d'inscription : 17/02/2016

Revenir en haut Aller en bas

Questionnement variable à expliquer (cadre d'un projet) Empty Re: Questionnement variable à expliquer (cadre d'un projet)

Message par Eric Wajnberg Sam 20 Fév 2016 - 4:51

Voici une exemple bidon sous R, avec une seule variable qualitative, en espérant que ca vous aidera :

Code:
Y=gl(3,3,labels=c("a","b","c"))
x=rnorm(9)
anova(glm(x~Y),test="F")

HTH, Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1237
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Questionnement variable à expliquer (cadre d'un projet) Empty Re: Questionnement variable à expliquer (cadre d'un projet)

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum