Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Interprétation - khi2 et mosaïque
3 participants
Page 1 sur 1
Interprétation - khi2 et mosaïque
Bonjour à tous et à toute,
Je dispose d'une base de données qui répertorie différentes informations des communes avant un déménagement, et des communes après un déménagement. En gros, j'ai des informations sur les communes de départ, et les communes d'arrivée.
L'une de mes études consiste à voir s'il existe une relation entre le nombre d'équipements dans la commune de départ, et le nombre d'équipements dans la commune d'arrivée. Par exemple, pour voir si, de manière significative, les personnes qui habitaient dans une commune pauvre en équipement sont partis vivre dans une commune avec un plus grand nombre d'équipement.
Voici mon tableau des effectifs observés :
Voici mon tableau des pourcentages ligne :
Après avoir réalisé un test du khi2 qui s'est révélé être significatif, crée des catégories du nombre d'équipement 5 par 5, je regarde à présent les pairs significatives via un diagramme de mosaique, dont voici l'export :
J'ai bien compris que les cases rouges représentent une répulsion (ou une sous représentation), et les cases bleues représentent une attraction (ou une surreprésentation), la largeur des cases est proportionnelle au pourcentage ligne, et la hauteur est proportionnelle à l'effectif observé. Par exemple, j'observe qu'il y a une répulsion des personnes qui habitaient dans une commune avec entre 0 et 5 équipements à aller dans des communes qui contiennent entre 10 et 15 équipements, puis dans des communes qui contiennent entre 15 et 20 équipements.
En revanche, ce que je n'arrive pas à expliquer, ce que le pourcentage ligne des personnes qui habitaient dans une commune avec entre 0 et 5 équipements est important dans les catégories ]10,15] et ]15,20] des communes d'arrivée, alors qu'elles sont affichées en sous-représentation. Lorsque je calcul les pourcentage ligne, je vois que 30% des personnes qui habitaient dans une commune avec entre 0 et 5 équipements sont allés vivre dans une commune qui offre entre 10 et 15 équipements, et 38% de ces personnes sont allés vivre dans une commune qui offre entre 15 et 20 équipements. Sur le papier, je trouve qu'il y a clairement une volonté de ces personnes à aller vivre sur cette catégorie d'offre, et pourtant la mosaïque m"indique qu'ils sont sous-représentées.
Pour être plus claire, comment expliquer qu'une telle proportion d'une variable soit sous-représentée ?
Merci.
Je dispose d'une base de données qui répertorie différentes informations des communes avant un déménagement, et des communes après un déménagement. En gros, j'ai des informations sur les communes de départ, et les communes d'arrivée.
L'une de mes études consiste à voir s'il existe une relation entre le nombre d'équipements dans la commune de départ, et le nombre d'équipements dans la commune d'arrivée. Par exemple, pour voir si, de manière significative, les personnes qui habitaient dans une commune pauvre en équipement sont partis vivre dans une commune avec un plus grand nombre d'équipement.
Voici mon tableau des effectifs observés :
Voici mon tableau des pourcentages ligne :
Après avoir réalisé un test du khi2 qui s'est révélé être significatif, crée des catégories du nombre d'équipement 5 par 5, je regarde à présent les pairs significatives via un diagramme de mosaique, dont voici l'export :
J'ai bien compris que les cases rouges représentent une répulsion (ou une sous représentation), et les cases bleues représentent une attraction (ou une surreprésentation), la largeur des cases est proportionnelle au pourcentage ligne, et la hauteur est proportionnelle à l'effectif observé. Par exemple, j'observe qu'il y a une répulsion des personnes qui habitaient dans une commune avec entre 0 et 5 équipements à aller dans des communes qui contiennent entre 10 et 15 équipements, puis dans des communes qui contiennent entre 15 et 20 équipements.
En revanche, ce que je n'arrive pas à expliquer, ce que le pourcentage ligne des personnes qui habitaient dans une commune avec entre 0 et 5 équipements est important dans les catégories ]10,15] et ]15,20] des communes d'arrivée, alors qu'elles sont affichées en sous-représentation. Lorsque je calcul les pourcentage ligne, je vois que 30% des personnes qui habitaient dans une commune avec entre 0 et 5 équipements sont allés vivre dans une commune qui offre entre 10 et 15 équipements, et 38% de ces personnes sont allés vivre dans une commune qui offre entre 15 et 20 équipements. Sur le papier, je trouve qu'il y a clairement une volonté de ces personnes à aller vivre sur cette catégorie d'offre, et pourtant la mosaïque m"indique qu'ils sont sous-représentées.
Pour être plus claire, comment expliquer qu'une telle proportion d'une variable soit sous-représentée ?
Merci.
Dernière édition par preliator le Lun 15 Juin 2020 - 11:07, édité 6 fois
preliator- Nombre de messages : 42
Date d'inscription : 01/04/2019
Re: Interprétation - khi2 et mosaïque
Je ne sais pas quel package vous utilisez dans R, mais je doute que la largeur soit liée à un pourcentage, alors que la hauteur soit liée à un effectif. Ca n'a guère de sens d'utiliser deux dimensions (totalement différentes). Ou bien les deux sont proportionnels à une fréquence, ou bien les deux à un effectif. Pas un mixte.preliator a écrit:J'ai bien compris que les cases rouges représentent une répulsion (ou une sous représentation), et les cases bleues représentent une attraction (ou une surreprésentation), la largeur des cases est proportionnelle au pourcentage ligne, et la hauteur est proportionnelle à l'effectif observé.
Que voulez-vous dire par "affichées en sous-représentation". Je ne vois rien de tel dans le graphique.preliator a écrit:En revanche, ce que je n'arrive pas à expliquer, ce que le pourcentage ligne des personnes qui habitaient dans une commune avec entre 0 et 5 équipements est important dans les catégories ]10,15] et ]15,20] des communes d'arrivée, alors qu'elles sont affichées en sous-représentation.
Deux autres points ici à rajouter, et qui me paraissent importants.
1) L’échelle des couleurs est indiquée comme étant en terme de résidus de Pearson. Ceci n'a guère à voir avec les proportions ou les effectifs, alors que tout votre raisonnement est fondé sur les proportions et les effectifs. Il s'agit plutôt de contribution au Chi2, c'est-à-dire dans l'espace exprimé en terme de (observé-théorique)^2/théorique, auquel on attribue un signe (plus ou moins) pour indiquer si on est en sur- ou sous-représentation par rapport à l'effectif attendu sous l'hypothèse d’absence de lien.
2) Il me semble être une (très) mauvaise idée de convertir une donnée quantitative (nombre d'équipements) en qualitative en faisant des classes. Vous perdez ainsi une importante quantité d'information dans vos données. Je garderais l'information quantitative d'origine et calculerais de simples corrélations. Vous aurez le même type d'information, mais de manière bien plus riche et informative.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1237
Date d'inscription : 14/09/2012
Re: Interprétation - khi2 et mosaïque
Merci pour votre réponse.
- J'utilise le package VCD pour réaliser ce graphique. Plus précisément, voici le code que j'ai utilisé :
Sauf erreur de ma part, j'ai pu vérifier que la largeur est bien liée au pourcentage ligne et la hauteur à l'effectif observée (Voir les tableaux que j'ai ajouté sur le post principal).
- Par "affichées en sous-représentation", je parle de la couleur rouge affichée sur ces catégories :
Pour être plus précis, c'est le principe d'avoir un fort pourcentage ligne, tout en étant en sous représentation (couleur rouge) que je ne comprend pas. Pour moi, ça serait l'inverse.
- Merci pour cette information. Mon objectif de base était plutôt de voir quelles sont les catégories de diversité d'équipements qui sont plus influencées en fonction de la commune de départ.
- J'utilise le package VCD pour réaliser ce graphique. Plus précisément, voici le code que j'ai utilisé :
- Code:
> mosaic(ecarts_diversite_equipement, shade = TRUE, labeling_args=list(gp_labels=gpar(fontsize=16), gp_varnames = gpar(fontsize=2)), legend_args=list(fontsize=16), margins=unit(3, "lines"), legend_width= unit(13, "lines"), labeling= labeling_border(rot_labels = c(0, 0, 0, 0), just_labels = c("left", "center", "center", "right")))
Sauf erreur de ma part, j'ai pu vérifier que la largeur est bien liée au pourcentage ligne et la hauteur à l'effectif observée (Voir les tableaux que j'ai ajouté sur le post principal).
- Par "affichées en sous-représentation", je parle de la couleur rouge affichée sur ces catégories :
Pour être plus précis, c'est le principe d'avoir un fort pourcentage ligne, tout en étant en sous représentation (couleur rouge) que je ne comprend pas. Pour moi, ça serait l'inverse.
- Merci pour cette information. Mon objectif de base était plutôt de voir quelles sont les catégories de diversité d'équipements qui sont plus influencées en fonction de la commune de départ.
preliator- Nombre de messages : 42
Date d'inscription : 01/04/2019
Re: Interprétation - khi2 et mosaïque
Désolé, je ne comprends toujours pas. Vous dites que la hauteur des lignes correspond à l'effectif observé. Les effectifs observés sont {10194, 6251, 19755, 13071, 7797} (en ligne) ou bien {10194, 6246, 61629, 25240, 7351} (en colonne). Aucune de ces deux distributions ne correspond à la taille des lignes sur le graphe. En revanche, je trouve que la hauteur des lignes correspond assez aux pourcentages que vous indiquez. Il semble y avoir un problème dans la manière dont vous lisez votre graphe.preliator a écrit:Sauf erreur de ma part, j'ai pu vérifier que la largeur est bien liée au pourcentage ligne et la hauteur à l'effectif observée (Voir les tableaux que j'ai ajouté sur le post principal).
Enfin, je répète un point que vous ne semblez pas avoir lu dans ma réponse. L'échelle de couleur est graduée en résidus de Pearson, et ceci n'a guère à voir avec les proportions ou les effectifs. Votre problème de lecture de ce graphe est bien là, je pense.
Cordialement, Eric.
Eric Wajnberg- Nombre de messages : 1237
Date d'inscription : 14/09/2012
Re: Interprétation - khi2 et mosaïque
Après quelques recherches, je suis en mesure d'expliquer à quoi correspond cette hauteur de case. C'est la somme de chaque ligne divisé par la somme totale des lignes. Ainsi, la première ligne correspond à ((5 003 + 3 015 + 11 183 + 14 437 + 3 515) / 352 242) 10% de la somme totale du tableau. Si je prends les lignes les plus "hautes", soit les catégories ]10,15] et ]15,20] des communes de départ, je trouve un pourcentage respectif de 36% et 33%.
De plus, mes recherches m'ont permis de trouver une autre manière de créer ce genre de graphique avec des fonctions de base de R : mosaicplot.
Je me retrouve avec des niveaux de significativité différents, et les hauteurs de case différentes. Quel schéma vous parait être le plus pertinent ?
Merci beaucoup.
De plus, mes recherches m'ont permis de trouver une autre manière de créer ce genre de graphique avec des fonctions de base de R : mosaicplot.
- Code:
mosaicplot(ecarts_diversite_equipement, shade = TRUE)
Je me retrouve avec des niveaux de significativité différents, et les hauteurs de case différentes. Quel schéma vous parait être le plus pertinent ?
Merci beaucoup.
preliator- Nombre de messages : 42
Date d'inscription : 01/04/2019
Re: Interprétation - khi2 et mosaïque
La hauteur des lignes correspond bien à des fréquences, et non a des effectifs, comme je le pensais.
La question de la pertinence du graphe à utiliser (s'il faut en utiliser un) dépend de vous, et des questions que vous vous posez sur vos données. Dans tous les cas, assurez vous cependant de bien comprendre ce qui est représenté.
Pour ma part, je continue à penser que ce n'est pas une bonne idée de regrouper en classe une variable quantitative. Vous perdez une quantité assez importante d'information, pour ne gagner pratiquement rien en échange.
HTH, Eric.
La question de la pertinence du graphe à utiliser (s'il faut en utiliser un) dépend de vous, et des questions que vous vous posez sur vos données. Dans tous les cas, assurez vous cependant de bien comprendre ce qui est représenté.
Pour ma part, je continue à penser que ce n'est pas une bonne idée de regrouper en classe une variable quantitative. Vous perdez une quantité assez importante d'information, pour ne gagner pratiquement rien en échange.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1237
Date d'inscription : 14/09/2012
Re: Interprétation - khi2 et mosaïque
Merci beaucoup pour vos réponses qui m'ont bien aidé.
preliator- Nombre de messages : 42
Date d'inscription : 01/04/2019
Re: Interprétation - khi2 et mosaïque
Salut preliator, si jamais tu t'intéresse au mosaic plot, il y a dans la même famille les assoc-plot qui (je trouve) sont un peu plus lisibles que les mosaic plot.
Ils sont accompagné d'une stat inférentielle (à prendre avec des pincettes).
Ils sont accompagné d'une stat inférentielle (à prendre avec des pincettes).
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Sujets similaires
» intérprétation des % d'un tableau croisé
» Khi2 et interprétation test exact de Fisher
» Khi2.
» AFC et test KHi2 sur sas
» test Khi2
» Khi2 et interprétation test exact de Fisher
» Khi2.
» AFC et test KHi2 sur sas
» test Khi2
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum
|
|