Les posteurs les plus actifs de la semaine
doc.bass
 
ycaba
 
zezima
 
lenny868
 
Berangere44
 


GLM pour deux données quantitatives comme VD

Aller en bas

GLM pour deux données quantitatives comme VD

Message par lenny868 le Lun 29 Jan 2018 - 12:15

Bonjour,

Je dispose des données suivantes :

Code:
res=structure(list(Zone = 1:12, Cat1 = c(0.5, 3.5, 1, 1, 2, 5.75, 
9.33333333333333, 9, 11.6666666666667, 3.41666666666667, 4.58333333333333, 
0), Other_cat = c(48.5, 45.5, 42, 52, 50, 42.25, 39.6666666666667, 
34, 41.3333333333333, 42.5833333333333, 21.4166666666667, 34), 
    Person_sum = c(37L, 65L, 83L, 82L, 97L, 36L, 33L, 52L, 31L, 
    33L, 19L, 28L), Music = c("yes", "no", "yes", "no", "yes", 
    "no", "yes", "no", "no", "yes", "no", "yes")), .Names = c("Zone", 
"Cat1", "Other_cat", "Person_sum", "Music"), row.names = c(NA, 
-12L), class = "data.frame")


Je souhaite évaluer l'effet de la densité (person_sum) d'un coté et de la musique, sur des comportements émergents (Cat1, Other_cat).Les personnes choisissent leurs emplacements dans des zones bien précise (Zone)

Pour résumer : person_sum est une donnée quantitative sur des quantités d'apparition de comportement  (Cat1: ceux qui disent ne pas aimer la forte densité, Other_cat : autre raison). En pseudo code, je souhaite savoir s'il est possible d'utiliser le GLM, compte tenu que je l'ai déjà utilisé pour des données binaire dans ce post


Code:
anova(glm((Cat1,Other_cat) ~ Person_sum ),test="Chisq")


Et puis illustrer l'interaction entre la présence de la musique dans la zone (données catégorique) sur l’émergence des comportements (Cat1, Other_cat)


Code:
anova(glm((Cat1,Other_cat) ~ Music),test="Chisq")

Dans ce cas, est-ce qu'il serait judicieux de continuer sur le GLM ou plutôt un autre test (je pensais au MANOVA). Si c'est le GLM, quelle syntaxe ?

En vous remerciant

lenny868

Nombre de messages : 40
Date d'inscription : 16/01/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM pour deux données quantitatives comme VD

Message par Florent Aubry le Mar 30 Jan 2018 - 12:59

Si tes données se limitent à celles que tu donnes dans la question, la question préalable est alors celle de la pertinence d'une analyse inférentielle sur ces données vu la taille de l'échantillon. Si tu considère que c'est pertinent, il faut que tu te poses la question de savoir s'il faut utiliser une approche par modèle linéaire (en utilisant lm ou glm, là n'est pas la question), c'est-à-dire notamment si l'ajustement des données par le modèle linéaire (régression ou Anova/test t) est de bonne qualité.

Florent Aubry

Nombre de messages : 212
Date d'inscription : 02/11/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM pour deux données quantitatives comme VD

Message par lenny868 le Mar 30 Jan 2018 - 13:18

Merci pour ce retour. Je souhaite mieux comprendre car c’est justement la difficulté à laquelle je fais face à chaque fois devant mes données recueillis. Il faut bien évaluer en premier lieu si ma VD suit une distribution normale, cela ne semble pas être le cas c'est pour cela que j'ai opté pour la GLM.

Par la suite, mes donnés sont aggrégées par zone, mais à l'origine, j'ai 600 réponses.Est-ce que le fait d'aggreger est une mauvaise idée ?

De plus, j'estime que etudier 2 VD c'est a dire,la Cat1 et Other_cat, est nécessaire afin d'evluer les variabilité de Cat1 par rapport aux restes des réponses (compte tenu que je n'ai pas le même nb de réponse par zone)

Et enfin, pour revenir encore une fois aux choix de test, je devrais me baser sur quels critères ?

Merci de votre aide.

lenny868

Nombre de messages : 40
Date d'inscription : 16/01/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM pour deux données quantitatives comme VD

Message par Florent Aubry le Mar 30 Jan 2018 - 14:36

Est-ce que le fait d'aggreger est une mauvaise idée ?
Oui car cela fait passer de 600 sujets à 12 sauf à pondérer correctement les données.
Il faut bien évaluer en premier lieu si ma VD suit une distribution normale, cela ne semble pas être le cas c'est pour cela que j'ai opté pour la GLM.
1) Ce n'est pas les données qui doivent être normales mais les résidus.
2) un cas particulier de GLM est le modèle linéaire (lm). Glm permet simplement de spécifier la famille à laquelle appartient les données :
Code:
lm( formula, data)
# et
glm( formule, data)
donnent des résultats identiques.
Pour traiter d'autrs types de donner, il faut alors spécifier l'argument family. Les plus courant étant :
familiy=binomial pour des VD binanires
family= gaussian (équivalent à lm)
family=poisson (pour des données de comptage)

Si tu veux analyser à la fois les deux VD, il faut alors utiliser une approche de type Manova. Si les données sont très loin de la normale, tu peux envisager des transformations.
Enfin, des approches de type modèle mixte peuvent être envisagées avec deux facteurs de groupement (facteurs aléatoires), la zone et le sujet dans la zone.

Florent Aubry

Nombre de messages : 212
Date d'inscription : 02/11/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM pour deux données quantitatives comme VD

Message par lenny868 le Mar 30 Jan 2018 - 17:13

Très bien Merci,

Je me demande, en gardant les données sans les agréger, si cela pose probleme vis à vis de la variable Person_sum. En effet cette données est une donnée de comptage sur 12 zones, je ne pourrais avoir plus de précision pour cette données ce qui signifie que des zones 1:12 j'aurais toujours les même quantité associé (ex :zone 1 -> 37, zone2 -> 65...zone 12 ->28). est-ce que la redondance de cette données sur les questionnaires sur 12 valeurs seulement, n'affecterais pas les analyses (visiblement non mais je souhaite en avoir le coeur net)

Merci
Lenny

lenny868

Nombre de messages : 40
Date d'inscription : 16/01/2018

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM pour deux données quantitatives comme VD

Message par Florent Aubry le Mar 30 Jan 2018 - 19:03

Quelle est la VI pertinente entre l'identification de la zone et le comptage ? Si c'est le comptage, l'analyse signifie que tu cherches une relation linéaire (ou polynomiale) entre le comptage et les VD sinon est-ce simplement une différence entre zones ou te poses-tu la question de l'existence d'une relation de type monotone entre le comptage et les VD ?  Dans le premier cas de figure, il est préférable d'utiliser l'identificateur de zone comme facteur, dans le second, tu peux utiliser le comptage mais comme facteur ordonné. Le fait que ce facteur zone (ou comptage associé) ait 12 niveaux pourrait être problématique si ce n'est que tu as 600 réponses donc en moyenne 50 par zone.

Florent Aubry

Nombre de messages : 212
Date d'inscription : 02/11/2015

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM pour deux données quantitatives comme VD

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum