[RStat] régression logistique, graphe et interprétation

par vottana Lun 22 Fév 2010 - 16:10

Bonjour à tous,

Pouvez-vous m'aider à interpréter le résultat d'une régression logistique sous Rstat? J'ai vraiment du mal avec les statistiques, je comprends les principes des tests de base mais là je suis un peu perdue.

J'analyse les données d'une étude ornithologique : sur un parcours, on note la présence ou l'absence d'une espèce, ce parcours est fait chaque année à la même période, depuis 1996. Mon tableau de données a donc cette tête

Code:: u10 periode parcours 1 01 140001 NA 01 140002 0 01 140003 0 01 140004 1 01 140005 0 01 140006 NA 01 140007 etc

u10 : c'est la variable qualitative, présence(1) ou absence(0) de l'espèce U10 (c'est le code utilisé dans l'étude), si le parcours n'a pas été fait une année, je mets NA pour not available.

période : c'est le code de l'année, allant de 01 à 13 (de 1996 à 2008)

parcours : c'est le numéro du site prospecté

Le but est de voir la tendance au cours du temps du nombre de parcours présentant l'espèce, et bien sûr tester si la variation est significative.
Voici le code que je saisis dans Rstat, et ce que j'obtiens :

Code:: > resultu10s1<-glm(u10~periode+parcours, family=quasibinomial) > summary(resultu10s1) Call: glm(formula = u10 ~ periode + parcours, family = quasibinomial) Deviance Residuals: Min 1Q Median 3Q Max -1.3169 -1.0517 -0.9362 1.2715 1.5468 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 4.996e-01 1.792e-01 2.788 0.005374 ** periode -4.913e-02 1.591e-02 -3.088 0.002054 ** parcours -9.173e-07 2.424e-07 -3.784 0.000161 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 (Dispersion parameter for quasibinomial family taken to be 1.002247) Null deviance: 1837.2 on 1346 degrees of freedom Residual deviance: 1814.5 on 1344 degrees of freedom (2189 observations deleted due to missingness) AIC: NA Number of Fisher Scoring iterations: 4

d'après ces résultats, pour la période, p=0.002054 donc p<0.01 (il y a ** donc je regarde le seuil à 0.01 c'est bien ça?) il y a donc une variation significative du à l'effet "période"?

pour l'effet "parcours", p=0.000161 donc <0.001 (il y a ***, je considère le seuil à 0.001?) c'est donc aussi significatif?

Mon souci est que j'ai fait cette analyse avec un autre logiciel, dédié aux suivis ornitho et là je n'ai pas de variation significative... Est-ce que mon interprétation des résultats est correcte?

Est-ce les valeurs -4.913e-02 et -9.173e-07 correspondent aux valeurs des pentes de la droite de régression comme dans une régression linéaire? Dans ce cas les pentes sont très faibles, comment ce fait-il que la variation soit significative?

Comment représenter ces données sous forme de graphe? C'est à dire visualiser la tendance au cours du temps? Comme la variable Y ne peut avoir que 0 ou 1, je n'arrive pas à utiliser la fonction plot(), car je ne vois pas comment définir l'axe des ordonnées.

J'espère que vous pourrez m'aider, en attendant je potasse ma tonne de documents sur la régression logistique, mais si vous pouviez me donner quelques pistes de compréhension....

Merci d'avance et à bientôt,
Vottana

par droopy Lun 22 Fév 2010 - 17:02

d'après ces résultats, pour la période, p=0.002054 donc p<0.01 (il y
a ** donc je regarde le seuil à 0.01 c'est bien ça?) il y a donc une
variation significative du à l'effet "période"?

pour l'effet "parcours", p=0.000161 donc <0.001 (il y a ***, je considère le seuil à 0.001?) c'est donc aussi significatif?

Non, ça veut juste dire que tes coefficients sont significativement différent de 0, ça ne veut pas dire que les effets de tes variables sont significatifs. Pour cela il faut que tu regardes du côté des fonctions drop1 et anova (avec l'option test="Chisq").

Est-ce les valeurs -4.913e-02 et -9.173e-07 correspondent aux valeurs
des pentes de la droite de régression comme dans une régression
linéaire?

Non ce sont les valeurs des coefficients sur le lien c'est a dire entre le log(p/(1-p)) et tes variables. Autrement dit entre le logit et les variables.

Dans ce cas les pentes sont très faibles, comment ce fait-il que la variation soit significative?

parce que les écart types associés à tes coefficients sont très faibles aussi.

De plus ici tu utilises une distribution quasibinomiale, mais vu la valeur du paramètre de dispersion tu peux utiliser une distribution binomiale.

Après il y a pas mal de choses à regarde pour une regression logistique, comme la courbe ROC qui te donnera une idée de l'adéquation de ta regression logistique. Voir les posts sur la question et les liens fournis.

[RStat] régression logistique, graphe et interprétation

[RStat] régression logistique, graphe et interprétation

Re: [RStat] régression logistique, graphe et interprétation