GLM, "spatial filtering"

Voir le sujet précédent Voir le sujet suivant Aller en bas

GLM, "spatial filtering"

Message par Oni le Lun 1 Juil 2013 - 14:15

Bonjour!

Je suis déjà venue vous embêter quelques fois avec mes analyses statistiques, mais je crois que ma question est cette fois plus difficile.

J'ai un set de données (110 après suppression des données manquantes qui faisaient bcp trop chier), 36 variables explicatives ramenées à 11 par une série d'ACP.

J'ai voulu créer les 2000+ glm quasipoisson, avec toutes les combinaisons possibles de variables explicatives vs ma variable à expliquer. Je l'ai fait, ca a marché, j'ai sélectionné les modèles candidats notamment sur base du QAICc. j'avais 11 modèles candidats, super.

Sauf qu'il est probable que j'aie de l'autocorrélation spatiale.

Donc j'ai fait un test (que je pense pas que je pouvais faire): un I de Moran sur les résidus pearson de mon modèle poisson. Et il est très significatif.
Donc j'ai voulu intégrer à mes modèles des eigenvecteurs spatiaux pour diminuer cette autocorrélation

(package spdep de R, fonction ME)

Mais ma question ets la suivante: j'ai calculé les eigenvectors et les ai intégré à chacun de mes 11 modèles candidats, sans problème. Sauf que leur QAICc a changé du tout au tout. Pire, le classement des modèles candidats a changé.
Donc théoriquement ma sélection est à refaire. Mais je vois pas trop comment je peux ajuster un par un mes modèles (2000+), surtout que ca bouffe bcp de ressources en mémoire vive.

Quelqu'un voit un peu mon pb et pourrait me dire si je peux éventuellement

-estimer mes eigenvectors sur un modèle en particulier (le saturé? le nul?), et les mettre dans tous mes modèles sans les recalculer à chaque fois à partir du modèle (c'est ca qui prend du temps)?

-utiliser une autre technique pour diminuer l'autocorrélation spatiale?

-...autre?


Merci d'avance (je peux fournir un bout de code, mais mon pb semble plus théorique que pratique...)

Oni

Nombre de messages : 10
Date d'inscription : 21/06/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM, "spatial filtering"

Message par Nik le Lun 1 Juil 2013 - 15:52

Salut,

estimer mes eigenvectors sur un modèle en particulier (le saturé? le nul?)
Non je en pense pas car à ma connaissance les eigen vectors sont estimés sur les résidus et donc dépendent de la matrice des prédicteurs. Donc ils doivent être estimés pour chaque modèle. Ceci semble logique car il n'est pas certain que l'autocorrélation spatiale s'exprime de la même manière selon toutes les varaibles.


-utiliser une autre technique pour diminuer l'autocorrélation spatiale?
pas d'idées là dessus...je suis pas sûr que le résultat soit bien différent et surtout que la logique soit différente.

-...autre?
benh oui tout simplement le fait d'avoir généré plus de 2000 modèles est tout simplement aberrant. Si tu lis le livre de Burnham et Anderson sur la sélection de modèle tu pourras te rendre compte qu faire ce que tu fais s'appelle du data dredging et que ça ne peut pas aboutir à quelque chose de bon. Tu as de fortes chances de produire un modèle qui incorpore des effets qui sont des sortes de faux-positifs selon ton critère (QAICc). Burnham parle de "Spurious effects".
En plus d'après ce que tu dis, tu n'as pas tenté les modèles avec interaction.

La sélection de modèle, c'est bien, très puissant, mais c'est pas parce que ça fait appel à un critère numérique qu'on doit se lancer dans des grandes automatisations.

Tu as vraiment pu conserver 11 axes sur ton ACP de départ ??

Bref, ton principal problème est ton choix méthodologique de départ.

Nik

Nik

Nombre de messages : 1501
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM, "spatial filtering"

Message par Oni le Mar 2 Juil 2013 - 14:53

Bonjour!

En fait, j'ai réalisé plusieurs ACP, sur plusieurs sous-sets de variables, et j'ai chaque fois conservé un axe ou deux. Pour ca que j'en ai 11, mais j'ai vérifié qu'il n'y avait pas de trop grandes corrélations entre les différentes composante,s puisqu'elles proviennent d'ACP séparées.

Pour le fait de générer tous les modèles, c'est vrai. Mais j'ai peu d'a priori concernant cette espèce, à vrai dire je n'en ai pas, et chacune des 36 variables de départ sont des variables très fréquemment associées à un effet sur l'abondance de cette espèce, donc ca m'aide pas.

Et si je génère 2000 modèles, j'en préselectionne env 200 sur base de l'AIC, puis la dernière sélection est manuelle, jusqu'à en garder une dizaine. J'évite de cette façon de sélectionner un modèle compliqué quand un modèle plus simple, "nested" est déjà candidat, ce qui évite certains des écueils de la sélection bete et méchante.
Et ma discussion est également là pour relativiser cet effet "machine".

Pour les modèles avec les interactions, et pour éviter des sur-complications ou des résultats stupides, je pensais ne les tester que sur mon set de 10 ou 12 modèles candidats, avec les interactions entre les variables le splus supportées par ces modèles. Je sais pas si ça a un sens de faire ça? je pourrais passer à coté d'interactions, mais d'un autre coté, quel sens ca aurait d'avoir un modèle avec des interactions entre des variables non incluses dans le modèle, par exemple...?


J'ai trouvé un article de review qui analyse une autre façon de diminuer l'autocorrélation spatiale: l'autorégression. (en incorporant des auto-covariables). Beaucoup plus rapide. Moins puissant aussi. :/

Je sais bien que ce n'est pas méthodologiquement irréprochable. Mais je ne suis vraiment pas une spécialiste, j'ai découvert l'AIC y'a 15jours en fait, ce n'ets absolument pas le sujet principal de mon travail, et personne dans mon entourage ne peut me donner de conseils, donc je veux surtout faire au moins mal...


Oni

Nombre de messages : 10
Date d'inscription : 21/06/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM, "spatial filtering"

Message par Nik le Mer 3 Juil 2013 - 5:36

Salut,
J'évite de cette façon de sélectionner un modèle compliqué quand un modèle plus simple, "nested" est déjà candidat
C'est à dire ? Je ne vois pas bien sur quelle base tu supprimes un modèle plus complexe.

Pourquoi avoir fait des ACP séparées ? Si l'objectif est de réduire le nb de dimension, tu as tout intérêt à tout mettre ensemble.

quel sens ca aurait d'avoir un modèle avec des interactions entre des variables non incluses dans le modèle, par exemple
L'interaction et l'effet additif simple n'expriment tout simplement pas la même chose.

Pour les interactions, on va dire pourquoi pas même si c'est loin d'être satisfaisant.

Ton problème est surtout lié à de la puissance de calcul donc il faudrait peut être envisager du calcul parallèle et au moins dans une première étape de ne sortir que les AIC et les équations des modèles pour limiter les problèmes de ressource (ne pas stocker toute la sortie).

Je sais bien que ce n'est pas méthodologiquement irréprochable. Mais je ne suis vraiment pas une spécialiste, j'ai découvert l'AIC y'a 15jours en fait, ce n'ets absolument pas le sujet principal de mon travail, et personne dans mon entourage ne peut me donner de conseils, donc je veux surtout faire au moins mal...
Désolé, je comprends bien la difficulté mais ce ne sera pas tenable si tu dois présenter tes résultats ou pire écrire une publi ou un rapport.

nik

Nik

Nombre de messages : 1501
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM, "spatial filtering"

Message par Oni le Mer 3 Juil 2013 - 17:32

Pour les ACP séparées, je voulais etre sure d'avoir des représentants de chaque type de variable (je les avait classées en catégories, comprenant chacune qques variables). J'avais posé la question ici, j'étais pas sure de ne pas introduire un biais de cette façon, mais apparemment, j'avais le droit...
C'ets pour ca que j'ai fait plusieurs ACP, histoire de capturer un ou plusieurs axes principaux pour chaque effet.

Pour les modèles "nested", je me base sur des publis (je crois meme qu'il y en a une de Burnham), et je supprime tout modèle complexe dont un modèle nested (niché, je crois?) a un AIC plus faible.
Ca évite apparemment de sélectionner des modèles trop complexes. Je peux pas te dire comment et pourquoi, mais je fais confiance aux auteurs ;-). l'info est reprise dans les modèles plus simples nichés.

C'est une bonne idée, de pas stocker toute l'info. je vais essayer de faire ça, puis de re-sortir les meilleurs modèles au complet, de les sélectionner manuellement.
Que penses-tu de l'autorégression? (autocovariate, puis régression poisson) je sais pas si tu connais, et ce que ca vaut en vrai? j'ai fait un essai, mais ca sélectionne des modles très très simples (genre 4 variables sur 11 sont reprises dans le meilleur modèlek, alors que j'en avait 7 sans prendre en compte l'autocorrélation. En meme temps si y'avait pas eu de différence, ca aurait pas valu la peine de prendre la sac en compte...)

Concernant le fait de publier, tu serais étonné... Vu que je ne suis pas complètement inconsciente, je suis la méthodologie de plusieurs articles récents dans mon domaine, en écologie, qui ont été publiés sans pb. En l'améliorant, puisqu'ils ne prennent pas en compte la SAC.
La plupart du temps, dans ce domaine, on se contente d'une vague ANOVA, interprétée a posteriori sur le p...

Oni

Nombre de messages : 10
Date d'inscription : 21/06/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM, "spatial filtering"

Message par Nik le Mer 3 Juil 2013 - 17:52

Pour les ACP séparées, je voulais etre sure d'avoir des représentants de chaque type de variable
Dans ce cas ce n'est pas une question de "droit". Il faut que ta démarche soit logique. Mais bon à la limite je n'aurais retenu que les premiers axe de chaque ACP car le second on va dire que ça va encore mais les suivants sont souvent ininterprétables autant statistiquement que biologiquement.

et je supprime tout modèle complexe dont un modèle nested (niché, je crois?) a un AIC plus faible.
Ah ok ! L'AIC reste plus faible donc tu es toujours dans la logique de la sélection sur critère d'information (tant que delta AIC >2).

Que penses-tu de l'autorégression?
Je n'ai pas d'expérience là-dessus. En tout cas ça ne me dit rien sous ce terme.

Concernant le fait de publier, tu serais étonné... Vu que je ne suis pas complètement inconsciente, je suis la méthodologie de plusieurs articles récents dans mon domaine, en écologie, qui ont été publiés sans pb. En l'améliorant, puisqu'ils ne prennent pas en compte la SAC.
La plupart du temps, dans ce domaine, on se contente d'une vague ANOVA, interprétée a posteriori sur le p...
Je suis écologue aussi Smile. Et donc non tu ne m'étonnes pas du tout. Par contre, le fait que les papiers passent ne doit pas être un critère pour dire que les analyses sont bonnes. Si je faisais une review de ton papier je poserais d'abord la question du sens des variables obtenues via les ACP et de la pertinence de faire une sélection de modèle quand on ne sait pas si la sortie d'une ACP peut vraiment être qualifiée de "variable aléatoire". Mais ça c'est seulement si c'est moi qui était reviewer Wink

Nik

Nombre de messages : 1501
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM, "spatial filtering"

Message par Oni le Jeu 4 Juil 2013 - 17:35

Je n'ai retenu que un ou deux axes max de chaque ACP.

Par contre, c'ets vrai qu'en faisant les catégories et en regroupant des variables, les composantes principales ne sont plus vraiment aléatoires et reflètent les a priori de l'auteur...

Mais je ne vois pas pourquoi ca rend la sélection de modèles im-pertinente? Tout ce que j'ai fait, finalement, c'ets projeter des variables, et sélectionner les modèles à partir de ma projection. Bien sur, je perds de l'info. Mais on peut dire, moyennant de connaitre les corrélations variable-composantes, de quoi est composé le modèle, en faisant la démarche en sens inverse...
Fin, c'ets peut etre une approche un peu naive?

Ah ok ! L'AIC reste plus faible donc tu es toujours dans la logique de la sélection sur critère d'information (tant que delta AIC >2).

je garde tant que delta AIC>7. J'ai lu plusieurs articles qui disaient que entre 4 et 7, ca restait informatif, donc je garde large, je sélectionne à la main, il m'en reste 12 et après je les discute tous les 12 et je les "moyenne" (en pondérant, of course).


Par contre, le fait que les papiers passent ne doit pas être un critère pour dire que les analyses sont bonnes.
Evidemment. C'est juste pour illustrer. Et te donner une idée dans quel monde je vis ^^. Mais vu qu'on vit dans le même...

Bon, l'autorégression, c'est beau mais c'ets pas très puissant=> retour à la SEVM.




Oni

Nombre de messages : 10
Date d'inscription : 21/06/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM, "spatial filtering"

Message par Nik le Jeu 4 Juil 2013 - 17:59

Mais je ne vois pas pourquoi ca rend la sélection de modèles im-pertinente? Tout ce que j'ai fait, finalement, c'ets projeter des variables, et sélectionner les modèles à partir de ma projection. Bien sur, je perds de l'info. Mais on peut dire, moyennant de connaitre les corrélations variable-composantes, de quoi est composé le modèle, en faisant la démarche en sens inverse...
Fin, c'ets peut etre une approche un peu naive?

Non c'est plus sur le fond statistique des analyses multivariées. La sélection de modèle suppose que les variables sont des variables aléatoires. Hors rien n'indique que les composantes principales issues d'une ACP peuvent être considérées comme des variables aléatoires. La discussion est là donc c'est sur une question très théorique sur laquelle personne n'a la réponse (c'est plutôt une question d'opposition d'école statistique).

Pour conclure si tu justifie tes choix d'un point de vue bio/éco (tout en restant dans les clous stats mais ça a l'air d'être le cas) alors ta démarche sera sensée et rigoureuse.

nik

Nik

Nombre de messages : 1501
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM, "spatial filtering"

Message par droopy le Ven 5 Juil 2013 - 6:42

Bonjour,

Une combinaison linéaire de variables aléatoires n'est-elle pas aussi une variable aléatoire ? Naïvement j'aurais tendance à dire que oui, mais je ne suis pas assez callé en maths ou stats pour en être sur.

Pour moi les axes d'acp tels que tu les as considérés ça me conviendrait dans le sens ou chaque ACP est censé intégrer des types de variables différents. Par exemple, l'hydrologie, le climat, etc ...

Une question puisque tu cites des papiers de Burnham, pourquoi ne pas faire tous les modèles et comparer leur poids ? Certes le calcul est long surtout si tu intègres des interactions mais au moins ça te permettrait de voir si certains modèles se dégagent plus que d'autres. Au moins ici tu ne fais pas d'a priori sur le choix des modèles et tu pourras savoir si certaines variables sont + ou - importantes par rapport aux autres.

Cdlt


droopy

Nombre de messages : 986
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM, "spatial filtering"

Message par Oni le Sam 6 Juil 2013 - 20:24

je génère tous les modèles, leur QAICc et leur poids, en effet. Mais ça a assez peu de sens de décider quoi que ce soit sur base de 2000+ modèles. Par exemple, le poids du meilleur modèle est ridiculement faible, cela parce que la somme fait 1, et que la somme de, disons 1950, poids très très faibles entre quand meme dans la balance.

La sélection que je fais se base sur l'AIC en première intention, puis sur une correction de la tendance à sur-sélectionner la complexité des modèles. Après ça, je prends en effet en compte le poids de chacun des modèles candidats. Vu qu'il y en a 10-15 (dépend de la façon de prendre la sac en compte), ca rend la discussion plus facile :-).

Oni

Nombre de messages : 10
Date d'inscription : 21/06/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: GLM, "spatial filtering"

Message par Contenu sponsorisé Aujourd'hui à 10:44


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum