Les posteurs les plus actifs de la semaine
c@ssoulet
Modélisation de distribution d'espèces de lichens (SDM) - b Vote_lcapModélisation de distribution d'espèces de lichens (SDM) - b Voting_barModélisation de distribution d'espèces de lichens (SDM) - b Vote_rcap 


Modélisation de distribution d'espèces de lichens (SDM) - b

Aller en bas

Modélisation de distribution d'espèces de lichens (SDM) - b Empty Modélisation de distribution d'espèces de lichens (SDM) - b

Message par theo marechal le Dim 16 Avr 2017 - 11:40

Bonjour à tous,
Je travaille actuellement sur de la modélisation de distribution d'espèces de lichens à l'aide du site rspatial (je suis novice dans le domaine). Mon jeu de données est issu d'une enquête participative ; 7 taxons de lichens ont été prospectés sur l'ensemble de la France, même si plus de 80% des données sont contenues dans 5 départements. En tout, 2753 données pour l'ensemble des 7 taxons ont été validées. Les données sont constituées de la position GPS, l'espèce trouvée, le milieu et le support sur lequel a été trouvé le lichen : ce sont donc des données de type "presence - only" et non pas présence/absence.

En plus de ces données de base, j'ai récupéré :
- les 19 couches de variables bioclimatiques issues de bioclim
- des données d'altitude
- des données qualitatives du type "type de couvert forestier"
(- j'aimerais récupérer des données en relation avec la qualité de l'air mais je ne sais pas où donc si quelqu'un a une idée je suis preneur Smile)

Je me suis donc lancé dans la modélisation d'un de mes taxons pour l'instant, Lobaria pulmonaria avec N = 540 données, pour tester la modélisation et parce que c'est une espèce d'intérêt dans la région. J'utilise le logiciel R pour l'ensemble des analyses. Pour déterminer la taille de la région à modéliser j'ai pris en compte l'ensemble des taxons comme délimitant la région de prospection, en gardant les zones fortement prospectées pour l'ensemble de ces taxons (je ne sais pas si c'est une bonne idée).
Mes données étant de type "presence-only" j'ai créé des données "background" de manière aléatoire sur cette même zone d'étude afin d'obtenir une "moyenne" des conditions environnementales. J'ai séparé mes données (presence et background) en deux jeux de données pour vérifier la qualité des modèles. Pour les modèles j'en ai utilisé différents sans trop savoir lesquelles sont les mieux adaptées pour mon espèces :

- modèles type "profil" : Domain, Bioclim, Mahal

- modèles régression : glm  : qui n'ont pas marché, n'ayant pas réussi à obtenir des modèles convenables (normalité des résidus et homoscédasticité non respectés) ; j'ai pourtant essayé logistiques, gaussien, poisson, quasi poisson.. enfin un peu tous... les gaussiens semblant être les mieux adaptés même s'il reste très imprécis.

- modèle non paramétrique : Maxent, RandomForest. qui semble bien marcher (AUC élevé)

Mes problèmes ici :

- Est ce que ma démarche de sélection de la zone géographique est bonne ? (en prenant les zones ou la densité de tous les taxons est importante (effort d'échantillonnage important)

- Comment juger de la véracité de ces modèles ? (j'utilise l'AUC mais quand j'enlève les biais spatiaux il baisse à 0,5 par exemple pour Random forest où il était à 0,93 à la base.)

- Comment sélectionner les variables ayant un effet important ? est ce que je les laisses tous dans mes modèles?

- Que faire des variables qui sont déjà corrélées entres-elles ?

- Pourquoi je ne trouve aucun GLM adapté à mes données ?

- Comment je dois m'y prendre pour déterminer le nombre de 'background data' à échantillonner ? autant que de données de présences ?

- Est il possible de corriger les biais spatiaux en échantillonnant des background data avec le même biais spatial que les données presences? Si oui comment faire techniquement ?

- Est ce que, malgré que ce soit un échantillonnage "presence-only" je peux recycler mes donnée des autres taxons comme données d'absence ? En partant du postulat que sur l'ensemble des données échantillonnées il y aura significativement de vrai absences que de fausses absences... Est ce que c'est "juste" de faire ça, ou du moins mieux que les background data ? Elles seraient donc utilisées à la place des 'background data'

et si vous voyez d'autres problèmes n'hésitez pas à me le dire Smile

Désolé pour ce pavé infâme...

Merci beaucoup à ceux qui auront le courage de me lire et la gentillesse de me répondre ! Smile

Théo

theo marechal

Nombre de messages : 8
Age : 26
Localisation : Rennes
Date d'inscription : 08/04/2017

Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum