double autocorrelation et validité des tests statistiques

par tinomulot Sam 25 Oct 2008 - 14:40

Bonjour,

petite question concernant l'autocorrélation spatiale:
j'ai réalisé des relevés de végétation en maillage continu afin de réaliser des cartes (maille de 2.5m, sur 50*50m environ).
suivant le même maillage, j'ai effectué une cartographie des structures archéologiques.
suivant ce même maillage, j'ai aussi effectué une cartographie des propriétés physico-chimiques des sols.
cartographiquement, on voit très bien qu'il existe un lien entre structures archéologiques, physico-chimiques des sols et végétation (que ce soit d'un point de vue présence des différentes espèces ou que ce soit en thermes de recouvrements).
J'aimerai maintenant prouver ce lien d'un point de vue statistique.
Malheureusement, si un relevé contient une espèce, les relevés adjacents ont de grandes chances de contenir cette même espèce avec un recouvrement équivalent.
C'est le même problème avec les structures archéologiques et les propriétés physico-chimiques des sols.

Les tests statistiques que j'ai réalisé pour l'instant sont:

tests de fisher-exact pour la mesure de différences de fréquence des espèces par rapport à la modalité présence/absence de vestiges
tests de permutations pour la mesure de différences de recouvrements des
espèces par rapport à la modalité présence/absence de vestiges
tests de permutations pour la mesure de différences de physico-chimie des sols par rapport à la modalité présence/absence de vestiges

Je ne sais pas si ce problème de double autocorrélation spatiale remet en question la validité de ces tests. Malheureusement, je n'avais pas connaissance de ce problème lors de la mise en place de mon protocole.
Du coup, je suis un peu perdu quant à la démarche statistique à employer.

Quelqu'un a-t-il une idée sur ces questions de validité?
Quelqu'un a-t-il une idée sur des tests plus fiables intégrant ces problèmes d'autocorrélation?

merci d'avance,
Tino

par tinomulot Ven 7 Nov 2008 - 14:09

Bonjour,

Personne n'aurait une idée?

Je détaille donc un peu plus ma démarche:
voila schématiquement l'ensemble de mes données:
double autocorrelation et validité des tests statistiques Schema11

double autocorrelation et validité des tests statistiques Schema11

Je veux monter que les structures archéologiques modifient la physico-chimie des sols et la répartition des espèces végétales.
Je voudrais que la table des distances inter-relevés (relevés*relevés) soit un facteur de pondération (afin d'éliminer ces problèmes d'autocorrélation).
Je voudrais aussi avoir une approche analytique en intégrant l'autécologie des espèces : est-ce que la modification des sols est la seule explication possible du lien structures archéologiques/répartition des espèces végétales
(intégration des modes de dispersion des espèces, statut biogéographique de ces espèces...afin de déceler la potentialité d'introduction humaine...)

J'ai pensé faire une CCA, une RDA ou une Co-inertie (sous R) mais comment
prendre en compte ces questions d'autocorrélation spatiale?

Le problème, c'est que cela fait plus de tables qu'il n'en faut pour ce genre d'analyses, je pense donc découper tout cela en plusieurs analyses en intégrant à chaque fois la table des distances inter-relevés pour éliminer les problèmes d'autocorrélation:

-analyse du lien structures archéologiques/répartition des espèces végétales
-analyse du lien structures archéologiques/physico-chimie des sol
-analyse du lien physico-chimie des sol/répartition des espèces végétales
-analyse du lien structures archéologiques/autécologie des espèces végétales

Que pensez-vous de cette démarche, et comment pensez-vous qu'il soit possible de la mettre en oeuvre?

Merci d'avance,

Tino

par tinomulot Ven 14 Nov 2008 - 16:12

???
et ben, cela n'a pas l'air de déclencher une foule de réponses...

Tino

par aaargh Dim 16 Nov 2008 - 0:02

Hello tinomulot,

Tout d'abord, un petit commentaire du pur statisticien que je ne suis pas concernerait ta phrase "Je veux montrer que les structures archéologiques modifient la physico-chimie des sols et la répartition des espèces végétales".
Un statisticien ne veut rien montrer... Il effectue des tests (les plus appropriés possibles, là réside à mon sens la plus grande difficulté des stats ;o) et si ceux-ci atteignent un niveau de significativité qui lui convient, il commence seulement à regarder ce que ça signifie en termes biologiques, géologiques, économiques...

Cela étant dit, je pense que l'approche que tu proposes risque de multiplier le taux d'erreur, selon le bon vieux principe : je fais un test unique (avec seuil alpha de 5%), j'ai 5% d'erreur, je fais 5 tests , j'ai donc 25% d'erreurs... Et les corrections pour tests multiples sont nombreuses (je ne sais jamais laquelle choisir...). Je reparle de cela lundi à un collègue qui maîtrise à la perfection ces petites choses (et j'ai la flemme d'ouvrir le Dagnelie ce soir...).

Enfin, j'aurais bien une petite idée pour résoudre, ton problème, mais il me faut savoir combien de colonnes possèdent cahcun de tes tableaux...

A bientôt...

Ben

par tinomulot Lun 17 Nov 2008 - 10:36

aaargh a écrit:Un statisticien ne veut rien montrer... Il effectue des tests (les plus appropriés possibles, là réside à mon sens la plus grande difficulté des stats ;o) et si ceux-ci atteignent un niveau de significativité qui lui convient, il commence seulement à regarder ce que ça signifie en termes biologiques, géologiques, économiques...

Ok, erreur de ma part, je veux juste dire que je veux analyser mes données sous ces angles.

aaargh a écrit:je pense que l'approche que tu proposes risque de multiplier le taux d'erreur, selon le bon vieux principe : je fais un test unique (avec seuil alpha de 5%), j'ai 5% d'erreur, je fais 5 tests , j'ai donc 25% d'erreurs... Et les corrections pour tests multiples sont nombreuses

Je comprends pas trop comment on peux multiplier les erreur sur ces tests (j'imagine sur des tests en série, mais pas en parallèle), mais je te croie...je dois alors au moins donner dans les 1000%.

aaargh a écrit:Je reparle de cela lundi à un collègue qui maîtrise à la perfection ces petites choses (et j'ai la flemme d'ouvrir le Dagnelie ce soir...).

Merci!

aaargh a écrit:Enfin, j'aurais bien une petite idée pour résoudre, ton problème, mais il me faut savoir combien de colonnes possèdent chacun de tes tableaux...

Cela dépend des sites:
SITE 1:
327 relevés
52 espèces +4 mesures biométriques sur espèce dominante +3 indices de diversité
17 variables archéologiques (5 P/A, et 12 distances)
21 mesures pédochimiques
61 variables autécologiques (43 descripteurs et 18 prédicteurs)

SITE 2:
110 relevés
21 espèces +3 indices de diversité
14 variables archéologiques (7 P/A, et 7 distances)
21 mesures pédochimiques
61 variables autécologiques (43 descripteurs et 18 prédicteurs)

Voili voilou,

A plus,

Tino

par Nik Lun 17 Nov 2008 - 11:06

Bonjour,

Il y a des moyens de gérer l'autocorrélation spatiale (je ne comprends pas pourquoi double ?). Tu peux par exemple télécharger la thèse de Sébastien Ollier qui a largement travaillé sur le sujet :

http://biomserv.univ-lyon1.fr/txtdoc/THESES/OLLIER/

Voire même le contacter : sa page perso : http://www.ese.u-psud.fr/bases/upresa/pages/ollier/fiche/index.html

En outre, quand tu as fais les test de permutation, la valeur observée est elle réellement différente de la distribution des valeurs théoriques ? => c'est un bon indice d'autocorrélation spatiale.

En ce qui concerne les analyses stat, tu peux regarder l'analyse RLQ qui permet de relier trois tableaux ou encore son extension avec les analyses k-tableaux. Tout cela est dispo sous R. C'est tout un champ d'analyse qui te demandera sans doute un peu d'investissement.

Si tu veux faire du prédictif par la suite autant utiliser le site 1 pour les test et les modèles et valider sur le site 2.
Les mesures biométriques ne t'aideront pas beaucoup je pense (à priori) et pourquoi mesures tu des indices de diversité et lesquels ? Smile

question subsidiaire : c quoi que tu appelles variables autoécologiques ?

Nik

par tinomulot Mar 18 Nov 2008 - 15:36

Nik a écrit:Il y a des moyens de gérer l'autocorrélation spatiale (je ne comprends pas pourquoi double ?).

J'entend par double autocorrélation par exemple:
J'analyse répartition spatiale d'une espèce végétale par rapport à la présence de structures archéologiques sous-jacente.
Or les structures archéologiques sont autocorrélées mais aussi la répartition spatiale de l'espèce végétale analysée.
Dans cette analyse bivariée, les 2 variables sont autocorrélée.
D'un point de vue cartographique, la relation entre les deux variables est évidente (les deux distributions ont le même "motif" pour un grand nombre d'espèces présentes), mais je n'arrive pas à le prouver statistiquement. Lors des test de fisher ou de permutations, les p-values obtenues sont souvent très très faibles (<<0.001)

En ce qui concerne les analyses stat, tu peux regarder l'analyse RLQ qui permet de relier trois tableaux ou encore son extension avec les analyses k-tableaux. Tout cela est dispo sous R. C'est tout un champ d'analyse qui te demandera sans doute un peu d'investissement.

J'ai déjà regardé un peu tout celà, mais comme tu le dit, c'est beaucoup d'investissement... en tout cas trop pour quelqu'un en phase de fin de rédaction qui se rend compte du problème d'autocorrélation au dernier moment.

Si tu veux faire du prédictif par la suite autant utiliser le site 1 pour les test et les modèles et valider sur le site 2.

cela risque d'être un peu difficile, les sites sont dans des milieux végétaux différents (et des échelles différentes)

Les mesures biométriques ne t'aideront pas beaucoup je pense (à priori) et pourquoi mesures tu des indices de diversité et lesquels ?

question subsidiaire : c quoi que tu appelles variables autoécologiques ?

concernant la biométrie, c'est sur la fougère aigle, étant dominante, elle était omniprésente, c'était donc la seule façon d'aborder sa dynamique...
Concernant les indices, le mieux c'est de te montrer un aperçu de mon formulaire de bioindication (saisie et résultats instantanés graphiques):
https://servimg.com/view/13081260/7

visuellement, je peux voir lors de la saisie des espèces d'un relevé:
-la diversité au sein de ce relevé (richesse spécifique...)
-le type d'espèces de ce relevé (mode de dispersion, de reproduction...)
-le type de milieu prévisible en fonction des espèces présentes (prise en compte des abondances dans les calculs de requêtes).
-la contribution de chaque espèce dans ces calcul en ouvrant des sous-formulaires
-le comportement du dit relevé pour tout ces "indices" par rapport aux autres relevé du même site (barres rouges)

J'ai développé tout cela pour voir:
-si les espèces présentes sur les structures archéologiques ont pu avoir été amenée par l'homme (statut des espèces), ou par des animaux commensaux (modes de dispersion). Voir si ces espèces reflètent éventuellement une succession végétale plus évoluée sur structures ceci dû à un abandon du site alors que les parcelles attenantes étaient encore cultivées (types biologiques) ou à une meilleure disponibilité des ressources (Ellenberg, Gégout) favorisant l'explosion du nombre d'espèces et de leur inter-relations (biodiversité, floraison) du fait de changements de stratégies (grime).
Cette meilleure disponibilité des ressources serait due à une modification durable des sols par l'homme. Celle ci peut aussi avoir pollué le sol (metaux lourds). Voilà pourquoi, associé à cette étude des analyses pédochimiques.
C'est un peu condensé et donc peut-être pas très clair...mais voilà à quoi ressemble ma démarche.

Si cet éclaircissement peut mieux aider à la compréhension générale de la question.

Tino

PS: merci Nik pour les coordonnées de Sébastier Ollier, je l'ai contacté par mail à ce sujet.

par Contenu sponsorisé

double autocorrelation et validité des tests statistiques

double autocorrelation et validité des tests statistiques

Re: double autocorrelation et validité des tests statistiques

Re: double autocorrelation et validité des tests statistiques

Re: double autocorrelation et validité des tests statistiques

Re: double autocorrelation et validité des tests statistiques

Re: double autocorrelation et validité des tests statistiques

Re: double autocorrelation et validité des tests statistiques

Re: double autocorrelation et validité des tests statistiques