Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
ACC - problèmes d'application
3 participants
Page 1 sur 1
ACC - problèmes d'application
Ô Grands érudits de la statistique, bonjour,
Je fais mon stage sur la répartition des macro-invertébrés benthiques (déterminés au Genre ou à la Famille) en fonction de la physico-chimie de l'eau (oxygène, nitrate, phosphate, carbone organique et compagnie). J'ai 55 stations avec des données faunistiques et physico-chimiques, quelques unes avec uniquement des données faunistiques et quelques autres encore avec uniquement des données physico-chimiques.
J'ai fait une ACC (Analyse Canonique des Correspondances) avec mes 55 stations pour lesquelles j'ai les deux jeux de données afin d'avoir quelque chose de descriptif et de déterminer visuellement des profils écologiques. Pour ça, j'ai fait mes deux tableaux comme il faut, un avec mes stations de prélèvement en ligne et mes paramètres physico en colonne et l'autre avec toujours mes stations en ligne et mes taxons en colonne (transformation logarithmique de la densité an m²). J'ai enlevé les espèces rares dont l’occurrence est <3% afin de limiter les influences hasardeuses. J'ai fait un test de réplication qui me dit que mes deux tableaux sont couplables (p-value = 0.0009 pour 1000 réplicats)
Jusque là parfait, et puis en relisant de la biblio je me suis aperçu que j'avais un gros biais . Je m'explique, mes prélèvements au sein de chaque station suivent un protocole normalisé qui procède par couple substrat/vitesse du courant (=micro-habitat). Or, je me trouve dans des cours d'eau qui sont naturellement diversifiés, l'ACC me dit que les tableaux peuvent se coupler, que la physico explique la répartition faunistique mais la raison est sans doute tout autre à savoir que la faune qui est trouvée varie principalement en fonction des micro-habitats qui s'y trouvent ou qui ne s'y trouvent pas.
J'ai la chance d'avoir les plans de prélèvement et la liste faunistique correspondant à chaque micro-habitat prélevé. Pour enlever le biais, j'ai donc eu l'idée de ne plus procéder en comparant les stations à la physico-chimie mais les micro-habitats. Par exemple, je vais avoir au sein de mes 55 stations, la présence de 38 micro-habitats similaires : sable en vitesse de courant nulle. Je prends les listes faunistiques correspondantes, la physico associées à ces stations et je refais la manip de l'ACC pour chaque type de micro-habitat présent.
Le problème étant que l'ACC ne fonctionne pas avec l'intégralité de la faunistique et si j'enlève les taxons rares je perds beaucoup d'information, dans ce cas je dois enlever 35 taxons sur les 88 trouvés. L'ACC fonctionne par la suite mais la particularité des cours d'eau que j'étudie est justement la présence de ces espèces rares (en terme de nombre d'individus j'entends), je trouve ça quand même bancal.
Je précise que j'utilise le logiciel R. Dites moi si je n'ai pas été assez clair sur certains points.
Auriez-vous une idée sur une meilleure stratégie statistique?
Est ce que je dois me contenter de l'ACC étant donnée la particularité de mes données?
Merci pour votre aide!
Je fais mon stage sur la répartition des macro-invertébrés benthiques (déterminés au Genre ou à la Famille) en fonction de la physico-chimie de l'eau (oxygène, nitrate, phosphate, carbone organique et compagnie). J'ai 55 stations avec des données faunistiques et physico-chimiques, quelques unes avec uniquement des données faunistiques et quelques autres encore avec uniquement des données physico-chimiques.
J'ai fait une ACC (Analyse Canonique des Correspondances) avec mes 55 stations pour lesquelles j'ai les deux jeux de données afin d'avoir quelque chose de descriptif et de déterminer visuellement des profils écologiques. Pour ça, j'ai fait mes deux tableaux comme il faut, un avec mes stations de prélèvement en ligne et mes paramètres physico en colonne et l'autre avec toujours mes stations en ligne et mes taxons en colonne (transformation logarithmique de la densité an m²). J'ai enlevé les espèces rares dont l’occurrence est <3% afin de limiter les influences hasardeuses. J'ai fait un test de réplication qui me dit que mes deux tableaux sont couplables (p-value = 0.0009 pour 1000 réplicats)
Jusque là parfait, et puis en relisant de la biblio je me suis aperçu que j'avais un gros biais . Je m'explique, mes prélèvements au sein de chaque station suivent un protocole normalisé qui procède par couple substrat/vitesse du courant (=micro-habitat). Or, je me trouve dans des cours d'eau qui sont naturellement diversifiés, l'ACC me dit que les tableaux peuvent se coupler, que la physico explique la répartition faunistique mais la raison est sans doute tout autre à savoir que la faune qui est trouvée varie principalement en fonction des micro-habitats qui s'y trouvent ou qui ne s'y trouvent pas.
J'ai la chance d'avoir les plans de prélèvement et la liste faunistique correspondant à chaque micro-habitat prélevé. Pour enlever le biais, j'ai donc eu l'idée de ne plus procéder en comparant les stations à la physico-chimie mais les micro-habitats. Par exemple, je vais avoir au sein de mes 55 stations, la présence de 38 micro-habitats similaires : sable en vitesse de courant nulle. Je prends les listes faunistiques correspondantes, la physico associées à ces stations et je refais la manip de l'ACC pour chaque type de micro-habitat présent.
Le problème étant que l'ACC ne fonctionne pas avec l'intégralité de la faunistique et si j'enlève les taxons rares je perds beaucoup d'information, dans ce cas je dois enlever 35 taxons sur les 88 trouvés. L'ACC fonctionne par la suite mais la particularité des cours d'eau que j'étudie est justement la présence de ces espèces rares (en terme de nombre d'individus j'entends), je trouve ça quand même bancal.
Je précise que j'utilise le logiciel R. Dites moi si je n'ai pas été assez clair sur certains points.
Auriez-vous une idée sur une meilleure stratégie statistique?
Est ce que je dois me contenter de l'ACC étant donnée la particularité de mes données?
Merci pour votre aide!
Raton- Nombre de messages : 5
Age : 38
Localisation : Toulouse
Date d'inscription : 08/03/2012
Re: ACC - problèmes d'application
Or, je me trouve dans des cours d'eau qui sont naturellement diversifiés, l'ACC me dit que les tableaux peuvent se coupler, que la physico explique la répartition faunistique mais la raison est sans doute tout autre à savoir que la faune qui est trouvée varie principalement en fonction des micro-habitats qui s'y trouvent ou qui ne s'y trouvent pas.
Je ne vois pas où est le biais...toutes les études de bioindication procèdent de cette manière. On maximise la diversité de microhabitat possible afin d'optimiser la représentativité de la communauté.
Sauf que la physico-chimie est à l'échelle de la station, non ? Donc ce nest pas mieux. Les protocoles de prélèvements sont établis pour refléter la station au mieux et pas pour refléter la diversité taxonomique d'un habitat donné.J'ai la chance d'avoir les plans de prélèvement et la liste faunistique correspondant à chaque micro-habitat prélevé. Pour enlever le biais, j'ai donc eu l'idée de ne plus procéder en comparant les stations à la physico-chimie mais les micro-habitats.
Je ne comprends pas pourquoi tu dis que l'ACC ne fonctionne pas avec tous les taxons. Il n'y a pas de contraintes de calcul sur le nombre de taxons. Il faut juste que le nombre de site soit le même.
Pour la question des espèces rares on en revient d'une part à la définition d'une espèces rare, car par exemple dans un même site si tu retrouve toujours une espèces à chaque fois que tu prélèves alors on ne peut pas dire qu'elle soit rare, c'est l'échelle à laquelle tu place ton étude qui la fait devenir rare dans le tableau. A mon humble avis une espèce rare est effectivement rare quand :
- elle est présente dans très peu de relevés
- toujours en très faible abondance
- quelques soit l'échelle d'étude.
Sinon, pour les autres espèces dites rares, c'est surtout que ça arrange les stats qu'on les enlève. Ce n'est donc plus de la bio à ce niveau là mais de la contraintes statistique.
Je l'ai déjà indiqué plusieurs fois sur ce forum, mais le premier problème de ce genre d'étude est l'échelle biologique. La communauté n'a de sens que pour le biologiste qui fait les relevés, en gros il s'agit des taxons qu'il rencontre à un endroit donné. Le problème arrive quand on veut faire des opérations sur le nombre d'individu : tu vas additionner des effectifs qui n'ont rien à voir entre eux. Pour se remettre à une échelle plus adaptée à celle de l'homme tu vas alors sommer le nombre de vache avec le nombre de loup, le nombre de souris etc....On viole alors la règle essentielle de base de toute mathématique qui se respecte : l'addition requiert une unité commune. Cette "légère" erreur explqiue grandement l'apparition de nombreuses espèces dites rares notamment pour les communautés d'invertébrés qui mêlent tous les niveaux trophiques possible et imaginables.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: ACC - problèmes d'application
Merci pour ta réponse.
Oui j'en suis conscient et je suis d'accord avec ce que tu dis. Je pense qu'un biais est possible dans le sens ou la communauté de macro-invertébrés présente dans les cours d'eau possède pour chaque taxon des micro-habitats préférentiels. Il y a en tout 48 micro-habitats possibles et ils sont presque tous représentés. Or, les stations que je dois comparer peuvent être structurellement différentes entre elles, c'est à dire qu'on ne va pas rencontrer les mêmes micro-habitats dans chaque station. La faune va donc varier en fonction du potentiel d'habitabilité (d'ailleurs il faudrait que je le teste pour vraiment l'affirmer, c'est en cours, j'y revient plus loin)
Donc lorsque je fais une ACC avec mes tableaux contenant dans le premier les paramètres physico-chimiques, dans le second les taxons rencontrés (une colonne par taxon trouvé, transformé en log10 de la densité au m²), avec en ligne pour les deux le numéro de station (disposées dans le même ordre évidemment), le logiciel va me dire que la physico-chimie explique la répartition de la densité des taxons rencontrés mais ce n'est peut être pas le cas si la faune varie déjà en fonction de la présence/absence des micro-habitats selon les stations.
Oui la physico-chimie est à l'échelle de la station. Effectivement le protocole est fait pour refléter la stations au mieux, mais étant donné que les échantillons sur chaque habitat ont été conditionnés et déterminés en labo séparément, je peux avoir la diversité taxonomique correspondant à chaque micro-habitat. Je refais les tableaux en fonction des stations qui présentent le micro-habitat visé. Par exemple le micro-habitat pierre et galets en vitesse moyenne va être présent sur 23 stations, je récupère les listes faunistiques correspondantes (toujours transformées en densité eu m²) et la physico-chimie propre à ces stations et je refais une ACC.
Je fait un RVtest, je crois que ça s'appelle un test de permutation, qui réplique 1000 fois (ou plus si on veut) l'ACC et qui sort une p-value. Cela ne fonctionne pas avec tous les taxons puisqu'elle n'est pas significative. Je pense donc que la présence d'espèces rares "fausse" mon analyse.
Ma notion d'espèce rare correspond au deux premiers points (présence dans très peu de relevés et en faible abondance). J'avais remarqué que l'échelle faisait varier la notion de "rare", il faudrait que je me réfère à mon tableau faunistique global afin d'enlever l'effet de l'échelle et d'enlever réellement celles qui sont "vraiment rares" pour voir si ça peut fonctionner.
Oui^^ je vais quand même essayer avec les espèces "vraiment rares" sait-on jamais que ça m'évite d'en enlever d'autres théoriquement moins rares.
Les taxons sont considérés indépendamment, ils ne sont pas additionnés entre-eux. S'il y a une opération quelconque, elle n'a lieu qu'au sein de chaque taxon, si le même micro-habitat a été prélevé plusieurs fois sur la même station alors je fais une moyenne pour chaque taxon pour ramener l'effort d'échantillonnage à un niveau "égal". Le but de cette étude est de déterminer l'influence de la physico-chimie sur ces communautés, c'est pour ça que j'utilise au niveau de la faune la densité au m². Cette unité me permet aussi d'avoir la même échelle mathématique. Pour l'instant je me limite à l'effet possible, par la suite je me pencherai sur les structures des niveaux tropiques etc.
Je reviens à mon idée pour tester si la variabilité des micro-habitats selon les stations à une influence significative ou non sur la répartition faunistique.
Je me suis dit que j'allais faire un test du Chi² (ou un test exact de Fisher selon la configuration des données théoriques) sur un tableau comprenant en colonnes les 48 micro-habitats différents et en ligne les taxons. Forcément j'ai des lignes avec des zéros et celles ayant des nombres d'individus correspondent à une moyenne.
Est ce que c'est une bonne idée? Est-ce que tout ce que je raconte est cohérent?
La réflexion avance et je t'en remercie
Je ne vois pas où est le biais...toutes les études de bioindication procèdent de cette manière. On maximise la diversité de microhabitat possible afin d'optimiser la représentativité de la communauté.
Oui j'en suis conscient et je suis d'accord avec ce que tu dis. Je pense qu'un biais est possible dans le sens ou la communauté de macro-invertébrés présente dans les cours d'eau possède pour chaque taxon des micro-habitats préférentiels. Il y a en tout 48 micro-habitats possibles et ils sont presque tous représentés. Or, les stations que je dois comparer peuvent être structurellement différentes entre elles, c'est à dire qu'on ne va pas rencontrer les mêmes micro-habitats dans chaque station. La faune va donc varier en fonction du potentiel d'habitabilité (d'ailleurs il faudrait que je le teste pour vraiment l'affirmer, c'est en cours, j'y revient plus loin)
Donc lorsque je fais une ACC avec mes tableaux contenant dans le premier les paramètres physico-chimiques, dans le second les taxons rencontrés (une colonne par taxon trouvé, transformé en log10 de la densité au m²), avec en ligne pour les deux le numéro de station (disposées dans le même ordre évidemment), le logiciel va me dire que la physico-chimie explique la répartition de la densité des taxons rencontrés mais ce n'est peut être pas le cas si la faune varie déjà en fonction de la présence/absence des micro-habitats selon les stations.
Sauf que la physico-chimie est à l'échelle de la station, non ? Donc ce nest pas mieux. Les protocoles de prélèvements sont établis pour refléter la station au mieux et pas pour refléter la diversité taxonomique d'un habitat donné.
Oui la physico-chimie est à l'échelle de la station. Effectivement le protocole est fait pour refléter la stations au mieux, mais étant donné que les échantillons sur chaque habitat ont été conditionnés et déterminés en labo séparément, je peux avoir la diversité taxonomique correspondant à chaque micro-habitat. Je refais les tableaux en fonction des stations qui présentent le micro-habitat visé. Par exemple le micro-habitat pierre et galets en vitesse moyenne va être présent sur 23 stations, je récupère les listes faunistiques correspondantes (toujours transformées en densité eu m²) et la physico-chimie propre à ces stations et je refais une ACC.
Je ne comprends pas pourquoi tu dis que l'ACC ne fonctionne pas avec tous les taxons. Il n'y a pas de contraintes de calcul sur le nombre de taxons. Il faut juste que le nombre de site soit le même.
Je fait un RVtest, je crois que ça s'appelle un test de permutation, qui réplique 1000 fois (ou plus si on veut) l'ACC et qui sort une p-value. Cela ne fonctionne pas avec tous les taxons puisqu'elle n'est pas significative. Je pense donc que la présence d'espèces rares "fausse" mon analyse.
Pour la question des espèces rares on en revient d'une part à la définition d'une espèces rare, car par exemple dans un même site si tu retrouve toujours une espèces à chaque fois que tu prélèves alors on ne peut pas dire qu'elle soit rare, c'est l'échelle à laquelle tu place ton étude qui la fait devenir rare dans le tableau. A mon humble avis une espèce rare est effectivement rare quand :
- elle est présente dans très peu de relevés
- toujours en très faible abondance
- quelques soit l'échelle d'étude.
Ma notion d'espèce rare correspond au deux premiers points (présence dans très peu de relevés et en faible abondance). J'avais remarqué que l'échelle faisait varier la notion de "rare", il faudrait que je me réfère à mon tableau faunistique global afin d'enlever l'effet de l'échelle et d'enlever réellement celles qui sont "vraiment rares" pour voir si ça peut fonctionner.
Sinon, pour les autres espèces dites rares, c'est surtout que ça arrange les stats qu'on les enlève. Ce n'est donc plus de la bio à ce niveau là mais de la contraintes statistique.
Oui^^ je vais quand même essayer avec les espèces "vraiment rares" sait-on jamais que ça m'évite d'en enlever d'autres théoriquement moins rares.
Je l'ai déjà indiqué plusieurs fois sur ce forum, mais le premier problème de ce genre d'étude est l'échelle biologique. La communauté n'a de sens que pour le biologiste qui fait les relevés, en gros il s'agit des taxons qu'il rencontre à un endroit donné. Le problème arrive quand on veut faire des opérations sur le nombre d'individu : tu vas additionner des effectifs qui n'ont rien à voir entre eux. Pour se remettre à une échelle plus adaptée à celle de l'homme tu vas alors sommer le nombre de vache avec le nombre de loup, le nombre de souris etc....On viole alors la règle essentielle de base de toute mathématique qui se respecte : l'addition requiert une unité commune. Cette "légère" erreur explqiue grandement l'apparition de nombreuses espèces dites rares notamment pour les communautés d'invertébrés qui mêlent tous les niveaux trophiques possible et imaginables.
Les taxons sont considérés indépendamment, ils ne sont pas additionnés entre-eux. S'il y a une opération quelconque, elle n'a lieu qu'au sein de chaque taxon, si le même micro-habitat a été prélevé plusieurs fois sur la même station alors je fais une moyenne pour chaque taxon pour ramener l'effort d'échantillonnage à un niveau "égal". Le but de cette étude est de déterminer l'influence de la physico-chimie sur ces communautés, c'est pour ça que j'utilise au niveau de la faune la densité au m². Cette unité me permet aussi d'avoir la même échelle mathématique. Pour l'instant je me limite à l'effet possible, par la suite je me pencherai sur les structures des niveaux tropiques etc.
Je reviens à mon idée pour tester si la variabilité des micro-habitats selon les stations à une influence significative ou non sur la répartition faunistique.
Je me suis dit que j'allais faire un test du Chi² (ou un test exact de Fisher selon la configuration des données théoriques) sur un tableau comprenant en colonnes les 48 micro-habitats différents et en ligne les taxons. Forcément j'ai des lignes avec des zéros et celles ayant des nombres d'individus correspondent à une moyenne.
Est ce que c'est une bonne idée? Est-ce que tout ce que je raconte est cohérent?
La réflexion avance et je t'en remercie
Raton- Nombre de messages : 5
Age : 38
Localisation : Toulouse
Date d'inscription : 08/03/2012
Re: ACC - problèmes d'application
Pour moi il y a deux choses bien distinctes, d'une part la variabilité qui existe entre les stations et qui est due au fonctionnement des cours d'eau, et de l'autre la variabilité qui est due à l'échantillonnage. Je m'explique, il est normal qu'entre des stations tu ne trouves pas les mêmes microhabitats ou la même fréquence de ceux-ci, c'est due au fonctionnement des cours d'eau qui fait que tu n'as pas les mêmes habitats en amont et en aval d'un cours d'eau (pour schématiser). Su coup que le protocole d'échantillonnage s'adapte à cette variabilité alors c'est normal, ce n'est pas un biais. Quand tu fais une pêche en amont et en aval d'un cours d'eau tu ne pêches pas les mêmes habitats parce que ce ne sont pas les mêmes et ça c'est lié à la structure physique des cours d'eau.Donc lorsque je fais une ACC avec mes tableaux contenant dans le premier les paramètres physico-chimiques, dans le second les taxons rencontrés (une colonne par taxon trouvé, transformé en log10 de la densité au m²), avec en ligne pour les deux le numéro de station (disposées dans le même ordre évidemment), le logiciel va me dire que la physico-chimie explique la répartition de la densité des taxons rencontrés mais ce n'est peut être pas le cas si la faune varie déjà en fonction de la présence/absence des micro-habitats selon les stations.
Si par contre le protocole d'échantillonnage ne prend pas en compte cette variabilité alors oui il y a un biais. Par contre s'il rend compte de la variabilité naturelle alors pas de soucis.
Une façon de faire c'est de faire du partitionnement de variance, tu fais une acc avec les variables physicochimiques, une avec les variables qui renseignent l’échantillonnage, une avec les deux et tu peux ainsi estimée la part de variation de tes peuplements qui est due à la physicochimie uniquement, à l'échantillonnage uniquement, et celle qui est expliquée par les deux en même temps, en prenant en compte l'ensemble des sites.
Après tu peux faire une afc de tes prélèvments pour chaque habitat et une acc avec pour variable explicative la station pour qu'elle est la part de variabilité inter- et intra-station.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: ACC - problèmes d'application
Merci pour l'info !
Le protocole rend compte de la variabilité naturelle donc pas de souci.
L'approche avec le partitionnement de variance à l'air parfaite pour ma problématique mais j'ai un souci pour l'acc avec les variables d'échantillonnage.
Au niveau des mes stations, je vais avoir environ 20 habitats présents aléatoirement (enfin selon la variabilité naturelle des cours d'eau) donc je me retrouve avec des "0" ou "NA" sur toutes les lignes et je suis pratiquement sûr que l'acp n'aime pas ça du tout. Il faut que j'enlève les lignes avec les données manquantes mais à ce compte là mon tableau disparaît...
Auriez vous une astuce pour contourner ça?
S'il est possible de réaliser tout de même cette acp, comment met-on en place le partitionnement de variance une fois toutes les acc effectuées? (d'ailleurs ça m'intéresse même si mon problème n'est pas résoluble)
Le protocole rend compte de la variabilité naturelle donc pas de souci.
L'approche avec le partitionnement de variance à l'air parfaite pour ma problématique mais j'ai un souci pour l'acc avec les variables d'échantillonnage.
Au niveau des mes stations, je vais avoir environ 20 habitats présents aléatoirement (enfin selon la variabilité naturelle des cours d'eau) donc je me retrouve avec des "0" ou "NA" sur toutes les lignes et je suis pratiquement sûr que l'acp n'aime pas ça du tout. Il faut que j'enlève les lignes avec les données manquantes mais à ce compte là mon tableau disparaît...
Auriez vous une astuce pour contourner ça?
S'il est possible de réaliser tout de même cette acp, comment met-on en place le partitionnement de variance une fois toutes les acc effectuées? (d'ailleurs ça m'intéresse même si mon problème n'est pas résoluble)
Raton- Nombre de messages : 5
Age : 38
Localisation : Toulouse
Date d'inscription : 08/03/2012
Sujets similaires
» problèmes de statistiques
» Problèmes pour charger un fichier texte dans R
» Régression sans constante quels problèmes puis-je rencontrer
» Problèmes pour charger un fichier texte dans R
» Régression sans constante quels problèmes puis-je rencontrer
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum