Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Analyses multivariées de données écologiques
Page 1 sur 1
Analyses multivariées de données écologiques
Bonjour à tous,
j'ai un jeu de données à analyser sans question particulière, à moi de la/les formuler l'objectif étant d'utiliser différentes techniques d'analyses. Je peux utiliser les tests et outils suivants : CAH, ACP, AFC, ACC, RDA, ACM, AFD. Je vais décliner avec des parties et sous parties sinon personne va rien comprendre.
I. Les données
Un tableau avec les données d'abondance de 48 espèces de diatomées dans 30 sites
Un tableau avec les données environnementales de 13 paramètres physico-chimiques dans les mêmes 30 sites
Ces données sont issues d'une étude de Bennion (1994), DOI: 10.1007/BF00026729
II. Problématiques
J'avoue ne pas être encore à l'aise avec toutes ces notions notamment les dernières citées donc il m'est difficile de trouver une question à laquelle répondre. Il faudrait vérifier les questions que j'ai déjà formulées et m'aider à en formuler de nouvelles.
Question générale :
Existe-t-il des variations dans la distribution des espèces de diatomées entre les sites et comment les expliquer ?
Sous questions :
Existe-t-il des gradients majeurs dans les caractéristiques physico chimiques des sites?
➔ACP
Les espèces sont elles réparties uniformément entre les sites ?
Les sites présentent-ils la même distribution d'espèces ?
➔ AFC
➔ La je pense que je m'embrouille avec les profils ligne/colonne, est-ce la même question !?
➔ J'ai aussi vu dans la biblio une DCA avec downweighting des espèces rares mais je ne sais pas ce que c'est
Existe-t-il des variables environnementales expliquant significativement les variations dans la distribution des espèces de diatomées ?
➔ ACC
➔ J'ai aussi vu dans la biblio une analyse de co-inertie mais je ne sais pas ce qu c'est
III. Les tests statistiques
Préparation des données
En faisant un peu de biblio j'ai trouvé pas mal de choses mais presque toutes différentes ... Il est souvent question de faire un log10 ou log(x+1) sur les données enviro brutes (à part 'pH' et 'Depth').
➔ Est-ce vraiment pertinent de modifier la distribution des données qui vont être normée par la suite (ACP, ACC) ?
Sur les abondances j'ai vu de la transformation racine carrée, je n'ai aucune idée de ce que ca vaut ...
Corrélations de Pearson
La conductivité est positivement corrélée (les coefficients ne sont pas très bons je sais) à plusieurs ions, Na et Cl représente la salinité de l'eau (eaux saumâtres dans tous les sites)
ACP normée avec ade4
➔Si je dois analyser les résultats je dirais que les gradients majeurs des caractères physico-chimique des sites sont la conductivité, le total de phosphore (TP) et la profondeur.
➔Est-ce que je peux supprimer certaines variables corrélées à d'autres puisque l'information s'y résume ? Par exemple laquelle garder entre Na et Cl qui représente le sel ou la conductivité et le potassium
AFC avec ade4
]
➔ Pour l'axe 1, peut-on parler d'effet Guttman malgré les espèces et sites dispersée au dessus ? ou font-elle partie de l'arche" ?
➔ Pour l'axe 2, verrait-on un motif du genre \/\/\/ ?
➔ Pour moi, on voit un semblant de diagonale sur le graph ordonné donc les espèces sont distribuées selon un gradient
Si oui ➔ ACC
Sinon ➔ ??
ACC
➔ Dans la biblio, il y a avec ou sans downweighting des espèces rares, j'aurais tendance à faire avec
➔ Il y a aussi plusieurs méthodes pour écarter des variables par exemple si VIF>20. Ou encore ils gardent la variable la plus significative des ACC avec groupes de variables corrélées
➔J'ai vu faire des ACC sur une variable à la fois pour voir l'effet marginal de chacune
➔ J'ai vu "forward selection of environnemental parameters and significance tested by using the Monte Carlo technique ( P <0.05)" mais je ne sais pas comment faire
Bon j'ai fait le tour je pense ... J'ai conscience que ca fait beaucoup mais si tout le monde répond à une question c'est faisable
Merci d'avance à ceux qui prendront le temps de me lire !
Bibliographie :
https:// doi.org/10.1007/s00300-019-02541-0
https:// doi.org/10.1007/s00343-019-9223-5
https:// doi.org/10.3390/ijerph16152681
https:// doi.org/10.1007/BF00026729
j'ai un jeu de données à analyser sans question particulière, à moi de la/les formuler l'objectif étant d'utiliser différentes techniques d'analyses. Je peux utiliser les tests et outils suivants : CAH, ACP, AFC, ACC, RDA, ACM, AFD. Je vais décliner avec des parties et sous parties sinon personne va rien comprendre.
I. Les données
Un tableau avec les données d'abondance de 48 espèces de diatomées dans 30 sites
- Code:
AC001A AC013A AC013E AM011A AM012A AS001A AU002A AU003B CC001A CC002A CC9997 CM004A CO001A CY002A CY003A CY009A CY011A
4 0.00 0.55 0 0.74 0.92 1.66 4.60 0 0.00 0.00 0.00 0 0.18 1.11 0.00 0 0.00
7 0.36 3.40 0 1.07 8.05 0.36 0.00 0 2.15 3.40 0.00 0 3.94 1.97 3.04 0 0.72
31 0.90 1.08 0 0.90 5.39 0.00 0.00 0 0.00 0.18 0.18 0 0.72 0.00 0.00 0 0.00
34 0.17 0.52 0 0.69 0.35 0.00 0.00 0 9.69 7.96 15.23 0 0.52 3.46 2.77 0 9.17
37 0.00 6.84 0 2.54 2.34 0.19 0.00 0 0.00 0.00 0.00 0 2.15 0.59 0.19 0 0.00
42 0.18 0.91 0 0.00 0.73 0.36 14.03 0 0.00 0.00 0.00 0 0.91 0.00 0.00 0 0.00
Un tableau avec les données environnementales de 13 paramètres physico-chimiques dans les mêmes 30 sites
- Code:
str(diatomEN)
'data.frame': 30 obs. of 13 variables:
$ Depth: num 3 1.2 4 1 1.2 ...
$ pH : num 8.01 8 8.59 7.83 8.16 ...
$ Cond : num 481 569 528 442 503 ...
$ Na : num 386 1244 1028 1239 619 ...
$ K : num 79.2 243.2 103.2 145 241.8 ...
$ Mg : num 462 603 192 303 388 ...
$ Ca : num 3566 5353 4478 2822 4472 ...
$ Cl : num 618 1642 958 1129 626 ...
$ SO4 : num 1636 1947 940 980 1212 ...
$ Alk : num 3458 3514 4198 2237 3995 ...
$ TP : num 77.9 167 475.5 460.6 635.3 ...
$ NO3 : num 926 1569 871 1416 933 ...
$ Chla : num 33 198.1 64.1 101 272 ...
> head(diatomEN)
Depth pH Cond Na K Mg Ca Cl SO4 Alk TP NO3 Chla
4 3.0 8.013077 481.1915 386.00 79.25 462.00 3565.75 618.50 1635.50 3457.692 77.93539 926.1538 33.04
7 1.2 8.001538 569.1262 1244.50 243.25 603.25 5353.00 1641.75 1946.75 3513.846 167.03847 1569.2308 198.08
120 4.0 8.590769 527.7184 1028.00 103.25 192.50 4478.00 957.75 940.25 4198.461 475.53308 870.7692 64.08
34 1.0 7.829231 442.4185 1239.25 145.00 303.25 2821.75 1129.00 979.75 2236.923 460.62692 1416.1538 100.96
31 1.2 8.156154 502.6900 619.00 241.75 387.75 4472.00 626.25 1211.50 3995.385 635.25153 933.0769 272.00
42 1.7 8.245455 275.2609 387.25 44.75 140.00 2159.00 487.00 361.75 1908.182 67.96636 934.5455 153.44
> summary(diatomEN)
Depth pH Cond Na K Mg Ca
Min. : 0.200 Min. :6.835 Min. : 206.5 Min. : 380.0 Min. : 30.50 Min. : 133.5 Min. :1051
1st Qu.: 1.025 1st Qu.:7.335 1st Qu.: 357.1 1st Qu.: 539.0 1st Qu.: 73.75 1st Qu.: 305.2 1st Qu.:2146
Median : 1.700 Median :7.876 Median : 452.5 Median : 864.2 Median :100.50 Median : 442.8 Median :3349
Mean : 2.073 Mean :7.704 Mean : 504.2 Mean :1335.2 Mean :140.31 Mean : 616.1 Mean :3269
3rd Qu.: 2.200 3rd Qu.:7.983 3rd Qu.: 564.8 3rd Qu.:1258.6 3rd Qu.:166.62 3rd Qu.: 662.9 3rd Qu.:4201
Max. :12.000 Max. :8.591 Max. :1327.1 Max. :7947.5 Max. :623.50 Max. :4186.0 Max. :7332
Cl SO4 Alk TP NO3 Chla
Min. : 408.0 Min. : 272.2 Min. : 432.3 Min. : 25.46 Min. : 687.7 Min. : 7.09
1st Qu.: 635.2 1st Qu.: 672.4 1st Qu.:1206.2 1st Qu.: 70.46 1st Qu.: 884.6 1st Qu.: 17.74
Median :1021.9 Median :1069.8 Median :2235.4 Median :115.83 Median :1296.9 Median : 57.27
Mean :1456.1 Mean :1434.3 Mean :2490.4 Mean :188.26 Mean :1865.9 Mean : 95.49
3rd Qu.:1484.6 3rd Qu.:1739.1 3rd Qu.:3532.3 3rd Qu.:252.58 3rd Qu.:2211.0 3rd Qu.:111.20
Max. :8524.8 Max. :5583.2 Max. :7143.1 Max. :646.29 Max. :5583.8 Max. :504.96
Ces données sont issues d'une étude de Bennion (1994), DOI: 10.1007/BF00026729
II. Problématiques
J'avoue ne pas être encore à l'aise avec toutes ces notions notamment les dernières citées donc il m'est difficile de trouver une question à laquelle répondre. Il faudrait vérifier les questions que j'ai déjà formulées et m'aider à en formuler de nouvelles.
Question générale :
Existe-t-il des variations dans la distribution des espèces de diatomées entre les sites et comment les expliquer ?
Sous questions :
Existe-t-il des gradients majeurs dans les caractéristiques physico chimiques des sites?
➔ACP
Les espèces sont elles réparties uniformément entre les sites ?
Les sites présentent-ils la même distribution d'espèces ?
➔ AFC
➔ La je pense que je m'embrouille avec les profils ligne/colonne, est-ce la même question !?
➔ J'ai aussi vu dans la biblio une DCA avec downweighting des espèces rares mais je ne sais pas ce que c'est
Existe-t-il des variables environnementales expliquant significativement les variations dans la distribution des espèces de diatomées ?
➔ ACC
➔ J'ai aussi vu dans la biblio une analyse de co-inertie mais je ne sais pas ce qu c'est
III. Les tests statistiques
Préparation des données
En faisant un peu de biblio j'ai trouvé pas mal de choses mais presque toutes différentes ... Il est souvent question de faire un log10 ou log(x+1) sur les données enviro brutes (à part 'pH' et 'Depth').
➔ Est-ce vraiment pertinent de modifier la distribution des données qui vont être normée par la suite (ACP, ACC) ?
Sur les abondances j'ai vu de la transformation racine carrée, je n'ai aucune idée de ce que ca vaut ...
Corrélations de Pearson
La conductivité est positivement corrélée (les coefficients ne sont pas très bons je sais) à plusieurs ions, Na et Cl représente la salinité de l'eau (eaux saumâtres dans tous les sites)
ACP normée avec ade4
➔Si je dois analyser les résultats je dirais que les gradients majeurs des caractères physico-chimique des sites sont la conductivité, le total de phosphore (TP) et la profondeur.
➔Est-ce que je peux supprimer certaines variables corrélées à d'autres puisque l'information s'y résume ? Par exemple laquelle garder entre Na et Cl qui représente le sel ou la conductivité et le potassium
AFC avec ade4
]
➔ Pour l'axe 1, peut-on parler d'effet Guttman malgré les espèces et sites dispersée au dessus ? ou font-elle partie de l'arche" ?
➔ Pour l'axe 2, verrait-on un motif du genre \/\/\/ ?
➔ Pour moi, on voit un semblant de diagonale sur le graph ordonné donc les espèces sont distribuées selon un gradient
Si oui ➔ ACC
Sinon ➔ ??
ACC
➔ Dans la biblio, il y a avec ou sans downweighting des espèces rares, j'aurais tendance à faire avec
➔ Il y a aussi plusieurs méthodes pour écarter des variables par exemple si VIF>20. Ou encore ils gardent la variable la plus significative des ACC avec groupes de variables corrélées
➔J'ai vu faire des ACC sur une variable à la fois pour voir l'effet marginal de chacune
➔ J'ai vu "forward selection of environnemental parameters and significance tested by using the Monte Carlo technique ( P <0.05)" mais je ne sais pas comment faire
Bon j'ai fait le tour je pense ... J'ai conscience que ca fait beaucoup mais si tout le monde répond à une question c'est faisable
Merci d'avance à ceux qui prendront le temps de me lire !
Bibliographie :
https:// doi.org/10.1007/s00300-019-02541-0
https:// doi.org/10.1007/s00343-019-9223-5
https:// doi.org/10.3390/ijerph16152681
https:// doi.org/10.1007/BF00026729
letolah- Nombre de messages : 6
Date d'inscription : 02/03/2020
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum