Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Le Deal du moment :
Nike : Promotions Sur Les Chaussures, ...
Voir le deal
Le Deal du moment :
Sélection de Blu-Ray 4K à 10€
Voir le deal
10 €

Analyses multivariées de données écologiques

Aller en bas

Analyses multivariées de données écologiques Empty Analyses multivariées de données écologiques

Message par letolah le Lun 9 Mar 2020 - 9:15

Bonjour à tous,

j'ai un jeu de données à analyser sans question particulière, à moi de la/les formuler l'objectif étant d'utiliser différentes techniques d'analyses. Je peux utiliser les tests et outils suivants : CAH, ACP, AFC, ACC, RDA, ACM, AFD. Je vais décliner avec des parties et sous parties sinon personne va rien comprendre.

I. Les données

Un tableau avec les données d'abondance de 48 espèces de diatomées dans 30 sites
Code:
  AC001A AC013A AC013E AM011A AM012A AS001A AU002A AU003B CC001A CC002A CC9997 CM004A CO001A CY002A CY003A CY009A CY011A
4    0.00   0.55      0   0.74   0.92   1.66   4.60      0   0.00   0.00   0.00      0   0.18   1.11   0.00      0   0.00
7    0.36   3.40      0   1.07   8.05   0.36   0.00      0   2.15   3.40   0.00      0   3.94   1.97   3.04      0   0.72
31   0.90   1.08      0   0.90   5.39   0.00   0.00      0   0.00   0.18   0.18      0   0.72   0.00   0.00      0   0.00
34   0.17   0.52      0   0.69   0.35   0.00   0.00      0   9.69   7.96  15.23      0   0.52   3.46   2.77      0   9.17
37   0.00   6.84      0   2.54   2.34   0.19   0.00      0   0.00   0.00   0.00      0   2.15   0.59   0.19      0   0.00
42   0.18   0.91      0   0.00   0.73   0.36  14.03      0   0.00   0.00   0.00      0   0.91   0.00   0.00      0   0.00
Remarques : beaucoup de double zéros et d'espèces rares

Un tableau avec les données environnementales de 13 paramètres physico-chimiques dans les mêmes 30 sites
Code:
str(diatomEN)
'data.frame': 30 obs. of  13 variables:
 $ Depth: num  3 1.2 4 1 1.2 ...
 $ pH   : num  8.01 8 8.59 7.83 8.16 ...
 $ Cond : num  481 569 528 442 503 ...
 $ Na   : num  386 1244 1028 1239 619 ...
 $ K    : num  79.2 243.2 103.2 145 241.8 ...
 $ Mg   : num  462 603 192 303 388 ...
 $ Ca   : num  3566 5353 4478 2822 4472 ...
 $ Cl   : num  618 1642 958 1129 626 ...
 $ SO4  : num  1636 1947 940 980 1212 ...
 $ Alk  : num  3458 3514 4198 2237 3995 ...
 $ TP   : num  77.9 167 475.5 460.6 635.3 ...
 $ NO3  : num  926 1569 871 1416 933 ...
 $ Chla : num  33 198.1 64.1 101 272 ...

> head(diatomEN)
    Depth       pH     Cond      Na      K     Mg      Ca      Cl     SO4      Alk        TP       NO3   Chla
4     3.0 8.013077 481.1915  386.00  79.25 462.00 3565.75  618.50 1635.50 3457.692  77.93539  926.1538  33.04
7     1.2 8.001538 569.1262 1244.50 243.25 603.25 5353.00 1641.75 1946.75 3513.846 167.03847 1569.2308 198.08
120   4.0 8.590769 527.7184 1028.00 103.25 192.50 4478.00  957.75  940.25 4198.461 475.53308  870.7692  64.08
34    1.0 7.829231 442.4185 1239.25 145.00 303.25 2821.75 1129.00  979.75 2236.923 460.62692 1416.1538 100.96
31    1.2 8.156154 502.6900  619.00 241.75 387.75 4472.00  626.25 1211.50 3995.385 635.25153  933.0769 272.00
42    1.7 8.245455 275.2609  387.25  44.75 140.00 2159.00  487.00  361.75 1908.182  67.96636  934.5455 153.44

> summary(diatomEN)
     Depth              pH             Cond              Na               K                Mg               Ca      
 Min.   : 0.200   Min.   :6.835   Min.   : 206.5   Min.   : 380.0   Min.   : 30.50   Min.   : 133.5   Min.   :1051  
 1st Qu.: 1.025   1st Qu.:7.335   1st Qu.: 357.1   1st Qu.: 539.0   1st Qu.: 73.75   1st Qu.: 305.2   1st Qu.:2146  
 Median : 1.700   Median :7.876   Median : 452.5   Median : 864.2   Median :100.50   Median : 442.8   Median :3349  
 Mean   : 2.073   Mean   :7.704   Mean   : 504.2   Mean   :1335.2   Mean   :140.31   Mean   : 616.1   Mean   :3269  
 3rd Qu.: 2.200   3rd Qu.:7.983   3rd Qu.: 564.8   3rd Qu.:1258.6   3rd Qu.:166.62   3rd Qu.: 662.9   3rd Qu.:4201  
 Max.   :12.000   Max.   :8.591   Max.   :1327.1   Max.   :7947.5   Max.   :623.50   Max.   :4186.0   Max.   :7332  
       Cl              SO4              Alk               TP              NO3              Chla      
 Min.   : 408.0   Min.   : 272.2   Min.   : 432.3   Min.   : 25.46   Min.   : 687.7   Min.   :  7.09  
 1st Qu.: 635.2   1st Qu.: 672.4   1st Qu.:1206.2   1st Qu.: 70.46   1st Qu.: 884.6   1st Qu.: 17.74  
 Median :1021.9   Median :1069.8   Median :2235.4   Median :115.83   Median :1296.9   Median : 57.27  
 Mean   :1456.1   Mean   :1434.3   Mean   :2490.4   Mean   :188.26   Mean   :1865.9   Mean   : 95.49  
 3rd Qu.:1484.6   3rd Qu.:1739.1   3rd Qu.:3532.3   3rd Qu.:252.58   3rd Qu.:2211.0   3rd Qu.:111.20  
 Max.   :8524.8   Max.   :5583.2   Max.   :7143.1   Max.   :646.29   Max.   :5583.8   Max.   :504.96  
Remarques : pas la même amplitude et pas les mêmes unités

Ces données sont issues d'une étude de Bennion (1994), DOI: 10.1007/BF00026729

II. Problématiques

J'avoue ne pas être encore à l'aise avec toutes ces notions notamment les dernières citées donc il m'est difficile de trouver une question à laquelle répondre. Il faudrait vérifier les questions que j'ai déjà formulées et m'aider à en formuler de nouvelles.

    Question générale : 
Existe-t-il des variations dans la distribution des espèces de diatomées entre les sites et comment les expliquer ?

    Sous questions :
Existe-t-il des gradients majeurs dans les caractéristiques physico chimiques des sites?
➔ACP 

Les espèces sont elles réparties uniformément entre les sites ?
Les sites présentent-ils la même distribution d'espèces ?
➔ AFC
➔ La je pense que je m'embrouille avec les profils ligne/colonne, est-ce la même question !? 
➔ J'ai aussi vu dans la biblio une DCA avec downweighting des espèces rares mais je ne sais pas ce que c'est

Existe-t-il des variables environnementales expliquant significativement les variations dans la distribution des espèces de diatomées ?
➔ ACC
➔ J'ai aussi vu dans la biblio une analyse de co-inertie mais je ne sais pas ce qu c'est


III. Les tests statistiques

    Préparation des données
En faisant un peu de biblio j'ai trouvé pas mal de choses mais presque toutes différentes ... Il est souvent question de faire un log10 ou log(x+1) sur les données enviro brutes (à part 'pH' et 'Depth'). 
➔ Est-ce vraiment pertinent de modifier la distribution des données qui vont être normée par la suite (ACP, ACC) ?

Sur les abondances j'ai vu de la transformation racine carrée, je n'ai aucune idée de ce que ca vaut ...

    Corrélations de Pearson
Analyses multivariées de données écologiques Cor10
La conductivité est positivement corrélée (les coefficients ne sont pas très bons je sais) à plusieurs ions, Na et Cl représente la salinité de l'eau (eaux saumâtres dans tous les sites)

    ACP normée avec ade4
Analyses multivariées de données écologiques Pourca10
Analyses multivariées de données écologiques Cercle10
➔Si je dois analyser les résultats je dirais que les gradients majeurs des caractères physico-chimique des sites sont la conductivité, le total de phosphore (TP) et la profondeur.
➔Est-ce que je peux supprimer certaines variables corrélées à d'autres puisque l'information s'y résume ? Par exemple laquelle garder entre Na et Cl qui représente le sel ou la conductivité et le potassium

    AFC avec ade4 
Analyses multivariées de données écologiques Pourca11]Analyses multivariées de données écologiques Afc10Analyses multivariées de données écologiques Afc210


➔ Pour l'axe 1, peut-on parler d'effet Guttman malgré les espèces et sites dispersée au dessus ? ou font-elle partie de l'arche" ?
➔ Pour l'axe 2, verrait-on un motif du genre \/\/\/ ?
Analyses multivariées de données écologiques Afc310Analyses multivariées de données écologiques Afc410

➔ Pour moi, on voit un semblant de diagonale sur le graph ordonné donc les espèces sont distribuées selon un gradient
Si oui ➔ ACC
Sinon ➔ ??

    ACC 

➔ Dans la biblio, il y a avec ou sans downweighting des espèces rares, j'aurais tendance à faire avec

➔ Il y a aussi plusieurs méthodes pour écarter des variables par exemple si VIF>20. Ou encore ils gardent la variable la plus significative des ACC avec groupes de variables corrélées

➔J'ai vu faire des ACC sur une variable à la fois pour voir l'effet marginal de chacune

➔ J'ai vu "forward selection of environnemental parameters and significance tested by using the Monte Carlo technique ( P <0.05)" mais je ne sais pas comment faire 


Bon j'ai fait le tour je pense ... J'ai conscience que ca fait beaucoup mais si tout le monde répond à une question c'est faisable Wink

Merci d'avance à ceux qui prendront le temps de me lire  !

Bibliographie :
https:// doi.org/10.1007/s00300-019-02541-0
https:// doi.org/10.1007/s00343-019-9223-5
https:// doi.org/10.3390/ijerph16152681
https:// doi.org/10.1007/BF00026729

letolah

Nombre de messages : 6
Date d'inscription : 02/03/2020

Revenir en haut Aller en bas

Revenir en haut


 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum