Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
transformation pour ACP
2 participants
Page 1 sur 1
transformation pour ACP
Bonjour,
J'aimerais effectuer une analyse en composantes principales sur d'une part un nombre d'individus d'espèces et d'autre part la proportion d'individus par espèces. Afin d'approcher une distribution normale, j'aimerais transformer mes données en log. Est-ce que je peux appliquer cette transformation à une proportion? ou ne devrait-on pas transformer des proportions de la même manière que des abondances?
Autre question: si mes données ne s'approchent pas d'une distribution normale même après transformation, quelle alternative pourrais-je utiliser?
Merci bcp
J'aimerais effectuer une analyse en composantes principales sur d'une part un nombre d'individus d'espèces et d'autre part la proportion d'individus par espèces. Afin d'approcher une distribution normale, j'aimerais transformer mes données en log. Est-ce que je peux appliquer cette transformation à une proportion? ou ne devrait-on pas transformer des proportions de la même manière que des abondances?
Autre question: si mes données ne s'approchent pas d'une distribution normale même après transformation, quelle alternative pourrais-je utiliser?
Merci bcp
swertie- Nombre de messages : 46
Date d'inscription : 08/09/2009
Re: transformation pour ACP
Salut,
une transformation log d'une proportion va te donner des nombres négatifs. De plus pour gérer la présence inévitable de 0 tu va devoir faire une transformation au moins en x+1. Donc un log d'une proportion +1 je ne vois pas trop ce que ça peut vouloir dire.
Pourquoi rechercher une distribution normale des données ?? A mon avis tu ne ne l'aura jamais pour toutes les espèces. La transformation log est certes communément admise mais elle fait parti de ces mythes qui ont la dent dure. D'une part la transfo log amène rarement à une distribution en cloche sur des données d'abondances notamment quand on a une matrice [site x espèces.]. Ensuite la courbe en cloche obtenue est en fait un artefact de la transformation log et non pas intrinsèque à la vraie distribution des données.
On utilise la transfo log pour gommer les écarts entre espèces abondantes et peu abondantes. En fait en voulant gommer des différences qui dérangent nos analyses stats on inclut de très fort biais statistiques dans nos analyses mais qui cette fosi ci cadrent avec ce qu'on a besoin donc on laisse comme ça. Le vrai problème réside en fait dans la constitution de matrices faunistiques qui mettent côte à côte des vaches et des cochons même s'ils n'ont rien à voir entre eux.
voilou
nik
une transformation log d'une proportion va te donner des nombres négatifs. De plus pour gérer la présence inévitable de 0 tu va devoir faire une transformation au moins en x+1. Donc un log d'une proportion +1 je ne vois pas trop ce que ça peut vouloir dire.
Pourquoi rechercher une distribution normale des données ?? A mon avis tu ne ne l'aura jamais pour toutes les espèces. La transformation log est certes communément admise mais elle fait parti de ces mythes qui ont la dent dure. D'une part la transfo log amène rarement à une distribution en cloche sur des données d'abondances notamment quand on a une matrice [site x espèces.]. Ensuite la courbe en cloche obtenue est en fait un artefact de la transformation log et non pas intrinsèque à la vraie distribution des données.
On utilise la transfo log pour gommer les écarts entre espèces abondantes et peu abondantes. En fait en voulant gommer des différences qui dérangent nos analyses stats on inclut de très fort biais statistiques dans nos analyses mais qui cette fosi ci cadrent avec ce qu'on a besoin donc on laisse comme ça. Le vrai problème réside en fait dans la constitution de matrices faunistiques qui mettent côte à côte des vaches et des cochons même s'ils n'ont rien à voir entre eux.
voilou
nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: transformation pour ACP
Merci pour ta réponse. J'avoue qu'elle me plonge un peu dans la confusion, car je viens de lire un article sur les analyses multivariées qui prône la transformation log. Donc selon toi, l'analyse en composantes principales et l'analyse de redondance seraient assez robustes pour donner des résultats cohérents, même avec des données contenant fortement non normales?
swertie- Nombre de messages : 46
Date d'inscription : 08/09/2009
Re: transformation pour ACP
Salut,
J'imagine que ma réponse amène de la confusion. En fait l'une des première chose à faire lorsqu'on fait de l'analyse de donnée est de trouver la bonne adéquation entre analyse, hypothèse et données. Ce que je dis ici c'est que l'application aveugle d'une transformation des données pour qu'elles se plient aux exigences des analyses ne peut rien donner de bon. En général les interprétations obtenues à partir de données log-transformées ne tiennent pas compte de la transformation.
Pour le log, il ne faut pas oublier que petites et fortes valeurs sont plus fortement rapprochées entre elles que les valeurs intermédiaires. C'est cela qui permet de "gommer" les problèmes des trop fortes valeurs et de créer un mode dans la distribution (cf. Nekola et al. 2008, Folia Geobotanica 43: 259-268). Outre cette erreur statistique, l'hypothèse biologique associée à la transfo log est très douteuse : "les espèces peu abondantes et très abondantes seraient plus proches biologiquement et pourraient donc être rapprochées fortement du point de vue de la mesure d'abondance".
De même lorsqu'on passe en proportion cela n'a que pour but d'obtenir une distribution de fréquence qui est bcp plus facilement analysable. En outre, on obtient un poids en ligne de 1 et on suppose alors les communautés comparables entre elles. Mais en faisant cela on crée une interdépendance entre proportion d'espèces. En effet en connaissant n-1 proportion on connait forcément la n'ième. Cette interdépendance n'existe pas forcément dans les données. Du coup si tu regardes la structuration de tes le long d'un gradient certaines corrélation qui apparaissent peuvent être largement dues à cette interdépendance que tu as créée.
Tout ça pour dire qu'il ne s'agit pas d'une question de robustesse des analyses mais bien des hypothèses à priori posées par les transformations qui ne sont pas aussi neutre qu'on voudrait bien nous le faire croire. Il faut savoir que le critère pour qu'une transformation soit acceptable c'est qu'elle soit monotone et continue. Avec ça il y a beaucoup de possibilité et surtout des possibilités de changement des valeurs et des interprétations.
Du coup que faire ?
Pour ma part : je ne me sert plus de matrices faunistiques construites sans de sérieuses hypothèses derrière et j'évite absolument de faire des transformations de données qui ne vont pas dans le sens de mes analyses stats et surtout de mes connaissances biologiques.
Nik
PS : voir aussi l'article de Bob O'hara
>>ici<<
J'imagine que ma réponse amène de la confusion. En fait l'une des première chose à faire lorsqu'on fait de l'analyse de donnée est de trouver la bonne adéquation entre analyse, hypothèse et données. Ce que je dis ici c'est que l'application aveugle d'une transformation des données pour qu'elles se plient aux exigences des analyses ne peut rien donner de bon. En général les interprétations obtenues à partir de données log-transformées ne tiennent pas compte de la transformation.
Pour le log, il ne faut pas oublier que petites et fortes valeurs sont plus fortement rapprochées entre elles que les valeurs intermédiaires. C'est cela qui permet de "gommer" les problèmes des trop fortes valeurs et de créer un mode dans la distribution (cf. Nekola et al. 2008, Folia Geobotanica 43: 259-268). Outre cette erreur statistique, l'hypothèse biologique associée à la transfo log est très douteuse : "les espèces peu abondantes et très abondantes seraient plus proches biologiquement et pourraient donc être rapprochées fortement du point de vue de la mesure d'abondance".
De même lorsqu'on passe en proportion cela n'a que pour but d'obtenir une distribution de fréquence qui est bcp plus facilement analysable. En outre, on obtient un poids en ligne de 1 et on suppose alors les communautés comparables entre elles. Mais en faisant cela on crée une interdépendance entre proportion d'espèces. En effet en connaissant n-1 proportion on connait forcément la n'ième. Cette interdépendance n'existe pas forcément dans les données. Du coup si tu regardes la structuration de tes le long d'un gradient certaines corrélation qui apparaissent peuvent être largement dues à cette interdépendance que tu as créée.
Tout ça pour dire qu'il ne s'agit pas d'une question de robustesse des analyses mais bien des hypothèses à priori posées par les transformations qui ne sont pas aussi neutre qu'on voudrait bien nous le faire croire. Il faut savoir que le critère pour qu'une transformation soit acceptable c'est qu'elle soit monotone et continue. Avec ça il y a beaucoup de possibilité et surtout des possibilités de changement des valeurs et des interprétations.
Du coup que faire ?
Pour ma part : je ne me sert plus de matrices faunistiques construites sans de sérieuses hypothèses derrière et j'évite absolument de faire des transformations de données qui ne vont pas dans le sens de mes analyses stats et surtout de mes connaissances biologiques.
Nik
PS : voir aussi l'article de Bob O'hara
>>ici<<
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: transformation pour ACP
Merci pour les explications. Si je peux me permettre de revenir à l'article de O'hara, je suis tout-à-fait d'accord qu'il vaut mieux analyser les données le plus "brutes" possibles, ce que je fais lorsque j'effectue un modèle linéaire généralisé. Ma question était plutôt liée aux analyses multivariées, dont les méthodes (pca, rda) assument une distribution normale des données.
swertie- Nombre de messages : 46
Date d'inscription : 08/09/2009
Re: transformation pour ACP
Salut,
L'article d'O'hara bien que tirant ses conclusions en travaillant sur des glm n'en est pas moins général en ce qui concerne la transformation initiale des données. Une très large partie des stat actuelles se fondent sur la moyenne et sa distribution et donc la question de la transformation des données pour arriver à une moyenne utilisable est au coeur du problème.
Bon courage
Nik
L'article d'O'hara bien que tirant ses conclusions en travaillant sur des glm n'en est pas moins général en ce qui concerne la transformation initiale des données. Une très large partie des stat actuelles se fondent sur la moyenne et sa distribution et donc la question de la transformation des données pour arriver à une moyenne utilisable est au coeur du problème.
Bon courage
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: transformation pour ACP
Merci bcp. Si toi ou qqn d'autre du forum est intéressé à poursuivre la discussion, je proposerais un commentaire sur cet article: "On selecting an appropriate multivariate analysis" N. C. Kenkel (2006), qui m'a bcp influencé, mais que je regarde d'une manière plus critique à la lumière de tes commentaires
swertie- Nombre de messages : 46
Date d'inscription : 08/09/2009
Re: transformation pour ACP
oui toute discussion est bonne à prendre surtout sur ce sujet
nik
nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Sujets similaires
» Transformation de données pour avoir une loi normale
» Transformation de données pour faire une courbe hyperbolique
» une transformation R->[0,1]
» Transformation de BOX-COX
» Transformation Linéaire Générale
» Transformation de données pour faire une courbe hyperbolique
» une transformation R->[0,1]
» Transformation de BOX-COX
» Transformation Linéaire Générale
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum