Les posteurs les plus actifs de la semaine
cmoi
 
Eric Wajnberg
 
poypoy
 
lilbiostat
 
Jok3iSbett3r
 
gg
 
Scaldo
 


Transformation des variables

Voir le sujet précédent Voir le sujet suivant Aller en bas

Transformation des variables

Message par Coco le Jeu 6 Avr 2017 - 14:48

Bonjour,

J'explique ma situation, j'ai un jeu de données avec des variables qualitatives et quantitatives.
J'ai lu quelques topics qui disaient que c'est plus simple de transformer les variables qualitatives nominales en variables numériques pour l'utilisation de R. Par exemple en transformant tous les noms d'espèces en leur donnant un numéro unique.
Du coup je me demandais si en ayant que des variables numériques cela me permettrait de faire plus facilement des analyses ? Ou si cela influerait dans le choix des analyses ?

Merci d'avance pour vos réponses Very Happy
avatar
Coco

Nombre de messages : 27
Date d'inscription : 23/03/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par zezima le Jeu 6 Avr 2017 - 15:04

Bonjour,

Pour quelle raison veux-tu transformer tes données en numérique, tu en as beaucoup ?

Sinon au niveau de l'analyse, le type de ta variable ne changera pas, tu ferais seulement une manipulation sur R pour simplifier l'utilisation de tes données donc ton analyse restera la même (tes variables seront toujours considérées comme nominales).

Attention à ce que R ne plante pas lorsque tu lances ton test étant donné le type de ta variable si tu veux changer son type.
avatar
zezima

Nombre de messages : 752
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par Eric Wajnberg le Jeu 6 Avr 2017 - 19:53

Non, avoir des variables numériques ne permet pas de faire plus facilement des analyses. Il serait intéressant que vous nous expliquiez vos données et quelles analyses vous comptez faire dessus.

Eric.
avatar
Eric Wajnberg

Nombre de messages : 756
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par Coco le Ven 7 Avr 2017 - 7:20

Bonjour,

Je commence un stage et j'ai quelques notions sur R. On m'a donné un fichier Excel qui fait à peu près 56 000 lignes et 7 colonnes. J'ai des variables qualitatives (numéro de relevé ou bien substrat) et quantitatives (profondeur, abondance ...).
Les variables et les espèces se lisent en colonne.
Ma problématique est de comprendre comment les espèces varient en fonction des variables (préférence de milieu, de profondeur, de substrat, etc) par site (car le fichier Excel réunit tous les sites).

Pour séparer les sites, j'ai utilisé la fonction split (package plyr).

Et donc pour simplifier l'utilisation des données, j'ai pensé par exemple changer la variable préférence de milieu en numérique avec la fonction recode (package car).

Pour les analyses je souhaitais faire une analyse multidimensionnelle notamment la FAMD (package FactoMineR) comme j'ai des variables quantitatives et qualitatives. Mais finalement je pense commencer par des analyses univariées et bivariées. Razz


Dernière édition par Coco le Ven 7 Avr 2017 - 7:49, édité 1 fois
avatar
Coco

Nombre de messages : 27
Date d'inscription : 23/03/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par zezima le Ven 7 Avr 2017 - 7:39

Est-ce pour la représentation de tes modalités sur les axes de ton analyse multidimensionnelle que tu veux recoder en numérique tes variables ? Pourquoi ne pas le faire en caractère avec des noms de modalités plus court.
Fais attention à l'information que tu auras sur chaque variable si tu changes son type, surtout pour une analyse multidimensionnelle.

Je ne sais pas si recoder en numérique simplifierait ton analyse, je n'ai jamais entendu cette notion. (peut être que c'est le cas)

Oui la FAMD est sympa comme analyse observationnelle pour faire du clustering.
Je te conseille de regarder les tutos sur youtube de François Husson, qui est l'auteur du package FactoMiner.
avatar
zezima

Nombre de messages : 752
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par Eric Wajnberg le Ven 7 Avr 2017 - 8:32

Vous dites "comprendre comment les espèces varient en fonction des variables". Plusieurs questions alors :

1) Que veux dire "comment les espèces varient"? Vous voulez dire savoir si le fait d'appartenir à une espèce ou une autre change la valeur (moyenne) des variables quantitatives et/ou si ceci est influencé par les variables qualitatives ? C'est ce que j'ai compris.

2) Par ailleurs, cette façon de poser la question implique - je pense - que vous être dans une problématique de régression (au sens large, i.e., incluant l'ANOVA, etc.). C'est la direction dans laquelle vous devriez aller, plutôt je pense que de partir bille en tête sur des analyses multivariéed sans question clairement posée au départ.

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 756
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par Nik le Ven 7 Avr 2017 - 9:00

Bonjour,

1er point : Non, on ne transforme pas une variable qualitative en numérique sans une raison valable (une raison mathématique toute seule n'est pas une raison valable). C'est une aberration statistique car on change le sens de la variable et donc son interprétation. A l'extrême cela peut même générer des hypothèses qui sont contraire aux hypothèses fondamentales de ton sujet d'étude. Cela s'applique notamment à l'écologie où on a toujours tendance à faire du bricolage stat pour rentrer dans des calculs dits "simplifiés" surtout parce qu'on ne veut pas investir du temps à comprendre les stats et l'implication de nos choix de transformation de variable.

Ensuite, comme le souligne Eric, il faut préciser l'objectif de l'étude car cela va orienter le choix d'analyse. Vu le peu que tu indiques, je pense au contraire que le multivarié est sans doute la bonne voie (mais peut être pas la FAMD) car cela semble rejoindre la question de niche écologique qui est une notion fondamentalement multivariée. Mais cela mérite des précision de ta part.

Nik

Nik

Nombre de messages : 1554
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par Coco le Ven 7 Avr 2017 - 10:17

Pour répondre à zezima :
Oui je souhaitais recoder mes variables en numérique principalement pour les analyses.
J'ai retrouvé le post où il était dit qu'il était possible de transformer les variables :
Nik a écrit:Ce que tu résumes en une phrase et semble alors presque évident est justement tout l'enjeu. Nous sommes bien d'accord que dès lors qu'on a pu passer d'un état ordinal a un état numérique alors plus de problème. Mais en l'occurence il n'est vraiment pas sûr qu'on y parvienne et même si on le fait on ne sait pas dans quel mesure on affecte notre interprétation des données.

Le fait de poser des hypothèses ne garanti pas une démarche pleine de bon sens. Il faut que ces hypothèses n'influencent pas la démarche analytique autrement qu'en lui donnant une direction.
Ainsi cela me permettrait de m'orienter vers une ACP et réduire le nombre de variables.

Pour répondre à Eric :
1) et 2) En fait on souhaite diminuer le nombre de variables pour voir celles qui sont les plus influentes mais on souhaite également voir si certaines variables (pas uniquement qualitatives) permettront de prédire les espèces. L'ANOVA est une méthode pour expliquer une variable quantitative mais là j'essaye de comprendre la présence des espèces sur chacun des sites et ça correspondrait plus à une variable qualitative.

Pour répondre à Nik :
Oui j'ai vu que l'ACP permettait de caractériser la niche écologique. D'où le fait de vouloir transformer les variables quantitatives en variables numériques.
avatar
Coco

Nombre de messages : 27
Date d'inscription : 23/03/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par zezima le Ven 7 Avr 2017 - 11:02

Si tu transformes des variables discrètes qualitatives en variables numériques, tu vas laisser penser à l'analyse que tes variables sont ordonnées et qu'une valeur aura un poids plus grand qu'un autre mais ça n'a pas de sens.
Par exemple, transformer la souche ou le sexe d'un individu en numérique n'aurait pas de sens.

Mais j'aimerais bien que tu expliques pourquoi la personne avec qui tu travailles a demandé ce recodage en numérique car j'avais eu un sujet de stage similaire où j'avais recodé en 0 et 1 le sexe par exemple mais je ne me souviens plus pourquoi et ça m'intéresse. Il me semble que c'était la méthode qui techniquement ne marchait pas avec des données qualitatives sur R (mais qui en théorie était à appliquer avec du qualitatif).

Aussi je pense qu'il est important de savoir si l'analyse que tu veux faire est exploratoire ou non, auquel cas le clustering ou l'affichage de tes modalités en fonction des axes (pour voir si des groupes semblent se former) ne serait pas forcément la meilleure méthode à utiliser.
avatar
zezima

Nombre de messages : 752
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par Eric Wajnberg le Ven 7 Avr 2017 - 11:30

Nik a écrit:Cela s'applique notamment à l'écologie où on a toujours tendance à faire du bricolage stat pour rentrer dans des calculs dits "simplifiés" surtout parce qu'on ne veut pas investir du temps à comprendre les stats et l'implication de nos choix de transformation de variable.
Oula ! Voici là une attaque en règle. C'est au contraire dans la communauté des écologistes (ceux qui s'intéressent à la science écologie, pas les policitiens écologistes) que les plus grandes avancées en stat ont été faites, et où - je pense - la compréhension de ce qui se passe réellement dans ce domaine est la plus développée. Je pourrais citer de très nombreux auteurs, à l'origine écologistes, qui ont fait grandement avancer cette sciences depuis des décennies ! Je fais de la recherche dans ce domaine depuis des décennies. Jamais vu de "bricolage" ou d'absence de volonté "d’invertir du temps à comprendre"...

Coco a écrit:Pour répondre à Eric :
1) et 2) En fait on souhaite diminuer le nombre de variables pour voir celles qui sont les plus influentes mais on souhaite également voir si certaines variables (pas uniquement qualitatives) permettront de prédire les espèces. L'ANOVA est une méthode pour expliquer une variable quantitative mais là j'essaye de comprendre la présence des espèces sur chacun des sites et ça correspondrait plus à une variable qualitative.
L'ANOVA (ou plus généralement, le modèle linéaire général) permet de réduire le nombre de variables pour chercher les plus influentes. Dans les variables explicatives, on peut mettre des variables quantitatives, et qualitatives. Par de problème. Je continue donc à penser que vous être dans le cadre d'un problème de régression, et pas trop dans un problème d'analyse multivariée.

HTH, Eric.
avatar
Eric Wajnberg

Nombre de messages : 756
Date d'inscription : 14/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par Nik le Ven 7 Avr 2017 - 12:02

Oula ! Voici là une attaque en règle. C'est au contraire dans la communauté des écologistes (ceux qui s'intéressent à la science écologie, pas les policitiens écologistes) que les plus grandes avancées en stat ont été faites, et où - je pense - la compréhension de ce qui se passe réellement dans ce domaine est la plus développée. Je pourrais citer de très nombreux auteurs, à l'origine écologistes, qui ont fait grandement avancer cette sciences depuis des décennies ! Je fais de la recherche dans ce domaine depuis des décennies. Jamais vu de "bricolage" ou d'absence de volonté "d’invertir du temps à comprendre"
On pourrait en débattre longtemps mas étant moi même du domaine, je me fais ma propre auto-critique. On dira plutôt écologue (je tiens à la nuance). Ce n'est pas donc une attaque mais un constat. Ce qui n'enlève pas bien sûr qu'il y a de très bon stateux parmis les écologues.

Nik

Nombre de messages : 1554
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par Coco le Ven 7 Avr 2017 - 13:47

Zezima a écrit:Mais j'aimerais bien que tu expliques pourquoi la personne avec qui tu travailles a demandé ce recodage en numérique car j'avais eu un sujet de stage similaire où j'avais recodé en 0 et 1 le sexe par exemple mais je ne me souviens plus pourquoi et ça m'intéresse. Il me semble que c'était la méthode qui techniquement ne marchait pas avec des données qualitatives sur R (mais qui en théorie était à appliquer avec du qualitatif).
Je n'ai pas vraiment d'indication quant au recodage des variables. C'est plutôt moi qui explore différentes possibilités. Embarassed

Mais du coup, je pensais que lorsqu'on ne connaissait pas les variables les plus influentes on se tournait forcément vers l'analyse exploratoire afin d'avoir les variables influentes. Mais si l'analyse inférentielle permet également de réduire le nombre de variables influentes alors quand doit-on choisir l'analyse exploratoire ou l'analyse inférentielle ?
avatar
Coco

Nombre de messages : 27
Date d'inscription : 23/03/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par zezima le Ven 7 Avr 2017 - 14:04

En faite, l'analyse exploratoire n'est pas opposée à l'analyse inférentielle.
Tu peux très bien faire des tests pour une analyse exploratoire et accompagner ça de graphiques mais tout dépend de ce que tu veux essayer de montrer (et non pas démontrer) avec cette analyse.

Moi je trouve juste (et c'est simplement mon avis personnel) que l'analyse multidimensionnelle est intéressante pour voire les groupes de modalités qui semblent être liés et ça permet d'imaginer des groupes entre tes modalités, c'est plutôt sympa pour avoir des pistes exploratoires.

L'analyse multidimensionnelle montrera sur tes axes les modalités qui ont le plus d'influence entre elles, celles ayant moins d'influence ne se démarqueront pas. Et ça permettrait de décrire les espèces spécifiquement.
avatar
zezima

Nombre de messages : 752
Date d'inscription : 26/02/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par Nik le Ven 7 Avr 2017 - 14:10

Coco,

Il n'y a pas que l'ACP en multivarié. Personnellement, sur ton sujet je regarderais les analyses k-tableaux (si c'est jouable sur ton jeu de données). Par ailleurs, une analyse de Hill & Smith permet d'avoir des variables quali et quanti dans la même analyse.

Sinon, le souhait de faire de l'exploratoire ou de l'inférentiel (ie prédictif/modélisation) ne détermine pas vraiment les outils. Un outil de modélisation (= estimation des paramètres d'un modèle stat) peut parfaitement être utilisé pour de l'analyse exploratoire.

Encore une fois, décrit clairement quel est l'objectif de ton analyse (sans parler de la méthode) et le jeu de données à ta disposition. A partir de là, il sera plus simple de te conseiller. Pour le moment, tu t'engages dans une voie probablement sans issue car tu nous demandes des techniques de recodage alor que cela ne s'applique sans doute pas à ta question.

Nik

Nik

Nombre de messages : 1554
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par Coco le Mar 11 Avr 2017 - 10:18

Bonjour,

Merci zezima pour ces précisions, cela semble éclairer mes questionnements.

A Nik
Si j'ai bien compris dans un premier temps il faudrait faire une analyse exploratoire sur les données pour voir le jeu et dans un deuxième temps faire une modélisation pour des prédictions.
avatar
Coco

Nombre de messages : 27
Date d'inscription : 23/03/2017

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par Nik le Mar 11 Avr 2017 - 10:58

Si j'ai bien compris dans un premier temps il faudrait faire une analyse exploratoire sur les données pour voir le jeu et dans un deuxième temps faire une modélisation pour des prédictions.
Non pas nécessairement. il faut que tu précise quelle sont les questions scientifiques de ton sujet car l'analyse multivariée peut se suffire à elle-même. La modélisation va plutôt s'intéresser aux abondances espèces par espèces car les outils de modélisation à réponse multivariées ne sont pas très développés.

Nik

Nik

Nombre de messages : 1554
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Transformation des variables

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum