Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Transformation des variables
4 participants
Page 1 sur 1
Transformation des variables
Bonjour,
J'explique ma situation, j'ai un jeu de données avec des variables qualitatives et quantitatives.
J'ai lu quelques topics qui disaient que c'est plus simple de transformer les variables qualitatives nominales en variables numériques pour l'utilisation de R. Par exemple en transformant tous les noms d'espèces en leur donnant un numéro unique.
Du coup je me demandais si en ayant que des variables numériques cela me permettrait de faire plus facilement des analyses ? Ou si cela influerait dans le choix des analyses ?
Merci d'avance pour vos réponses
J'explique ma situation, j'ai un jeu de données avec des variables qualitatives et quantitatives.
J'ai lu quelques topics qui disaient que c'est plus simple de transformer les variables qualitatives nominales en variables numériques pour l'utilisation de R. Par exemple en transformant tous les noms d'espèces en leur donnant un numéro unique.
Du coup je me demandais si en ayant que des variables numériques cela me permettrait de faire plus facilement des analyses ? Ou si cela influerait dans le choix des analyses ?
Merci d'avance pour vos réponses
Coco- Nombre de messages : 57
Date d'inscription : 23/03/2017
Re: Transformation des variables
Bonjour,
Pour quelle raison veux-tu transformer tes données en numérique, tu en as beaucoup ?
Sinon au niveau de l'analyse, le type de ta variable ne changera pas, tu ferais seulement une manipulation sur R pour simplifier l'utilisation de tes données donc ton analyse restera la même (tes variables seront toujours considérées comme nominales).
Attention à ce que R ne plante pas lorsque tu lances ton test étant donné le type de ta variable si tu veux changer son type.
Pour quelle raison veux-tu transformer tes données en numérique, tu en as beaucoup ?
Sinon au niveau de l'analyse, le type de ta variable ne changera pas, tu ferais seulement une manipulation sur R pour simplifier l'utilisation de tes données donc ton analyse restera la même (tes variables seront toujours considérées comme nominales).
Attention à ce que R ne plante pas lorsque tu lances ton test étant donné le type de ta variable si tu veux changer son type.
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Transformation des variables
Non, avoir des variables numériques ne permet pas de faire plus facilement des analyses. Il serait intéressant que vous nous expliquiez vos données et quelles analyses vous comptez faire dessus.
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Transformation des variables
Bonjour,
Je commence un stage et j'ai quelques notions sur R. On m'a donné un fichier Excel qui fait à peu près 56 000 lignes et 7 colonnes. J'ai des variables qualitatives (numéro de relevé ou bien substrat) et quantitatives (profondeur, abondance ...).
Les variables et les espèces se lisent en colonne.
Ma problématique est de comprendre comment les espèces varient en fonction des variables (préférence de milieu, de profondeur, de substrat, etc) par site (car le fichier Excel réunit tous les sites).
Pour séparer les sites, j'ai utilisé la fonction split (package plyr).
Et donc pour simplifier l'utilisation des données, j'ai pensé par exemple changer la variable préférence de milieu en numérique avec la fonction recode (package car).
Pour les analyses je souhaitais faire une analyse multidimensionnelle notamment la FAMD (package FactoMineR) comme j'ai des variables quantitatives et qualitatives. Mais finalement je pense commencer par des analyses univariées et bivariées.
Je commence un stage et j'ai quelques notions sur R. On m'a donné un fichier Excel qui fait à peu près 56 000 lignes et 7 colonnes. J'ai des variables qualitatives (numéro de relevé ou bien substrat) et quantitatives (profondeur, abondance ...).
Les variables et les espèces se lisent en colonne.
Ma problématique est de comprendre comment les espèces varient en fonction des variables (préférence de milieu, de profondeur, de substrat, etc) par site (car le fichier Excel réunit tous les sites).
Pour séparer les sites, j'ai utilisé la fonction split (package plyr).
Et donc pour simplifier l'utilisation des données, j'ai pensé par exemple changer la variable préférence de milieu en numérique avec la fonction recode (package car).
Pour les analyses je souhaitais faire une analyse multidimensionnelle notamment la FAMD (package FactoMineR) comme j'ai des variables quantitatives et qualitatives. Mais finalement je pense commencer par des analyses univariées et bivariées.
Dernière édition par Coco le Ven 7 Avr 2017 - 7:49, édité 1 fois
Coco- Nombre de messages : 57
Date d'inscription : 23/03/2017
Re: Transformation des variables
Est-ce pour la représentation de tes modalités sur les axes de ton analyse multidimensionnelle que tu veux recoder en numérique tes variables ? Pourquoi ne pas le faire en caractère avec des noms de modalités plus court.
Fais attention à l'information que tu auras sur chaque variable si tu changes son type, surtout pour une analyse multidimensionnelle.
Je ne sais pas si recoder en numérique simplifierait ton analyse, je n'ai jamais entendu cette notion. (peut être que c'est le cas)
Oui la FAMD est sympa comme analyse observationnelle pour faire du clustering.
Je te conseille de regarder les tutos sur youtube de François Husson, qui est l'auteur du package FactoMiner.
Fais attention à l'information que tu auras sur chaque variable si tu changes son type, surtout pour une analyse multidimensionnelle.
Je ne sais pas si recoder en numérique simplifierait ton analyse, je n'ai jamais entendu cette notion. (peut être que c'est le cas)
Oui la FAMD est sympa comme analyse observationnelle pour faire du clustering.
Je te conseille de regarder les tutos sur youtube de François Husson, qui est l'auteur du package FactoMiner.
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Transformation des variables
Vous dites "comprendre comment les espèces varient en fonction des variables". Plusieurs questions alors :
1) Que veux dire "comment les espèces varient"? Vous voulez dire savoir si le fait d'appartenir à une espèce ou une autre change la valeur (moyenne) des variables quantitatives et/ou si ceci est influencé par les variables qualitatives ? C'est ce que j'ai compris.
2) Par ailleurs, cette façon de poser la question implique - je pense - que vous être dans une problématique de régression (au sens large, i.e., incluant l'ANOVA, etc.). C'est la direction dans laquelle vous devriez aller, plutôt je pense que de partir bille en tête sur des analyses multivariéed sans question clairement posée au départ.
HTH, Eric.
1) Que veux dire "comment les espèces varient"? Vous voulez dire savoir si le fait d'appartenir à une espèce ou une autre change la valeur (moyenne) des variables quantitatives et/ou si ceci est influencé par les variables qualitatives ? C'est ce que j'ai compris.
2) Par ailleurs, cette façon de poser la question implique - je pense - que vous être dans une problématique de régression (au sens large, i.e., incluant l'ANOVA, etc.). C'est la direction dans laquelle vous devriez aller, plutôt je pense que de partir bille en tête sur des analyses multivariéed sans question clairement posée au départ.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Transformation des variables
Bonjour,
1er point : Non, on ne transforme pas une variable qualitative en numérique sans une raison valable (une raison mathématique toute seule n'est pas une raison valable). C'est une aberration statistique car on change le sens de la variable et donc son interprétation. A l'extrême cela peut même générer des hypothèses qui sont contraire aux hypothèses fondamentales de ton sujet d'étude. Cela s'applique notamment à l'écologie où on a toujours tendance à faire du bricolage stat pour rentrer dans des calculs dits "simplifiés" surtout parce qu'on ne veut pas investir du temps à comprendre les stats et l'implication de nos choix de transformation de variable.
Ensuite, comme le souligne Eric, il faut préciser l'objectif de l'étude car cela va orienter le choix d'analyse. Vu le peu que tu indiques, je pense au contraire que le multivarié est sans doute la bonne voie (mais peut être pas la FAMD) car cela semble rejoindre la question de niche écologique qui est une notion fondamentalement multivariée. Mais cela mérite des précision de ta part.
Nik
1er point : Non, on ne transforme pas une variable qualitative en numérique sans une raison valable (une raison mathématique toute seule n'est pas une raison valable). C'est une aberration statistique car on change le sens de la variable et donc son interprétation. A l'extrême cela peut même générer des hypothèses qui sont contraire aux hypothèses fondamentales de ton sujet d'étude. Cela s'applique notamment à l'écologie où on a toujours tendance à faire du bricolage stat pour rentrer dans des calculs dits "simplifiés" surtout parce qu'on ne veut pas investir du temps à comprendre les stats et l'implication de nos choix de transformation de variable.
Ensuite, comme le souligne Eric, il faut préciser l'objectif de l'étude car cela va orienter le choix d'analyse. Vu le peu que tu indiques, je pense au contraire que le multivarié est sans doute la bonne voie (mais peut être pas la FAMD) car cela semble rejoindre la question de niche écologique qui est une notion fondamentalement multivariée. Mais cela mérite des précision de ta part.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Transformation des variables
Pour répondre à zezima :
Oui je souhaitais recoder mes variables en numérique principalement pour les analyses.
J'ai retrouvé le post où il était dit qu'il était possible de transformer les variables :
Pour répondre à Eric :
1) et 2) En fait on souhaite diminuer le nombre de variables pour voir celles qui sont les plus influentes mais on souhaite également voir si certaines variables (pas uniquement qualitatives) permettront de prédire les espèces. L'ANOVA est une méthode pour expliquer une variable quantitative mais là j'essaye de comprendre la présence des espèces sur chacun des sites et ça correspondrait plus à une variable qualitative.
Pour répondre à Nik :
Oui j'ai vu que l'ACP permettait de caractériser la niche écologique. D'où le fait de vouloir transformer les variables quantitatives en variables numériques.
Oui je souhaitais recoder mes variables en numérique principalement pour les analyses.
J'ai retrouvé le post où il était dit qu'il était possible de transformer les variables :
Ainsi cela me permettrait de m'orienter vers une ACP et réduire le nombre de variables.Nik a écrit:Ce que tu résumes en une phrase et semble alors presque évident est justement tout l'enjeu. Nous sommes bien d'accord que dès lors qu'on a pu passer d'un état ordinal a un état numérique alors plus de problème. Mais en l'occurence il n'est vraiment pas sûr qu'on y parvienne et même si on le fait on ne sait pas dans quel mesure on affecte notre interprétation des données.
Le fait de poser des hypothèses ne garanti pas une démarche pleine de bon sens. Il faut que ces hypothèses n'influencent pas la démarche analytique autrement qu'en lui donnant une direction.
Pour répondre à Eric :
1) et 2) En fait on souhaite diminuer le nombre de variables pour voir celles qui sont les plus influentes mais on souhaite également voir si certaines variables (pas uniquement qualitatives) permettront de prédire les espèces. L'ANOVA est une méthode pour expliquer une variable quantitative mais là j'essaye de comprendre la présence des espèces sur chacun des sites et ça correspondrait plus à une variable qualitative.
Pour répondre à Nik :
Oui j'ai vu que l'ACP permettait de caractériser la niche écologique. D'où le fait de vouloir transformer les variables quantitatives en variables numériques.
Coco- Nombre de messages : 57
Date d'inscription : 23/03/2017
Re: Transformation des variables
Si tu transformes des variables discrètes qualitatives en variables numériques, tu vas laisser penser à l'analyse que tes variables sont ordonnées et qu'une valeur aura un poids plus grand qu'un autre mais ça n'a pas de sens.
Par exemple, transformer la souche ou le sexe d'un individu en numérique n'aurait pas de sens.
Mais j'aimerais bien que tu expliques pourquoi la personne avec qui tu travailles a demandé ce recodage en numérique car j'avais eu un sujet de stage similaire où j'avais recodé en 0 et 1 le sexe par exemple mais je ne me souviens plus pourquoi et ça m'intéresse. Il me semble que c'était la méthode qui techniquement ne marchait pas avec des données qualitatives sur R (mais qui en théorie était à appliquer avec du qualitatif).
Aussi je pense qu'il est important de savoir si l'analyse que tu veux faire est exploratoire ou non, auquel cas le clustering ou l'affichage de tes modalités en fonction des axes (pour voir si des groupes semblent se former) ne serait pas forcément la meilleure méthode à utiliser.
Par exemple, transformer la souche ou le sexe d'un individu en numérique n'aurait pas de sens.
Mais j'aimerais bien que tu expliques pourquoi la personne avec qui tu travailles a demandé ce recodage en numérique car j'avais eu un sujet de stage similaire où j'avais recodé en 0 et 1 le sexe par exemple mais je ne me souviens plus pourquoi et ça m'intéresse. Il me semble que c'était la méthode qui techniquement ne marchait pas avec des données qualitatives sur R (mais qui en théorie était à appliquer avec du qualitatif).
Aussi je pense qu'il est important de savoir si l'analyse que tu veux faire est exploratoire ou non, auquel cas le clustering ou l'affichage de tes modalités en fonction des axes (pour voir si des groupes semblent se former) ne serait pas forcément la meilleure méthode à utiliser.
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Transformation des variables
Oula ! Voici là une attaque en règle. C'est au contraire dans la communauté des écologistes (ceux qui s'intéressent à la science écologie, pas les policitiens écologistes) que les plus grandes avancées en stat ont été faites, et où - je pense - la compréhension de ce qui se passe réellement dans ce domaine est la plus développée. Je pourrais citer de très nombreux auteurs, à l'origine écologistes, qui ont fait grandement avancer cette sciences depuis des décennies ! Je fais de la recherche dans ce domaine depuis des décennies. Jamais vu de "bricolage" ou d'absence de volonté "d’invertir du temps à comprendre"...Nik a écrit:Cela s'applique notamment à l'écologie où on a toujours tendance à faire du bricolage stat pour rentrer dans des calculs dits "simplifiés" surtout parce qu'on ne veut pas investir du temps à comprendre les stats et l'implication de nos choix de transformation de variable.
L'ANOVA (ou plus généralement, le modèle linéaire général) permet de réduire le nombre de variables pour chercher les plus influentes. Dans les variables explicatives, on peut mettre des variables quantitatives, et qualitatives. Par de problème. Je continue donc à penser que vous être dans le cadre d'un problème de régression, et pas trop dans un problème d'analyse multivariée.Coco a écrit:Pour répondre à Eric :
1) et 2) En fait on souhaite diminuer le nombre de variables pour voir celles qui sont les plus influentes mais on souhaite également voir si certaines variables (pas uniquement qualitatives) permettront de prédire les espèces. L'ANOVA est une méthode pour expliquer une variable quantitative mais là j'essaye de comprendre la présence des espèces sur chacun des sites et ça correspondrait plus à une variable qualitative.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Transformation des variables
On pourrait en débattre longtemps mas étant moi même du domaine, je me fais ma propre auto-critique. On dira plutôt écologue (je tiens à la nuance). Ce n'est pas donc une attaque mais un constat. Ce qui n'enlève pas bien sûr qu'il y a de très bon stateux parmis les écologues.Oula ! Voici là une attaque en règle. C'est au contraire dans la communauté des écologistes (ceux qui s'intéressent à la science écologie, pas les policitiens écologistes) que les plus grandes avancées en stat ont été faites, et où - je pense - la compréhension de ce qui se passe réellement dans ce domaine est la plus développée. Je pourrais citer de très nombreux auteurs, à l'origine écologistes, qui ont fait grandement avancer cette sciences depuis des décennies ! Je fais de la recherche dans ce domaine depuis des décennies. Jamais vu de "bricolage" ou d'absence de volonté "d’invertir du temps à comprendre"
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Transformation des variables
Je n'ai pas vraiment d'indication quant au recodage des variables. C'est plutôt moi qui explore différentes possibilités.Zezima a écrit:Mais j'aimerais bien que tu expliques pourquoi la personne avec qui tu travailles a demandé ce recodage en numérique car j'avais eu un sujet de stage similaire où j'avais recodé en 0 et 1 le sexe par exemple mais je ne me souviens plus pourquoi et ça m'intéresse. Il me semble que c'était la méthode qui techniquement ne marchait pas avec des données qualitatives sur R (mais qui en théorie était à appliquer avec du qualitatif).
Mais du coup, je pensais que lorsqu'on ne connaissait pas les variables les plus influentes on se tournait forcément vers l'analyse exploratoire afin d'avoir les variables influentes. Mais si l'analyse inférentielle permet également de réduire le nombre de variables influentes alors quand doit-on choisir l'analyse exploratoire ou l'analyse inférentielle ?
Coco- Nombre de messages : 57
Date d'inscription : 23/03/2017
Re: Transformation des variables
En faite, l'analyse exploratoire n'est pas opposée à l'analyse inférentielle.
Tu peux très bien faire des tests pour une analyse exploratoire et accompagner ça de graphiques mais tout dépend de ce que tu veux essayer de montrer (et non pas démontrer) avec cette analyse.
Moi je trouve juste (et c'est simplement mon avis personnel) que l'analyse multidimensionnelle est intéressante pour voire les groupes de modalités qui semblent être liés et ça permet d'imaginer des groupes entre tes modalités, c'est plutôt sympa pour avoir des pistes exploratoires.
L'analyse multidimensionnelle montrera sur tes axes les modalités qui ont le plus d'influence entre elles, celles ayant moins d'influence ne se démarqueront pas. Et ça permettrait de décrire les espèces spécifiquement.
Tu peux très bien faire des tests pour une analyse exploratoire et accompagner ça de graphiques mais tout dépend de ce que tu veux essayer de montrer (et non pas démontrer) avec cette analyse.
Moi je trouve juste (et c'est simplement mon avis personnel) que l'analyse multidimensionnelle est intéressante pour voire les groupes de modalités qui semblent être liés et ça permet d'imaginer des groupes entre tes modalités, c'est plutôt sympa pour avoir des pistes exploratoires.
L'analyse multidimensionnelle montrera sur tes axes les modalités qui ont le plus d'influence entre elles, celles ayant moins d'influence ne se démarqueront pas. Et ça permettrait de décrire les espèces spécifiquement.
zezima- Nombre de messages : 939
Date d'inscription : 26/02/2013
Re: Transformation des variables
Coco,
Il n'y a pas que l'ACP en multivarié. Personnellement, sur ton sujet je regarderais les analyses k-tableaux (si c'est jouable sur ton jeu de données). Par ailleurs, une analyse de Hill & Smith permet d'avoir des variables quali et quanti dans la même analyse.
Sinon, le souhait de faire de l'exploratoire ou de l'inférentiel (ie prédictif/modélisation) ne détermine pas vraiment les outils. Un outil de modélisation (= estimation des paramètres d'un modèle stat) peut parfaitement être utilisé pour de l'analyse exploratoire.
Encore une fois, décrit clairement quel est l'objectif de ton analyse (sans parler de la méthode) et le jeu de données à ta disposition. A partir de là, il sera plus simple de te conseiller. Pour le moment, tu t'engages dans une voie probablement sans issue car tu nous demandes des techniques de recodage alor que cela ne s'applique sans doute pas à ta question.
Nik
Il n'y a pas que l'ACP en multivarié. Personnellement, sur ton sujet je regarderais les analyses k-tableaux (si c'est jouable sur ton jeu de données). Par ailleurs, une analyse de Hill & Smith permet d'avoir des variables quali et quanti dans la même analyse.
Sinon, le souhait de faire de l'exploratoire ou de l'inférentiel (ie prédictif/modélisation) ne détermine pas vraiment les outils. Un outil de modélisation (= estimation des paramètres d'un modèle stat) peut parfaitement être utilisé pour de l'analyse exploratoire.
Encore une fois, décrit clairement quel est l'objectif de ton analyse (sans parler de la méthode) et le jeu de données à ta disposition. A partir de là, il sera plus simple de te conseiller. Pour le moment, tu t'engages dans une voie probablement sans issue car tu nous demandes des techniques de recodage alor que cela ne s'applique sans doute pas à ta question.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: Transformation des variables
Bonjour,
Merci zezima pour ces précisions, cela semble éclairer mes questionnements.
A Nik
Si j'ai bien compris dans un premier temps il faudrait faire une analyse exploratoire sur les données pour voir le jeu et dans un deuxième temps faire une modélisation pour des prédictions.
Merci zezima pour ces précisions, cela semble éclairer mes questionnements.
A Nik
Si j'ai bien compris dans un premier temps il faudrait faire une analyse exploratoire sur les données pour voir le jeu et dans un deuxième temps faire une modélisation pour des prédictions.
Coco- Nombre de messages : 57
Date d'inscription : 23/03/2017
Re: Transformation des variables
Non pas nécessairement. il faut que tu précise quelle sont les questions scientifiques de ton sujet car l'analyse multivariée peut se suffire à elle-même. La modélisation va plutôt s'intéresser aux abondances espèces par espèces car les outils de modélisation à réponse multivariées ne sont pas très développés.Si j'ai bien compris dans un premier temps il faudrait faire une analyse exploratoire sur les données pour voir le jeu et dans un deuxième temps faire une modélisation pour des prédictions.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum