Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Choix d'une analyse multivariée
4 participants
Page 1 sur 1
Choix d'une analyse multivariée
Bonjour,
Je viens vers vous car je suis un peu perdu concernant le choix d'une analyse multivariée. Je viens de lire le topic " L'analyse multivariée exploratoire et prédictive" et ça complique encore les choses avec des tests que je ne connaissais pas.
1. Ma problématique : Je cherche à trouver la ou les sources de pollution d'une baie. Pour cela, j'effectue des analyses quotidiennes de l'eau de la baie mais aussi aux principales sources de pollution (e.g. ruisseaux, émissaires d'eaux pluviales). J'ai donc plusieurs variables qualitatives qui sont donc des concentrations en polluants.
Je souhaite donc voir s'il existe des corrélations entre les concentrations dans la baie et les concentrations aux différentes sources de pollution. Cela me permettrait de voir quelle(s) source(s) contribue(nt) le plus à la pollution.
Mais je souhaite aussi voir s'il existe des corrélations avec des facteurs climatiques et hydrologiques : hauteur des vagues, pluviométrie du jour, vitesse du vent, direction du vent, etc...
2. Choix du test : Je ne suis pas statisticien et encore moins matheux mais j'ai quelques bases. Et spontanément,j'ai pensé à faire une Analyse en Composante Principale couplée avec des tests de corrélation de Pearson.
Sauf que sur les 8 variables que j'étudie, il y en a une (et une seule, la direction du vent), qui est qualitative ! Donc impossible d'utiliser une ACP
Que puis-je donc utiliser d'autre ?
D'après ce que j'ai vu il y a le modèle linéaire généralisé, le test de Hill & Smith, etc mais je n'y vois pas bien clair. L'idéal serait quelque chose de simple et "graphique" comme l'ACP.
Si quelqu'un a une idée, je suis preneur ! Et j'aurais sans doute des questions complémentaires après...
Merci par avance,
Sandpiper.
Je viens vers vous car je suis un peu perdu concernant le choix d'une analyse multivariée. Je viens de lire le topic " L'analyse multivariée exploratoire et prédictive" et ça complique encore les choses avec des tests que je ne connaissais pas.
1. Ma problématique : Je cherche à trouver la ou les sources de pollution d'une baie. Pour cela, j'effectue des analyses quotidiennes de l'eau de la baie mais aussi aux principales sources de pollution (e.g. ruisseaux, émissaires d'eaux pluviales). J'ai donc plusieurs variables qualitatives qui sont donc des concentrations en polluants.
Je souhaite donc voir s'il existe des corrélations entre les concentrations dans la baie et les concentrations aux différentes sources de pollution. Cela me permettrait de voir quelle(s) source(s) contribue(nt) le plus à la pollution.
Mais je souhaite aussi voir s'il existe des corrélations avec des facteurs climatiques et hydrologiques : hauteur des vagues, pluviométrie du jour, vitesse du vent, direction du vent, etc...
2. Choix du test : Je ne suis pas statisticien et encore moins matheux mais j'ai quelques bases. Et spontanément,j'ai pensé à faire une Analyse en Composante Principale couplée avec des tests de corrélation de Pearson.
Sauf que sur les 8 variables que j'étudie, il y en a une (et une seule, la direction du vent), qui est qualitative ! Donc impossible d'utiliser une ACP
Que puis-je donc utiliser d'autre ?
D'après ce que j'ai vu il y a le modèle linéaire généralisé, le test de Hill & Smith, etc mais je n'y vois pas bien clair. L'idéal serait quelque chose de simple et "graphique" comme l'ACP.
Si quelqu'un a une idée, je suis preneur ! Et j'aurais sans doute des questions complémentaires après...
Merci par avance,
Sandpiper.
Sandpiper- Nombre de messages : 46
Date d'inscription : 24/05/2013
Re: Choix d'une analyse multivariée
Bonjour,
Je me permets de relancer ce sujet car la question me turlupine toujours autant et je n'avance toujours pas !
Quelle alternative y a -t- il donc à l'ACP quand on a une variable qualitative ?
Merci.
Je me permets de relancer ce sujet car la question me turlupine toujours autant et je n'avance toujours pas !
Quelle alternative y a -t- il donc à l'ACP quand on a une variable qualitative ?
Merci.
Sandpiper- Nombre de messages : 46
Date d'inscription : 24/05/2013
Re: Choix d'une analyse multivariée
Bonjour,
Pour mener ton analyse multivariée (avec 7 variables continues et 1 variable qualitative) tu peux utiliser l'analyse d'hill & smith ou plus simplement (car la lecture de la projection d'hill & smith me laisse souvent perplexe personnellement), coder tes variables continues pour les mettre sous format qualitatif (ordinale) et lancer une ACM sur le tout.
Par contre un coup tu dis que tu as une variable qualitative puis avant tu dis que tu en as plusieurs, il faudrait décrire plus efficacement ton jeu de données. Quel est le format de ta variable à discriminer/variable réponse?
Pour les méthodes à utiliser, tu as la liste suivante en fonction de la configuration de ta base de données: https://statistiques.forumpro.fr/t3049-l-analyse-multivariee-exploratoire-et-predictive
Pour mener ton analyse multivariée (avec 7 variables continues et 1 variable qualitative) tu peux utiliser l'analyse d'hill & smith ou plus simplement (car la lecture de la projection d'hill & smith me laisse souvent perplexe personnellement), coder tes variables continues pour les mettre sous format qualitatif (ordinale) et lancer une ACM sur le tout.
Par contre un coup tu dis que tu as une variable qualitative puis avant tu dis que tu en as plusieurs, il faudrait décrire plus efficacement ton jeu de données. Quel est le format de ta variable à discriminer/variable réponse?
Pour les méthodes à utiliser, tu as la liste suivante en fonction de la configuration de ta base de données: https://statistiques.forumpro.fr/t3049-l-analyse-multivariee-exploratoire-et-predictive
Re: Choix d'une analyse multivariée
Merci pour ta réponse.
Effectivement je me suis trompé au début, les concentrations en polluants sont bien des variables quantitatives, désolé.
J'ai 2 variables réponses, càd, si je comprends bien, des variables dont la variabilité va être expliquée par les autres variables. Il s'agit des concentrations de deux types de polluants dans le lac. Et ces teneurs, je veux donc les mettre en lien (corrélations) avec les teneurs aux sources de pollution et avec les paramètres hydrologiques et météorologiques.
Par exemple, s'il y a trois sources de pollution : A, B et C qui contaminent potentiellement le plan d'eau X.
Je vais mesurer 30 fois les teneurs de 2 polluants à A, B, C et X. Je vais donc obtenir pour chaque variable 30*2 données de teneurs en polluants. Et pour chacune de ces données, j'aurais également noté les conditions météo au point X : force du vent, pluviométrie, hauteur des vagues, direction du vent.
L'objectif est donc de faire des corrélations entre toutes ces variables pour voir :
- dans le cas des sources de pollution : quelle(s) source(s) contribue(nt) le plus à la pollution de X.
- dans le cas des facteurs météo : quels facteurs et quelles conditions (e.g. vent de Sud à vitesse faible, pluviométrie importante et vagues faibles) favorisent l'arrivée de pollutions.
Y a t-il des tutoriels pour coder des variables quantitatives ? C'est compliqué ?
Encore une fois, merci pour votre aide.
Effectivement je me suis trompé au début, les concentrations en polluants sont bien des variables quantitatives, désolé.
J'ai 2 variables réponses, càd, si je comprends bien, des variables dont la variabilité va être expliquée par les autres variables. Il s'agit des concentrations de deux types de polluants dans le lac. Et ces teneurs, je veux donc les mettre en lien (corrélations) avec les teneurs aux sources de pollution et avec les paramètres hydrologiques et météorologiques.
Par exemple, s'il y a trois sources de pollution : A, B et C qui contaminent potentiellement le plan d'eau X.
Je vais mesurer 30 fois les teneurs de 2 polluants à A, B, C et X. Je vais donc obtenir pour chaque variable 30*2 données de teneurs en polluants. Et pour chacune de ces données, j'aurais également noté les conditions météo au point X : force du vent, pluviométrie, hauteur des vagues, direction du vent.
L'objectif est donc de faire des corrélations entre toutes ces variables pour voir :
- dans le cas des sources de pollution : quelle(s) source(s) contribue(nt) le plus à la pollution de X.
- dans le cas des facteurs météo : quels facteurs et quelles conditions (e.g. vent de Sud à vitesse faible, pluviométrie importante et vagues faibles) favorisent l'arrivée de pollutions.
Y a t-il des tutoriels pour coder des variables quantitatives ? C'est compliqué ?
Encore une fois, merci pour votre aide.
Sandpiper- Nombre de messages : 46
Date d'inscription : 24/05/2013
Re: Choix d'une analyse multivariée
Attention aux effets retard : Si une grosse pollution arrive de A, elle va mettre un certain temps à être notable dans le lac.
Cordialement.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Choix d'une analyse multivariée
Bonjour,
Oui, nous ferons attention à l'effet retard.
Pour le choix du modèle, je pense avoir trouvé comment transformer la variable qualitative en quantitative pour faire l'ACP, mais je ne suis pas certain de mon coup.
Cette variable qualitative est la direction du vent, donnée par les 4 points cardinaux. Mais 'ai la possibilité d'avoir la direction du vent en degrés, ce qui en ferait une variable quantitative.
Pensez vous que ça irait ?
Ce qui me gène c'est qu'une forte valeur de direction de vent (360°) ne sera pas forcément synonyme de pollution. Par exemple si l'on fixe que le vent de Sud (180°) est favorable aux pollutions,peut-être que le modèle ne va pas le voir car ça ne va pas augmenter en parallèle de la concentration en polluants...je ne sais pas si je suis clair.
Et aussi, le vent de Nord va poser problème car si on est légèrement Nord Ouest on va être proche de 360° tandis que si l'on est légèrement Nord-Est, on sera proche de 1°. On aura donc des valeurs tres différentes pour une même direction.
Qu'en pensez vous ?
Merci.
Oui, nous ferons attention à l'effet retard.
Pour le choix du modèle, je pense avoir trouvé comment transformer la variable qualitative en quantitative pour faire l'ACP, mais je ne suis pas certain de mon coup.
Cette variable qualitative est la direction du vent, donnée par les 4 points cardinaux. Mais 'ai la possibilité d'avoir la direction du vent en degrés, ce qui en ferait une variable quantitative.
Pensez vous que ça irait ?
Ce qui me gène c'est qu'une forte valeur de direction de vent (360°) ne sera pas forcément synonyme de pollution. Par exemple si l'on fixe que le vent de Sud (180°) est favorable aux pollutions,peut-être que le modèle ne va pas le voir car ça ne va pas augmenter en parallèle de la concentration en polluants...je ne sais pas si je suis clair.
Et aussi, le vent de Nord va poser problème car si on est légèrement Nord Ouest on va être proche de 360° tandis que si l'on est légèrement Nord-Est, on sera proche de 1°. On aura donc des valeurs tres différentes pour une même direction.
Qu'en pensez vous ?
Merci.
Sandpiper- Nombre de messages : 46
Date d'inscription : 24/05/2013
Re: Choix d'une analyse multivariée
As-tu fait tourner une ACM pour voir si les résultats que tu obtiennes ne suffisent pas pour ton étude?
Pour ce qui est de considérer ta variable sur le vent en fonction des degrés. Ca va dépendre si tu as un effet linéaire ou pas entre le degré et la direction du vent. L'ACP se basant sur le coefficient de corrélation de Pearson, soit une approche linéaire de la multicolinéarité, ton approche peut marcher à cette condition.
Pour ce qui est de considérer ta variable sur le vent en fonction des degrés. Ca va dépendre si tu as un effet linéaire ou pas entre le degré et la direction du vent. L'ACP se basant sur le coefficient de corrélation de Pearson, soit une approche linéaire de la multicolinéarité, ton approche peut marcher à cette condition.
Re: Choix d'une analyse multivariée
Bonjour,
Non la direction du vent en degré c'est une mauvaise idée car ce que tu exprimes par tes interrogations c'est le côté circulaire de cette variable. Regarde sur le net ce qui peut être fait en termes d'analyses multivariées de telles données.
Tu sembles écarter l'analyse de Hill & Smith car tu n'en parles plus. Une raison particulière à ça ? Pour un mélange de variables qualitatives et quantitatives je ne vois pas trop quoi d'autres en analyses multivariées.
Mon avis serait de garder le vent en variable nominale sauf si tu supposes que le l'aspect circulaire de la variable peut être impactant pour la mise en évidence des effets. En gros, la qualification nominale du vent est-elle une info nécessaire et suffisante pour conclure sur l'impact des polluants sur le lac.
Nik
Non la direction du vent en degré c'est une mauvaise idée car ce que tu exprimes par tes interrogations c'est le côté circulaire de cette variable. Regarde sur le net ce qui peut être fait en termes d'analyses multivariées de telles données.
Tu sembles écarter l'analyse de Hill & Smith car tu n'en parles plus. Une raison particulière à ça ? Pour un mélange de variables qualitatives et quantitatives je ne vois pas trop quoi d'autres en analyses multivariées.
Mon avis serait de garder le vent en variable nominale sauf si tu supposes que le l'aspect circulaire de la variable peut être impactant pour la mise en évidence des effets. En gros, la qualification nominale du vent est-elle une info nécessaire et suffisante pour conclure sur l'impact des polluants sur le lac.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Sujets similaires
» Choix analyse multivariée pour variables qualitatives
» Analyse multivariée
» Analyse statistique multivariée ?
» analyse multivariée excel
» [Analyses Multivariée] Cas pratique: ACP, AFC ?
» Analyse multivariée
» Analyse statistique multivariée ?
» analyse multivariée excel
» [Analyses Multivariée] Cas pratique: ACP, AFC ?
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum