Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Choix d'un modèle
2 participants
Page 1 sur 1
Choix d'un modèle
Bonjour,
Je travaille actuellement sur la modélisation de la propagation d'une espèce invasive. Après avoir passé beaucoup de temps à collecter les données, je suis maintenant confronté au problème de leur traitement statistique :
les variables expliquées sont au nombre de deux : le pourcentage d'augmentation de la surface d'un foyer en un an, et le nombre de nouveaux foyers apparus à moins d'une certaine distance de ce foyer au cours de la même année.
les variables expliquées quant à elles sont plus nombreuses et plus variées :
- certaines, comme la température (...) sont continues (et ne varient que dans un intervalle assez restreint)
- d'autres sont discrètes et résultent d'une quantification arbitraire : elles peuvent valoir 0 ou 1 selon que le foyer a été soumis à un traitement ou non, ou bien valoir -1, 0 ou 1 selon que le foyer se trouve sur la rive concave, droite ou convexe du cours d'eau.
Pour donner un exemple simplifié, j'ai donc un tableau du type suivant (mais avec plusieurs milliers de lignes) :
J'aimerais avoir recours à un modèle linéaire afin de relier les variables expliquées aux variables explicatives, et j'aimerais également réduire le nombre de variables : en effet, les variables explicatives ayant été choisies sans connaissance préalable de leur influence, il est très probable que certaines soient négligeables.
Je ne sais pas quelle méthode employer, notamment parce que les variables explicatives sont dans des formats très variés. Pour certaines, comme l'arrachage, je compte faire plusieurs modèles différents et traiter séparément les foyers ayant été arrachés et ceux ne l'ayant pas été. Mais ce ne sont pas les seules variables à valeur dans {0 ; 1} (il y en a deux autres), et j'ai également des variables à valeur dans {-1 ; 0 ; 1}, dans {0; 1; 2} et dans {0; 0,5; ... 1,5 ; 2}, mais celles-ci peuvent sans doute être assimilées à des variables continues car elles représentent des facteurs dont l'influence devrait varier de façon continue...
Autre détail : la variable expliquée concernant l'augmentation de la surface est à valeur dans [-1, +infini[, et celle concernant le nombre de foyers apparus à valeur dans N...
A quelle méthode avoir recours ? Faut-il faut-il faire une modélisation différente pour chacune valeurs des variables discrètes (du moins celles ne pouvant être assimilées à des variables continues) ?
Merci d'avance pour vos réponses
PS : je travaille avec le logiciel R
Je travaille actuellement sur la modélisation de la propagation d'une espèce invasive. Après avoir passé beaucoup de temps à collecter les données, je suis maintenant confronté au problème de leur traitement statistique :
les variables expliquées sont au nombre de deux : le pourcentage d'augmentation de la surface d'un foyer en un an, et le nombre de nouveaux foyers apparus à moins d'une certaine distance de ce foyer au cours de la même année.
les variables expliquées quant à elles sont plus nombreuses et plus variées :
- certaines, comme la température (...) sont continues (et ne varient que dans un intervalle assez restreint)
- d'autres sont discrètes et résultent d'une quantification arbitraire : elles peuvent valoir 0 ou 1 selon que le foyer a été soumis à un traitement ou non, ou bien valoir -1, 0 ou 1 selon que le foyer se trouve sur la rive concave, droite ou convexe du cours d'eau.
Pour donner un exemple simplifié, j'ai donc un tableau du type suivant (mais avec plusieurs milliers de lignes) :
J'aimerais avoir recours à un modèle linéaire afin de relier les variables expliquées aux variables explicatives, et j'aimerais également réduire le nombre de variables : en effet, les variables explicatives ayant été choisies sans connaissance préalable de leur influence, il est très probable que certaines soient négligeables.
Je ne sais pas quelle méthode employer, notamment parce que les variables explicatives sont dans des formats très variés. Pour certaines, comme l'arrachage, je compte faire plusieurs modèles différents et traiter séparément les foyers ayant été arrachés et ceux ne l'ayant pas été. Mais ce ne sont pas les seules variables à valeur dans {0 ; 1} (il y en a deux autres), et j'ai également des variables à valeur dans {-1 ; 0 ; 1}, dans {0; 1; 2} et dans {0; 0,5; ... 1,5 ; 2}, mais celles-ci peuvent sans doute être assimilées à des variables continues car elles représentent des facteurs dont l'influence devrait varier de façon continue...
Autre détail : la variable expliquée concernant l'augmentation de la surface est à valeur dans [-1, +infini[, et celle concernant le nombre de foyers apparus à valeur dans N...
A quelle méthode avoir recours ? Faut-il faut-il faire une modélisation différente pour chacune valeurs des variables discrètes (du moins celles ne pouvant être assimilées à des variables continues) ?
Merci d'avance pour vos réponses
PS : je travaille avec le logiciel R
François- Nombre de messages : 4
Date d'inscription : 21/02/2012
Re: Choix d'un modèle
Si la variable expliquée ne varie qu'entre -1 et l'infini, je pense que tu devrais utiliser un modèle à variables censurées (modèle tobit)
PWFR- Nombre de messages : 19
Date d'inscription : 21/02/2012
Re: Choix d'un modèle
Merci beaucoup pour cette réponse, je vais de ce pas me renseigner sur le modèle Tobit !
Par contre, comment résoudre le problème rencontré avec les variables explicatives ? Faire un modèle pour chaque valeur des variables discrètes est-il une bonne solution ? Est-il pertinent de traiter les variables à valeur dans {0; 1; 2} et à valeur dans {0; 0,5 ; ...; 1,5; 2} comme des variables continues ?
Encore merci pour cette réponse !
Par contre, comment résoudre le problème rencontré avec les variables explicatives ? Faire un modèle pour chaque valeur des variables discrètes est-il une bonne solution ? Est-il pertinent de traiter les variables à valeur dans {0; 1; 2} et à valeur dans {0; 0,5 ; ...; 1,5; 2} comme des variables continues ?
Encore merci pour cette réponse !
François- Nombre de messages : 4
Date d'inscription : 21/02/2012
Re: Choix d'un modèle
Bonjour, en faisant des recherches sur le modèle Tobit, je suis tombé sur un exemple d'application qui me semble très similaire au mien. Dans ce cas, les variables explicatives sont :
les variables expliquées quant à elles sont la probabilité d'avoir du travail et le nombre d'heures de travail.
Bref, je vais essayer de me plonger un peu plus en détail dans cet exemple pour voir si je pourrais retenir cette approche.
Si vous avez d'autres idées, n'hésitez pas !
dummy variable égale à 1 si la personne travaille
nombre d’heures travaillées en 1975
nombre d’enfants de moins de 6 ans à la maison
nombre d’enfants de 6 à 18 ans à la maison
âge de la personne
WA au carré
nombre d’années d’étude
nombre d’années d’étude de la mère
nombre d’années d’étude du père
taux de chômage local
dummy variable égal à un pour les grandes villes, 0 sinon
revenu du ménage hors du revenu éventuel de la femme
les variables expliquées quant à elles sont la probabilité d'avoir du travail et le nombre d'heures de travail.
Bref, je vais essayer de me plonger un peu plus en détail dans cet exemple pour voir si je pourrais retenir cette approche.
Si vous avez d'autres idées, n'hésitez pas !
François- Nombre de messages : 4
Date d'inscription : 21/02/2012
Re: Choix d'un modèle
François a écrit:Merci beaucoup pour cette réponse, je vais de ce pas me renseigner sur le modèle Tobit !
Par contre, comment résoudre le problème rencontré avec les variables explicatives ? Faire un modèle pour chaque valeur des variables discrètes est-il une bonne solution ? Est-il pertinent de traiter les variables à valeur dans {0; 1; 2} et à valeur dans {0; 0,5 ; ...; 1,5; 2} comme des variables continues ?
Encore merci pour cette réponse !
A priori, je dirais qu'il vaut mieux traiter ces variables comme des variables catégorielles, c'est à dire s'il y a N valeurs possibles, créer N-1 dummy, à moins qu'il y ait suffisamment de valeur possibles ET que ces valeurs représentent véritablement une variable continue (que tu puisses les additionner ou en faire une moyenne par exemple). Et là, ça n'a pas l'air d'être le cas.
PWFR- Nombre de messages : 19
Date d'inscription : 21/02/2012
Re: Choix d'un modèle
En fait je vais probablement devoir faire ça pour la variable représentant la concavité/convexité de la berge (parce qu'on ne sait pas trop si l'influence de la concavité a un quelconque rapport avec celle de la convexité...)
En revanche, mes autres variables sont bien censées représenter un facteur continu :
Pour la variable à valeur dans {0; 1; 2}, qui représente le couvert végétal (0 c'est rien, 1 c'est faible/discontinu et 2 c'est dense et continu) c'est discutable mais ça devrait en théorie être le cas (si on avait pû quantifier ça de façon plus précise).
Idem pour la variable à valeur dans {0; 0,5 ... 1,5 ; 2} qui représente l'orientation de la berge par rapport au soleil et donc indirectement la durée d'éclairement.
Pourrais-tu me donner un ordre de grandeur ? Je suppose que 3 c'est bien insuffisant, mais est-ce que 5 ça pourrait être assez ?
En tous cas merci pour toutes ces précisions, ça m'est très utile
En revanche, mes autres variables sont bien censées représenter un facteur continu :
Pour la variable à valeur dans {0; 1; 2}, qui représente le couvert végétal (0 c'est rien, 1 c'est faible/discontinu et 2 c'est dense et continu) c'est discutable mais ça devrait en théorie être le cas (si on avait pû quantifier ça de façon plus précise).
Idem pour la variable à valeur dans {0; 0,5 ... 1,5 ; 2} qui représente l'orientation de la berge par rapport au soleil et donc indirectement la durée d'éclairement.
à moins qu'il y ait suffisamment de valeur possibles
Pourrais-tu me donner un ordre de grandeur ? Je suppose que 3 c'est bien insuffisant, mais est-ce que 5 ça pourrait être assez ?
En tous cas merci pour toutes ces précisions, ça m'est très utile
François- Nombre de messages : 4
Date d'inscription : 21/02/2012
Sujets similaires
» choix de modèle
» Choix de modèle
» Choix de modele
» choix d'un modèle
» Choix d'un modèle statistique
» Choix de modèle
» Choix de modele
» choix d'un modèle
» Choix d'un modèle statistique
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum