Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Le Deal du moment : -20%
Drone Dji DJI Mini 4K (EU)
Voir le deal
239 €

Choix d'un modèle

2 participants

Aller en bas

Choix d'un modèle Empty Choix d'un modèle

Message par François Mar 21 Fév 2012 - 18:40

Bonjour,

Je travaille actuellement sur la modélisation de la propagation d'une espèce invasive. Après avoir passé beaucoup de temps à collecter les données, je suis maintenant confronté au problème de leur traitement statistique :

les variables expliquées sont au nombre de deux : le pourcentage d'augmentation de la surface d'un foyer en un an, et le nombre de nouveaux foyers apparus à moins d'une certaine distance de ce foyer au cours de la même année.

les variables expliquées quant à elles sont plus nombreuses et plus variées :

- certaines, comme la température (...) sont continues (et ne varient que dans un intervalle assez restreint)
- d'autres sont discrètes et résultent d'une quantification arbitraire : elles peuvent valoir 0 ou 1 selon que le foyer a été soumis à un traitement ou non, ou bien valoir -1, 0 ou 1 selon que le foyer se trouve sur la rive concave, droite ou convexe du cours d'eau.

Pour donner un exemple simplifié, j'ai donc un tableau du type suivant (mais avec plusieurs milliers de lignes) :

Choix d'un modèle Scaled.php?server=836&filename=captureuqg

J'aimerais avoir recours à un modèle linéaire afin de relier les variables expliquées aux variables explicatives, et j'aimerais également réduire le nombre de variables : en effet, les variables explicatives ayant été choisies sans connaissance préalable de leur influence, il est très probable que certaines soient négligeables.

Je ne sais pas quelle méthode employer, notamment parce que les variables explicatives sont dans des formats très variés. Pour certaines, comme l'arrachage, je compte faire plusieurs modèles différents et traiter séparément les foyers ayant été arrachés et ceux ne l'ayant pas été. Mais ce ne sont pas les seules variables à valeur dans {0 ; 1} (il y en a deux autres), et j'ai également des variables à valeur dans {-1 ; 0 ; 1}, dans {0; 1; 2} et dans {0; 0,5; ... 1,5 ; 2}, mais celles-ci peuvent sans doute être assimilées à des variables continues car elles représentent des facteurs dont l'influence devrait varier de façon continue...

Autre détail : la variable expliquée concernant l'augmentation de la surface est à valeur dans [-1, +infini[, et celle concernant le nombre de foyers apparus à valeur dans N...

A quelle méthode avoir recours ? Faut-il faut-il faire une modélisation différente pour chacune valeurs des variables discrètes (du moins celles ne pouvant être assimilées à des variables continues) ?

Merci d'avance pour vos réponses Smile

PS : je travaille avec le logiciel R

François

Nombre de messages : 4
Date d'inscription : 21/02/2012

Revenir en haut Aller en bas

Choix d'un modèle Empty Re: Choix d'un modèle

Message par PWFR Jeu 23 Fév 2012 - 9:25

Si la variable expliquée ne varie qu'entre -1 et l'infini, je pense que tu devrais utiliser un modèle à variables censurées (modèle tobit)

PWFR

Nombre de messages : 19
Date d'inscription : 21/02/2012

Revenir en haut Aller en bas

Choix d'un modèle Empty Re: Choix d'un modèle

Message par François Jeu 23 Fév 2012 - 11:07

Merci beaucoup pour cette réponse, je vais de ce pas me renseigner sur le modèle Tobit !

Par contre, comment résoudre le problème rencontré avec les variables explicatives ? Faire un modèle pour chaque valeur des variables discrètes est-il une bonne solution ? Est-il pertinent de traiter les variables à valeur dans {0; 1; 2} et à valeur dans {0; 0,5 ; ...; 1,5; 2} comme des variables continues ?

Encore merci pour cette réponse !

François

Nombre de messages : 4
Date d'inscription : 21/02/2012

Revenir en haut Aller en bas

Choix d'un modèle Empty Re: Choix d'un modèle

Message par François Jeu 23 Fév 2012 - 12:05

Bonjour, en faisant des recherches sur le modèle Tobit, je suis tombé sur un exemple d'application qui me semble très similaire au mien. Dans ce cas, les variables explicatives sont :

dummy variable égale à 1 si la personne travaille
nombre d’heures travaillées en 1975
nombre d’enfants de moins de 6 ans à la maison
nombre d’enfants de 6 à 18 ans à la maison
âge de la personne
WA au carré
nombre d’années d’étude
nombre d’années d’étude de la mère
nombre d’années d’étude du père
taux de chômage local
dummy variable égal à un pour les grandes villes, 0 sinon
revenu du ménage hors du revenu éventuel de la femme

les variables expliquées quant à elles sont la probabilité d'avoir du travail et le nombre d'heures de travail.

Bref, je vais essayer de me plonger un peu plus en détail dans cet exemple pour voir si je pourrais retenir cette approche.

Si vous avez d'autres idées, n'hésitez pas !

François

Nombre de messages : 4
Date d'inscription : 21/02/2012

Revenir en haut Aller en bas

Choix d'un modèle Empty Re: Choix d'un modèle

Message par PWFR Jeu 23 Fév 2012 - 13:34

François a écrit:Merci beaucoup pour cette réponse, je vais de ce pas me renseigner sur le modèle Tobit !

Par contre, comment résoudre le problème rencontré avec les variables explicatives ? Faire un modèle pour chaque valeur des variables discrètes est-il une bonne solution ? Est-il pertinent de traiter les variables à valeur dans {0; 1; 2} et à valeur dans {0; 0,5 ; ...; 1,5; 2} comme des variables continues ?

Encore merci pour cette réponse !

A priori, je dirais qu'il vaut mieux traiter ces variables comme des variables catégorielles, c'est à dire s'il y a N valeurs possibles, créer N-1 dummy, à moins qu'il y ait suffisamment de valeur possibles ET que ces valeurs représentent véritablement une variable continue (que tu puisses les additionner ou en faire une moyenne par exemple). Et là, ça n'a pas l'air d'être le cas.

PWFR

Nombre de messages : 19
Date d'inscription : 21/02/2012

Revenir en haut Aller en bas

Choix d'un modèle Empty Re: Choix d'un modèle

Message par François Jeu 23 Fév 2012 - 14:10

En fait je vais probablement devoir faire ça pour la variable représentant la concavité/convexité de la berge (parce qu'on ne sait pas trop si l'influence de la concavité a un quelconque rapport avec celle de la convexité...)

En revanche, mes autres variables sont bien censées représenter un facteur continu :

Pour la variable à valeur dans {0; 1; 2}, qui représente le couvert végétal (0 c'est rien, 1 c'est faible/discontinu et 2 c'est dense et continu) c'est discutable mais ça devrait en théorie être le cas (si on avait pû quantifier ça de façon plus précise).

Idem pour la variable à valeur dans {0; 0,5 ... 1,5 ; 2} qui représente l'orientation de la berge par rapport au soleil et donc indirectement la durée d'éclairement.

à moins qu'il y ait suffisamment de valeur possibles

Pourrais-tu me donner un ordre de grandeur ? Je suppose que 3 c'est bien insuffisant, mais est-ce que 5 ça pourrait être assez ?

En tous cas merci pour toutes ces précisions, ça m'est très utile Wink

François

Nombre de messages : 4
Date d'inscription : 21/02/2012

Revenir en haut Aller en bas

Choix d'un modèle Empty Re: Choix d'un modèle

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum