Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
Les posteurs les plus actifs de la semaine
Aucun utilisateur

-40%
Le deal à ne pas rater :
Tefal Ingenio Emotion – Batterie de cuisine 10 pièces (induction, ...
59.99 € 99.99 €
Voir le deal

Petit problème

3 participants

Aller en bas

Petit problème Empty Petit problème

Message par jb Ven 13 Oct 2006 - 14:58

Salut,

Logiciel utilisé : SAS
Procédure : reg

J'ai une variable sur laquelle je veux régresser plein de variables, j'ai tout d'abord fait un procédure de sélection pas à pas (stepwise) où j'ai mis toutes mes variables en ma possesion, ce qui m'a permis de sélectionner 8 variables.

Ensuite on m'a demandé de présenter un tableau qui donne les p-value des régresseurs en régression simple puis en régression multiple.
J'ai donc fait plein de régression simple ce qui m'a amené à prendre un certain nombre de variables significatives, je les ai alors mise dans une régression multiple, où j'ai aussi fait une sélection stepwise.

Mon gros problème vient du fait que 2 variables qui sortent dans la procédure de sélection pas à pas (aux étapes 5 et 6) ne sortent pas en régression simple où par définition elles sont toute seules.

Comment expliquer ce petit problème, qu'est ce qui fait qu'une variable non significative toute seule le devient lorsque l'on intègre plusieurs variables dans le modèle?


Merci, j'espère avoir été clair mais demandez m'en plus si vous comprenez pas tout.

jb

Nombre de messages : 44
Date d'inscription : 25/07/2006

Revenir en haut Aller en bas

Petit problème Empty Re: Petit problème

Message par Enzo Ven 13 Oct 2006 - 15:27

Salut jb,

il y a plusieurs possibilités dont les plus probables sont les suivantes:

- les seuils de significativité ne sont pas identiques pour une procédure "stepwise" que pour une régression simple. En particulier, il me semble que SAS fixe une p-value d'entrée de 0.1 ou 0.15 pour le stepwise. Vérifie que tu as bien modifié ces paramètres.

- A quel moment du "stepwise" ces deux variables entrent-elles dans le modèle ? Tôt ou tard ? Dans une procédure telle que celle-ci, l'entrée d'une variable à l'itération t signifie qu'elle est la plus explicative en présence de celles qui sont dans le modèle à l'instant t-1. Donc, les variables entrées à l'instant t sont celles qui modélisent le mieux les résidus de la régression de l'itération t-1. Donc:

- soit ces deux variables modélisent quelque chose qui ne peut l'être qu'à partir d'informations pré-existantes (les variables déjà incluses)

- soit ces deux variables modélisent des phénomènes propres à l'échantillon et pas à la population (situation de sur-apprentissage)

Ce que tu peux faire:
1) calcule le modèle sans ces deux variables, i.e, seulement avec celles retenues par le stepwise
2) calcule le modèle avec ces deux variales + les autres du stepwise

Compare des critères comme AIC ou BIC (BIC est préférable je pense) et conserve le meilleur.

voilà,
a+

Enzo

Nombre de messages : 33
Date d'inscription : 13/10/2006

Revenir en haut Aller en bas

Petit problème Empty Re: Petit problème

Message par Kolmogorov Ven 13 Oct 2006 - 21:01

Je suis d'accord avec ce qu'a dit Enzo. Cette situation m'est déjà arrivé et l'explication était celle là :

Enzo a écrit:ces deux variables modélisent quelque chose qui ne peut l'être qu'à partir d'informations pré-existantes (les variables déjà incluses

En fait, une variable X peut très mal modéliser une variable Y mais peut très bien modéliser les résidus issus de la régression de la variable Y sur une autre variable Z par exemple (je sais pas si je suis très clair..... scratch )
Kolmogorov
Kolmogorov

Nombre de messages : 143
Date d'inscription : 22/01/2006

Revenir en haut Aller en bas

Petit problème Empty Re: Petit problème

Message par jb Lun 16 Oct 2006 - 15:30

merci pour vos réponses, j'ai pris l'habitude en effet de modifier les p-values.

Sinon je saisi pas trop l'alinéa d'enzo à propos de la situation du sur apprentissage? Est ce que tu pourrais me le réexpliquer, comment peut on voir que ces variables n'expliquent pas quelque chose relative à la population mais seulement à l'échantillon???

Pour l'autre possibilité, je comprend très bien ce que ça veut dire et je vais essayer de comparer mes modèles à partir d'autres critères.

Par contre tout le problème rest à expliquer que des variables peuvent devenir significatives parce qu'elles expliquent les résidus d'une régression à quelqu'un qui n'est pas un brin statisticien (même pas un économiste, attention ce n'est pas dit méchamment) et avec j'ai déjà du mal à lui expliquer certains trucs????? si vous avez des idées.

en tout cas merci beaucoup

jb

Nombre de messages : 44
Date d'inscription : 25/07/2006

Revenir en haut Aller en bas

Petit problème Empty Re: Petit problème

Message par Enzo Mar 17 Oct 2006 - 9:02

Sinon je saisi pas trop l'alinéa d'enzo à propos de la situation du sur apprentissage? Est ce que tu pourrais me le réexpliquer, comment peut on voir que ces variables n'expliquent pas quelque chose relative à la population mais seulement à l'échantillon???

Quand tu construis un modèle, tu vérifies sa validité par rapport à des critères bien établis (R² en régression linéaire, concordance en régression logistique, etc.).

Cependant, il faut bien comprendre que le modèle restera toujours plus performant sur l'échantillon qui a servi à le construire (qu'on appelle "échantillon d'apprentissage") que sur un autre échantillon (qu'on appelle "échantillon test"). L'idée est alors de ne pas modéliser des phénomènes propres à l'échantillon d'apprentissage, phénomènes qui n'existeraient pas dans la population.

Par exemple, en régression linéaire, plus tu vas ajouter de paramètres à ton modèle, meilleur sera le R². En revanche, c'est faux pour le R² ajusté , qui lui tient compte de la complexité du modèle. Cependant, ces critères restent des critères statistiques, et il est souvent préférable de faire appel à des outils de validation différents : validation croisée, leave-one out, bootstrap, etc.

Ce que je voulais donc dire est que : les variables qui sont introudites par le stepwise peuvent avoir un impact fort à un moment donné à cause de quelques phénomènes propres à l'échantillon (ex: elles modélisent quelques points atypiques, etc.)

J'espère avoir été clair...
N'hésite pas en cas de problèmes! Smile

Enzo

Nombre de messages : 33
Date d'inscription : 13/10/2006

Revenir en haut Aller en bas

Petit problème Empty Re: Petit problème

Message par Enzo Mar 17 Oct 2006 - 9:24

Quant à expliquer ceci à qqun qui ne s'y connait pas...pas évident.

Je me rappelle d'une situation à peu près analogue que j'avais rencontrée. Il s'agissait de déterminer les facteurs qui contribuaient à l'apparition d'ozone dans l'air.

Il est bien connu que la vitesse du vent est un facteur de dispersion de l'ozone (=un vent élevé-->moins d'ozone). Cependant, la variable "vitesse du vent" n'était pas significative sur la concentration en ozone dans l'air. En revanche, quand on tenait compte de la direction du vent, elle devenait un facteur très significatif. En effet, dans les situations où le vent est tourbillonnant par exemple, la vitesse peut être n'importe laquelle, il n'y a aucun effet sur la dispersion des polluants. Ici, c'est clairement une interaction significative.

Je pense que tu es dans le même cas, peut être que tu peux utliser une explication analogue à celle-ci. Cepedant, comme tu es dans un cas continu (régression linéaire), l'explication peut devenir plus ardue.

Tu es dans une situation où en connaissance des variables x1,x2,x3,... la variable la plus significative est xk, bien que celle-ci n'ait pas d'effets "global".

Enzo

Nombre de messages : 33
Date d'inscription : 13/10/2006

Revenir en haut Aller en bas

Petit problème Empty Re: Petit problème

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum