Les posteurs les plus actifs de la semaine
joyeux_lapin13
 
zeu
 
gg
 
schlebe
 
zezima
 
Yacouba_KONE
 
rayanes159
 
noviceST
 
Eric Wajnberg
 
Nik
 


Regression lineaire a plusieurs variables

Voir le sujet précédent Voir le sujet suivant Aller en bas

Regression lineaire a plusieurs variables

Message par dudumomo le Mer 22 Mai 2013 - 13:44

Bonjour a tous,

Je travaille sur une analyse d'un modele a plusieurs facteurs qui devrait m'aider a obtenir une formule afin d'estimer les tailles de marches de differents pays en fonction de plusieurs criteres comme le PIB, la taille de la population, les exportations, etc.....

Etant un debutant en stats (Mais qui ne demande qu'a s'ameliorer), j'ai besoin de quelques conseils et aide.

J'ai collecte des donnees sur une dizaine de pays et j'ai fait une analyse de regression lineaire via Excel.

J'obtiens un R2 de 0.97, ce qui devrait dire que la correlation entre la taille de marche et mes criteres, est bonne. (N'est ce pas?)

Cependant, en appliquant la formule trouve (Intercept + les coefficients) et en comparant les resultats avec les donnees reelles, je trouve de tres grandes differences pour certains pays (Genre le double).

1) Comment dois-je interpreter cela? Un bon R2 mais de grande difference...

2) Je ne suis pas fan de l'intercept, car j'ai l'impression que si mes donnees sont faites sur des grands pays et que je teste sur des petits, l'intercept est peut etre trop important et va fausser les resultats. Est ce correct? Ai je une solution?

3) Des idees sur comment ameliorer le modele? (Par exemple, certains critere ne sont pas independant a 100%, comme le PIB et les exportations, qui vont souvent de mise)

Evidemment, je pense que la liste des pays (10) n'est pas enorme... mais j'espere que la methode est correct.
(Peut etre ne devrais-je pas utiliser de regression lineaire??)


Merci grandement de votre aide !

dudumomo

Nombre de messages : 3
Date d'inscription : 22/05/2013

Voir le profil de l'utilisateur https://myuneo.com

Revenir en haut Aller en bas

Re: Regression lineaire a plusieurs variables

Message par droopy le Jeu 23 Mai 2013 - 7:22

J'obtiens un R2 de 0.97, ce qui devrait dire que la correlation entre la taille de marche et mes criteres, est bonne. (N'est ce pas?)
Aussi étrange que ça va te paraître, je dirais pas nécessairement. Un R² est effectivement un indicateur de l'adéquation de ton modèle à tes données. Mais brut il n'a pas de sens, parce que ton R² dépend du nombre de tes observations, du nombre de tes variables. Un cas extrême : tu as 10 individus et 9 variables, tu auras un R² de 1 même si en fait peut-être qu'aucune de tes variables n'expliquent vraiment ta variable que tu cherches à expliquer. En général on regarde ce qu'on appelle le R² ajusté, qui prend en compte ton R² et le nombre de variable qui a servi à le construire.
Un exemple concret :
Code:
y <- rnorm(10)
x <- matrix(rnorm(80),10)
lm1 <- lm(y ~x)

summary(lm1)
# ici je ne te présente qu'une partie des résultats
Residual standard error: 1.311 on 1 degrees of freedom
Multiple R-squared: 0.7816,    Adjusted R-squared: -0.9653
F-statistic: 0.4474 on 8 and 1 DF,  p-value: 0.8267
Ici tu as un R² de 0.7816 ce qui semble te dire que ton modèle est "bon", mais si tu regardes le R² ajusté, il est ici négatif, ce qui veut dire que tes variables explicatives en fait n'explique rien de ta variable y. C se voit aussi sur le test du R² ou tu as un p-value > 0.8 bien supérieure au sacro saint 5% donc que ton R² n'est pas significatif.

Avec aussi peu d'individus je te conseil de plutôt rester en exploratoire et peut-être faire une ACP et voir avec quelles variables est corrélée la taille des marches. Il semble illusoire de partir sur un modèle linéaire dans ton cas. Vérifie les critères que je viens de te donner et je pense que tu vas tombé dans le même cas que mon exemple.

Cdt

droopy

Nombre de messages : 985
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression lineaire a plusieurs variables

Message par dudumomo le Jeu 23 Mai 2013 - 15:11

Et bien le R2 ajuste est assez bon egalement....

Je me demande si ca ne viendrait pas plutot de la non "indepedance" de mes variables...

Voici le resultat via Excel


Des pistes?
(Je ne comprends pas toute les info malheureusement.. (T stat, P value,..)

Merci pour l'aide !

dudumomo

Nombre de messages : 3
Date d'inscription : 22/05/2013

Voir le profil de l'utilisateur https://myuneo.com

Revenir en haut Aller en bas

Re: Regression lineaire a plusieurs variables

Message par benjamin_78 le Jeu 23 Mai 2013 - 19:51

1) Peux tu dire les différentes variables ? Je suppose que tu parles des marchés ? Ce sont des marchés de quoi.
2) Pour info, tu as plein de variables non significatives : toutes celles qui ont une Pvalue supérieure à disons 5%. Tu peux le voir aussi avec les intervalles de confiance. [Lower 95% Upper95%] contient la variable avec 95% de chance, donc si 0 appartient à cet intervalle, cela signifie que la variable a des chances d'être nulle, donc de ne pas être significative.
Recommence en éliminant la variable la moins significative, c'est à dire l'intercept. Et tu réitères ...

benjamin_78

Nombre de messages : 8
Age : 37
Localisation : Versailles
Date d'inscription : 03/05/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression lineaire a plusieurs variables

Message par droopy le Ven 24 Mai 2013 - 7:13

Dis toi quand meme que quoi que tu fasses faire une analyse avec 10 individus et 3 variables, ça reste très très limite. Faire du prédictif à partir de 10 individus reste très illusoire. Il ne faut pas t'attendre à des miracles.
Le R² n'est pas le seul critère à regarder lorsque l'on fait des modèles linéaires, ça en est un parmi d'autres.

droopy

Nombre de messages : 985
Date d'inscription : 04/09/2009

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression lineaire a plusieurs variables

Message par dudumomo le Ven 24 Mai 2013 - 16:11

Je comprends maintenant mieux !

Merci grandement de vos explications.

Je compare les estimations de taille de marche avec les 3 variables PIB, taille de la population et production d'electricite (C'etait un test) sur 10 pays.

J'aimerai faire sur plus de pays, mais c'est un peu dur. En revanche pour avoir plus de critere, ca c'est ce que je cherche a faire.

Donc en fait le R2 estime est un indicateur assez general, mais il faut regarder le P Value de chaque variable. Si elle est significative, elle sera en dessous de 5%. (En fait, j'avais fait une CORRELATION toute simple entre chacune des 3 variables sur la part de marche pour savoir si la correlation etait forte ou pas... pas assez precis donc...)

Donc en enlevant l'intercept, en effet le modele semble s'ameliorer un peu. (Bien qu'avec 10 individus c'est pas si evident a confirmer)

Existe t'il une methode pour savoir quel critere apportera le plus au modele? (Variable significative qui ameliore la prediction du modele?)

Merci grandement !

dudumomo

Nombre de messages : 3
Date d'inscription : 22/05/2013

Voir le profil de l'utilisateur https://myuneo.com

Revenir en haut Aller en bas

Re: Regression lineaire a plusieurs variables

Message par niaboc le Sam 25 Mai 2013 - 0:08

dudumomo a écrit:
Existe t'il une methode pour savoir quel critere apportera le plus au modele? (Variable significative qui ameliore la prediction du modele?)

Oui, pour cela tu peux aller comparer les coefficients standardisés de ta régression entre eux.

Bonne soirée,

Niaboc

niaboc

Nombre de messages : 865
Age : 29
Localisation : Paris
Date d'inscription : 05/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Regression lineaire a plusieurs variables

Message par Contenu sponsorisé Aujourd'hui à 11:31


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum