Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Regression lineaire a plusieurs variables
4 participants
Page 1 sur 1
Regression lineaire a plusieurs variables
Bonjour a tous,
Je travaille sur une analyse d'un modele a plusieurs facteurs qui devrait m'aider a obtenir une formule afin d'estimer les tailles de marches de differents pays en fonction de plusieurs criteres comme le PIB, la taille de la population, les exportations, etc.....
Etant un debutant en stats (Mais qui ne demande qu'a s'ameliorer), j'ai besoin de quelques conseils et aide.
J'ai collecte des donnees sur une dizaine de pays et j'ai fait une analyse de regression lineaire via Excel.
J'obtiens un R2 de 0.97, ce qui devrait dire que la correlation entre la taille de marche et mes criteres, est bonne. (N'est ce pas?)
Cependant, en appliquant la formule trouve (Intercept + les coefficients) et en comparant les resultats avec les donnees reelles, je trouve de tres grandes differences pour certains pays (Genre le double).
1) Comment dois-je interpreter cela? Un bon R2 mais de grande difference...
2) Je ne suis pas fan de l'intercept, car j'ai l'impression que si mes donnees sont faites sur des grands pays et que je teste sur des petits, l'intercept est peut etre trop important et va fausser les resultats. Est ce correct? Ai je une solution?
3) Des idees sur comment ameliorer le modele? (Par exemple, certains critere ne sont pas independant a 100%, comme le PIB et les exportations, qui vont souvent de mise)
Evidemment, je pense que la liste des pays (10) n'est pas enorme... mais j'espere que la methode est correct.
(Peut etre ne devrais-je pas utiliser de regression lineaire??)
Merci grandement de votre aide !
Je travaille sur une analyse d'un modele a plusieurs facteurs qui devrait m'aider a obtenir une formule afin d'estimer les tailles de marches de differents pays en fonction de plusieurs criteres comme le PIB, la taille de la population, les exportations, etc.....
Etant un debutant en stats (Mais qui ne demande qu'a s'ameliorer), j'ai besoin de quelques conseils et aide.
J'ai collecte des donnees sur une dizaine de pays et j'ai fait une analyse de regression lineaire via Excel.
J'obtiens un R2 de 0.97, ce qui devrait dire que la correlation entre la taille de marche et mes criteres, est bonne. (N'est ce pas?)
Cependant, en appliquant la formule trouve (Intercept + les coefficients) et en comparant les resultats avec les donnees reelles, je trouve de tres grandes differences pour certains pays (Genre le double).
1) Comment dois-je interpreter cela? Un bon R2 mais de grande difference...
2) Je ne suis pas fan de l'intercept, car j'ai l'impression que si mes donnees sont faites sur des grands pays et que je teste sur des petits, l'intercept est peut etre trop important et va fausser les resultats. Est ce correct? Ai je une solution?
3) Des idees sur comment ameliorer le modele? (Par exemple, certains critere ne sont pas independant a 100%, comme le PIB et les exportations, qui vont souvent de mise)
Evidemment, je pense que la liste des pays (10) n'est pas enorme... mais j'espere que la methode est correct.
(Peut etre ne devrais-je pas utiliser de regression lineaire??)
Merci grandement de votre aide !
Re: Regression lineaire a plusieurs variables
Aussi étrange que ça va te paraître, je dirais pas nécessairement. Un R² est effectivement un indicateur de l'adéquation de ton modèle à tes données. Mais brut il n'a pas de sens, parce que ton R² dépend du nombre de tes observations, du nombre de tes variables. Un cas extrême : tu as 10 individus et 9 variables, tu auras un R² de 1 même si en fait peut-être qu'aucune de tes variables n'expliquent vraiment ta variable que tu cherches à expliquer. En général on regarde ce qu'on appelle le R² ajusté, qui prend en compte ton R² et le nombre de variable qui a servi à le construire.J'obtiens un R2 de 0.97, ce qui devrait dire que la correlation entre la taille de marche et mes criteres, est bonne. (N'est ce pas?)
Un exemple concret :
- Code:
y <- rnorm(10)
x <- matrix(rnorm(80),10)
lm1 <- lm(y ~x)
summary(lm1)
# ici je ne te présente qu'une partie des résultats
Residual standard error: 1.311 on 1 degrees of freedom
Multiple R-squared: 0.7816, Adjusted R-squared: -0.9653
F-statistic: 0.4474 on 8 and 1 DF, p-value: 0.8267
Avec aussi peu d'individus je te conseil de plutôt rester en exploratoire et peut-être faire une ACP et voir avec quelles variables est corrélée la taille des marches. Il semble illusoire de partir sur un modèle linéaire dans ton cas. Vérifie les critères que je viens de te donner et je pense que tu vas tombé dans le même cas que mon exemple.
Cdt
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Regression lineaire a plusieurs variables
Et bien le R2 ajuste est assez bon egalement....
Je me demande si ca ne viendrait pas plutot de la non "indepedance" de mes variables...
Voici le resultat via Excel
Des pistes?
(Je ne comprends pas toute les info malheureusement.. (T stat, P value,..)
Merci pour l'aide !
Je me demande si ca ne viendrait pas plutot de la non "indepedance" de mes variables...
Voici le resultat via Excel
Des pistes?
(Je ne comprends pas toute les info malheureusement.. (T stat, P value,..)
Merci pour l'aide !
Re: Regression lineaire a plusieurs variables
1) Peux tu dire les différentes variables ? Je suppose que tu parles des marchés ? Ce sont des marchés de quoi.
2) Pour info, tu as plein de variables non significatives : toutes celles qui ont une Pvalue supérieure à disons 5%. Tu peux le voir aussi avec les intervalles de confiance. [Lower 95% Upper95%] contient la variable avec 95% de chance, donc si 0 appartient à cet intervalle, cela signifie que la variable a des chances d'être nulle, donc de ne pas être significative.
Recommence en éliminant la variable la moins significative, c'est à dire l'intercept. Et tu réitères ...
2) Pour info, tu as plein de variables non significatives : toutes celles qui ont une Pvalue supérieure à disons 5%. Tu peux le voir aussi avec les intervalles de confiance. [Lower 95% Upper95%] contient la variable avec 95% de chance, donc si 0 appartient à cet intervalle, cela signifie que la variable a des chances d'être nulle, donc de ne pas être significative.
Recommence en éliminant la variable la moins significative, c'est à dire l'intercept. Et tu réitères ...
benjamin_78- Nombre de messages : 8
Age : 45
Localisation : Versailles
Date d'inscription : 03/05/2013
Re: Regression lineaire a plusieurs variables
Dis toi quand meme que quoi que tu fasses faire une analyse avec 10 individus et 3 variables, ça reste très très limite. Faire du prédictif à partir de 10 individus reste très illusoire. Il ne faut pas t'attendre à des miracles.
Le R² n'est pas le seul critère à regarder lorsque l'on fait des modèles linéaires, ça en est un parmi d'autres.
Le R² n'est pas le seul critère à regarder lorsque l'on fait des modèles linéaires, ça en est un parmi d'autres.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Regression lineaire a plusieurs variables
Je comprends maintenant mieux !
Merci grandement de vos explications.
Je compare les estimations de taille de marche avec les 3 variables PIB, taille de la population et production d'electricite (C'etait un test) sur 10 pays.
J'aimerai faire sur plus de pays, mais c'est un peu dur. En revanche pour avoir plus de critere, ca c'est ce que je cherche a faire.
Donc en fait le R2 estime est un indicateur assez general, mais il faut regarder le P Value de chaque variable. Si elle est significative, elle sera en dessous de 5%. (En fait, j'avais fait une CORRELATION toute simple entre chacune des 3 variables sur la part de marche pour savoir si la correlation etait forte ou pas... pas assez precis donc...)
Donc en enlevant l'intercept, en effet le modele semble s'ameliorer un peu. (Bien qu'avec 10 individus c'est pas si evident a confirmer)
Existe t'il une methode pour savoir quel critere apportera le plus au modele? (Variable significative qui ameliore la prediction du modele?)
Merci grandement !
Merci grandement de vos explications.
Je compare les estimations de taille de marche avec les 3 variables PIB, taille de la population et production d'electricite (C'etait un test) sur 10 pays.
J'aimerai faire sur plus de pays, mais c'est un peu dur. En revanche pour avoir plus de critere, ca c'est ce que je cherche a faire.
Donc en fait le R2 estime est un indicateur assez general, mais il faut regarder le P Value de chaque variable. Si elle est significative, elle sera en dessous de 5%. (En fait, j'avais fait une CORRELATION toute simple entre chacune des 3 variables sur la part de marche pour savoir si la correlation etait forte ou pas... pas assez precis donc...)
Donc en enlevant l'intercept, en effet le modele semble s'ameliorer un peu. (Bien qu'avec 10 individus c'est pas si evident a confirmer)
Existe t'il une methode pour savoir quel critere apportera le plus au modele? (Variable significative qui ameliore la prediction du modele?)
Merci grandement !
Re: Regression lineaire a plusieurs variables
dudumomo a écrit:
Existe t'il une methode pour savoir quel critere apportera le plus au modele? (Variable significative qui ameliore la prediction du modele?)
Oui, pour cela tu peux aller comparer les coefficients standardisés de ta régression entre eux.
Bonne soirée,
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Sujets similaires
» Régression linéaire et variables explicatives
» regression lineaire: variables quantitatives+qualitatives
» Comparer résultats régression linéaire et non linéaire
» variable modératrice et plusieurs variables dépendantes
» test de normalité sur plusieurs variables
» regression lineaire: variables quantitatives+qualitatives
» Comparer résultats régression linéaire et non linéaire
» variable modératrice et plusieurs variables dépendantes
» test de normalité sur plusieurs variables
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum