Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
step et variables significatives
2 participants
Page 1 sur 1
step et variables significatives
Bonjour,
Afin de rechercher ''un des'' meilleurs possibles, j'ai appliqué la fonction Step à ma régression linéaire où ma variable à expliquer a une corrélation avec mes prédicteurs (entre 88 et 96 %).
Dans un premier temps, j'ai réalisé une régression à pas descendant :
Une fois l'analyse terminée, lorsque le Critère AIC est au plus bas (770.3414), ma formule comprend 14 variables :
Or, vous pourrez constater que parmi ces variables, certaines sont moins, voire pas, significatives.
J'aurai donc voulu réaliser un second modèle de régression, à partir de ce modèle-ci, afin de ne garder que les variables significatives.
Connaissez-vous une solution de ce genre ?
En vous remerciant par avance
Afin de rechercher ''un des'' meilleurs possibles, j'ai appliqué la fonction Step à ma régression linéaire où ma variable à expliquer a une corrélation avec mes prédicteurs (entre 88 et 96 %).
Dans un premier temps, j'ai réalisé une régression à pas descendant :
- Code:
lm13=lm(age_reel~.,data=donneesmoins13)
ModeleNull=lm(age_reel~1,data=donneesmoins13)
ModeleComplet0=lm(donneesmoins13$age_reel~.,data=donneesmoins13[,3:32])
step=step(ModeleComplet0,scope=list(upper=ModeleComplet0,lower=ModeleNull),direction="backward",k=2)
Une fois l'analyse terminée, lorsque le Critère AIC est au plus bas (770.3414), ma formule comprend 14 variables :
- Code:
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -5.93629 0.51705 -11.481 < 2e-16 ***
LG.MC1 0.34019 0.04757 7.151 8.35e-12 ***
LGD.MC1 -0.16085 0.11318 -1.421 0.156455
LGP.MC2 0.22251 0.08779 2.534 0.011835 *
LG.MC3 0.10036 0.05513 1.821 0.069791 .
LG.MC4 -0.16936 0.07298 -2.321 0.021067 *
LG.MC5 0.15874 0.06569 2.417 0.016340 *
LGP.MC5 0.23824 0.10222 2.331 0.020520 *
LG.PH1 -0.28849 0.06375 -4.525 9.09e-06 ***
LGD.PH1 0.41854 0.11747 3.563 0.000435 ***
LGP.PH2 0.28789 0.14750 1.952 0.052005 .
LGD.PH3 -0.32654 0.15439 -2.115 0.035358 *
LG.PH5 -0.08980 0.06244 -1.438 0.151559
LGP.PH5 0.22650 0.14233 1.591 0.112701
LGD.PH5 -0.36366 0.18602 -1.955 0.051643 .
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Or, vous pourrez constater que parmi ces variables, certaines sont moins, voire pas, significatives.
J'aurai donc voulu réaliser un second modèle de régression, à partir de ce modèle-ci, afin de ne garder que les variables significatives.
Connaissez-vous une solution de ce genre ?
En vous remerciant par avance
Dernière édition par A.D. le Mar 12 Mai 2015 - 13:25, édité 1 fois (Raison : balises "code")
Flow8- Nombre de messages : 2
Date d'inscription : 07/05/2015
Re: step et variables significatives
Bonjour,
Nik
Et alors ?Or, vous pourrez constater que parmi ces variables, certaines sont moins, voire pas, significatives
Quel est l'objectif. la question n'est pas en lien avec ce que tu as déployé comme méthodo au départ donc il faudrait que tu sois plus clair dans ta démarche.
Connaissez vous une solution de ce genre ?
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: step et variables significatives
Bonjour,
En fait, je recherche une formule qui estime y en fonction de plusieurs xn, qui combine à la fois efficacité et simplicité.
De fait, il faudrait que ma formule ne prenne en compte que les variables les plus significatives, quitte à ce que je perde en efficacité (que ce soit au niveau de l'AIC et/ou du R²).
Afin de diminuer dans un premier temps le nombre de variables, j'ai procédé à la méthode de régression pas à pas (descendant, ascendant et combiné).
Ces méthodes m'ont donné des formules comprenant entre 12 et 14 variables, certaines étant moins significatives que d'autres. Or, parce que je cherche à avoir une formule simple (les variables étant des mesures à réaliser, il faudrait qu'il y en ai le moins possible afin d'alléger la démarche), j'aurai voulu "optimiser" cette formule en recherchant, parmi les variables précédemment sortie, celles qui n'étaient pas nécessaires, quitte à rendre cette nouvelle formule moins efficace, moins précise.
J'espère avoir été plus claire.
En vous remerciant encore
En fait, je recherche une formule qui estime y en fonction de plusieurs xn, qui combine à la fois efficacité et simplicité.
De fait, il faudrait que ma formule ne prenne en compte que les variables les plus significatives, quitte à ce que je perde en efficacité (que ce soit au niveau de l'AIC et/ou du R²).
Afin de diminuer dans un premier temps le nombre de variables, j'ai procédé à la méthode de régression pas à pas (descendant, ascendant et combiné).
Ces méthodes m'ont donné des formules comprenant entre 12 et 14 variables, certaines étant moins significatives que d'autres. Or, parce que je cherche à avoir une formule simple (les variables étant des mesures à réaliser, il faudrait qu'il y en ai le moins possible afin d'alléger la démarche), j'aurai voulu "optimiser" cette formule en recherchant, parmi les variables précédemment sortie, celles qui n'étaient pas nécessaires, quitte à rendre cette nouvelle formule moins efficace, moins précise.
J'espère avoir été plus claire.
En vous remerciant encore
Flow8- Nombre de messages : 2
Date d'inscription : 07/05/2015
Re: step et variables significatives
Si tu relis ton message, tu pourras te rendre compte que là on sort des stats car tu ne cherches pas à optimiser les stats mais les coûts associés à l'acquisition de données.
Il n'y a donc pas de techniques statistique pour ça. Tu peut rajouter une seconde couche de choix dit "statistique" en ne gardant que les p-value<0.05 mais c'est basé avant tout sur une décision arbitraire visant à réduire le nombre de variables.
Pour l'instant le meilleur modèle AIC est un modèle à 15 paramètres. Tu peux utiliser le BIC à la place de l'AIC car il est plus pénalisant sur le nombre de paramètre.
Nik
Il n'y a donc pas de techniques statistique pour ça. Tu peut rajouter une seconde couche de choix dit "statistique" en ne gardant que les p-value<0.05 mais c'est basé avant tout sur une décision arbitraire visant à réduire le nombre de variables.
Pour l'instant le meilleur modèle AIC est un modèle à 15 paramètres. Tu peux utiliser le BIC à la place de l'AIC car il est plus pénalisant sur le nombre de paramètre.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Sujets similaires
» Bornes OR non-significatives vs Bornes RR significatives
» Les différences sont elles significatives?
» coordonnées des variables
» Constantes non significatives dans mes modèles de regression
» ACP et distribution des variables
» Les différences sont elles significatives?
» coordonnées des variables
» Constantes non significatives dans mes modèles de regression
» ACP et distribution des variables
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum