Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
validation régression linéaire multiple
2 participants
Page 1 sur 1
validation régression linéaire multiple
Bonjour,
j'ai quelques problèmes dans ma régression, d'abord mes variables explicatives ne suivent pas une loi normal, certaine présentent une hétéroscédasticité et enfin d'autres sont corrélée entre elles...
je suis un petit peu perdus... quelles solutions me proposez-vous ? comment éliminé l'hétéroscédasticité ? peut-on faire une régression avec des variables non normal ?
Merci beaucoup
Arthurius
j'ai quelques problèmes dans ma régression, d'abord mes variables explicatives ne suivent pas une loi normal, certaine présentent une hétéroscédasticité et enfin d'autres sont corrélée entre elles...
je suis un petit peu perdus... quelles solutions me proposez-vous ? comment éliminé l'hétéroscédasticité ? peut-on faire une régression avec des variables non normal ?
Merci beaucoup
Arthurius
lucius arthurius- Nombre de messages : 19
Age : 40
Localisation : Bruxelles
Date d'inscription : 12/02/2008
Re: validation régression linéaire multiple
Bonjour,
Je crois qu'idéalement, tes données devraient être normales pour estimer tes bêtas. Mais si ton N est assez grand, je crois que par le théorème limite centrale, tu peux faire le passage à une loi normale sans problème :
(X - E[X]) / (racine(Var[X])) converge en loi vers une N(0,1)
Mais cela fait longtemps que je n'ai pas touché à ça donc, il serait bien que quelqu'un confirme.
Pour les problèmes d'hétéroscédasticité tu pourrais essayer les transformations log(X) ou racine(X) ou encore 1/X et regarder la distribution de tes résidus.
Pour ton problème de corrélation, cela dépend de l'importance de tes variables dans ton modèle. Par exemple, si ta variable X est corrélé avec Y mais que ta variable Y a un bêta qui lui est rattaché qui est près de 0, j'aurais tendance à garder X au lieu de Y. Une autre façon serait de faire une régression avec Y et sans X, puis d'en faire une autre sans Y et avec X. On choisirais la régression qui a obtenu le plus grand R² (celle qui explique le plus la variance de ta variable à expliquer).
J'espère t'avoir aidé... Bonne chance!
Je crois qu'idéalement, tes données devraient être normales pour estimer tes bêtas. Mais si ton N est assez grand, je crois que par le théorème limite centrale, tu peux faire le passage à une loi normale sans problème :
(X - E[X]) / (racine(Var[X])) converge en loi vers une N(0,1)
Mais cela fait longtemps que je n'ai pas touché à ça donc, il serait bien que quelqu'un confirme.
Pour les problèmes d'hétéroscédasticité tu pourrais essayer les transformations log(X) ou racine(X) ou encore 1/X et regarder la distribution de tes résidus.
Pour ton problème de corrélation, cela dépend de l'importance de tes variables dans ton modèle. Par exemple, si ta variable X est corrélé avec Y mais que ta variable Y a un bêta qui lui est rattaché qui est près de 0, j'aurais tendance à garder X au lieu de Y. Une autre façon serait de faire une régression avec Y et sans X, puis d'en faire une autre sans Y et avec X. On choisirais la régression qui a obtenu le plus grand R² (celle qui explique le plus la variance de ta variable à expliquer).
J'espère t'avoir aidé... Bonne chance!
Jonathan- Nombre de messages : 28
Localisation : Montréal
Date d'inscription : 15/10/2007
Re: validation régression linéaire multiple
Ok
Un grand merci, c'est déjà beaucoup plus clair pour moi, parce que je désespérais, j'ai fais plein de recheches sur le net mais ils expliquent à chaque fois comment détecter les problèmes : hétéroscédasticité... mais jamais comment les résoudre...
Enfin quelqu'un qui me fournit des solutions pratiques ! je vais essayé de mettre tout ça en application... (je fais mon mémoire)
Tant que j'y suis, j'ai une autre petite question, pour les tests statistiques, est-ce que tu pense qu'il vaut mieux essayer de transformer mes données (environ 50 observations) en données "normales" par le théorème limite centrale que tu site ci-dessus et puis de faire une ANOVA ou alors de faire des test non-paramètriques du genre Kruskal-Wallis ?
Encore merci pour ton aide
Un grand merci, c'est déjà beaucoup plus clair pour moi, parce que je désespérais, j'ai fais plein de recheches sur le net mais ils expliquent à chaque fois comment détecter les problèmes : hétéroscédasticité... mais jamais comment les résoudre...
Enfin quelqu'un qui me fournit des solutions pratiques ! je vais essayé de mettre tout ça en application... (je fais mon mémoire)
Tant que j'y suis, j'ai une autre petite question, pour les tests statistiques, est-ce que tu pense qu'il vaut mieux essayer de transformer mes données (environ 50 observations) en données "normales" par le théorème limite centrale que tu site ci-dessus et puis de faire une ANOVA ou alors de faire des test non-paramètriques du genre Kruskal-Wallis ?
Encore merci pour ton aide
lucius arthurius- Nombre de messages : 19
Age : 40
Localisation : Bruxelles
Date d'inscription : 12/02/2008
Re: validation régression linéaire multiple
En fait, si je me fie aux cours que j'ai eu à ce propos, on nous disait toujours de procéder ainsi avant de faire une ANOVA:
1) Vérifier les graphiques des résidus pour voir s'ils sont distribués normalement avec variances égales et tester l'égalité des variances si cela n'est pas clair.
Si l'un ou l'autre de ces 2 graphiques ne sont pas satisfaisants, tu essaie les tranformations 1/X , racine(X) ou log(X) (si tu as des données négatives tu peux essayer log(X + a) de façons à ce que tu n'ais pas le log d'un négatif)
Et en passant, il ne faut pas trop être sévère sur la normalité de tes résidus. L'ANOVA est assez robuste à la non-normalité, pourvu que ton N soit assez grand et que ton graphique ne soit pas exagérément éloigné d'une normale.
Si rien ne fonctionne, tu commences à penser aux tests non-paramétriques.
2) Si l'étape 1 a finalement fonctionné, tu commences ton analyse ANOVA. En sachant qu'il y a des variables corrélées, tu essaies d'avoir un modèle réduit qui n'aura plus de corrélations tout en essayant de perdre le moins possible d'explication de la variance (comme j'ai déjà montré plus haut).
3) Tu fais ton analyse avec ton modèle réduit.
Voilà, c'est tout ce qu'il y a à faire (du moins, c'est ce qu'on nous a toujours appris et c'est ce que j'ai toujours fais...)
1) Vérifier les graphiques des résidus pour voir s'ils sont distribués normalement avec variances égales et tester l'égalité des variances si cela n'est pas clair.
Si l'un ou l'autre de ces 2 graphiques ne sont pas satisfaisants, tu essaie les tranformations 1/X , racine(X) ou log(X) (si tu as des données négatives tu peux essayer log(X + a) de façons à ce que tu n'ais pas le log d'un négatif)
Et en passant, il ne faut pas trop être sévère sur la normalité de tes résidus. L'ANOVA est assez robuste à la non-normalité, pourvu que ton N soit assez grand et que ton graphique ne soit pas exagérément éloigné d'une normale.
Si rien ne fonctionne, tu commences à penser aux tests non-paramétriques.
2) Si l'étape 1 a finalement fonctionné, tu commences ton analyse ANOVA. En sachant qu'il y a des variables corrélées, tu essaies d'avoir un modèle réduit qui n'aura plus de corrélations tout en essayant de perdre le moins possible d'explication de la variance (comme j'ai déjà montré plus haut).
3) Tu fais ton analyse avec ton modèle réduit.
Voilà, c'est tout ce qu'il y a à faire (du moins, c'est ce qu'on nous a toujours appris et c'est ce que j'ai toujours fais...)
Jonathan- Nombre de messages : 28
Localisation : Montréal
Date d'inscription : 15/10/2007
Re: validation régression linéaire multiple
Salut Jonathan,
Un grand merci pour toute ces explications,
je pensse avoir réussi à faire ma régression, j'ai copier
ci-dessous un résumé de ma démarche, peux-tu me dire
ce que tu en pensse ? au cas où j'airais laisser une grosse
erreur...?
Merci et bonne soirée !
Les
relations allométriques entre les divers variables de la plante ont été établies
au moyen du logiciel TANAGRA (Rakotomalala R.). D’abord, nous avons choisis
comme variable expliquée la biomasse totale tandis les variables explicatives étaient
constituées par la hauteur et la largeur de la plante en juillet et en
septembre, la surface foliaire et le nombre de feuilles.
Le
premier inconvénient réside dans le fait que les données concernant la surface
foliaire et le nombre de feuilles ainsi que celles concernant la biomasse ne suivent
pas une distribution normale, il faudra donc effectuer une transformation. Ces
données suivent en réalitée une distribution contagieuse (variance
proportionnel au carré de la moyenne), nous effecturons par conséquent une
transformation logarithmique (Tableau 10) afin de les rapprochées d’une loi normale (Bartlett,
1947).
Tableau 10 : Transformations
des variables
Remarquons
que par ces transformations, nous résolvons également les problèmes d’hétéroscédasticité
que présentaient ces variables. En effet, nous pouvons vérifier cela graphiquement
(répartition aléatoire des résidus) mais aussi par calcul, puisque pour
respecter la condition d’homoscédasticité, il faut que l’espérance du carré des
résidus soit égale à la variance de ces résidus, ce qui est bien le cas. Nous
pouvons également affirmé que le modèle est bien spécifié puisque la moyenne
des résidus est très proche de 0.
Ensuite,
afin de ne pas fausser les résultats de la régression, il convient de repérer les
points aberrants et influents (outliers). Ces points sont détectés par le test
des distances de Cook qui mesure l’effet de l’observation i sur la prédiction des valeurs de la variable endogène. On à donc supprimé
les variables qui présentaient une distance de Cook importante.
Enfin,
il faut s’assuré de la non-colinéarité des variables c’est-à-dire qu’il n’y ai
pas de corrélation entre les variables explicatives. Nous avons donc effectué
les corrélations croisées entre toutes les variables explicatives et il s’est
avéré que la plupart étaient fortement corrélées entre elles.
Pour pallier
à ce problème, nous avons effectué une première régression avec toutes les variables
explicatives. Le résultat s’est avéré très bon mais essentiellement deux
variables se démarquent avec des p-valeurs significative, à savoir la hauteur
en septembre et le logarithme de la surface foliaire. Or ces deux variables
étaient assez peu corrélées entre elles par rapport aux autre (R² = 0,66). C’est
pourquoi nous avons recommencé la régression en ne conservant que ces deux
variables. Le résultat finalement obtenu s’est avérer excellent puisque 93 % (R²)
de la variance de l’endogène est expliquée par le modèle (F=150.01, d.l.l = 24
, p-valeur = 0). L’équation finale de cette régression ce présente comme-suit (Équation 1):
Équation 1 :
Régression sur I. noli-tangere.
log(Btot + 1) =
0,7589 . log (Sf) + 0,0159 . Hs – 1,7145
Avec Btot
la Biomasse totale, Sf la surface foliaire et Hs la hauteur de la plante en
septembre. La p-valeur de chacune des variables explicatives ainsi que leur
coefficient est résumé dans le Tableau 11.
Tableau 11 :
Analyse des coefficients.
Un grand merci pour toute ces explications,
je pensse avoir réussi à faire ma régression, j'ai copier
ci-dessous un résumé de ma démarche, peux-tu me dire
ce que tu en pensse ? au cas où j'airais laisser une grosse
erreur...?
Merci et bonne soirée !
Les
relations allométriques entre les divers variables de la plante ont été établies
au moyen du logiciel TANAGRA (Rakotomalala R.). D’abord, nous avons choisis
comme variable expliquée la biomasse totale tandis les variables explicatives étaient
constituées par la hauteur et la largeur de la plante en juillet et en
septembre, la surface foliaire et le nombre de feuilles.
Le
premier inconvénient réside dans le fait que les données concernant la surface
foliaire et le nombre de feuilles ainsi que celles concernant la biomasse ne suivent
pas une distribution normale, il faudra donc effectuer une transformation. Ces
données suivent en réalitée une distribution contagieuse (variance
proportionnel au carré de la moyenne), nous effecturons par conséquent une
transformation logarithmique (Tableau 10) afin de les rapprochées d’une loi normale (Bartlett,
1947).
Tableau 10 : Transformations
des variables
Variables | Surface foliaire | Nombre de feuilles | Biomasse Totale |
Tansformations | Log(x) | Log(x) | Log(x+1) |
Remarquons
que par ces transformations, nous résolvons également les problèmes d’hétéroscédasticité
que présentaient ces variables. En effet, nous pouvons vérifier cela graphiquement
(répartition aléatoire des résidus) mais aussi par calcul, puisque pour
respecter la condition d’homoscédasticité, il faut que l’espérance du carré des
résidus soit égale à la variance de ces résidus, ce qui est bien le cas. Nous
pouvons également affirmé que le modèle est bien spécifié puisque la moyenne
des résidus est très proche de 0.
Ensuite,
afin de ne pas fausser les résultats de la régression, il convient de repérer les
points aberrants et influents (outliers). Ces points sont détectés par le test
des distances de Cook qui mesure l’effet de l’observation i sur la prédiction des valeurs de la variable endogène. On à donc supprimé
les variables qui présentaient une distance de Cook importante.
Enfin,
il faut s’assuré de la non-colinéarité des variables c’est-à-dire qu’il n’y ai
pas de corrélation entre les variables explicatives. Nous avons donc effectué
les corrélations croisées entre toutes les variables explicatives et il s’est
avéré que la plupart étaient fortement corrélées entre elles.
Pour pallier
à ce problème, nous avons effectué une première régression avec toutes les variables
explicatives. Le résultat s’est avéré très bon mais essentiellement deux
variables se démarquent avec des p-valeurs significative, à savoir la hauteur
en septembre et le logarithme de la surface foliaire. Or ces deux variables
étaient assez peu corrélées entre elles par rapport aux autre (R² = 0,66). C’est
pourquoi nous avons recommencé la régression en ne conservant que ces deux
variables. Le résultat finalement obtenu s’est avérer excellent puisque 93 % (R²)
de la variance de l’endogène est expliquée par le modèle (F=150.01, d.l.l = 24
, p-valeur = 0). L’équation finale de cette régression ce présente comme-suit (Équation 1):
Équation 1 :
Régression sur I. noli-tangere.
log(Btot + 1) =
0,7589 . log (Sf) + 0,0159 . Hs – 1,7145
Avec Btot
la Biomasse totale, Sf la surface foliaire et Hs la hauteur de la plante en
septembre. La p-valeur de chacune des variables explicatives ainsi que leur
coefficient est résumé dans le Tableau 11.
Tableau 11 :
Analyse des coefficients.
Variable | Coefficient | p-valeur |
Constante | -1,714592 | 0,000001 |
Hauteur en septembre | 0,015970 | 0,000013 |
log(Surface foliaire) | 0,758955 | 0,000052 |
lucius arthurius- Nombre de messages : 19
Age : 40
Localisation : Bruxelles
Date d'inscription : 12/02/2008
Re: validation régression linéaire multiple
Selon moi, tout à l'air correcte. Bien sûr, en théorie, il ne faudrait pas qu'il y ait de corrélation dans ton modèle...mais on s'apperçoit très vite que cela n'arrive presque jamais en pratique. Donc, tout ce qu'on peut faire, c'est la réduire au maximum (comme tu as fait).
Mais j'aimerais que quelqu'un d'autre aussi confirme pour plus de sureté.
Mais j'aimerais que quelqu'un d'autre aussi confirme pour plus de sureté.
Jonathan- Nombre de messages : 28
Localisation : Montréal
Date d'inscription : 15/10/2007
Re: validation régression linéaire multiple
Il manque quelques détails que je regarderai aussi si j'étais toi. D'abord la normalité des résidus tel qu'il te l'a déjà été conseillé est une information relativement importante. Concernant la colinéarité entre variable une des possibilités pour "étayer" le choix de ces deux variables peut-être une stepwise (regression pas à pas) qui va sélectionner la combinaision de variables suivant le critère de AIC. Une autre possibilité pour le choix des variables est de s'appuyer sur de la littérature qui te dit que ces deux variables sont importantes pour ce que tu mesures. Pour les points leviers tu peux aussi regarder la diagonale de la matrice chapeau, ou encore fait le graphique des résidus standardisés en fonction des valeurs de la diagonale de la matrice chapeau. Cela permet de voir si tu n'as pas des valeurs trop influentes dans ton modèle.
Micros
Micros
Invité- Invité
Re: validation régression linéaire multiple
OK merci pour ces infos complémentaire, je vais essayer
de vérifier tout ça et je redis quoi...
merci
de vérifier tout ça et je redis quoi...
merci
lucius arthurius- Nombre de messages : 19
Age : 40
Localisation : Bruxelles
Date d'inscription : 12/02/2008
Re: validation régression linéaire multiple
C'est quoi la matrice chapeau ?
Moi j'ai la matrice des paramétres espimé B,
la matrice de l'intervalle de confiance de ces paramétres
la matrice des résidus et de l'internale de confiance de ces
résidus et les statistique : R², F, p-val
Merci
Moi j'ai la matrice des paramétres espimé B,
la matrice de l'intervalle de confiance de ces paramétres
la matrice des résidus et de l'internale de confiance de ces
résidus et les statistique : R², F, p-val
Merci
lucius arthurius- Nombre de messages : 19
Age : 40
Localisation : Bruxelles
Date d'inscription : 12/02/2008
Re: validation régression linéaire multiple
Ah oui je viens de comprendre le truc de la matrice chapeau...
mais les résidus stadardisé c'est bien les résidus divisé par la variance des résidus...?
Une tout autre question : si j'ai maintenant mes deux droite de régression, je sais qu'il y a moyen de comparer les coefficient de
régressions de ces deux droites mais j'arrive pas à comprendre comment faire dans la pratique...?
Merci beaucoup
mais les résidus stadardisé c'est bien les résidus divisé par la variance des résidus...?
Une tout autre question : si j'ai maintenant mes deux droite de régression, je sais qu'il y a moyen de comparer les coefficient de
régressions de ces deux droites mais j'arrive pas à comprendre comment faire dans la pratique...?
Merci beaucoup
lucius arthurius- Nombre de messages : 19
Age : 40
Localisation : Bruxelles
Date d'inscription : 12/02/2008
Re: validation régression linéaire multiple
Pour ce qui est des coefficients de regression je pense que sur le net tu trouveras tout les tests associés. Pour le reste tout ce que je t'ai proposé de regarder tu peux le faire très facilement avec le logiciel R. Je ne sais pas lequel tu utilises mais avec R toutes les fonctions pour regarder ces différents paramètres existent. Par exemple une fois ta régression de faite tu lui fais afficher les graphiques associés et le dernier graph est celui des residus standardisés en fonction des effets leviers.
micros
micros
Invité- Invité
Re: validation régression linéaire multiple
Ok
Merci beaucoup pour toute ces infos et pour ton aide !
Merci beaucoup pour toute ces infos et pour ton aide !
lucius arthurius- Nombre de messages : 19
Age : 40
Localisation : Bruxelles
Date d'inscription : 12/02/2008
Sujets similaires
» Régression linéaire multiple ?
» Régression linéaire multiple
» Régression linéaire et multiple
» Regression lineaire multiple
» Régression linéaire multiple
» Régression linéaire multiple
» Régression linéaire et multiple
» Regression lineaire multiple
» Régression linéaire multiple
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum