validation régression linéaire multiple

par lucius arthurius Mar 12 Fév 2008 - 15:47

Bonjour,

j'ai quelques problèmes dans ma régression, d'abord mes variables explicatives ne suivent pas une loi normal, certaine présentent une hétéroscédasticité et enfin d'autres sont corrélée entre elles...

je suis un petit peu perdus... quelles solutions me proposez-vous ? comment éliminé l'hétéroscédasticité ? peut-on faire une régression avec des variables non normal ?

Merci beaucoup

Arthurius

par Jonathan Mer 13 Fév 2008 - 21:59

Bonjour,

Je crois qu'idéalement, tes données devraient être normales pour estimer tes bêtas. Mais si ton N est assez grand, je crois que par le théorème limite centrale, tu peux faire le passage à une loi normale sans problème :
(X - E[X]) / (racine(Var[X])) converge en loi vers une N(0,1)

Mais cela fait longtemps que je n'ai pas touché à ça donc, il serait bien que quelqu'un confirme.

Pour les problèmes d'hétéroscédasticité tu pourrais essayer les transformations log(X) ou racine(X) ou encore 1/X et regarder la distribution de tes résidus.

Pour ton problème de corrélation, cela dépend de l'importance de tes variables dans ton modèle. Par exemple, si ta variable X est corrélé avec Y mais que ta variable Y a un bêta qui lui est rattaché qui est près de 0, j'aurais tendance à garder X au lieu de Y. Une autre façon serait de faire une régression avec Y et sans X, puis d'en faire une autre sans Y et avec X. On choisirais la régression qui a obtenu le plus grand R² (celle qui explique le plus la variance de ta variable à expliquer).

J'espère t'avoir aidé... Bonne chance!

par lucius arthurius Jeu 14 Fév 2008 - 12:50

Ok

Un grand merci, c'est déjà beaucoup plus clair pour moi, parce que je désespérais, j'ai fais plein de recheches sur le net mais ils expliquent à chaque fois comment détecter les problèmes : hétéroscédasticité... mais jamais comment les résoudre...
Enfin quelqu'un qui me fournit des solutions pratiques ! je vais essayé de mettre tout ça en application... (je fais mon mémoire)

Tant que j'y suis, j'ai une autre petite question, pour les tests statistiques, est-ce que tu pense qu'il vaut mieux essayer de transformer mes données (environ 50 observations) en données "normales" par le théorème limite centrale que tu site ci-dessus et puis de faire une ANOVA ou alors de faire des test non-paramètriques du genre Kruskal-Wallis ?

Encore merci pour ton aide

par Jonathan Jeu 14 Fév 2008 - 21:53

En fait, si je me fie aux cours que j'ai eu à ce propos, on nous disait toujours de procéder ainsi avant de faire une ANOVA:

1) Vérifier les graphiques des résidus pour voir s'ils sont distribués normalement avec variances égales et tester l'égalité des variances si cela n'est pas clair.

Si l'un ou l'autre de ces 2 graphiques ne sont pas satisfaisants, tu essaie les tranformations 1/X , racine(X) ou log(X) (si tu as des données négatives tu peux essayer log(X + a) de façons à ce que tu n'ais pas le log d'un négatif)

Et en passant, il ne faut pas trop être sévère sur la normalité de tes résidus. L'ANOVA est assez robuste à la non-normalité, pourvu que ton N soit assez grand et que ton graphique ne soit pas exagérément éloigné d'une normale.

Si rien ne fonctionne, tu commences à penser aux tests non-paramétriques.

2) Si l'étape 1 a finalement fonctionné, tu commences ton analyse ANOVA. En sachant qu'il y a des variables corrélées, tu essaies d'avoir un modèle réduit qui n'aura plus de corrélations tout en essayant de perdre le moins possible d'explication de la variance (comme j'ai déjà montré plus haut).

3) Tu fais ton analyse avec ton modèle réduit.

Voilà, c'est tout ce qu'il y a à faire (du moins, c'est ce qu'on nous a toujours appris et c'est ce que j'ai toujours fais...)

par lucius arthurius Ven 15 Fév 2008 - 15:59

Salut Jonathan,

Un grand merci pour toute ces explications,
je pensse avoir réussi à faire ma régression, j'ai copier
ci-dessous un résumé de ma démarche, peux-tu me dire
ce que tu en pensse ? au cas où j'airais laisser une grosse
erreur...?

Merci et bonne soirée !

Les
relations allométriques entre les divers variables de la plante ont été établies
au moyen du logiciel TANAGRA (Rakotomalala R.). D’abord, nous avons choisis
comme variable expliquée la biomasse totale tandis les variables explicatives étaient
constituées par la hauteur et la largeur de la plante en juillet et en
septembre, la surface foliaire et le nombre de feuilles.

Le
premier inconvénient réside dans le fait que les données concernant la surface
foliaire et le nombre de feuilles ainsi que celles concernant la biomasse ne suivent
pas une distribution normale, il faudra donc effectuer une transformation. Ces
données suivent en réalitée une distribution contagieuse (variance
proportionnel au carré de la moyenne), nous effecturons par conséquent une
transformation logarithmique (Tableau 10) afin de les rapprochées d’une loi normale (Bartlett,
1947).

Tableau 10 : Transformations
des variables

Variables	Surface foliaire	Nombre de feuilles	Biomasse Totale
Tansformations	Log(x)	Log(x)	Log(x+1)

Remarquons
que par ces transformations, nous résolvons également les problèmes d’hétéroscédasticité
que présentaient ces variables. En effet, nous pouvons vérifier cela graphiquement
(répartition aléatoire des résidus) mais aussi par calcul, puisque pour
respecter la condition d’homoscédasticité, il faut que l’espérance du carré des
résidus soit égale à la variance de ces résidus, ce qui est bien le cas. Nous
pouvons également affirmé que le modèle est bien spécifié puisque la moyenne
des résidus est très proche de 0.

Ensuite,
afin de ne pas fausser les résultats de la régression, il convient de repérer les
points aberrants et influents (outliers). Ces points sont détectés par le test
des distances de Cook qui mesure l’effet de l’observation i sur la prédiction des valeurs de la variable endogène. On à donc supprimé
les variables qui présentaient une distance de Cook importante.

Enfin,
il faut s’assuré de la non-colinéarité des variables c’est-à-dire qu’il n’y ai
pas de corrélation entre les variables explicatives. Nous avons donc effectué
les corrélations croisées entre toutes les variables explicatives et il s’est
avéré que la plupart étaient fortement corrélées entre elles.

Pour pallier
à ce problème, nous avons effectué une première régression avec toutes les variables
explicatives. Le résultat s’est avéré très bon mais essentiellement deux
variables se démarquent avec des p-valeurs significative, à savoir la hauteur
en septembre et le logarithme de la surface foliaire. Or ces deux variables
étaient assez peu corrélées entre elles par rapport aux autre (R² = 0,66). C’est
pourquoi nous avons recommencé la régression en ne conservant que ces deux
variables. Le résultat finalement obtenu s’est avérer excellent puisque 93 % (R²)
de la variance de l’endogène est expliquée par le modèle (F=150.01, d.l.l = 24
, p-valeur = 0). L’équation finale de cette régression ce présente comme-suit (Équation 1):

Équation 1 :
Régression sur I. noli-tangere.

log(Btot + 1) =
0,7589 . log (Sf) + 0,0159 . Hs – 1,7145

Avec Btot
la Biomasse totale, Sf la surface foliaire et Hs la hauteur de la plante en
septembre. La p-valeur de chacune des variables explicatives ainsi que leur
coefficient est résumé dans le Tableau 11.

Tableau 11 :
Analyse des coefficients.

Variable	Coefficient	p-valeur
Constante	-1,714592	0,000001
Hauteur en septembre	0,015970	0,000013
log(Surface foliaire)	0,758955	0,000052

par Jonathan Ven 15 Fév 2008 - 23:05

Selon moi, tout à l'air correcte. Bien sûr, en théorie, il ne faudrait pas qu'il y ait de corrélation dans ton modèle...mais on s'apperçoit très vite que cela n'arrive presque jamais en pratique. Donc, tout ce qu'on peut faire, c'est la réduire au maximum (comme tu as fait).

Mais j'aimerais que quelqu'un d'autre aussi confirme pour plus de sureté.

par Invité Lun 18 Fév 2008 - 22:18

Il manque quelques détails que je regarderai aussi si j'étais toi. D'abord la normalité des résidus tel qu'il te l'a déjà été conseillé est une information relativement importante. Concernant la colinéarité entre variable une des possibilités pour "étayer" le choix de ces deux variables peut-être une stepwise (regression pas à pas) qui va sélectionner la combinaision de variables suivant le critère de AIC. Une autre possibilité pour le choix des variables est de s'appuyer sur de la littérature qui te dit que ces deux variables sont importantes pour ce que tu mesures. Pour les points leviers tu peux aussi regarder la diagonale de la matrice chapeau, ou encore fait le graphique des résidus standardisés en fonction des valeurs de la diagonale de la matrice chapeau. Cela permet de voir si tu n'as pas des valeurs trop influentes dans ton modèle.

Micros

par lucius arthurius Mar 19 Fév 2008 - 8:45

OK merci pour ces infos complémentaire, je vais essayer
de vérifier tout ça et je redis quoi...

merci

par lucius arthurius Mar 19 Fév 2008 - 20:41

C'est quoi la matrice chapeau ?

Moi j'ai la matrice des paramétres espimé B,
la matrice de l'intervalle de confiance de ces paramétres
la matrice des résidus et de l'internale de confiance de ces
résidus et les statistique : R², F, p-val

Merci

par lucius arthurius Mar 19 Fév 2008 - 21:21

Ah oui je viens de comprendre le truc de la matrice chapeau...

mais les résidus stadardisé c'est bien les résidus divisé par la variance des résidus...?

Une tout autre question : si j'ai maintenant mes deux droite de régression, je sais qu'il y a moyen de comparer les coefficient de
régressions de ces deux droites mais j'arrive pas à comprendre comment faire dans la pratique...?

Merci beaucoup

par Invité Mer 20 Fév 2008 - 8:30

Pour ce qui est des coefficients de regression je pense que sur le net tu trouveras tout les tests associés. Pour le reste tout ce que je t'ai proposé de regarder tu peux le faire très facilement avec le logiciel R. Je ne sais pas lequel tu utilises mais avec R toutes les fonctions pour regarder ces différents paramètres existent. Par exemple une fois ta régression de faite tu lui fais afficher les graphiques associés et le dernier graph est celui des residus standardisés en fonction des effets leviers.

micros

par lucius arthurius Dim 24 Fév 2008 - 10:04

Ok

Merci beaucoup pour toute ces infos et pour ton aide !

par Contenu sponsorisé

validation régression linéaire multiple

validation régression linéaire multiple

Re: validation régression linéaire multiple

Re: validation régression linéaire multiple

Re: validation régression linéaire multiple

Re: validation régression linéaire multiple

Re: validation régression linéaire multiple

Re: validation régression linéaire multiple

Re: validation régression linéaire multiple

Re: validation régression linéaire multiple

Re: validation régression linéaire multiple

Re: validation régression linéaire multiple

Re: validation régression linéaire multiple

Re: validation régression linéaire multiple