Transformation: normalité et linéarité

par Tux Jeu 16 Juin 2016 - 2:09

Bonjour,

J’ai une question concernant les transformations de variables indépendantes lors de la réalisation d’une régression linéaire. Je viens de compléter la lecture d’un texte sur les régressions linéaires, et il est fait mention des possibilités de transformation de variables dépendantes, et ce, dans deux contextes: 1) pour corriger un problème de normalité de la variable indépendante (pour diminuer certains problèmes potentiels), et 2) lors qu’il y a une relation non-linéaire entre une variable indépendante et une variable dépendante.

1) Dans le livre, il est mentionné la possibilité d’utiliser une «BC power transformation», qui va nous indiquer quelle transformations sont nécessaires. Par exemple, il peut s’agir de mettre au carré certaines variables, ou encore de prendre la racine carrée, ou même de prendre le log d’une variable. Est-ce qu’il faut conserver la variable originale pour les analyses statistiques? Ma compréhension est que, dans ce contexte, il ne faut pas conserver la variable originale pour les analyses statistiques, mais cela n’est pas clairement mentionné dans le livre.

2) Je sais que si l’on met une variable au carré pour modéliser une relation non-linéaire, on doit maintenir la variable originale dans les analyses statistiques. Dans certains contextes, le livre mentionne qu’il est également possible d’appliquer une transformation logarithmique, ou encore une racine carré, afin de modéliser correctement une relation qui n’est pas linéaire. Dans ce contexte, doit-on également conserver les variables originales dans le modèle? Encore une fois, cela n'est pas clairement indiqué.

Merci!

Tux

par Eric Wajnberg Jeu 16 Juin 2016 - 5:00

Votre question n'est pas claire. Dans tous les cas, il s'agit éventuellement de transformer la variable dépendante, pas la ou les variables indépendante(s). Votre post est ambigu à cet égard.

Et oui, il faut prendre la variable transformée dans les calculs, sans quoi ca ne sert à rien de transformer.

Oui bien je n'ai pas compris votre problème.

HTH, Eric.

par niaboc Jeu 16 Juin 2016 - 8:04

Bonjour,

si je comprends bien ça rejoint la question que j'ai posté ici il y a quelques semaines :

https://statistiques.forumpro.fr/t6889-regression-et-colinearite

Niaboc

par Tux Jeu 16 Juin 2016 - 11:03

Merci pour vos réponses.

Pour la linéarité: Oui, le lien mentionné par niaboc répond à ma question! Je ne savais pas pourquoi on avait Y = X + X^2, mais pas Y = X + ln(x) et Y = X + X^(1/2).

Pour la normalité: Je vais donner un exemple congrès. Dans Kline (2016), il est mentionné que dans certains cas de kurtosis (aplatissement) négatifs, il est possible de transformer une variable continue X en X^3. Dans ce contexte, est-ce que l’on va avoir : Y = X + X^2 + X^3, ou simplement Y = X^3?

Merci!

Tux

par niaboc Jeu 16 Juin 2016 - 12:17

Tux a écrit:
Pour la linéarité: Oui, le lien mentionné par niaboc répond à ma question! Je ne savais pas pourquoi on avait Y = X + X^2, mais pas Y = X + ln(x) et Y = X + X^(1/2).

Et tu en as conclu quoi de ton côté?
Moi mes conclusions reviennent à : on a Y = X + X^2, mais pas Y = X + ln(x) et Y = X + X^(1/2) parce que "c'est comme ça" mais il n'y a aucune réelle justification mathématique.
Alors qu'au final, la racine par exemple, n'est qu'une puissance 1/2, alors pourquoi on aurait pas X + X^(1/2) de la même manière que X + X^2.
Au final dans mes modèles j'ai gardé les X à chaque fois.

par Florent Aubry Jeu 16 Juin 2016 - 12:37

La régression polynomiale répond à un modèle linéaire car les polynômes à valeurs réelles forment un espace vectoriel dont la base canonique est constituée des monômes X^n. Cette propriété sert aussi dans le calcul des contrastes pour effectuer une analyse de tendance sur un facteur ordonné dans le cadre d'une Anova. Par contre, il n'existe aucun espace vectoriel (qui est une structure linéaire) dont deux des vecteurs de base sont X et ln( X) ou X et X^(1/2).

par Tux Ven 17 Juin 2016 - 1:06

Merci Florent pour ces clarifications!

Tux

par niaboc Ven 17 Juin 2016 - 6:28

Florent Aubry a écrit:La régression polynomiale répond à un modèle linéaire car les polynômes à valeurs réelles forment un espace vectoriel dont la base canonique est constituée des monômes X^n. Cette propriété sert aussi dans le calcul des contrastes pour effectuer une analyse de tendance sur un facteur ordonné dans le cadre d'une Anova. Par contre, il n'existe aucun espace vectoriel (qui est une structure linéaire) dont deux des vecteurs de base sont X et ln( X) ou X et X^(1/2).

Pour moi c'est pas clair... les monômes forment l'espace vectoriel des polynômes, ok.
Mais qu'est ce qui t'empêcherait d'avoir un espace vectoriel à l'aide de x et ln(x) par exemple? ou encore X^2, X et X^(1/3), x^(1/3), X^(1/4), etc....

Ca voudrait dire que si ton phénomène Y est réellement de la forme : Y= 3*X + 2.5 * Ln(X) tu ne pourrais jamais le modéliser??
OU encore Y = 6*X +15* x^(1/2)?

par Florent Aubry Ven 17 Juin 2016 - 7:17

Mais qu'est ce qui t'empêcherait d'avoir un espace vectoriel à l'aide de x et ln(x) par exemple?

Le fait que x et ln( x) ne forment pas une base d'un espace vectoriel.

Ca voudrait dire que si ton phénomène Y est réellement de la forme : Y= 3*X + 2.5 * Ln(X) tu ne pourrais jamais le modéliser??

Cela dépend de ce que tu appelles "modéliser". Si c'est en utilisant un modèle de régression linéaire, alors la réponse est que le résultat de l'ajustement n'est pas correct. Par contre, tu peux toujours utiliser des modèles de régression non linéaire qui ne sont pas basés sur les mêmes hypothèses que le modèle linéaire.

par niaboc Ven 17 Juin 2016 - 8:07

Florent Aubry a écrit:
Le fait que x et ln( x) ne forment pas une base d'un espace vectoriel.

J'ai pas fait ça depuis longtemps, mais qu'est ce qui pourrait t'empêcher de construire un sous espace vectoriel de fonction ayant pour base x et ln(x)? Si tu pouvais me l'expliquer pour que je (re)comprennes...

Florent Aubry a écrit:Si c'est en utilisant un modèle de régression linéaire, alors la réponse est que le résultat de l'ajustement n'est pas correct.

MMhh... idem, peux-tu expliquer?
Si je te dis que mon phénomène Y est fonction de X via : 3*X+2*racine(x)... tu as bien un régression linéaire 'classique' sur les deux variables x et racine(x).En quoi l'ajustement ne serait pas correct?
Je ne comprends pas la différence que tu aurais avec 3*X +2 * X²... ça reste de la même forme : X+X^p, avec p € R.

Merci d'avance

Niaboc

par Florent Aubry Ven 17 Juin 2016 - 9:28

Réponse rapide, sans trop de considérations théoriques :
Si V est un espace vectoriel sur R l'ensemble des réels, alors il est muni de deux lois, une loi additive interne muni d'un élément neutre, et une loi multiplicative externe telle que pour tout r différent de zéro de R, si v appartient à V, alors rv aussi.
b1 e b2 sont deux élément de la base de V si pour tout r1 et r2, alors b1 r1 + b2 r2 = e, alors b1 = b2 = 0.
Si b1 et b2 sont des fonctions sur R, alors on doit rajouter la condition pour toutes valeurs x de R, r1 b1( x) + r2 b2( x) = 0 implique r1 = r2 = 0, sauf éventuellement pour un ensemble de valeurs de x (noyau) telles que pour tout x appartenant à K, b1( x) = b( x) = 0. C'est-à-dire que ces valeurs sont obligatoirement indépendantes de r1 et r2.

De ce fait x et ln( x) peuvent-ils former une base ?
r1 x + r2 ln( x) = 0 n'est défini que sur R+ et est vrai pour r1 = r2 = 0 et pour une valeur de x non nulle variable puisque dépendante de r1 et r2. On viole donc ici les hypothèses de base pour la construction d'un espace vectoriel.

La régression 'classique', c'est-à-dire celle sous-jacente aux modèles linéaires, est basée sur les espaces vectoriels, c'est la raison pour laquelle on peut utiliser des splines ou une variable Y, transformation de X et log( X) par exemple, qui servira de base. Si la régression est multiple ou factorielle, on est dans le cas de l'algèbre tensorielle.

Je ne comprends pas la différence que tu aurais avec 3*X +2 * X²... ça reste de la même forme : X+X^p, avec p € R.

L'espace des polynômes est un espace vectoriel, on peut donc utiliser l'approche 'classique' tandis que {X, et racine( X)} ne sont pas des fonctions génératrices d'un espace vectoriel. Leur utilisation ne peut pas entrer dans le cadre du modèle linéaire qui suppose qu'on régresse sur des fonctions génératrices de l'espace vectoriel/tensoriel.

par Contenu sponsorisé

Transformation: normalité et linéarité

Transformation: normalité et linéarité

Re: Transformation: normalité et linéarité

Re: Transformation: normalité et linéarité

Re: Transformation: normalité et linéarité

Re: Transformation: normalité et linéarité

Re: Transformation: normalité et linéarité

Re: Transformation: normalité et linéarité

Re: Transformation: normalité et linéarité

Re: Transformation: normalité et linéarité

Re: Transformation: normalité et linéarité

Re: Transformation: normalité et linéarité

Re: Transformation: normalité et linéarité