Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Transformation: normalité et linéarité
4 participants
Page 1 sur 1
Transformation: normalité et linéarité
Bonjour,
J’ai une question concernant les transformations de variables indépendantes lors de la réalisation d’une régression linéaire. Je viens de compléter la lecture d’un texte sur les régressions linéaires, et il est fait mention des possibilités de transformation de variables dépendantes, et ce, dans deux contextes: 1) pour corriger un problème de normalité de la variable indépendante (pour diminuer certains problèmes potentiels), et 2) lors qu’il y a une relation non-linéaire entre une variable indépendante et une variable dépendante.
1) Dans le livre, il est mentionné la possibilité d’utiliser une «BC power transformation», qui va nous indiquer quelle transformations sont nécessaires. Par exemple, il peut s’agir de mettre au carré certaines variables, ou encore de prendre la racine carrée, ou même de prendre le log d’une variable. Est-ce qu’il faut conserver la variable originale pour les analyses statistiques? Ma compréhension est que, dans ce contexte, il ne faut pas conserver la variable originale pour les analyses statistiques, mais cela n’est pas clairement mentionné dans le livre.
2) Je sais que si l’on met une variable au carré pour modéliser une relation non-linéaire, on doit maintenir la variable originale dans les analyses statistiques. Dans certains contextes, le livre mentionne qu’il est également possible d’appliquer une transformation logarithmique, ou encore une racine carré, afin de modéliser correctement une relation qui n’est pas linéaire. Dans ce contexte, doit-on également conserver les variables originales dans le modèle? Encore une fois, cela n'est pas clairement indiqué.
Merci!
Tux
J’ai une question concernant les transformations de variables indépendantes lors de la réalisation d’une régression linéaire. Je viens de compléter la lecture d’un texte sur les régressions linéaires, et il est fait mention des possibilités de transformation de variables dépendantes, et ce, dans deux contextes: 1) pour corriger un problème de normalité de la variable indépendante (pour diminuer certains problèmes potentiels), et 2) lors qu’il y a une relation non-linéaire entre une variable indépendante et une variable dépendante.
1) Dans le livre, il est mentionné la possibilité d’utiliser une «BC power transformation», qui va nous indiquer quelle transformations sont nécessaires. Par exemple, il peut s’agir de mettre au carré certaines variables, ou encore de prendre la racine carrée, ou même de prendre le log d’une variable. Est-ce qu’il faut conserver la variable originale pour les analyses statistiques? Ma compréhension est que, dans ce contexte, il ne faut pas conserver la variable originale pour les analyses statistiques, mais cela n’est pas clairement mentionné dans le livre.
2) Je sais que si l’on met une variable au carré pour modéliser une relation non-linéaire, on doit maintenir la variable originale dans les analyses statistiques. Dans certains contextes, le livre mentionne qu’il est également possible d’appliquer une transformation logarithmique, ou encore une racine carré, afin de modéliser correctement une relation qui n’est pas linéaire. Dans ce contexte, doit-on également conserver les variables originales dans le modèle? Encore une fois, cela n'est pas clairement indiqué.
Merci!
Tux
Tux- Nombre de messages : 3
Date d'inscription : 16/06/2016
Re: Transformation: normalité et linéarité
Votre question n'est pas claire. Dans tous les cas, il s'agit éventuellement de transformer la variable dépendante, pas la ou les variables indépendante(s). Votre post est ambigu à cet égard.
Et oui, il faut prendre la variable transformée dans les calculs, sans quoi ca ne sert à rien de transformer.
Oui bien je n'ai pas compris votre problème.
HTH, Eric.
Et oui, il faut prendre la variable transformée dans les calculs, sans quoi ca ne sert à rien de transformer.
Oui bien je n'ai pas compris votre problème.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Transformation: normalité et linéarité
Bonjour,
si je comprends bien ça rejoint la question que j'ai posté ici il y a quelques semaines :
https://statistiques.forumpro.fr/t6889-regression-et-colinearite
Niaboc
si je comprends bien ça rejoint la question que j'ai posté ici il y a quelques semaines :
https://statistiques.forumpro.fr/t6889-regression-et-colinearite
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Transformation: normalité et linéarité
Merci pour vos réponses.
Pour la linéarité: Oui, le lien mentionné par niaboc répond à ma question! Je ne savais pas pourquoi on avait Y = X + X^2, mais pas Y = X + ln(x) et Y = X + X^(1/2).
Pour la normalité: Je vais donner un exemple congrès. Dans Kline (2016), il est mentionné que dans certains cas de kurtosis (aplatissement) négatifs, il est possible de transformer une variable continue X en X^3. Dans ce contexte, est-ce que l’on va avoir : Y = X + X^2 + X^3, ou simplement Y = X^3?
Merci!
Tux
Pour la linéarité: Oui, le lien mentionné par niaboc répond à ma question! Je ne savais pas pourquoi on avait Y = X + X^2, mais pas Y = X + ln(x) et Y = X + X^(1/2).
Pour la normalité: Je vais donner un exemple congrès. Dans Kline (2016), il est mentionné que dans certains cas de kurtosis (aplatissement) négatifs, il est possible de transformer une variable continue X en X^3. Dans ce contexte, est-ce que l’on va avoir : Y = X + X^2 + X^3, ou simplement Y = X^3?
Merci!
Tux
Tux- Nombre de messages : 3
Date d'inscription : 16/06/2016
Re: Transformation: normalité et linéarité
Tux a écrit:
Pour la linéarité: Oui, le lien mentionné par niaboc répond à ma question! Je ne savais pas pourquoi on avait Y = X + X^2, mais pas Y = X + ln(x) et Y = X + X^(1/2).
Et tu en as conclu quoi de ton côté?
Moi mes conclusions reviennent à : on a Y = X + X^2, mais pas Y = X + ln(x) et Y = X + X^(1/2) parce que "c'est comme ça" mais il n'y a aucune réelle justification mathématique.
Alors qu'au final, la racine par exemple, n'est qu'une puissance 1/2, alors pourquoi on aurait pas X + X^(1/2) de la même manière que X + X^2.
Au final dans mes modèles j'ai gardé les X à chaque fois.
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Transformation: normalité et linéarité
La régression polynomiale répond à un modèle linéaire car les polynômes à valeurs réelles forment un espace vectoriel dont la base canonique est constituée des monômes X^n. Cette propriété sert aussi dans le calcul des contrastes pour effectuer une analyse de tendance sur un facteur ordonné dans le cadre d'une Anova. Par contre, il n'existe aucun espace vectoriel (qui est une structure linéaire) dont deux des vecteurs de base sont X et ln( X) ou X et X^(1/2).
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Transformation: normalité et linéarité
Merci Florent pour ces clarifications!
Tux
Tux
Tux- Nombre de messages : 3
Date d'inscription : 16/06/2016
Re: Transformation: normalité et linéarité
Florent Aubry a écrit:La régression polynomiale répond à un modèle linéaire car les polynômes à valeurs réelles forment un espace vectoriel dont la base canonique est constituée des monômes X^n. Cette propriété sert aussi dans le calcul des contrastes pour effectuer une analyse de tendance sur un facteur ordonné dans le cadre d'une Anova. Par contre, il n'existe aucun espace vectoriel (qui est une structure linéaire) dont deux des vecteurs de base sont X et ln( X) ou X et X^(1/2).
Pour moi c'est pas clair... les monômes forment l'espace vectoriel des polynômes, ok.
Mais qu'est ce qui t'empêcherait d'avoir un espace vectoriel à l'aide de x et ln(x) par exemple? ou encore X^2, X et X^(1/3), x^(1/3), X^(1/4), etc....
Ca voudrait dire que si ton phénomène Y est réellement de la forme : Y= 3*X + 2.5 * Ln(X) tu ne pourrais jamais le modéliser??
OU encore Y = 6*X +15* x^(1/2)?
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Transformation: normalité et linéarité
Le fait que x et ln( x) ne forment pas une base d'un espace vectoriel.Mais qu'est ce qui t'empêcherait d'avoir un espace vectoriel à l'aide de x et ln(x) par exemple?
Cela dépend de ce que tu appelles "modéliser". Si c'est en utilisant un modèle de régression linéaire, alors la réponse est que le résultat de l'ajustement n'est pas correct. Par contre, tu peux toujours utiliser des modèles de régression non linéaire qui ne sont pas basés sur les mêmes hypothèses que le modèle linéaire.Ca voudrait dire que si ton phénomène Y est réellement de la forme : Y= 3*X + 2.5 * Ln(X) tu ne pourrais jamais le modéliser??
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Re: Transformation: normalité et linéarité
Florent Aubry a écrit:
Le fait que x et ln( x) ne forment pas une base d'un espace vectoriel.
J'ai pas fait ça depuis longtemps, mais qu'est ce qui pourrait t'empêcher de construire un sous espace vectoriel de fonction ayant pour base x et ln(x)? Si tu pouvais me l'expliquer pour que je (re)comprennes...
Florent Aubry a écrit:Si c'est en utilisant un modèle de régression linéaire, alors la réponse est que le résultat de l'ajustement n'est pas correct.
MMhh... idem, peux-tu expliquer?
Si je te dis que mon phénomène Y est fonction de X via : 3*X+2*racine(x)... tu as bien un régression linéaire 'classique' sur les deux variables x et racine(x).En quoi l'ajustement ne serait pas correct?
Je ne comprends pas la différence que tu aurais avec 3*X +2 * X²... ça reste de la même forme : X+X^p, avec p € R.
Merci d'avance
Niaboc
niaboc- Nombre de messages : 1001
Age : 37
Localisation : Paris
Date d'inscription : 05/05/2008
Re: Transformation: normalité et linéarité
Réponse rapide, sans trop de considérations théoriques :
Si V est un espace vectoriel sur R l'ensemble des réels, alors il est muni de deux lois, une loi additive interne muni d'un élément neutre, et une loi multiplicative externe telle que pour tout r différent de zéro de R, si v appartient à V, alors rv aussi.
b1 e b2 sont deux élément de la base de V si pour tout r1 et r2, alors b1 r1 + b2 r2 = e, alors b1 = b2 = 0.
Si b1 et b2 sont des fonctions sur R, alors on doit rajouter la condition pour toutes valeurs x de R, r1 b1( x) + r2 b2( x) = 0 implique r1 = r2 = 0, sauf éventuellement pour un ensemble de valeurs de x (noyau) telles que pour tout x appartenant à K, b1( x) = b( x) = 0. C'est-à-dire que ces valeurs sont obligatoirement indépendantes de r1 et r2.
De ce fait x et ln( x) peuvent-ils former une base ?
r1 x + r2 ln( x) = 0 n'est défini que sur R+ et est vrai pour r1 = r2 = 0 et pour une valeur de x non nulle variable puisque dépendante de r1 et r2. On viole donc ici les hypothèses de base pour la construction d'un espace vectoriel.
La régression 'classique', c'est-à-dire celle sous-jacente aux modèles linéaires, est basée sur les espaces vectoriels, c'est la raison pour laquelle on peut utiliser des splines ou une variable Y, transformation de X et log( X) par exemple, qui servira de base. Si la régression est multiple ou factorielle, on est dans le cas de l'algèbre tensorielle.
Si V est un espace vectoriel sur R l'ensemble des réels, alors il est muni de deux lois, une loi additive interne muni d'un élément neutre, et une loi multiplicative externe telle que pour tout r différent de zéro de R, si v appartient à V, alors rv aussi.
b1 e b2 sont deux élément de la base de V si pour tout r1 et r2, alors b1 r1 + b2 r2 = e, alors b1 = b2 = 0.
Si b1 et b2 sont des fonctions sur R, alors on doit rajouter la condition pour toutes valeurs x de R, r1 b1( x) + r2 b2( x) = 0 implique r1 = r2 = 0, sauf éventuellement pour un ensemble de valeurs de x (noyau) telles que pour tout x appartenant à K, b1( x) = b( x) = 0. C'est-à-dire que ces valeurs sont obligatoirement indépendantes de r1 et r2.
De ce fait x et ln( x) peuvent-ils former une base ?
r1 x + r2 ln( x) = 0 n'est défini que sur R+ et est vrai pour r1 = r2 = 0 et pour une valeur de x non nulle variable puisque dépendante de r1 et r2. On viole donc ici les hypothèses de base pour la construction d'un espace vectoriel.
La régression 'classique', c'est-à-dire celle sous-jacente aux modèles linéaires, est basée sur les espaces vectoriels, c'est la raison pour laquelle on peut utiliser des splines ou une variable Y, transformation de X et log( X) par exemple, qui servira de base. Si la régression est multiple ou factorielle, on est dans le cas de l'algèbre tensorielle.
L'espace des polynômes est un espace vectoriel, on peut donc utiliser l'approche 'classique' tandis que {X, et racine( X)} ne sont pas des fonctions génératrices d'un espace vectoriel. Leur utilisation ne peut pas entrer dans le cadre du modèle linéaire qui suppose qu'on régresse sur des fonctions génératrices de l'espace vectoriel/tensoriel.Je ne comprends pas la différence que tu aurais avec 3*X +2 * X²... ça reste de la même forme : X+X^p, avec p € R.
Florent Aubry- Nombre de messages : 251
Date d'inscription : 02/11/2015
Sujets similaires
» test de linéarité
» Verifier log linéarité modéle de cox
» test de linéarité en régression logistique
» Linéarité: variables quantitatives avec valeurs nulles?
» Transformation de BOX-COX
» Verifier log linéarité modéle de cox
» test de linéarité en régression logistique
» Linéarité: variables quantitatives avec valeurs nulles?
» Transformation de BOX-COX
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum