Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
[Aide] Corrélation entre variables de différents types...
2 participants
Page 1 sur 1
[Aide] Corrélation entre variables de différents types...
Bonjour à tous,
J'ai un base de données constituée de 10 variables : 9 variable descriptives et 1 variable réponse.
Les 9 variables descriptives sont continues (ex : age, poids, taille), catégorielles ou binaires (ex : sexe)
Ma variable de réponse est binaire (malade/sain)
Je voudrais pouvoir appliquer un (ou plusieurs en fonction du type de la variable descriptive) test statistique qui me dirait si la variable descriptive est corrélée avec la variable de réponse (et son taux de corrélation si possible, mais pas nécessaire...). Mon gros problème étant que la variable réponse est binaire (et contient donc des ex-aequo) ce qui empêche les tests tel que Spearman, Tau de Kendall, ... etc. et les nuages de point ne me sont pas d'un grand secours.
Pouvez-vous me dire quel(s) test(s) est(sont) adapté(s) pour faire ce que je souhaite ?
P.S. : j'utilise statistica et R pour mes calculs.
P.P.S. : bien qu'ayant des notions de statistique, je ne suis pas statisticien.
J'ai un base de données constituée de 10 variables : 9 variable descriptives et 1 variable réponse.
Les 9 variables descriptives sont continues (ex : age, poids, taille), catégorielles ou binaires (ex : sexe)
Ma variable de réponse est binaire (malade/sain)
Je voudrais pouvoir appliquer un (ou plusieurs en fonction du type de la variable descriptive) test statistique qui me dirait si la variable descriptive est corrélée avec la variable de réponse (et son taux de corrélation si possible, mais pas nécessaire...). Mon gros problème étant que la variable réponse est binaire (et contient donc des ex-aequo) ce qui empêche les tests tel que Spearman, Tau de Kendall, ... etc. et les nuages de point ne me sont pas d'un grand secours.
Pouvez-vous me dire quel(s) test(s) est(sont) adapté(s) pour faire ce que je souhaite ?
P.S. : j'utilise statistica et R pour mes calculs.
P.P.S. : bien qu'ayant des notions de statistique, je ne suis pas statisticien.
Tidji- Nombre de messages : 9
Date d'inscription : 31/07/2008
Re: [Aide] Corrélation entre variables de différents types...
Salut,
Je te conseille de t'intéresser à la régression logistique. Très répandue en médecine, tu trouvera beaucoup d'exemple qui ressemble au tien.
Avec R je crois tu peux utiliser la fonction glm()
Je te conseille de t'intéresser à la régression logistique. Très répandue en médecine, tu trouvera beaucoup d'exemple qui ressemble au tien.
Avec R je crois tu peux utiliser la fonction glm()
FS- Nombre de messages : 163
Date d'inscription : 25/04/2008
Re: [Aide] Corrélation entre variables de différents types...
D'après ce que je connais, la régression logistique permet plutôt de créer un modèle par combinaison de variables explicatives. Or moi, je voudrais juste faire un test, par exemple entre ma variable 5 et 10 (réponse) et voir si elles sont corrélées ou indépendantes. Ne peut-on pas, des lors, n'utiliser qu'un test simple plutôt qu'une régression logistique ?
Tidji- Nombre de messages : 9
Date d'inscription : 31/07/2008
Re: [Aide] Corrélation entre variables de différents types...
Oui, la régression logistique permet de faire de la modélisation.
Et donc te dira si la relation entre la variable 5 et 10 est significative.
Après si tu cherche l'équivalent du coefficient de corrélation de pearson pour une variable binaire, ça n'existe pas.
Si tu veux tu peux tester tes variables une à une, dans ce cas la
test de student/anova pour les var quanti, et khi2 pour les quali.
Mais c'est moins fun et ça te dira pas si une variable à une plus grande influence qu'une autre par exemple.
Et donc te dira si la relation entre la variable 5 et 10 est significative.
Après si tu cherche l'équivalent du coefficient de corrélation de pearson pour une variable binaire, ça n'existe pas.
Si tu veux tu peux tester tes variables une à une, dans ce cas la
test de student/anova pour les var quanti, et khi2 pour les quali.
Mais c'est moins fun et ça te dira pas si une variable à une plus grande influence qu'une autre par exemple.
FS- Nombre de messages : 163
Date d'inscription : 25/04/2008
Re: [Aide] Corrélation entre variables de différents types...
Un simple test de Chi² est adapté ? Je pensais pas que je pouvais l'appliqué dans ce cas ci... Qu'à cela ne tienne..
j'ai donc fait ceci (avec R) :
Donc, comme la p-value est plus petite que 5%, je peux dire que OUI ma variable 9 et ma variable de réponse sont bel et bien corrélées et que donc, la variable 9 explique bel et bien (dans une certaine mesure) la variable réponse. Est-ce bien, cela ou quelque chose m'a-t-il échappé ?
>> FS : Ok, j'ai compris... Student sur mes "continues", Khi² sur les autres...
j'ai donc fait ceci (avec R) :
- Code:
> file <- read.csv2("myFile.csv")
> test <- chisq.test(x=file[,9], y=file$Respons, correct=FALSE)
> test
Pearson's Chi-squared test
data: file$Response and file[, 9]
X-squared = 4.3262, df = 1, p-value = 0.03753
Donc, comme la p-value est plus petite que 5%, je peux dire que OUI ma variable 9 et ma variable de réponse sont bel et bien corrélées et que donc, la variable 9 explique bel et bien (dans une certaine mesure) la variable réponse. Est-ce bien, cela ou quelque chose m'a-t-il échappé ?
>> FS : Ok, j'ai compris... Student sur mes "continues", Khi² sur les autres...
Dernière édition par Tidji le Jeu 31 Juil 2008 - 13:38, édité 1 fois
Tidji- Nombre de messages : 9
Date d'inscription : 31/07/2008
Re: [Aide] Corrélation entre variables de différents types...
Un test de chi deux n'est pas adapté. Le test de chi deux te dira si tes variables sont indépendantes ou non. Il ne te dira pas comment se fait ce lien ni si ta variable a 9 modalités expliquent bel et bien la variable réponse. Dans un test de chi deux il n'y as pas d'hypothèses de dissymétrie dans le relation : tu ne cherches pas a savoir si une variable est expliquée par une autre.
Si c'est effectivement ce que tu cherches à savoir alors il te faudra regarder du côté de la régression logisitique comme FS te l'avait suggéré.
Un chi deux se fait ssoit pour regarder si tes données suivent une loi théorique ou pour savoir si des variables sont liées entre elles et dans ce cas tu travailles sur des tables de contingence. Dans les deux cas tu travailles sur des effectifs. Si tu as d'un côté des effectifs et de l'autre une variable continue ça ne marche pas.
Ton résultat ici ne me semble pas valide tu n'as pas utilisé la bonne synthaxe :
chisq.test(table(x=file[,9], y=file$Respons),correct=FALSE)
micros
Si c'est effectivement ce que tu cherches à savoir alors il te faudra regarder du côté de la régression logisitique comme FS te l'avait suggéré.
Un chi deux se fait ssoit pour regarder si tes données suivent une loi théorique ou pour savoir si des variables sont liées entre elles et dans ce cas tu travailles sur des tables de contingence. Dans les deux cas tu travailles sur des effectifs. Si tu as d'un côté des effectifs et de l'autre une variable continue ça ne marche pas.
Ton résultat ici ne me semble pas valide tu n'as pas utilisé la bonne synthaxe :
chisq.test(table(x=file[,9], y=file$Respons),correct=FALSE)
micros
Invité- Invité
Re: [Aide] Corrélation entre variables de différents types...
J'ai essayé dans R avec ta formulation :
au lieu de :
Mais cela ne change rien, les deux réponses sont les mêmes.
Ce que je cherche c'est plus de savoir si ma variable réponse peut, en partie ou totalement, être expliquée par une autre variable. Peu m'importe le "comment" la variable explique ou pas la réponse, je voudrais juste savoir si elle peut le faire. Et pour cela je regarde l'indépendance en me disant que si une variable n'explique en aucune façon une autre, elle seront -logiquement- indépendantes. A l'opposé si l'une explique +/- l'autre (ou vice-versa) elle ne seront pas indépendante.
Mon raisonnement est correcte n'est-ce pas ?
- Code:
chisq.test(table(x=file[,9], y=file$Respons),correct=FALSE)
au lieu de :
- Code:
chisq.test(x=file[,9], y=file$Respons, correct=FALSE)
Mais cela ne change rien, les deux réponses sont les mêmes.
Ce que je cherche c'est plus de savoir si ma variable réponse peut, en partie ou totalement, être expliquée par une autre variable. Peu m'importe le "comment" la variable explique ou pas la réponse, je voudrais juste savoir si elle peut le faire. Et pour cela je regarde l'indépendance en me disant que si une variable n'explique en aucune façon une autre, elle seront -logiquement- indépendantes. A l'opposé si l'une explique +/- l'autre (ou vice-versa) elle ne seront pas indépendante.
Mon raisonnement est correcte n'est-ce pas ?
Tidji- Nombre de messages : 9
Date d'inscription : 31/07/2008
Re: [Aide] Corrélation entre variables de différents types...
As-tu vérifier que tes deux variables sont bien des facteurs ? Si ce n'est pas le cas il est normale que le résultat soit le même.
Essaie :
chisq.test(x=as.factor(file[,9]),y=as.factor(file$Respons),correct=FALSE).
Le test de chi deux ne te permet pas de conclure que la variable a 9 modalités explique la variable a deux modalités. Il te dit juste si elle sont indépendantes ou non. Mais il est vrai que si tu n'utlises qu'une seule variable quantitative dans ta régression logistique alors tu obtiendras le plus souvent les mêmes conclusions qu'avec le test de Chi deux. Mais l'un répond a ta question et pas l'autre.
Par contre si tu tests plusieurs variables à la suite pour savoir si elles sont liées ou non à ta réponse alors le modèle logistique est plus adapté. En effet certaines variables on des effets confondants et à ce moment la tes conclusions peuvent être différentes.
Regarde le paragraphe 5 de ce doc:
http://biol09.biol.umontreal.ca/BIO2042/Regr_mult.pdf
micros
Essaie :
chisq.test(x=as.factor(file[,9]),y=as.factor(file$Respons),correct=FALSE).
Le test de chi deux ne te permet pas de conclure que la variable a 9 modalités explique la variable a deux modalités. Il te dit juste si elle sont indépendantes ou non. Mais il est vrai que si tu n'utlises qu'une seule variable quantitative dans ta régression logistique alors tu obtiendras le plus souvent les mêmes conclusions qu'avec le test de Chi deux. Mais l'un répond a ta question et pas l'autre.
Par contre si tu tests plusieurs variables à la suite pour savoir si elles sont liées ou non à ta réponse alors le modèle logistique est plus adapté. En effet certaines variables on des effets confondants et à ce moment la tes conclusions peuvent être différentes.
Regarde le paragraphe 5 de ce doc:
http://biol09.biol.umontreal.ca/BIO2042/Regr_mult.pdf
micros
Invité- Invité
Re: [Aide] Corrélation entre variables de différents types...
micros je crois que tu as lu un peu vite.
il parle de la "variable 9" qui est une var continue et pas une variable à 9 modalités !!
il parle de la "variable 9" qui est une var continue et pas une variable à 9 modalités !!
FS- Nombre de messages : 163
Date d'inscription : 25/04/2008
Re: [Aide] Corrélation entre variables de différents types...
N'ayant que des base en statistique je ne suis pas certain de comprendre exactement tout ce que tu dis...
Tout d'abord, j'ai essayé ton code en R, et la réponse est bien la même. Pas de changements...
Je n'ai pas de "variable à 9 modalité", j'ai juste une "variable 9" (sous-entendu : variable N°9).
Je ne cherche pas, pour le moment, à créer un modèle. Je cherche juste, parmi mes 9 variables descriptives, lesquelles pourraient -en comparaison par paire- expliquer ma variable réponse. Pour ce faire je me base sur un test (t-test/Khi²) statistique me disant si chaque variable descriptive est indépendante de ma réponse ou non.
Après voir si, en associant plusieurs variable descriptives, je peux expliquer (encore mieux) ma variable réponse, oui pourquoi pas, mais ce n'est pas mon but premier...
Tout d'abord, j'ai essayé ton code en R, et la réponse est bien la même. Pas de changements...
Je n'ai pas de "variable à 9 modalité", j'ai juste une "variable 9" (sous-entendu : variable N°9).
Je ne cherche pas, pour le moment, à créer un modèle. Je cherche juste, parmi mes 9 variables descriptives, lesquelles pourraient -en comparaison par paire- expliquer ma variable réponse. Pour ce faire je me base sur un test (t-test/Khi²) statistique me disant si chaque variable descriptive est indépendante de ma réponse ou non.
Après voir si, en associant plusieurs variable descriptives, je peux expliquer (encore mieux) ma variable réponse, oui pourquoi pas, mais ce n'est pas mon but premier...
Tidji- Nombre de messages : 9
Date d'inscription : 31/07/2008
Re: [Aide] Corrélation entre variables de différents types...
j'ai ptet mal lu aussi !! elle est de quel type ta var9 ?
FS- Nombre de messages : 163
Date d'inscription : 25/04/2008
Re: [Aide] Corrélation entre variables de différents types...
la 9 est binaire.
Seules les 3 et 8 sont catégorielle avec respectivement 3 et 6 catégories...
Seules les 3 et 8 sont catégorielle avec respectivement 3 et 6 catégories...
Tidji- Nombre de messages : 9
Date d'inscription : 31/07/2008
Re: [Aide] Corrélation entre variables de différents types...
Alors je vais faire plus simple dans un cas tu as le droit de dire que la variable 9 explique la réponse (régression logistique) et dans l'autre non (chi deux).
On est un peu dans le même cas de figure que la corrélation et le test d'une régression linéaire simple entre Y et X. Dans le premier cas tu pourras dire si Y et X sont corrélés, dans le deuxième cas tu pourras dire que X à un effet sur Y. Même si les deux tests sont égaux ils ne répondent pas à la même question.
On est un peu dans le même cas de figure que la corrélation et le test d'une régression linéaire simple entre Y et X. Dans le premier cas tu pourras dire si Y et X sont corrélés, dans le deuxième cas tu pourras dire que X à un effet sur Y. Même si les deux tests sont égaux ils ne répondent pas à la même question.
Invité- Invité
Re: [Aide] Corrélation entre variables de différents types...
D'accord, j'ai compris. Donc faire des test statistique de corrélations ne m'aidera pas a dire si des variables explique la réponse.
Mais, d'une manière générale, est-ce qu'une corrélation n'indique pas un sorte de chance ou de probabilité d'intervenir dans l'explication possible de la réponse ? Cela ne donne-t-il vraiment aucun indice ?
Mais, d'une manière générale, est-ce qu'une corrélation n'indique pas un sorte de chance ou de probabilité d'intervenir dans l'explication possible de la réponse ? Cela ne donne-t-il vraiment aucun indice ?
Tidji- Nombre de messages : 9
Date d'inscription : 31/07/2008
Re: [Aide] Corrélation entre variables de différents types...
la corrélation te dit s'il existe un lien linéaire entre tes variables. Donc ça te donne une information bien sur. Mais ce n'est pas la même information, même si mathématiquement il s'agit de la même chose.
Mais si la relation entre tes variables n'est pas linéaire mais du genre de degré 2 : si x va de -3 à 3 et si y = x^2, ici la corrélation entre x et y est nulle. alors que x explique bien y.
si tu avais tester y = x tu aurais aussi obtenu que x n'explique pas Y.
Il est très important de faire une analyse graphique de ces données.
Mais si la relation entre tes variables n'est pas linéaire mais du genre de degré 2 : si x va de -3 à 3 et si y = x^2, ici la corrélation entre x et y est nulle. alors que x explique bien y.
si tu avais tester y = x tu aurais aussi obtenu que x n'explique pas Y.
Il est très important de faire une analyse graphique de ces données.
Invité- Invité
Re: [Aide] Corrélation entre variables de différents types...
voici ce qu'on peut lire dans ce document très bien fait :
http://perso.univ-rennes1.fr/denis.poinsot/Statistiques%20pour%20statophobes/STATISTIQUES%20POUR%20STATOPHOBES.pdf
La corrélation cherche à mesurer la force, la rigidité de la liaison statistique entre X et Y. Si
cette liaison est rigide, il sera en particulier possible d'avoir une bonne idée de Y en
connaissant seulement X, et vice versa. Exemple : s'il existe un bonne corrélation entre la
taille d'une dent et la taille de son propriétaire chez les tyranosaures (Tyranosaurus rex) alors
il est possible de déduire de manière approximative la taille d'un spécimen fossile dont on a
juste retrouvé une dent. Réciproquement, la découverte éventuelle d'un squelette de T. rex
sans tête (donc sans dents) permettrait quand même d'estimer quelle était la taille de celles-ci.
La régression (linéaire) cherche à caractériser la pente de la droite pouvant résumer au mieux
la relation entre X et Y une fois choisies des unités de mesure pour X et Y. Exemple, si la
dose efficace d'un anesthésique est de 5mg/kg de poids de corps (pente de 5 pour 1 avec ces
unités là), un gain de poids de 10kg chez un patient obligera pour le même effet anesthésique
à augmenter la dose de 10 5 = 50mg. Cependant (et c'est là ou corrélation et régression
marchent main dans la main), la pente en question n'a d'intérêt que si la relation entre la dose
efficace et l'effet est suffisamment rigide. Si cette relation est en réalité très floue, le risque de
sous-doser ou de sur-doser l'anesthésique devient inquiétant. D'où l'intérêt de connaître la
force de la liaison en plus de sa pente.
http://perso.univ-rennes1.fr/denis.poinsot/Statistiques%20pour%20statophobes/STATISTIQUES%20POUR%20STATOPHOBES.pdf
La corrélation cherche à mesurer la force, la rigidité de la liaison statistique entre X et Y. Si
cette liaison est rigide, il sera en particulier possible d'avoir une bonne idée de Y en
connaissant seulement X, et vice versa. Exemple : s'il existe un bonne corrélation entre la
taille d'une dent et la taille de son propriétaire chez les tyranosaures (Tyranosaurus rex) alors
il est possible de déduire de manière approximative la taille d'un spécimen fossile dont on a
juste retrouvé une dent. Réciproquement, la découverte éventuelle d'un squelette de T. rex
sans tête (donc sans dents) permettrait quand même d'estimer quelle était la taille de celles-ci.
La régression (linéaire) cherche à caractériser la pente de la droite pouvant résumer au mieux
la relation entre X et Y une fois choisies des unités de mesure pour X et Y. Exemple, si la
dose efficace d'un anesthésique est de 5mg/kg de poids de corps (pente de 5 pour 1 avec ces
unités là), un gain de poids de 10kg chez un patient obligera pour le même effet anesthésique
à augmenter la dose de 10 5 = 50mg. Cependant (et c'est là ou corrélation et régression
marchent main dans la main), la pente en question n'a d'intérêt que si la relation entre la dose
efficace et l'effet est suffisamment rigide. Si cette relation est en réalité très floue, le risque de
sous-doser ou de sur-doser l'anesthésique devient inquiétant. D'où l'intérêt de connaître la
force de la liaison en plus de sa pente.
Invité- Invité
Re: [Aide] Corrélation entre variables de différents types...
Mille merci beaoucp !!!
EXCELLENT ce cours !
J'aurai sans doute encore d'autre question concernant ce sujet, mais je vais d'abord commencer par lire cela avec beaucoup d'attention
Merci beaucoup !!!!!
EXCELLENT ce cours !
J'aurai sans doute encore d'autre question concernant ce sujet, mais je vais d'abord commencer par lire cela avec beaucoup d'attention
Merci beaucoup !!!!!
Tidji- Nombre de messages : 9
Date d'inscription : 31/07/2008
Sujets similaires
» ACP et corrélation entre variables
» Table de corrélation entre variables
» Corrélation entre deux variables qualitatives
» Influence de corrélation entre variables explicatives .
» Etude corrélation entre 2 variables qualitatives
» Table de corrélation entre variables
» Corrélation entre deux variables qualitatives
» Influence de corrélation entre variables explicatives .
» Etude corrélation entre 2 variables qualitatives
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum