Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
+3
Eric Wajnberg
c@ssoulet
amel
7 participants
Page 1 sur 2
Page 1 sur 2 • 1, 2
SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Bonsoir,
S.V.P c'est urgent:
J'ai une variable dépendante (Y) qui est continue et 4 variables indépendantes (X) qui sont dichotomique (0/1) et 4 variables de contrôle continues.
Quelle méthode dois-je choisir pour tester l'influence des X sur l'Y ? régression multiple ou logistique ?
Merci d'avance
S.V.P c'est urgent:
J'ai une variable dépendante (Y) qui est continue et 4 variables indépendantes (X) qui sont dichotomique (0/1) et 4 variables de contrôle continues.
Quelle méthode dois-je choisir pour tester l'influence des X sur l'Y ? régression multiple ou logistique ?
Merci d'avance
amel- Nombre de messages : 20
Date d'inscription : 06/10/2012
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
ANOVA pour tester l'effet des 4 indep sur la dep, ANCOVA si tu veux ajuster l'analyse sur tes "variables de contrôle".
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Attention, la question posée - qui est pertinente - est "régression multiple ou logistique ?", et ce n'est pas sûr qu'une ANOVA/ANCOVA fasse l'affaire.
En fait, ça dépend de la distribution de la variable Y. Dire qu'elle est continue ne suffit pas, il faut connaitre sa distribution. Si elle est - ou est supposée - gaussienne, alors oui, une ANOVA/ANCOVA est le bon choix. En revanche, si elle est binomiale, une régression logistique s'impose. Si c'est une durée, un GLM avec loi Gamma, etc., etc. Sans plus d'information, il est dur de répondre plus précisément.
HTH, Eric.
En fait, ça dépend de la distribution de la variable Y. Dire qu'elle est continue ne suffit pas, il faut connaitre sa distribution. Si elle est - ou est supposée - gaussienne, alors oui, une ANOVA/ANCOVA est le bon choix. En revanche, si elle est binomiale, une régression logistique s'impose. Si c'est une durée, un GLM avec loi Gamma, etc., etc. Sans plus d'information, il est dur de répondre plus précisément.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Bonjour,
Dès l'instant que l'on veuille lancer une régression qu'elle quelle soit on suppose que la dépendante est normale après on testera si les quantiles des résidus suivent une loi normale.
Pour moi ce qu'il faut faire dans ton cas Amel c'est une régression multiple mais attention il faudra tester sa robustesse.
12010929
Dès l'instant que l'on veuille lancer une régression qu'elle quelle soit on suppose que la dépendante est normale après on testera si les quantiles des résidus suivent une loi normale.
Pour moi ce qu'il faut faire dans ton cas Amel c'est une régression multiple mais attention il faudra tester sa robustesse.
12010929
12010929- Nombre de messages : 45
Date d'inscription : 24/06/2014
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Euhhh, si la variable à modéliser est par exemple un pourcentage, lancer une régression gaussienne d'abord et "voir ensuite" voudra dire que l'on ne prend pas en compte les effectifs sur lesquels les pourcentages sont calculés, ce qui risque d'arriver à des estimations complètement fausses, même si on pourrait penser à priori que tout est gaussien. Par exemple un pourcentage de 0.25 sera considéré comme aillant le même poids s'il est calculé sur 4 individus, ou sur 4000, ce qui est complètement faux.. C'est l'enjeu de la régression logistique, qui doit - à mon avis au contraire - être prise comme premier choix.12010929 a écrit:Bonjour,
Dès l'instant que l'on veuille lancer une régression qu'elle quelle soit on suppose que la dépendante est normale après on testera si les quantiles des résidus suivent une loi normale.
Maintenant, si la variable à expliquer est effectivement gaussienne, une régression simple ou multiple (disons un modèle linéaire général) est effectivement le bon choix, comme je l'ai dit dans ma première réponse ici.
J'espère que cette remarque fera avancer le débat.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Hello Eric,
Merci de tes précisions. Je vais moi même essayer d'être un peu plus précis.
En fait, à mon avis, dès l'instant que l'on a une variable dépendante quantitative on la modélise par une régression multiple. Il existe évidemment d'autres moyens de la modéliser, mais je pense que la régression est plus fiable et simple. Et par rapport à la problématique de Amel il n'est pas du tout gênant qu'il y ait des co-variables discrètes dans le modèle.
Ton exemple sur les pourcentages est gênant ; pourquoi modéliser un pourcentage quand on peu se ramener aux effectifs?
KISS (Keep It Sophisticatedly Simple).
12010929
Merci de tes précisions. Je vais moi même essayer d'être un peu plus précis.
En fait, à mon avis, dès l'instant que l'on a une variable dépendante quantitative on la modélise par une régression multiple. Il existe évidemment d'autres moyens de la modéliser, mais je pense que la régression est plus fiable et simple. Et par rapport à la problématique de Amel il n'est pas du tout gênant qu'il y ait des co-variables discrètes dans le modèle.
Ton exemple sur les pourcentages est gênant ; pourquoi modéliser un pourcentage quand on peu se ramener aux effectifs?
KISS (Keep It Sophisticatedly Simple).
12010929
Dernière édition par 12010929 le Ven 18 Sep 2015 - 12:28, édité 1 fois
12010929- Nombre de messages : 45
Date d'inscription : 24/06/2014
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Bonjour à tous,
Merci beaucoup pour vos éclaircissements. Vos remarques sont précieuses.
Mais comme je suis un peu loin des statistiques, je vous informe que ma variable dépendante ne s'agit pas d'un pourcentage. En fait, c'est la somme de 3 résidus venant de 3 régressions différentes. Elle (Y) contient des valeurs positives comme négatives et varie entre -53.84 (Min) et 15.76 (Max).
Je vais vérifier alors ça distribution, y a t-il SVP un test spécifique sur Stata?
Merci beaucoup pour vos éclaircissements. Vos remarques sont précieuses.
Mais comme je suis un peu loin des statistiques, je vous informe que ma variable dépendante ne s'agit pas d'un pourcentage. En fait, c'est la somme de 3 résidus venant de 3 régressions différentes. Elle (Y) contient des valeurs positives comme négatives et varie entre -53.84 (Min) et 15.76 (Max).
Je vais vérifier alors ça distribution, y a t-il SVP un test spécifique sur Stata?
amel- Nombre de messages : 20
Date d'inscription : 06/10/2012
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Regression logistique sur une variable dependante continue, sincèrement, il ne faut pas faire.
ANOVA, GLM, regression multiple, en étant caricatural on fait la même chose avec des outils mathématiques à peine différents et ci c'est fait sans se planter ca sort les mêmes p (pour des plans d'expérience lambda)
http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/
Par contre, si on part d'un peu loin en statistiques, ce qui a l'air d'etre le cas de notre ami, il y a beaucoup moins de risques de se planter en programmant une ANOVA ou une ANCOVA sur un logiciel de stats qu'en partant sur un GLM ou régression multiple, ou il y a un vrai bon gros risque d'emmelage de crayons et de dérapage incontrôlé si on ne sait pas parfaitement ce que l'on fait et ou on va
ANOVA, GLM, regression multiple, en étant caricatural on fait la même chose avec des outils mathématiques à peine différents et ci c'est fait sans se planter ca sort les mêmes p (pour des plans d'expérience lambda)
http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/
Par contre, si on part d'un peu loin en statistiques, ce qui a l'air d'etre le cas de notre ami, il y a beaucoup moins de risques de se planter en programmant une ANOVA ou une ANCOVA sur un logiciel de stats qu'en partant sur un GLM ou régression multiple, ou il y a un vrai bon gros risque d'emmelage de crayons et de dérapage incontrôlé si on ne sait pas parfaitement ce que l'on fait et ou on va
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
perdue :(
c@ssoulet a écrit:Regression logistique sur une variable dependante continue, sincèrement, il ne faut pas faire.
ANOVA, GLM, regression multiple, en étant caricatural on fait la même chose avec des outils mathématiques à peine différents et ci c'est fait sans se planter ca sort les mêmes p (pour des plans d'expérience lambda)
http://www.theanalysisfactor.com/why-anova-and-linear-regression-are-the-same-analysis/
Par contre, si on part d'un peu loin en statistiques, ce qui a l'air d'etre le cas de notre ami, il y a beaucoup moins de risques de se planter en programmant une ANOVA ou une ANCOVA sur un logiciel de stats qu'en partant sur un GLM ou régression multiple, ou il y a un vrai bon gros risque d'emmelage de crayons et de dérapage incontrôlé si on ne sait pas parfaitement ce que l'on fait et ou on va
Merci c@ssoulet
je me sens encore perdue
ci joint ma variable Y ainsi que la courbe de Gauss que j'ai obtenu sur Excel
- Fichiers joints
amel- Nombre de messages : 20
Date d'inscription : 06/10/2012
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Franchement, avec autant de valeurs et leur distribution, la seule question qui m'interpelle vraiment c'est la vérification des outliers (erreur de saisie, problème technique ... etc), parce que tu as des valeurs extremes quand même un peu étonnantes.
Après, il faut normalement vérifier la normalité des résidus et la repartition homogène de la variance, mais avec des effectifs pareils, franchement, le respect des assomptions est pratiquement assuré et c'est peut etre pas trop la peine d'etre jusqu'au boutiste. Abrège tes souffrances sur la verification des assomptions et teste.
Après, il faut normalement vérifier la normalité des résidus et la repartition homogène de la variance, mais avec des effectifs pareils, franchement, le respect des assomptions est pratiquement assuré et c'est peut etre pas trop la peine d'etre jusqu'au boutiste. Abrège tes souffrances sur la verification des assomptions et teste.
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Merci infiniment c@ssoulet
pour ce qui est erreur de saisie ou problèmes techniques je pense qu'ils n'existent pas car la collecte de données était faite via Datastream et j'ai rien fait comme technique que transposé les blocs de données du sens horizontal au sens vertical et puis estimé les résidus de 3 régressions multiples et leur somme (somme des 3 résidus) me donne la variable dépendante Y.
J'ai comme échantillon 180 firmes étudiées sur une période de 14 ans et le panel est équilibré.
pour ce qui est erreur de saisie ou problèmes techniques je pense qu'ils n'existent pas car la collecte de données était faite via Datastream et j'ai rien fait comme technique que transposé les blocs de données du sens horizontal au sens vertical et puis estimé les résidus de 3 régressions multiples et leur somme (somme des 3 résidus) me donne la variable dépendante Y.
J'ai comme échantillon 180 firmes étudiées sur une période de 14 ans et le panel est équilibré.
amel- Nombre de messages : 20
Date d'inscription : 06/10/2012
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Pour les valeurs aberrantes (outliers) tu peux les isolées en les enlevant de ta base avant de lancer ton estimation si elles te dérangent. c'est vite fait tu en as que 5.
Même si tu les laisses t'auras pas trop de soucis à te faire
Même si tu les laisses t'auras pas trop de soucis à te faire
12010929- Nombre de messages : 45
Date d'inscription : 24/06/2014
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
12010929 a écrit:Pour les valeurs aberrantes (outliers) tu peux les isolées en les enlevant de ta base avant de lancer ton estimation si elles te dérangent. c'est vite fait tu en as que 5.
Même si tu les laisses t'auras pas trop de soucis à te faire
Merci 12010929,
je peux remplacer les firmes contenant des valeurs extrêmes par d'autres firmes pour éviter tout problème possible.
Et si j'ajoute une 5ème variable indépendante qui sera continue ou bien si je fini par choisir 2 variables indépendantes binaires et 2 continues, je peux dans ce cas utiliser facilement la régression multiple ? et les tests de robustesse demeurent toujours nécessaires là où se trouve des variables X binaires ?
amel- Nombre de messages : 20
Date d'inscription : 06/10/2012
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
amel a écrit:je peux remplacer les firmes contenant des valeurs extrêmes par d'autres firmes pour éviter tout problème possible.
Un moyen de contourner de problème serait de remplacer ces valeurs par la moyenne ou la médiane mais j'ai une préférence pour la médiane car tu minimises l'effet des ces nouvelles valeurs dans ton estimation.
tu ne peux pas lancer une régression multiple en ayant une dépendante binaire.amel a écrit:Et si j'ajoute une 5ème variable indépendante qui sera continue ou bien si je fini par choisir 2 variables indépendantes binaires comme et 2 continues, je peux dans ce cas utiliser facilement la régression multiple ? et les tests de robustesse demeurent toujours nécessaires là où se trouve des variables X binaires ?
Tu peux clarifier ce que tu veux dire par là?
12010929- Nombre de messages : 45
Date d'inscription : 24/06/2014
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
tu ne peux pas lancer une régression multiple en ayant une dépendante binaire.amel a écrit:Et si j'ajoute une 5ème variable indépendante qui sera continue ou bien si je fini par choisir 2 variables indépendantes binaires comme et 2 continues, je peux dans ce cas utiliser facilement la régression multiple ? et les tests de robustesse demeurent toujours nécessaires là où se trouve des variables X binaires ?
Tu peux clarifier ce que tu veux dire par là?[/quote]
Dans mon cas j'ai pas une Y binaire. La variable dépendante est continue, seules les variables indépendantes sont binaires et qui sont au nombre de 4.
J'ai voulais demandé si je fait un mélange de variables indépendantes entre binaires et continues, par exemple je met 2 variables binaires et 2 continues, je peux dans ce cas utiliser la régressions multiples ? ou y a une possibilité d’utiliser ANOVA encore ?
amel- Nombre de messages : 20
Date d'inscription : 06/10/2012
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Bonjour Messieurs,
j'ai fini par minimiser le nombre des variables indépendantes binaires et avoir:
- une variable dépendante Y qui est continue (en remplaçant les valeurs extrêmes par la médiane comme proposé par Mr "12010929")
- 5 variables indépendantes X dont 2 continues et 3 binaires
- 5 variables de contrôle dont 4 continues et une binaire
Je pense que dans ce cas je peux choisir la régression multiple.
Ma question est la suivante :
quelle sont les tests de robustesse que je dois effectuer ? sont-ils nécessaires car j'ai des variables indépendantes binaires?
Merci pour votre collaboration;
j'ai fini par minimiser le nombre des variables indépendantes binaires et avoir:
- une variable dépendante Y qui est continue (en remplaçant les valeurs extrêmes par la médiane comme proposé par Mr "12010929")
- 5 variables indépendantes X dont 2 continues et 3 binaires
- 5 variables de contrôle dont 4 continues et une binaire
Je pense que dans ce cas je peux choisir la régression multiple.
Ma question est la suivante :
quelle sont les tests de robustesse que je dois effectuer ? sont-ils nécessaires car j'ai des variables indépendantes binaires?
Merci pour votre collaboration;
amel- Nombre de messages : 20
Date d'inscription : 06/10/2012
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
je suppose que ce que tu appelles variables indépendantes, c'est tes variables explicatives ; ou encore regresseurs. L'indépendance dans les statistiques c'est autre chose que les variables explicatives.
Oui Tu peux faire une régression multiple ou une anova avec des explicatives binaires.
Comme le dit Cassoulet je pense ce serait mieux que tu fasses une ANOVA ou une ANCOVA c'est plus simple.
Ce qui est dangereux avec la reg multiple c'est de pas faire les tests de stabilité
nécessaire à la validation.
Oui Tu peux faire une régression multiple ou une anova avec des explicatives binaires.
Comme le dit Cassoulet je pense ce serait mieux que tu fasses une ANOVA ou une ANCOVA c'est plus simple.
Ce qui est dangereux avec la reg multiple c'est de pas faire les tests de stabilité
nécessaire à la validation.
12010929- Nombre de messages : 45
Date d'inscription : 24/06/2014
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
12010929 a écrit:je suppose que ce que tu appelles variables indépendantes, c'est tes variables explicatives ; ou encore regresseurs. L'indépendance dans les statistiques c'est autre chose que les variables explicatives.
Oui Tu peux faire une régression multiple ou une anova avec des explicatives binaires.
Comme le dit Cassoulet je pense ce serait mieux que tu fasses une ANOVA ou une ANCOVA c'est plus simple.
Ce qui est dangereux avec la reg multiple c'est de pas faire les tests de stabilité
nécessaire à la validation.
oui en fait, par variables indépendantes j'ai voulais dire variables explicatives.
Merci pour vos précieux conseils et de m'avoir consacré votre temps et votre attention
amel- Nombre de messages : 20
Date d'inscription : 06/10/2012
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
mais comme j'ai déjà un problème d'hétéroscédasticité donc il y'aura instabilité des coefficients. je pense que je dois passer à ANOVA
amel- Nombre de messages : 20
Date d'inscription : 06/10/2012
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
c@ssoulet a écrit:ANOVA pour tester l'effet des 4 indep sur la dep, ANCOVA si tu veux ajuster l'analyse sur tes "variables de contrôle".
Bonsoir;
dans ce cas est ce que je peux utiliser sur stata la commande "anova" (en mettant devant chaque variable continue "c.") ?
c'est à dire
est ce que je peux tester l'effet de toutes les variables ensemble?
ou
je dois ajuster l'effet des variables continues sur Y seul en utilisant la commande "anova" (analysis of variance and covariance) et puis l'effet des variables binaires sur Y en utilisant la commande "oneway"?
amel- Nombre de messages : 20
Date d'inscription : 06/10/2012
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Ben.... il n'y a aucun interet a faire une oneway ANOVA... oneway c'est pour tester l'effet d'UNE variable a PLUS DE 2 modalités. Sur une binaire oneway = ttest....
si tu veux tester correctement et faire "l'équivalent d'une regression multiple" il te faut les interactions et donc une ligne qui aura la forme
anova a b a*b ... etc ...
Je t'encourage très vivement à taper "help anova" puis à lire et à comprendre le chapitre "n-way ANOVA". Tout y est.
si tu veux tester correctement et faire "l'équivalent d'une regression multiple" il te faut les interactions et donc une ligne qui aura la forme
anova a b a*b ... etc ...
Je t'encourage très vivement à taper "help anova" puis à lire et à comprendre le chapitre "n-way ANOVA". Tout y est.
c@ssoulet- Nombre de messages : 925
Date d'inscription : 05/05/2008
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Bonjour,
Tu pars visiblement d'assez loin. Je ne sais pas quel délai tu as pour réaliser ton analyse mais si tu en as la possibilité, repars de la base : lis un livre sur le modèle linéaire.
Je te donne quelques bases essentielles pour que tu comprennes au moins en partie tes choix.
Je n'ai jamais compris l'intérêt à donner des noms à des cas particuliers d'une même chose. Encore une fois avec ton exemple on a la confirmation que cela ne fait que brouiller la compréhension et n'apporte rien. L'ANOVA, l'ANCOVA ou la régression sont une seule et même chose : un modèle linéaire.
La régression est le terme ancien (ça date du 19e quand même...) désignant le modèle linéaire.
L'anova est un modèle linéaire dont les variables explicatives sont des variables qualitatives (ou encore nominales ou encore catégorielles).
L'ancova est également un modèle linéaire mais où tu as au moins une variable explicative catégorielle et une continue.
Pour le terme "multiple" il fait juste référence au nombre de variables explicatives dans le modèle (>2 dans le cas du multiple).
Si tu as beaucoup de valeurs dans tes données, je te conseille de couper en 2 ton jeu de données (aléatoirement par exemple, en 2/3, 1/3) et de caler le modèle sur une partie (les 2/3) et de le valider sur la seconde en réalisant des prédictions du modèles pour voir comment elles se calent par rapport aux données observées n'ayant pas servi au calage. Cela peut faire partie des études que tu appelles de "robustesse".
Avant cette étape, tu as toute une partie d'analyse des résidus du modèles qui permettent d'une part de valider les hypothèses de base du modèle linéaire (effectivement, attention à l'hétéroscédasticité et donc à la dérive des intervalles de confiance des paramètres) et de détecter d'éventuels problèmes par exemple sur les valeurs leviers.
Une autre étape également consiste à sélectionner les variables d'intérêt car toutes les variables ne sont pas forcément utile, d'une part quant au sens à donner au modèle et d'autre part tu peux aussi avoir de la redondance d'information dans les variables explicatives. Cette sélection ne se fait pas sur la simple visualisation des p-values des paramètres du modèle.
Voilà pour un tour d'horizon très global autour du modèle linéaire.
N'hésite bien sûr pas à continuer à poser des questions ici mais prend le temps aussi de consolider tes bases.
Nik
mais comme j'ai déjà un problème d'hétéroscédasticité donc il y'aura instabilité des coefficients. je pense que je dois passer à ANOVA
Tu pars visiblement d'assez loin. Je ne sais pas quel délai tu as pour réaliser ton analyse mais si tu en as la possibilité, repars de la base : lis un livre sur le modèle linéaire.
Je te donne quelques bases essentielles pour que tu comprennes au moins en partie tes choix.
Je n'ai jamais compris l'intérêt à donner des noms à des cas particuliers d'une même chose. Encore une fois avec ton exemple on a la confirmation que cela ne fait que brouiller la compréhension et n'apporte rien. L'ANOVA, l'ANCOVA ou la régression sont une seule et même chose : un modèle linéaire.
La régression est le terme ancien (ça date du 19e quand même...) désignant le modèle linéaire.
L'anova est un modèle linéaire dont les variables explicatives sont des variables qualitatives (ou encore nominales ou encore catégorielles).
L'ancova est également un modèle linéaire mais où tu as au moins une variable explicative catégorielle et une continue.
Pour le terme "multiple" il fait juste référence au nombre de variables explicatives dans le modèle (>2 dans le cas du multiple).
Si tu as beaucoup de valeurs dans tes données, je te conseille de couper en 2 ton jeu de données (aléatoirement par exemple, en 2/3, 1/3) et de caler le modèle sur une partie (les 2/3) et de le valider sur la seconde en réalisant des prédictions du modèles pour voir comment elles se calent par rapport aux données observées n'ayant pas servi au calage. Cela peut faire partie des études que tu appelles de "robustesse".
Avant cette étape, tu as toute une partie d'analyse des résidus du modèles qui permettent d'une part de valider les hypothèses de base du modèle linéaire (effectivement, attention à l'hétéroscédasticité et donc à la dérive des intervalles de confiance des paramètres) et de détecter d'éventuels problèmes par exemple sur les valeurs leviers.
Une autre étape également consiste à sélectionner les variables d'intérêt car toutes les variables ne sont pas forcément utile, d'une part quant au sens à donner au modèle et d'autre part tu peux aussi avoir de la redondance d'information dans les variables explicatives. Cette sélection ne se fait pas sur la simple visualisation des p-values des paramètres du modèle.
Voilà pour un tour d'horizon très global autour du modèle linéaire.
N'hésite bien sûr pas à continuer à poser des questions ici mais prend le temps aussi de consolider tes bases.
Nik
Nik- Nombre de messages : 1606
Date d'inscription : 23/05/2008
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Hello Nik,
Je vois que tu voudrais qu'il fasse une validation croisée pour tester la robustesse de son modéle.
Ne penses tu pas que les tests classiques suffiront à le faire?
Notamment la normalité, hétéroscdasticité, DW s'il y a un effet temporel. Tout le travail sur les résidus que tu évoquais par ailleurs.
Je pense que la validation croisée donne plus une information sur le potentiel prédictif du modéle. Si on veut extrapoler les données ou faire une ARMA dessus.
Evidemment elle donne une information sur la qualité du modéle mais n'est-elle pas plus appropriée pour une problématique de prévision?
Nik a écrit:Si tu as beaucoup de valeurs dans tes données, je te conseille de couper en 2 ton jeu de données (aléatoirement par exemple, en 2/3, 1/3) et de caler le modèle sur une partie (les 2/3) et de le valider sur la seconde en réalisant des prédictions du modèles pour voir comment elles se calent par rapport aux données observées n'ayant pas servi au calage. Cela peut faire partie des études que tu appelles de "robustesse".
Je vois que tu voudrais qu'il fasse une validation croisée pour tester la robustesse de son modéle.
Ne penses tu pas que les tests classiques suffiront à le faire?
Notamment la normalité, hétéroscdasticité, DW s'il y a un effet temporel. Tout le travail sur les résidus que tu évoquais par ailleurs.
Je pense que la validation croisée donne plus une information sur le potentiel prédictif du modéle. Si on veut extrapoler les données ou faire une ARMA dessus.
Evidemment elle donne une information sur la qualité du modéle mais n'est-elle pas plus appropriée pour une problématique de prévision?
12010929- Nombre de messages : 45
Date d'inscription : 24/06/2014
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
c@ssoulet a écrit:Ben.... il n'y a aucun interet a faire une oneway ANOVA... oneway c'est pour tester l'effet d'UNE variable a PLUS DE 2 modalités. Sur une binaire oneway = ttest....
si tu veux tester correctement et faire "l'équivalent d'une regression multiple" il te faut les interactions et donc une ligne qui aura la forme
anova a b a*b ... etc ...
Je t'encourage très vivement à taper "help anova" puis à lire et à comprendre le chapitre "n-way ANOVA". Tout y est.
selon mon thème, je dois tester l'effet de A (X1...X5) sur B (Y)
et mon modèle sera : Y = X1 + X2 +X3 + X4 + X5 + somme variable de controle
et puis j'aurai un modération, l'impact de A sur B lors de l’existence de C
donc j'aurai: Y = X1 + X2 +X3 + X4 + X5 + X1*C + X2*C +X3*C + X4*C + X5*C +somme variable de controle
donc je ne peux pas débuter par une interaction car j'ai un phénomène à étudier tout d'abord sans modération
amel- Nombre de messages : 20
Date d'inscription : 06/10/2012
Re: SVP c'est Urgent ! Quelle méthode d'analyse choisir ?
Nik a écrit:Bonjour,mais comme j'ai déjà un problème d'hétéroscédasticité donc il y'aura instabilité des coefficients. je pense que je dois passer à ANOVA
Tu pars visiblement d'assez loin. Je ne sais pas quel délai tu as pour réaliser ton analyse mais si tu en as la possibilité, repars de la base : lis un livre sur le modèle linéaire.
Je te donne quelques bases essentielles pour que tu comprennes au moins en partie tes choix.
Je n'ai jamais compris l'intérêt à donner des noms à des cas particuliers d'une même chose. Encore une fois avec ton exemple on a la confirmation que cela ne fait que brouiller la compréhension et n'apporte rien. L'ANOVA, l'ANCOVA ou la régression sont une seule et même chose : un modèle linéaire.
La régression est le terme ancien (ça date du 19e quand même...) désignant le modèle linéaire.
L'anova est un modèle linéaire dont les variables explicatives sont des variables qualitatives (ou encore nominales ou encore catégorielles).
L'ancova est également un modèle linéaire mais où tu as au moins une variable explicative catégorielle et une continue.
Pour le terme "multiple" il fait juste référence au nombre de variables explicatives dans le modèle (>2 dans le cas du multiple).
Si tu as beaucoup de valeurs dans tes données, je te conseille de couper en 2 ton jeu de données (aléatoirement par exemple, en 2/3, 1/3) et de caler le modèle sur une partie (les 2/3) et de le valider sur la seconde en réalisant des prédictions du modèles pour voir comment elles se calent par rapport aux données observées n'ayant pas servi au calage. Cela peut faire partie des études que tu appelles de "robustesse".
Avant cette étape, tu as toute une partie d'analyse des résidus du modèles qui permettent d'une part de valider les hypothèses de base du modèle linéaire (effectivement, attention à l'hétéroscédasticité et donc à la dérive des intervalles de confiance des paramètres) et de détecter d'éventuels problèmes par exemple sur les valeurs leviers.
Une autre étape également consiste à sélectionner les variables d'intérêt car toutes les variables ne sont pas forcément utile, d'une part quant au sens à donner au modèle et d'autre part tu peux aussi avoir de la redondance d'information dans les variables explicatives. Cette sélection ne se fait pas sur la simple visualisation des p-values des paramètres du modèle.
Voilà pour un tour d'horizon très global autour du modèle linéaire.
N'hésite bien sûr pas à continuer à poser des questions ici mais prend le temps aussi de consolider tes bases.
Nik
Comme vous avez remarquez, je suis un peu "out" mais j'ai quelques connaissances de base pour me débrouiller car je suis doctorante en comptabilité
j'ai une contrainte temps et j'ai encore plus que 10 modèle à faire, c'est pourquoi je demande vos éclaircissements.
Merci pour le help surtout sur le point "ANOVA est aussi régression multiple" j'ai cru qu'il s'agit de 2 méthodes ne signifiant pas la meme chose
amel- Nombre de messages : 20
Date d'inscription : 06/10/2012
Page 1 sur 2 • 1, 2
Sujets similaires
» Urgent: taille d'échantillon et méthode d'analyse
» CHOISIR UNE METHODE STATISTIQUE
» Quel méthode d'imputation choisir?
» Quelle méthode d'analyse choisir ?
» Besoin d'aide INTERPRETATION REGRESSION LOGISTIQUE
» CHOISIR UNE METHODE STATISTIQUE
» Quel méthode d'imputation choisir?
» Quelle méthode d'analyse choisir ?
» Besoin d'aide INTERPRETATION REGRESSION LOGISTIQUE
Page 1 sur 2
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum