Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Choix de test/modèle.
3 participants
Page 1 sur 2
Page 1 sur 2 • 1, 2
Choix de test/modèle.
Bonsoir
(Je travaille sous R).
J'ai un jeu de données qui comporte des variables qualitatives et quantitatives, j'aimerais tester l'indépendance de chacune d'entre elles, dois-je faire les tests deux à deux pour éviter le risque de première espèce ?
Dois-je utiliser des tests différents, par exemple le test du χ2 pour les variables qualitatives, test de Fisher et pour les variables quantitatives, quantitatives/qualitatives ?
Pour les variables quantitatives je dois nécessairement faire des classes si je veux tester l'indépendance et pas seulement la corrélation ?
J'aimerais savoir à quel pourcentage chaque variable (qualitative/quantitative) influence sur la variable réponse (quantitative), quel test/modèle peut me permettre de faire ça ?
Est-il possible de faire une "sorte" de régression, comme une prédiction à l'aide des variables d'entrée (qualitatives et quantitatives) pour déterminer ma variable de sortie ?
Pour les différents tests dois-je avoir des données normalement distribuées ?
Merci d'avance, toute aide sera la bienvenue.
(Je travaille sous R).
J'ai un jeu de données qui comporte des variables qualitatives et quantitatives, j'aimerais tester l'indépendance de chacune d'entre elles, dois-je faire les tests deux à deux pour éviter le risque de première espèce ?
Dois-je utiliser des tests différents, par exemple le test du χ2 pour les variables qualitatives, test de Fisher et pour les variables quantitatives, quantitatives/qualitatives ?
Pour les variables quantitatives je dois nécessairement faire des classes si je veux tester l'indépendance et pas seulement la corrélation ?
J'aimerais savoir à quel pourcentage chaque variable (qualitative/quantitative) influence sur la variable réponse (quantitative), quel test/modèle peut me permettre de faire ça ?
Est-il possible de faire une "sorte" de régression, comme une prédiction à l'aide des variables d'entrée (qualitatives et quantitatives) pour déterminer ma variable de sortie ?
Pour les différents tests dois-je avoir des données normalement distribuées ?
Merci d'avance, toute aide sera la bienvenue.
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: Choix de test/modèle.
Si vous n'avez qu'une variable réponse quantitative (votre question n'est pas totalement claire à cet égard), alors vous êtes juste dans une schéma de régression, et vous pouvez utiliser ce schéma pour tester l'influence sur cette variable de réponse de variables aussi bien quantitatives que qualitatives.
Si votre variable de réponse est gaussienne, vous êtes alors dans le cadre de ce que l'on appelle le modèle linéaire générale, et vous allez faire ce que l'on appelle une Analyse de Covariance (ANCOVA). C'est comme une ANOVA, mais vous avez à la fois des variables qualitatives et quantitatives comme variables explicatives.
Si ce n'est pas le cas, il faudrait avoir une idée de la distribution de la variable réponse (vous ne dites rien là-dessus), et vous êtes alors dans le cadre du modèle linéaire généralisé, mais le schéma de régression reste le même.
Difficile d'en dire plus à ce point.
HTH, Eric.
Si votre variable de réponse est gaussienne, vous êtes alors dans le cadre de ce que l'on appelle le modèle linéaire générale, et vous allez faire ce que l'on appelle une Analyse de Covariance (ANCOVA). C'est comme une ANOVA, mais vous avez à la fois des variables qualitatives et quantitatives comme variables explicatives.
Si ce n'est pas le cas, il faudrait avoir une idée de la distribution de la variable réponse (vous ne dites rien là-dessus), et vous êtes alors dans le cadre du modèle linéaire généralisé, mais le schéma de régression reste le même.
Difficile d'en dire plus à ce point.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Choix de test/modèle.
Bonjour Eric et merci pour votre réponse,
Je cherche à prédire et expliquer une seule variable quantitative, elle ne semble pas gaussienne, j'ai fais le test de Shapiro + histogramme pour arriver à cette conclusion.
Ça me fais "légèrement" penser à une loi de fisher (mais y a du poids à la fin), je sais pas comment tester avec R, j'ai essayé
Donc si j'ai bien compris je suis dans le cas du modèle linéaire généralisé, est-ce que je peux obtenir un modèle prédictif qui prends en compte toutes mes variables, quanti et quali ?
Pour les tests d'indépendance je fais comment ?
Comment tester l’indépendance entre trois variables, par exemple je construis artificiellement: X1, X2 et X3 = X1*X2/3, comment tester que X3 peut "s'écrire" en fonction de X1 et X2.
Merci
Je cherche à prédire et expliquer une seule variable quantitative, elle ne semble pas gaussienne, j'ai fais le test de Shapiro + histogramme pour arriver à cette conclusion.
Ça me fais "légèrement" penser à une loi de fisher (mais y a du poids à la fin), je sais pas comment tester avec R, j'ai essayé
- Code:
ks.test(Y,"pf")
Donc si j'ai bien compris je suis dans le cas du modèle linéaire généralisé, est-ce que je peux obtenir un modèle prédictif qui prends en compte toutes mes variables, quanti et quali ?
Pour les tests d'indépendance je fais comment ?
Comment tester l’indépendance entre trois variables, par exemple je construis artificiellement: X1, X2 et X3 = X1*X2/3, comment tester que X3 peut "s'écrire" en fonction de X1 et X2.
Merci
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: Choix de test/modèle.
La loi empirique que vous nous montrez n'apporte aucune information. La normalité doit être testée pour chaque modalité de l'ensemble des variables explicatives, ce qui en pratique n'est guère réalisable.
Le point de départ de cette discussion est de savoir en quelle unité est exprimée cette variable à expliquer. Votre histogramme va de 0 à 500. 0 à 500 quoi ?
HTH, Eric.
Le point de départ de cette discussion est de savoir en quelle unité est exprimée cette variable à expliquer. Votre histogramme va de 0 à 500. 0 à 500 quoi ?
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Choix de test/modèle.
Ce sont des minutes, la variable que je cherche à prédire est un temps de production.
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: Choix de test/modèle.
A la bonne heure, on avance.
Est-ce que vous avez des données dites "censurées"? Ce sont des données pour lesquelles le temps de production n'est pas connu en entier car l'observation n'est pas pu être réalisée jusqu'à la fin de l’évènement de production.
Eric.
Est-ce que vous avez des données dites "censurées"? Ce sont des données pour lesquelles le temps de production n'est pas connu en entier car l'observation n'est pas pu être réalisée jusqu'à la fin de l’évènement de production.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Choix de test/modèle.
Bonjour,
Non j'ai le temps précis de production pour une certaine quantité produite, pas de données censurées.
J'ai réussi à "prédire" mon temps de production avec la fonction lm() de R mais du coup j'ai gardé uniquement les variables quantitatives, est-ce qu'avec la fonction glm() je pourrais garder également mes variables qualitatives et obtenir de meilleurs résultats pour la prédiction ?
Edit: Je rencontre un petit problème aussi sur mes prédictions, mon temps de production vie dans [0,480] et parfois j'obtiens des prédictions négatives ou supérieures à 480 ...
Comment savoir à quel pourcentage influence chaque variables d'entrée sur la variable réponse et comment sélectionner uniquement mes variables pertinentes ? (ACP ?)
Merci
Non j'ai le temps précis de production pour une certaine quantité produite, pas de données censurées.
J'ai réussi à "prédire" mon temps de production avec la fonction lm() de R mais du coup j'ai gardé uniquement les variables quantitatives, est-ce qu'avec la fonction glm() je pourrais garder également mes variables qualitatives et obtenir de meilleurs résultats pour la prédiction ?
Edit: Je rencontre un petit problème aussi sur mes prédictions, mon temps de production vie dans [0,480] et parfois j'obtiens des prédictions négatives ou supérieures à 480 ...
Comment savoir à quel pourcentage influence chaque variables d'entrée sur la variable réponse et comment sélectionner uniquement mes variables pertinentes ? (ACP ?)
Merci
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: Choix de test/modèle.
Oui, avec glm() vous pouvez également entrer des variables explicatives qualitatives.
Le fait que vous prédisiez des valeurs négatives, etc., est lié au fait qu'un modèle gaussien ne va pas. Il vous faut vous orienter vers un GLM sur variable de durée (Weibull par exemple) et la fonction glm() fait ça également.
L'ACP ne vous servira à rien ici. Si vous arrivez à ajuster un modèle qui convient (avec glm()) vous pourrez rechercher le modèle le plus parcimonieux avec seules les variables les plus pertinentes.
HTH, Eric.
Le fait que vous prédisiez des valeurs négatives, etc., est lié au fait qu'un modèle gaussien ne va pas. Il vous faut vous orienter vers un GLM sur variable de durée (Weibull par exemple) et la fonction glm() fait ça également.
L'ACP ne vous servira à rien ici. Si vous arrivez à ajuster un modèle qui convient (avec glm()) vous pourrez rechercher le modèle le plus parcimonieux avec seules les variables les plus pertinentes.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Choix de test/modèle.
Bonjour et merci de votre réponse,
Est-ce que la loi Gamma ne serait pas plus adaptée à mon problème que la weibull et comment prendre en compte le fait que mon temps de prédit ne doit pas dépasser 480 min ?
Comment savoir à quel pourcentage chaque variable d'entrée influence ma variable de sortie ?
Merci
Est-ce que la loi Gamma ne serait pas plus adaptée à mon problème que la weibull et comment prendre en compte le fait que mon temps de prédit ne doit pas dépasser 480 min ?
Comment savoir à quel pourcentage chaque variable d'entrée influence ma variable de sortie ?
Merci
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: Choix de test/modèle.
Bonjour Bibilerikiki.
Et pourquoi ne pas prendre comme modèle l'histogramme que tu as obtenu ? Ou une version plus lisse (estimation par noyau) ? Ça permet souvent de prédire assez correctement. Bien sûr, ça ne permet pas trop les calculs théorique, mais on fait avec d'excellentes simulations.
Cordialement.
Et pourquoi ne pas prendre comme modèle l'histogramme que tu as obtenu ? Ou une version plus lisse (estimation par noyau) ? Ça permet souvent de prédire assez correctement. Bien sûr, ça ne permet pas trop les calculs théorique, mais on fait avec d'excellentes simulations.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Choix de test/modèle.
gg a écrit:Bonjour Bibilerikiki.
Et pourquoi ne pas prendre comme modèle l'histogramme que tu as obtenu ? Ou une version plus lisse (estimation par noyau) ? Ça permet souvent de prédire assez correctement. Bien sûr, ça ne permet pas trop les calculs théorique, mais on fait avec d'excellentes simulations.
Cordialement.
Bonjour GG,
Je ne comprends pas, l'histogramme ne me permet pas de réaliser une prédiction suivant des données.
Merci
Edit: Il n'y a pas Weibull avec la fonction glm(), du coup j'ai utilisé Gamma, mais j'obtiens des résultats très mauvais, et des valeurs négatives en prédiction.
Et pour l'ACP ça serait pour réduire le nombre de variables, pour l'instant j'en ai peu mais j'aurai bientôt des données avec plus de 200 variables.
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: Choix de test/modèle.
Mais bien sû(r que si, à partir de l'histogramme, réécrit en fréquences, on a un modèle de densité (constante par intervalles) qu'on peut facilement utiliser. Pour éviter les discontinuités de densité, on peut le lisser.
Comme ton histogramme est assez différent des densités des lois classiques, tu n'auras que de mauvais modèles en essayant de te ramener à une seule loi. Si tu as de la chance, une combinaison de deux lois peut s'adapter, mais tu peux passer du temps sans en trouver une valable.
Cordialement.
Comme ton histogramme est assez différent des densités des lois classiques, tu n'auras que de mauvais modèles en essayant de te ramener à une seule loi. Si tu as de la chance, une combinaison de deux lois peut s'adapter, mais tu peux passer du temps sans en trouver une valable.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Choix de test/modèle.
Merci GG pour votre réponse,
Je suis pas sûr de bien comprendre, en gros je dois "créer" artificiellement une densité (après lissage) à partir de mon histogramme et ensuite je fais quoi avec cette densité ?
Comment obtenir cette densité, si je fais à partir des fréquences je vais obtenir une fonction de répartition.
J'utilise la densité dans le glm ?
Edit: En faite je vois comment créer la densité, mais si j'utilise la fonction density() de R c'est pas plus simple est plus précis ?
Je suis pas sûr de bien comprendre, en gros je dois "créer" artificiellement une densité (après lissage) à partir de mon histogramme et ensuite je fais quoi avec cette densité ?
Comment obtenir cette densité, si je fais à partir des fréquences je vais obtenir une fonction de répartition.
J'utilise la densité dans le glm ?
Edit: En faite je vois comment créer la densité, mais si j'utilise la fonction density() de R c'est pas plus simple est plus précis ?
Dernière édition par Bibilerikiki le Mar 27 Juin 2017 - 12:29, édité 1 fois
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: Choix de test/modèle.
Ah,
je viens de comprendre que ton histogramme concerne ta variable réponse, donc tu n'as pas besoin d'en avoir un modèle aléatoire. Ce que tu veux c'est modéliser la réponse en fonction des variables d'entrée. Ce qui est tout autre chose ! J'avais cru que tu voulais utiliser une simulation à partir de la variable dont tu donnes l'histogramme.
Cordialement.
je viens de comprendre que ton histogramme concerne ta variable réponse, donc tu n'as pas besoin d'en avoir un modèle aléatoire. Ce que tu veux c'est modéliser la réponse en fonction des variables d'entrée. Ce qui est tout autre chose ! J'avais cru que tu voulais utiliser une simulation à partir de la variable dont tu donnes l'histogramme.
Cordialement.
gg- Nombre de messages : 2174
Date d'inscription : 10/01/2011
Re: Choix de test/modèle.
Il faut essayer avec Gamma(link = "inverse") pour l'agument family. Si vraiment ca ne donne rien de cohérent, il faut alors s'orienter vers un modèle de survie, comme par exemple un modèle de Cox (fonction coxph() du package survival). Ca ça marche toujours bien.Bibilerikiki a écrit:Edit: Il n'y a pas Weibull avec la fonction glm(), du coup j'ai utilisé Gamma, mais j'obtiens des résultats très mauvais, et des valeurs négatives en prédiction.
Et pour l'ACP ça serait pour réduire le nombre de variables, pour l'instant j'en ai peu mais j'aurai bientôt des données avec plus de 200 variables.
Pour votre question de savoir comment savoir à quel pourcentage chaque variable d'entrée influence la variable de sortie et l'ACP, etc. La démarche est en fait - lorsque vous aurez un modèle de régression qui convient - de chercher le modèle le plus parcimonieux, avec seules les variables explicatives qui ont de l'influence. Ca se fait, par exemple, avec des tests de rapport de vraisemblance en série. L'utilisation d'une critère AIC est possible aussi. Combien avez-vous de variables explicatives ?
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Choix de test/modèle.
J'ai essayé directement avec Gamma(link = "inverse"), je vais essayé un modèle de survie (mais c'est pas pour les données censurées normalement ?).
Voici mon code pour le glm alors qu'avec ce code sans les variables qualitatives (sachant que ma variable de sortie n'est pas gaussienne) j'obtiens de bien meilleurs résultats:
Pour l'instant je n'ai que 10 variables explicatives.
Le modèle de cox prend en compte les variables qualitatives ?
- Code:
modglm = glm(Production_Time_minutes~SHIFT+TEAM+LENGHT+WIDTH+THICK+Speed
+Press_Factor+Downtime+M3_Qual_P+M3_Qual_I+M3_Qual_T, family=Gamma(link="inverse"),
type="response",data = Dataglm)
pglm = 1/predict(modglm,newdata=data.frame(Dataglmval[,-7]))
Erreurglm = Dataglmval[,7]-pglm
summary(abs(Erreurglm))
Voici mon code pour le glm alors qu'avec ce code sans les variables qualitatives (sachant que ma variable de sortie n'est pas gaussienne) j'obtiens de bien meilleurs résultats:
- Code:
mod6b = lm(Production_Time_minutes~poly(LENGHT,6)+poly(WIDTH,3)+poly(THICK,4)+poly(Speed,6)
+poly(Press_Factor,6)+poly(Downtime,6)+poly(M3_Qual_P,6)+poly(M3_Qual_I,5)
+poly(M3_Qual_T,1),data = DataQuanti)
summary(mod6b)
p6b = predict(mod6b, newdata=data.frame(Datab[,-5]))
Erreur6b = Datab[,5]-p6b
summary(abs(Erreur6b))
Pour l'instant je n'ai que 10 variables explicatives.
Le modèle de cox prend en compte les variables qualitatives ?
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: Choix de test/modèle.
Un modèle de Cox peut prendre des données censurées ou non.
Un modèle de Cox n'est rien d'autre qu'un GLM un peu particulier. Donc, oui, des variables qualitatives sont acceptées, évidement. J'ajuste ce genre de modèles sur des données quantitatives et qualitatives depuis des années.
Encore une fois, si vous n'êtes pas satisfait des modèles que vous avez, un modèle de Cox a priori fera l'affaire.
Enfin, 10 variables explicatives ce n'est a priori par énorme (encore que je ne connais pas le nombre d'observations). La recherche du modèle le plus parcimonieux n'est pas insurmontable "à la main". Mais il y a des outils automatiques pour ça.
HTH, Eric.
Un modèle de Cox n'est rien d'autre qu'un GLM un peu particulier. Donc, oui, des variables qualitatives sont acceptées, évidement. J'ajuste ce genre de modèles sur des données quantitatives et qualitatives depuis des années.
Encore une fois, si vous n'êtes pas satisfait des modèles que vous avez, un modèle de Cox a priori fera l'affaire.
Enfin, 10 variables explicatives ce n'est a priori par énorme (encore que je ne connais pas le nombre d'observations). La recherche du modèle le plus parcimonieux n'est pas insurmontable "à la main". Mais il y a des outils automatiques pour ça.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Choix de test/modèle.
Eric Wajnberg a écrit:Un modèle de Cox peut prendre des données censurées ou non.
Un modèle de Cox n'est rien d'autre qu'un GLM un peu particulier. Donc, oui, des variables qualitatives sont acceptées, évidement. J'ajuste ce genre de modèles sur des données quantitatives et qualitatives depuis des années.
Encore une fois, si vous n'êtes pas satisfait des modèles que vous avez, un modèle de Cox a priori fera l'affaire.
Enfin, 10 variables explicatives ce n'est a priori par énorme (encore que je ne connais pas le nombre d'observations). La recherche du modèle le plus parcimonieux n'est pas insurmontable "à la main". Mais il y a des outils automatiques pour ça.
HTH, Eric.
J'ai un peu plus de 10.000 observations, j'ai de mauvaises prédictions avec le modèle de cox
- Code:
modcox = coxph(Surv(Production_Time_minutes)~SHIFT+TEAM+LENGHT+WIDTH+THICK+Speed
+Press_Factor+Downtime+M3_Qual_P+M3_Qual_I+M3_Qual_T,data = Dataglm)
pcox = predict(modcox,Dataglmval[-7])
Erreurcox = Dataglmval[,7]-pcox
summary(abs(Erreurcox))
summary(pcox)
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: Choix de test/modèle.
Qu'est ce que Dataglmval ? Votre dataset est Dataglm.
Je ne pense pas que des statistiques sur les valeurs absolues des différences entre valeurs observées et prédites (est-ce ce que vous tentez de faire ?) soient pertinentes ici. Nous ne sommes pas dans le monde gaussien.
Par ailleurs, la fonction predict.coxph() (que vous utilisez ici sans le savoir) accepte un argument "type" qui dit dans quel espace les prédictions sont faites. Par défaut, cet argument prend la valeur "lp" (linear predictor) et il n'est pas sûr que ce soit le bon choix.
Enfin, pour des raisons statistiques, les prédictions ainsi calculées d'un modèle de Cox ne sont pas forcément aisées à interpréter. Voir la doc de la fonction predict.coxph(), et notamment le chapitre "Details".
D'une manière générale, la notion de résidus dans un modèle de Cox n'est pas aisée, ni même toujours très utile. Encore une fois, on n'est pas ici dans le monde du modèle linéaire simple.
HTH, Eric.
Je ne pense pas que des statistiques sur les valeurs absolues des différences entre valeurs observées et prédites (est-ce ce que vous tentez de faire ?) soient pertinentes ici. Nous ne sommes pas dans le monde gaussien.
Par ailleurs, la fonction predict.coxph() (que vous utilisez ici sans le savoir) accepte un argument "type" qui dit dans quel espace les prédictions sont faites. Par défaut, cet argument prend la valeur "lp" (linear predictor) et il n'est pas sûr que ce soit le bon choix.
Enfin, pour des raisons statistiques, les prédictions ainsi calculées d'un modèle de Cox ne sont pas forcément aisées à interpréter. Voir la doc de la fonction predict.coxph(), et notamment le chapitre "Details".
D'une manière générale, la notion de résidus dans un modèle de Cox n'est pas aisée, ni même toujours très utile. Encore une fois, on n'est pas ici dans le monde du modèle linéaire simple.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Choix de test/modèle.
Eric Wajnberg a écrit:Qu'est ce que Dataglmval ? Votre dataset est Dataglm.
Je ne pense pas que des statistiques sur les valeurs absolues des différences entre valeurs observées et prédites (est-ce ce que vous tentez de faire ?) soient pertinentes ici. Nous ne sommes pas dans le monde gaussien.
Par ailleurs, la fonction predict.coxph() (que vous utilisez ici sans le savoir) accepte un argument "type" qui dit dans quel espace les prédictions sont faites. Par défaut, cet argument prend la valeur "lp" (linear predictor) et il n'est pas sûr que ce soit le bon choix.
Enfin, pour des raisons statistiques, les prédictions ainsi calculées d'un modèle de Cox ne sont pas forcément aisées à interpréter. Voir la doc de la fonction predict.coxph(), et notamment le chapitre "Details".
D'une manière générale, la notion de résidus dans un modèle de Cox n'est pas aisée, ni même toujours très utile. Encore une fois, on n'est pas ici dans le monde du modèle linéaire simple.
HTH, Eric.
Bonsoir,
J'ai stocké mes données dans "Data" (~10.000 obs) puis j'ai séparé ce data.frame en 2 parties, une partie pour créer le modèle : Dataglm (3000 obs) et une partie pour tester le modèle : Dataglmval (~7000 obs).
Oui c'est pour tester la qualité de mes prédictions, je pense que c'est pertinent comme test, je vois pas le problème avec le fait que ça soit gaussien ou non, je teste mes prédictions contre les valeurs observées sur la base de test et non sur celle qui m'a permit de créer le modèle.
Je vais regarder plus en détails la fonction predict.coxph().
Merci
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: Choix de test/modèle.
Une loi de Gauss est symétrique de part et d'autre de la moyenne. Les résidus sur un modèle gaussien doivent donc être symétrique par rapport à zéro, ce qui n'est nécessairement le cas sur un modèle non gaussien, et pas le cas notamment dans un modèle de Cox. Passer aux valeurs absolues ne doit pas arranger les choses. C'est ce que je voulais dire.
Eric
Eric
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Choix de test/modèle.
Bonjour,
J'ai essayé d'autres "type" dans la fonction predict de R ça me donne des résultats encore moins bons.
Je sais pas quoi faire du coup.
Et pour tester l'indépendance ?
Autre question savez vous comment sélectionner les termes que je veux avec la fonction poly(),
Par exemple poly(x,3) -> ax^3+bx²+cx+d, si je veux uniquement ax^3+cx+d ?
Merci
J'ai essayé d'autres "type" dans la fonction predict de R ça me donne des résultats encore moins bons.
Je sais pas quoi faire du coup.
Et pour tester l'indépendance ?
Autre question savez vous comment sélectionner les termes que je veux avec la fonction poly(),
Par exemple poly(x,3) -> ax^3+bx²+cx+d, si je veux uniquement ax^3+cx+d ?
Merci
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: Choix de test/modèle.
Je crois avant tout qu'il faudrait voir/savoir pourquoi vous déclarez le modèle comme non satisfaisant. Est-ce que le modèle ne prédit vraiment pas correctement les données d'origines (ceux de Dataglm) ? Ca serait un point de départ.
Par ailleurs. Qu'entendez vous par "tester l'indépendance" ? Indépendance de quoi ?
Je ne crois pas qu'on puisse sauter des degrés dans poly(), et en fait je ne suis pas sûr de comprendre à quoi ca servirait vraiment. Mais je peux me tromper.
HTH, Eric.
Par ailleurs. Qu'entendez vous par "tester l'indépendance" ? Indépendance de quoi ?
Je ne crois pas qu'on puisse sauter des degrés dans poly(), et en fait je ne suis pas sûr de comprendre à quoi ca servirait vraiment. Mais je peux me tromper.
HTH, Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Re: Choix de test/modèle.
Je le déclare mauvais car les données prédites sont très éloignées des données observées, je viens de tester sur la base qui m'a permis de créer le modèle pour le glm et cox les résultats sont mauvais :
Summary de mon temps de production moyen :
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.93 81.98 136.66 178.23 240.35 479.98
Summary de mon erreur sur le glm :
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00 18.11 42.92 55.33 70.48 1623.79
Summary de mon erreur sur le cox :
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.049 78.953 143.735 188.617 257.484 2612.802
Summary de mon erreur sur le lm :
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00002 2.44178 5.60364 9.05487 11.47381 255.22698
Edit : Indépendance de mes variables entre elles, savoir si certaines influencent d'autres.
Edit 2 : Et savoir quelle est l'équipe la plus efficace, (variable TEAM qui comprend 6 équipes) savoir avec laquelle nous avons le moins de Dowtime, la meilleure productivité.
Summary de mon temps de production moyen :
Min. 1st Qu. Median Mean 3rd Qu. Max.
2.93 81.98 136.66 178.23 240.35 479.98
Summary de mon erreur sur le glm :
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00 18.11 42.92 55.33 70.48 1623.79
Summary de mon erreur sur le cox :
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.049 78.953 143.735 188.617 257.484 2612.802
Summary de mon erreur sur le lm :
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.00002 2.44178 5.60364 9.05487 11.47381 255.22698
Edit : Indépendance de mes variables entre elles, savoir si certaines influencent d'autres.
Edit 2 : Et savoir quelle est l'équipe la plus efficace, (variable TEAM qui comprend 6 équipes) savoir avec laquelle nous avons le moins de Dowtime, la meilleure productivité.
Bibilerikiki- Nombre de messages : 56
Date d'inscription : 24/06/2017
Re: Choix de test/modèle.
Vous ne répondez pas à ma question, je pense. La question est (avant tout) de savoir si le modèle décrit les données sur lesquelles il a été estimé. Est-ce ce que vous montrez ici? Si c'est le cas, alors il n'y a pas de raison de déclarer le modèle comme non satisfaisant. Si c'est n'est pas le cas, il faut s'interroger sur le pourquoi. Des graphes peuvent être utiles ici, par exemple des résidus en fonction des variables explicatives, en fonction du temps mesuré, ou du temps estimé, des graphes des valeurs prédites en fonction des valeurs estimées, etc.
Eric.
Eric.
Eric Wajnberg- Nombre de messages : 1238
Date d'inscription : 14/09/2012
Page 1 sur 2 • 1, 2
Page 1 sur 2
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum