Forum de Statistiques
Vous souhaitez réagir à ce message ? Créez un compte en quelques clics ou connectez-vous pour continuer.
-17%
Le deal à ne pas rater :
SSD interne Crucial SSD P3 1To NVME à 49,99€
49.99 € 59.99 €
Voir le deal

Choix de test/modèle.

3 participants

Page 2 sur 2 Précédent  1, 2

Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Bibilerikiki Mer 28 Juin 2017 - 16:35

Qu'entendez vous par décrire ?
Pour moi un bon modèle est un modèle qui donne de bonnes prédictions, ce n'est de toutes évidences pas le cas des modèles glm et cox que j'ai fait.

Bibilerikiki

Nombre de messages : 56
Date d'inscription : 24/06/2017

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Eric Wajnberg Jeu 29 Juin 2017 - 3:54

Je vous retourne la question: Qu'entendez vous par "bonne prédictions" ? Par exemple, que donne un graphique qui plot en abscisse les valeurs observées et en ordonnées les valeurs prédites, sur les données sur lesquelles le modèle est ajusté ?

Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Bibilerikiki Jeu 29 Juin 2017 - 7:24

Eric Wajnberg a écrit:Je vous retourne la question: Qu'entendez vous par "bonne prédictions" ? Par exemple, que donne un graphique qui plot en abscisse les valeurs observées et en ordonnées les valeurs prédites, sur les données sur lesquelles le modèle est ajusté ?

Eric.

Logiquement la courbe doit se rapprocher de la première bissectrice, après si la courbe décrit une bijection connue ça peut être bien aussi.

Bibilerikiki

Nombre de messages : 56
Date d'inscription : 24/06/2017

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Eric Wajnberg Jeu 29 Juin 2017 - 10:25

Ok. Donc avez-vous essayé de construire ce graphique ? On aura au moins un critère (faible) de ce que peut vouloir dire un bon/mauvais modèle, et de bonnes/mauvaises prédictions..

HTH, Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Bibilerikiki Jeu 29 Juin 2017 - 12:58

Prendre la différence entre la valeur prédite et observée est aussi un bon indicateur, mais ok pourquoi pas si c'est ce que vous voulez, pour le modèle de cox je dois mal utiliser la fonction coxph car j'obtiens vraiment des résultats bizarre.

Edit : Comment faire pour savoir si une équipe est meilleure qu'une autre ?
Et comment tester l'indépendance de toutes mes variables ? Merci

Bibilerikiki

Nombre de messages : 56
Date d'inscription : 24/06/2017

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Eric Wajnberg Ven 30 Juin 2017 - 4:33

Je soupçonne effectivement que vous devez avoir des problèmes dans l'utilisation des fonctions d'ajustement. Toute notre discussion tourne autour de ceci d'ailleurs. C'est bien pour cela qu'il conviendrait d'avoir des graphes diagnostiques.

Pour ce qui est de la différence entre valeurs prédites et observées (i.e., résidus) ce n'est pas si simple, car on n'est pas dans un modèle gaussien (je le répète) et la distribution de ces résidus n'a pas les propriétés attendues habituelles (e.g., symétrique autour de zéro, etc.).

Pour la suite (indépendance des variables explicatives, etc.), il est difficile d'avancer tant que vous n'avez pas un modèle de référence qui convient.

Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Bibilerikiki Ven 30 Juin 2017 - 8:35

Les voici :
Choix de test/modèle. - Page 2 Lm10
Choix de test/modèle. - Page 2 Glm10
Choix de test/modèle. - Page 2 Cox10

Bibilerikiki

Nombre de messages : 56
Date d'inscription : 24/06/2017

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Eric Wajnberg Ven 30 Juin 2017 - 16:03

Bon, le simple modèle linéaire n'est pas si mal, après tout. Même si j'ai un peu du mal à croire que le modèle de Cox soit correct (je soupçonne encore un problème dans l'usage de la fonction d'ajustement et/ou la récupération des données prédites). Je partirais donc plutôt sur cette option là (modèle linéaire). Si ça vous convient, on peut discuter ensuite du choix des variables explicatives les plus pertinentes, etc. Qu’en pensez-vous ?

Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Bibilerikiki Sam 1 Juil 2017 - 7:46

Bonjour,
Je pense aussi que je me suis trompé dans le glm et le cox.
Le problème du modèle linéaire c'est qu'il ne prend pas en compte mes variables qualitatives.
Pour la significativité des variables j'ai pas trop de problème, ce qui me pose problème c'est l'indépendance, savoir quelle est la "TEAM" la plus efficace et à combien de pourcent mes variables d'entrées influencent ma variable de sortie.

Bibilerikiki

Nombre de messages : 56
Date d'inscription : 24/06/2017

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Eric Wajnberg Sam 1 Juil 2017 - 9:55

Vous pouvez sans problème rajouter des variables explicatives qualitatives dans un modèle linéaire. Ca s’appelle un modèle linéaire général et la fonction glm() fait ça sans problème par défaut.

Le choix des variables explicatives les plus pertinentes n'est pas la question de la significativité des variables, mais bien la réponse à votre question de connaitre l'importance de chaque variable à expliquer la variable d’intérêt (en pourcentage, si vous voulez, puisque vous semblez avoir la préférence sur ce mode d'expression des résultats).

Pour votre histoire de team, c'est un problème de comparaison multiple, mais ici aussi il vous faut d'abord un modèle qui décrit correctement vos données.

A cet égard, je continue à pensez qu'un modèle de Cox serait préférable, et il est dommage que vous n'arriviez pas à l'ajuster, et préféreriez prétendre que le modèle est "mauvais", et ne produit pas de "bonnes prédictions", etc.

Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Bibilerikiki Sam 1 Juil 2017 - 10:19

Je l'ai reconnu dans mon post précédent, je n'arrive pas à bien réaliser le modèle de cox et le glm, j'ai essayé plein de choses différentes et à chaque fois j'ai le même résultat, je vois pas où ça bloque.

Que dois je faire du coup ?

Bibilerikiki

Nombre de messages : 56
Date d'inscription : 24/06/2017

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Bibilerikiki Lun 3 Juil 2017 - 20:17

Bonsoir,
Mon modèle glm fonctionne beaucoup mieux quand je mets "family = gaussian", par contre pour le modèle de cox je trouve toujours pas mon erreur.

Le choix des variables explicatives les plus pertinentes n'est pas la question de la significativité des variables, mais bien la réponse à votre question de connaitre l'importance de chaque variable à expliquer la variable d’intérêt (en pourcentage, si vous voulez, puisque vous semblez avoir la préférence sur ce mode d'expression des résultats).

Pour votre histoire de team, c'est un problème de comparaison multiple, mais ici aussi il vous faut d'abord un modèle qui décrit correctement vos données.

Comment dois je procéder ?
Merci.

Bibilerikiki

Nombre de messages : 56
Date d'inscription : 24/06/2017

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Eric Wajnberg Mar 4 Juil 2017 - 5:10

family=gaussien est l'option par défaut de glm(), et on retombe sur les résultats de lm().

Pour le le choix des variables les plus pertinentes il y a plusieurs solutions. Il existe notamment des packages qui font ceci. Si vous n'avez pas beaucoup de variables explicatives, ça peut se faire "à la main", en ajustant par exemple le modèle avec toutes les variables, puis en en retirant une à tour de rôle et voir l'effet que ceci a sur l'ajustement, par exemple par un test de rapport de vraisemblance. De proche en proche, on fini par trouver le modèle le plus parcimonieux, etc. Il y a pas mal d'exemples sur le web.

Pour les comparaisons multiples, il y a également des packages qui font ceci, comme par exemple multcomp.

HTH, Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Bibilerikiki Mar 4 Juil 2017 - 12:40

Oui j'ai déjà testé d'enlever une à une les variables dites "non significatives" celui où la p-value est >0.05, mais le modèle perd très légèrement en précision.
Pour obtenir les pourcentages d'influence comment dois-je faire merci.

Bibilerikiki

Nombre de messages : 56
Date d'inscription : 24/06/2017

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Eric Wajnberg Mar 4 Juil 2017 - 12:48

Oui, il s'agit effectivement de trouver un compromis entre parcimonie et précision.

Puisque vous êtes resté dans le cas gaussien, vous pouvez calculer ce qu'on appelle un rapport de corrélation, c'est à dire, pour chaque variable explicative dans le modèle, le rapport entre la somme des carrés des écarts (SCE) due à chaque variable explicative sur la SCE totale. Ca vous donnera le pourcentage de la SCE totale expliquée par chaque variable explicative.

HTH, Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Bibilerikiki Mar 4 Juil 2017 - 13:00

Mais je peux faire ça uniquement sur mes variables quantitatives ?
Et comment procéder, je crois que les modèles donnent directement la SCE totale dans le summary() ?
Merci Eric.

Bibilerikiki

Nombre de messages : 56
Date d'inscription : 24/06/2017

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Eric Wajnberg Mar 4 Juil 2017 - 13:30

Vous pouvez faire ca sur toutes les variables explicatives, qu'elles soient quantitatives ou qualitatives.

Par ailleurs, la sortie de :
Code:
anova(res,test="F")
Où "res" est l'objet produit par la fonction glm(), donne des déviances qui sont des SCE, puisqu'on est dans le cas gaussien. Vous avez également la "Resid. Dev" qui est la SCE de la résiduelle. En sommant tout ça, vous avez la SCE totale.

HTH, Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Bibilerikiki Mar 4 Juil 2017 - 14:00

Par exemple pour ma variable Xi, je fais (Deviance_i + Resid. Dev_i)/(Deviance + Resid. Dev) ?

Bibilerikiki

Nombre de messages : 56
Date d'inscription : 24/06/2017

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Eric Wajnberg Mar 4 Juil 2017 - 17:20

Prenons un exemple bidon:
Code:
> val=rnorm(12)
> var1=gl(3,4)
> var2=gl(4,2,12)
> anova(glm(val~var1+var2),test="F")
Analysis of Deviance Table

Model: gaussian, link: identity

Response: val

Terms added sequentially (first to last)


     Df Deviance Resid. Df Resid. Dev      F Pr(>F)
NULL                    11     6.9587              
var1  2  1.44168         9     5.5170 0.9743 0.4233
var2  2  0.33818         7     5.1788 0.2286 0.8014
>
Dans ce cas le rapport de corrélation pour var1 est de 1.44168/6.9587, soit 20.717 %, et celui pour var2 est de 0.33818/6.9587, soit 4.486 %.

Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Bibilerikiki Mar 4 Juil 2017 - 19:08

Bonsoir,
D'accord, j'ai compris avec l'exemple c'est parfait.
Voyez vous où est mon erreur pour le modèle de cox ?
Merci.

Bibilerikiki

Nombre de messages : 56
Date d'inscription : 24/06/2017

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Eric Wajnberg Mer 5 Juil 2017 - 5:48

Non, je ne vois pas, et c'est difficile de répondre sans les données. Je pencherais pour une erreur de votre part dans la récupération des données prédites par le modèle.

Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Bibilerikiki Mer 5 Juil 2017 - 7:31

Bonjour,
Code:
install.packages("survival")
library(survival)

modcox = coxph(Surv(Production_Time_minutes)~SHIFT+TEAM+LENGHT+WIDTH+THICK+Speed
               +Press_Factor+Downtime+M3_Qual_P+M3_Qual_I+M3_Qual_T,data = Dataglm)

# pcox = predict(modcox,Dataglmval[-7],type="risk")
#
# Erreurcox = Dataglmval[,7]-pcox
# summary(abs(Erreurcox))

pcox = predict(modcox,Dataglm[,-7],type="risk")

Erreurcox = Dataglm[,7]-pcox
summary(abs(Erreurcox))

plot(pcox,Dataglm[,7],xlab = 'pred',ylab='obs',main='cox')
abline(a=0,b=1,col='red',lwd=2)

Voila mon code pour le modèle de cox, malheureusement je ne peux pas fournir les données qui sont classées confidentielles, SHIFT et TEAM sont qualitatives (factor dans R) les autres quantitatives, downtime est un temps, les M3 sont des quantités (M^3), speed une vitesse en mm/s, je sais pas quoi dire de plus.
Merci en tout cas pour votre aide.

Edit : Comment choisir les meilleures observations qui vont me permettre de créer le modèle le plus précis, les observations à mettre dans ma base de calibration, avec les plans d'expériences, plans factoriels ?
Il faudrait que j'arrive à sectionner tous les niveaux de mes facteurs, c'est à dire que tous les cas possibles (au niveau des variables qualitatives) soient présent dans ma base de calibration, en gros j'ai une variable qui a 33 niveaux et il faut que ces 33 niveaux soient présent dans ma base de calibration, comment faire ?
Merci

Bibilerikiki

Nombre de messages : 56
Date d'inscription : 24/06/2017

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Eric Wajnberg Mer 5 Juil 2017 - 12:49

Pour l'utilisation de predict.coxph(), je virerais l'argument numéro 2 (Dataglmval[-7]) qui est inutile.

Par ailleurs, comme je l'ai déjà dit ici, il n'est pas simple de prédire des durées directement avec un modèle de Cox, puisqu'on travaille avec la fonction de risque. Il y a quelques pages sur le web qui pourraient vous être utiles, par exemple ici: http://dni-institute.in/blogs/cox-regression-interpret-result-and-predict/

En tout cas, c'est clairement là qu'est votre erreur.

Mais si un simple modèle linéaire convient, pourquoi s’embêter avec autre chose ?

Pour le choix des "meilleures" observations, vous n'êtes pas dans le bon registre. Il n'y aucun raison de virer des observations pour en garder d'autres en statistiques. A moins qu'on veuille "orienter" les résultats (..). Ou alors, à moins qu'on ait des informations complémentaires qui indiquent que certaines observations sont moins intéressantes (car, par exemple, plus entachées d'erreur, etc.).

Eric.
Eric Wajnberg
Eric Wajnberg

Nombre de messages : 1238
Date d'inscription : 14/09/2012

Revenir en haut Aller en bas

Choix de test/modèle. - Page 2 Empty Re: Choix de test/modèle.

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Page 2 sur 2 Précédent  1, 2

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum