Les posteurs les plus actifs de la semaine
joyeux_lapin13
 
zeu
 
gg
 
schlebe
 
zezima
 
Yacouba_KONE
 
rayanes159
 
noviceST
 
Eric Wajnberg
 
Nik
 


Signification statistique d'un modèle d'apprentissage

Voir le sujet précédent Voir le sujet suivant Aller en bas

Signification statistique d'un modèle d'apprentissage

Message par Wildthing le Dim 15 Déc 2013 - 7:50

J'ai créé un modèle d'apprentissage basé sur un classifier Random Forest, je l'ai entrainé sur une base A et tester sur une base B.
Il m'est demandé de valider la signification statistique des résultats obtenus. Qu'est que ça veut dire et quel test puis-je utiliser ?

Wildthing

Nombre de messages : 2
Date d'inscription : 15/12/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Signification statistique d'un modèle d'apprentissage

Message par Nik le Dim 15 Déc 2013 - 18:17

Wildthing a écrit:Il m'est demandé de valider la signification statistique des résultats obtenus
C'est effectivement très vague comme question. Pour t'orienter un peu je dirais que ça peut tourner à la fois sur l'adéquation du modèle (qualité d'ajustement du modèle aux données) comme autour significativité des paramètres du modèle.

Désolé de ne pouvoir apporter plus de précisions.

Nik

Nombre de messages : 1500
Date d'inscription : 23/05/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Signification statistique d'un modèle d'apprentissage

Message par FS le Lun 16 Déc 2013 - 13:42

Oui, c'est très vague.
Dans la pratique on se base sur la matrice de confusion pour évaluer la performance d'un modèle.
Cette performance répond ou pas à la problématique, mais on établi pas un test pour savoir si elle est significative car le but premier n'est pas d'analyser le modèle afin d' en tirer des conclusions, mais de prédire/classer un nouvel individu.

Après oui tu peux toujours t'amuser à faire un test en comparant la matrice issue de ton modèle à une matrice théorique d'un modèle qui fait pas mieux que le hasard.
Mais en dehors de l’intérêt pédagogique de la chose, ça me semble inutile.

FS

Nombre de messages : 163
Date d'inscription : 25/04/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Signification statistique d'un modèle d'apprentissage

Message par Wildthing le Lun 16 Déc 2013 - 17:52

Est ce que je peux utilisé une ANOVA pour analyser mon modèle? si oui comment?
PS: Je ne suis pas expert en statistiques.

Wildthing

Nombre de messages : 2
Date d'inscription : 15/12/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Signification statistique d'un modèle d'apprentissage

Message par FS le Mar 17 Déc 2013 - 1:43

Commence par interpréter la matrice de confusion.

FS

Nombre de messages : 163
Date d'inscription : 25/04/2008

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Signification statistique d'un modèle d'apprentissage

Message par joyeux_lapin13 le Mar 17 Déc 2013 - 4:02

Déjà avant de parler de comment interpréter le modèle il serait bon de savoir la forme de la variable que tu cherches à prédire étant donné que les randomforest qui se base sur les différents algorithmes d'arbre décisionnel permettent de travailler sur des variables réponses binaires, polychotomiques voir continues. Donc si on est dans l'un des deux premiers cas il faut bosser exclusivement sur la matrice de confusion voir sur l'AUC/HUM et si on est dans le dernier il convient de bosser sur tout ce qui est distance entre la réponse réelle et la réponse prédite par le modèle.

joyeux_lapin13

Nombre de messages : 1670
Age : 33
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Re: Signification statistique d'un modèle d'apprentissage

Message par Wildthing le Mar 17 Déc 2013 - 9:00

Mon Random Forest peut prédire trois classe C1, C2, et C3.
Mais je crois que je vais tenter la matrice de confusion.
joyeux_lapin13, est ce que tu peux me donner de bonnes références vers l'AUC/HUM? Merci.

J'aimerai comme même savoir si une ANOVA est applicable ICI? j'ai lu quelque part que ce genre de test n'était pas fait pour analyser des classifieurs du genre Random Forest, du fait que c'est une méthode (la RF) algorithmique basée sur la prédiction et la précision?

Wildthing

Nombre de messages : 2
Date d'inscription : 15/12/2013

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Signification statistique d'un modèle d'apprentissage

Message par joyeux_lapin13 le Mar 17 Déc 2013 - 10:02

Alors si tu es sur la prédiction de 3 classes le plus parlant reste les taux de classifications de chacune des classes qui se base sur une approche bayésienne:

P(prédire Classe 1 sachant (/) que la classe réelle est la 1) = #{effectif classé 1}/#{effectif de la classe 1}
P(prédire Classe 2 sachant (/) que la classe réelle est la 2) = #{effectif classé 2}/#{effectif de la classe 2}
P(prédire Classe 3 sachant (/) que la classe réelle est la 3) = #{effectif classé 3}/#{effectif de la classe 3}

Si tu veux un indicateur de performance alors il faut voir du coté de l'extension de l'AUC à plusieurs classes que l'on appel aussi le HUM (dans ton cas, puisque tu as 3 classes on parle de volume sous la surface ROC), il y a pas vraiment de programmes implémentant ce calcul, en gros il faut partir sur le vecteur des probabilités de prédiction et regarder les triplets concordantes pour les 3 classes.

- Pour l'AUC classique il faut déterminer l'ordre des classes (ex: A, B) et ensuite regarder les paires concordantes, si pour la ième observation de la classe A tu as X_A < X_B alors elle est concordante et tu ajoutes 1 au score de l'AUC, si X_A = X_B alors tu ajoutes 0.5 et si X_A > X_B alors le score reste tel quel jusqu'à ce que tu aies fait ce calcul pour toutes les paires possibles. l'AUC est égal à ce score divisé par le nombre de paires possibles. L'AUC de référence étant 0.5 pour la discrimination à 2 classes (cf wikipédia).

- Dans ton cas, le VUS (si mes souvenirs sont bons), il faut procéder analoguement, d'abord déterminer l'ordre de tes 3 classes (ex: A, B, C) et appliquer l'algorithme suivant: pour chaque i de la classe A,
o si X_A > X_B > X_C alors +1
o si X_A > X_B = X_C ou X_A = X_B > X_C alors +1/2
o si X_A = X_B = X_C alors +1/6
o 0 sinon, c'est-à-dire qu'à la moindre discordance on fait +0
VUS = score/nombre de triplets possibles, la référence devient alors 1/3! = 1/6, plus on s'en éloigne et plus le classifieur est bon.


Pour les références,

- ROC analysis with multiple classes and multiple tests: methodology and its application in microarray studies, J. Li et J. P. Fine

- three-way ROCs, D. Mossman

- Ordered multiple-class ROC analysis with continuous measurements, C. T. Nakas et C. T. Yiannoutsos

- The meaning and use of the volume under a three class ROC surface (VUS), X. Hee et E. C. Frey

- Volume under the ROC surface for multi-class problems, C. Ferri, J. Hernandez-Orallo et M. A. Salido

- Efficient multiclass ROC approximation by decomposition via confusion matrix perturbation analysis, T. C. W. Langrebe et R. P. W. Duin

- The hypervolume under the ROC hypersurface of "Near-Guessing" and "Near-Perfect" observers in N-Class classification tasks, D. C. Edwards, C. E. Metz et R. M. Nishikawa

joyeux_lapin13

Nombre de messages : 1670
Age : 33
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Re: Signification statistique d'un modèle d'apprentissage

Message par Contenu sponsorisé Aujourd'hui à 11:31


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum