Les posteurs les plus actifs de la semaine
falques
[R] Forêt aléatoire [RESOLU] Vote_lcap[R] Forêt aléatoire [RESOLU] Voting_bar[R] Forêt aléatoire [RESOLU] Vote_rcap 
c@ssoulet
[R] Forêt aléatoire [RESOLU] Vote_lcap[R] Forêt aléatoire [RESOLU] Voting_bar[R] Forêt aléatoire [RESOLU] Vote_rcap 


[R] Forêt aléatoire [RESOLU]

Aller en bas

[R] Forêt aléatoire [RESOLU] Empty [R] Forêt aléatoire [RESOLU]

Message par joyeux_lapin13 le Mar 3 Aoû 2010 - 22:10

Bonjour,

depuis quelque jours je m'intéresse aux forêts aléatoires, j'ai commencé avec WEKA mais j'ai l'impression qu'il s'agit uniquement d'une forme 'boite noir', aussi je m'y suis mis sous R (fonction randomForest) et j'ai un peu du mal à cerner le machin.

J'ai passer un p'tit bout de temps sur le coté théorique de la méthode et de ce que j'ai compris c'est que la finalité est la liste de variables le plus souvent liés à des arbres amenant les meilleurs prédictions.

Or sous R j'ai deux problèmes, le premier est la gestion des données manquantes, en effet j'ai 244 individus pour une 50aine de variables, je m'attendais à ce que ça les gère comme pour la fonction rpart, en effet il me semble que ça conserve tout le jeux de données et supprime uniquement les individus des variables testés pour faire les noeuds et les feuilles. Mais là ça me renvoi carrément qu'il en détecte et que ça l'empêche de tourner... aussi si certain utilise ce package pourrait il me dire si c'est la fonction ou moi qui ait loupé une option... na.action n'ayant pas vraiment des propositions censés je trouve...

Le second problème est justement où peut-on récupérer le listing des variables influentes. Là avec la fonction round j'obtiens les informations suivantes (%IncMSE, IncNodePurity)/variables mais je n'arrive pas à comprendre ces chiffres...

Enfin bref j'ai un peu du mal avec ce package, donc si certain s'en servent j'aurais plusieurs questions à leur poser.

Merci d'avance.


Dernière édition par joyeux_lapin13 le Lun 4 Oct 2010 - 18:05, édité 1 fois
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1924
Age : 35
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

[R] Forêt aléatoire [RESOLU] Empty Re: [R] Forêt aléatoire [RESOLU]

Message par Rico le Lun 23 Aoû 2010 - 13:14

Hello,

je ne voudrais pas te donner de faux espoirs, j'ai également utilisé dans le passé Rpart et voulu utiliser RandomForest mais le temps m'a manqué;

Pour ton probleme de données manquantes tu pourrais dans un premier temps remplacer tes valeurs manquantes par la moyenne observée sur la variable (via n'importe quel éditeur) et tester RandomForest ne serais ce que pour savoir si cela marche.

De mémoire, pour rpart il surffit de créer un objet arbre<-rpart(......) qui te permettra en l'applelant dans un second temps d'obtenir des informations détaillé sur ton arbre ; as tu essayé ?
bye,

Rico

Nombre de messages : 13
Date d'inscription : 06/11/2007

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

[R] Forêt aléatoire [RESOLU] Empty Re: [R] Forêt aléatoire [RESOLU]

Message par joyeux_lapin13 le Lun 23 Aoû 2010 - 14:19

Rebonjour donc,

en fait je comptais mettre en EDIT les infos que j'ai désormais sur cette fonction (en fait je fais souvent ça sur mes anciens topics où j'ai trouvé la solution, plutot que de "double-post" je fais un paragraphe EDIT).

En réalité tout es écrit dans ces deux documents:
- Séance 10: Arbre de classifications et Fôrets aélatoires de Sébastien Gradat
- et une autre doc dont je viens de m'apercevoir que j'ai perdu la référence... en plus ça expliquer les deux calculs...

Ensuite, concernant les données manquantes, j'ai résolu plus ou moins le problème en fixant un seuil de suppression de tel ou tel variables, en général celles ayant plus de 10% sont éliminés, bon mon jeux est de 250 individus en même temps...

Pour le nombre de fois où une variable est entrée il suffit d'utiliser la fonction varUsed.

Bref je bosse toujours dessus en fait, dés que j'aurais fini je ferais un retour complet de tout ce que j'ai noté, dans mon paragraphe EDIT habituel.

Encore merci de t'être interesser à mon topic.

EDIT: analyse <- randomForest(DataY, DataX, minsplit = 10% effectif (?), ntree = 10000, mtry = sqrt(nombre de variables))
Par contre le résultat est un peu étrange par rapport à la définition d'échantillon Out-of-bag (OOB), pour moi il correspond du tier servant à valider les arbres de la foret... là on dirait qu'il s'agit de l'effectif complet...
Aprés si vous voulez la foret, il faut faire analyse$forest, les résidus: analyse$votes.
joyeux_lapin13
joyeux_lapin13

Nombre de messages : 1924
Age : 35
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

[R] Forêt aléatoire [RESOLU] Empty Re: [R] Forêt aléatoire [RESOLU]

Message par Contenu sponsorisé


Contenu sponsorisé


Revenir en haut Aller en bas

Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum