Les posteurs les plus actifs de la semaine
joyeux_lapin13
 
zeu
 
gg
 
schlebe
 
zezima
 
Yacouba_KONE
 
rayanes159
 
noviceST
 
Eric Wajnberg
 
Nik
 


Etude de 103 observations avec 29 variables binaires

Voir le sujet précédent Voir le sujet suivant Aller en bas

Etude de 103 observations avec 29 variables binaires

Message par Dagun le Jeu 20 Sep 2012 - 7:12

j'ai posé la question hier, mais ça ira mieux avec les données.
103 individus, décrits par 29 variables, présentes (1) ou absentes (0)... je ne crois pas pouvoir en faire grand chose, mais je me trompe peut être.
La solution est sans doute de réduire le nombre de variables, en les regroupant. Mais ce sera forcément en partie arbitraire...
Merci
Fichiers joints
Données épidémio.xlsm Données brute et ACM avec XLStatVous n'avez pas la permission de télécharger les fichiers joints.(145 Ko) Téléchargé 9 fois

Dagun

Nombre de messages : 7
Date d'inscription : 19/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Etude de 103 observations avec 29 variables binaires

Message par joyeux_lapin13 le Mar 23 Oct 2012 - 8:07

Rien d'arbitraire si tu fais ta réduction au travers d'une étude différentielle univariée cohérente. Par convention on utilisera le test approprié et on définira un seuil à partir duquel on décide de conserver ou exclure la variable. Pour être sur de ne retenir que les variables intéressantes on prend généralement des p-values inférieures à 5% mais il arrive de repousser le cutoff à 10%, néanmoins cette approche n'assure pas à 100% de contenir les meilleurs variables, en effet il y a une nuance à saisir entre variable différentielle seul et variables différentielles en groupe, de plus il convient également de passer par les méthodes correctives des tests multiples, ça peut sembler fastidieux mais en fait tout ceci se fait très rapidement.

Tu peux également utiliser une ACP et retenir uniquement les variables les plus contributives à la formation des axes, c'est même un classique dans la réduction de dimension d'un espace de départ.

Une autre approche serait la méthode forward ou stepwise (backward étant ici caduc étant donné ton trop grand espace de départ) qui part de la variable la plus discriminante puis petit à petit agrandit le modèle en rajoutant les variables 1 à 1 tant que le gain est statistiquement prouvé. Néanmoins cette approche-là à pour problème de favoriser l'aspect modélisation et non classification des modèles multivariés de prédiction, or si le premier aspect assure des modèles plus robustes et donc fiables, le second assure des modèles bien plus performants.

Enfin, l'approche plus bourrin mais également présente en entreprise, appliquer ton modèle multivariée sur toutes les combinaisons de 2-3-4 variables (au delà tu risques de commencer à sur-apprendre du fait de ton faible échantillon) qui est la méthode la plus sur en terme de pouvoir discriminant mais aussi la plus longue selon le type d'algorithme de classification que tu veux utiliser.

(NB: une dernière option mais que je ne connais pas du tout, celle de la sélection de sous-tribu mais j'en ai entendu parlé lors d'une conférence il y a longtemps mais sans plus, apparemment ce type de sélection de variables est également très utilisées).

joyeux_lapin13

Nombre de messages : 1670
Age : 33
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Re: Etude de 103 observations avec 29 variables binaires

Message par Dagun le Mar 23 Oct 2012 - 9:27

Merci beaucoup. Pour la réduction des variables, je ne souhaite pas procéder par élimination, mais par agrégation, par exemple faire de deux classes qui sont des expressions assez proches des caractéristiques des observations une seule. c'est un peu arbitraire, mais ça me parait possible, sans diminuer la population.
Cordialement

Dagun

Nombre de messages : 7
Date d'inscription : 19/09/2012

Voir le profil de l'utilisateur

Revenir en haut Aller en bas

Re: Etude de 103 observations avec 29 variables binaires

Message par joyeux_lapin13 le Mar 23 Oct 2012 - 10:31

Au temps pour moi, tu n'as pas de variable réponse, j'avais compris que tu en avais à cause des , ,

Je crois que dans ton cas le mieux restera de faire une ACM et du CAH et ainsi regrouper les variables qui ont un profil semblable.

joyeux_lapin13

Nombre de messages : 1670
Age : 33
Localisation : Mayotte
Date d'inscription : 21/04/2010

Voir le profil de l'utilisateur https://lemakistatheux.wordpress.com/

Revenir en haut Aller en bas

Re: Etude de 103 observations avec 29 variables binaires

Message par Contenu sponsorisé Aujourd'hui à 11:33


Contenu sponsorisé


Revenir en haut Aller en bas

Voir le sujet précédent Voir le sujet suivant Revenir en haut

- Sujets similaires

 
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum