Etude de 103 observations avec 29 variables binaires

par Dagun Jeu 20 Sep 2012 - 7:12

j'ai posé la question hier, mais ça ira mieux avec les données.
103 individus, décrits par 29 variables, présentes (1) ou absentes (0)... je ne crois pas pouvoir en faire grand chose, mais je me trompe peut être.
La solution est sans doute de réduire le nombre de variables, en les regroupant. Mais ce sera forcément en partie arbitraire...
Merci

Fichiers joints

: Données épidémio.xlsm Données brute et ACM avec XLStatVous n'avez pas la permission de télécharger les fichiers joints.(145 Ko) Téléchargé 9 fois

par joyeux_lapin13 Mar 23 Oct 2012 - 8:07

Rien d'arbitraire si tu fais ta réduction au travers d'une étude différentielle univariée cohérente. Par convention on utilisera le test approprié et on définira un seuil à partir duquel on décide de conserver ou exclure la variable. Pour être sur de ne retenir que les variables intéressantes on prend généralement des p-values inférieures à 5% mais il arrive de repousser le cutoff à 10%, néanmoins cette approche n'assure pas à 100% de contenir les meilleurs variables, en effet il y a une nuance à saisir entre variable différentielle seul et variables différentielles en groupe, de plus il convient également de passer par les méthodes correctives des tests multiples, ça peut sembler fastidieux mais en fait tout ceci se fait très rapidement.

Tu peux également utiliser une ACP et retenir uniquement les variables les plus contributives à la formation des axes, c'est même un classique dans la réduction de dimension d'un espace de départ.

Une autre approche serait la méthode forward ou stepwise (backward étant ici caduc étant donné ton trop grand espace de départ) qui part de la variable la plus discriminante puis petit à petit agrandit le modèle en rajoutant les variables 1 à 1 tant que le gain est statistiquement prouvé. Néanmoins cette approche-là à pour problème de favoriser l'aspect modélisation et non classification des modèles multivariés de prédiction, or si le premier aspect assure des modèles plus robustes et donc fiables, le second assure des modèles bien plus performants.

Enfin, l'approche plus bourrin mais également présente en entreprise, appliquer ton modèle multivariée sur toutes les combinaisons de 2-3-4 variables (au delà tu risques de commencer à sur-apprendre du fait de ton faible échantillon) qui est la méthode la plus sur en terme de pouvoir discriminant mais aussi la plus longue selon le type d'algorithme de classification que tu veux utiliser.

(NB: une dernière option mais que je ne connais pas du tout, celle de la sélection de sous-tribu mais j'en ai entendu parlé lors d'une conférence il y a longtemps mais sans plus, apparemment ce type de sélection de variables est également très utilisées).

par Dagun Mar 23 Oct 2012 - 9:27

Merci beaucoup. Pour la réduction des variables, je ne souhaite pas procéder par élimination, mais par agrégation, par exemple faire de deux classes qui sont des expressions assez proches des caractéristiques des observations une seule. c'est un peu arbitraire, mais ça me parait possible, sans diminuer la population.
Cordialement

par joyeux_lapin13 Mar 23 Oct 2012 - 10:31

Au temps pour moi, tu n'as pas de variable réponse, j'avais compris que tu en avais à cause des , ,

Je crois que dans ton cas le mieux restera de faire une ACM et du CAH et ainsi regrouper les variables qui ont un profil semblable.

par Contenu sponsorisé

Etude de 103 observations avec 29 variables binaires

Etude de 103 observations avec 29 variables binaires

Re: Etude de 103 observations avec 29 variables binaires

Re: Etude de 103 observations avec 29 variables binaires

Re: Etude de 103 observations avec 29 variables binaires

Re: Etude de 103 observations avec 29 variables binaires