Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Etude de 103 observations avec 29 variables binaires
2 participants
Page 1 sur 1
Etude de 103 observations avec 29 variables binaires
j'ai posé la question hier, mais ça ira mieux avec les données.
103 individus, décrits par 29 variables, présentes (1) ou absentes (0)... je ne crois pas pouvoir en faire grand chose, mais je me trompe peut être.
La solution est sans doute de réduire le nombre de variables, en les regroupant. Mais ce sera forcément en partie arbitraire...
Merci
103 individus, décrits par 29 variables, présentes (1) ou absentes (0)... je ne crois pas pouvoir en faire grand chose, mais je me trompe peut être.
La solution est sans doute de réduire le nombre de variables, en les regroupant. Mais ce sera forcément en partie arbitraire...
Merci
- Fichiers joints
Dagun- Nombre de messages : 7
Date d'inscription : 19/09/2012
Re: Etude de 103 observations avec 29 variables binaires
Rien d'arbitraire si tu fais ta réduction au travers d'une étude différentielle univariée cohérente. Par convention on utilisera le test approprié et on définira un seuil à partir duquel on décide de conserver ou exclure la variable. Pour être sur de ne retenir que les variables intéressantes on prend généralement des p-values inférieures à 5% mais il arrive de repousser le cutoff à 10%, néanmoins cette approche n'assure pas à 100% de contenir les meilleurs variables, en effet il y a une nuance à saisir entre variable différentielle seul et variables différentielles en groupe, de plus il convient également de passer par les méthodes correctives des tests multiples, ça peut sembler fastidieux mais en fait tout ceci se fait très rapidement.
Tu peux également utiliser une ACP et retenir uniquement les variables les plus contributives à la formation des axes, c'est même un classique dans la réduction de dimension d'un espace de départ.
Une autre approche serait la méthode forward ou stepwise (backward étant ici caduc étant donné ton trop grand espace de départ) qui part de la variable la plus discriminante puis petit à petit agrandit le modèle en rajoutant les variables 1 à 1 tant que le gain est statistiquement prouvé. Néanmoins cette approche-là à pour problème de favoriser l'aspect modélisation et non classification des modèles multivariés de prédiction, or si le premier aspect assure des modèles plus robustes et donc fiables, le second assure des modèles bien plus performants.
Enfin, l'approche plus bourrin mais également présente en entreprise, appliquer ton modèle multivariée sur toutes les combinaisons de 2-3-4 variables (au delà tu risques de commencer à sur-apprendre du fait de ton faible échantillon) qui est la méthode la plus sur en terme de pouvoir discriminant mais aussi la plus longue selon le type d'algorithme de classification que tu veux utiliser.
(NB: une dernière option mais que je ne connais pas du tout, celle de la sélection de sous-tribu mais j'en ai entendu parlé lors d'une conférence il y a longtemps mais sans plus, apparemment ce type de sélection de variables est également très utilisées).
Tu peux également utiliser une ACP et retenir uniquement les variables les plus contributives à la formation des axes, c'est même un classique dans la réduction de dimension d'un espace de départ.
Une autre approche serait la méthode forward ou stepwise (backward étant ici caduc étant donné ton trop grand espace de départ) qui part de la variable la plus discriminante puis petit à petit agrandit le modèle en rajoutant les variables 1 à 1 tant que le gain est statistiquement prouvé. Néanmoins cette approche-là à pour problème de favoriser l'aspect modélisation et non classification des modèles multivariés de prédiction, or si le premier aspect assure des modèles plus robustes et donc fiables, le second assure des modèles bien plus performants.
Enfin, l'approche plus bourrin mais également présente en entreprise, appliquer ton modèle multivariée sur toutes les combinaisons de 2-3-4 variables (au delà tu risques de commencer à sur-apprendre du fait de ton faible échantillon) qui est la méthode la plus sur en terme de pouvoir discriminant mais aussi la plus longue selon le type d'algorithme de classification que tu veux utiliser.
(NB: une dernière option mais que je ne connais pas du tout, celle de la sélection de sous-tribu mais j'en ai entendu parlé lors d'une conférence il y a longtemps mais sans plus, apparemment ce type de sélection de variables est également très utilisées).
Re: Etude de 103 observations avec 29 variables binaires
Merci beaucoup. Pour la réduction des variables, je ne souhaite pas procéder par élimination, mais par agrégation, par exemple faire de deux classes qui sont des expressions assez proches des caractéristiques des observations une seule. c'est un peu arbitraire, mais ça me parait possible, sans diminuer la population.
Cordialement
Cordialement
Dagun- Nombre de messages : 7
Date d'inscription : 19/09/2012
Re: Etude de 103 observations avec 29 variables binaires
Au temps pour moi, tu n'as pas de variable réponse, j'avais compris que tu en avais à cause des , ,
Je crois que dans ton cas le mieux restera de faire une ACM et du CAH et ainsi regrouper les variables qui ont un profil semblable.
Je crois que dans ton cas le mieux restera de faire une ACM et du CAH et ainsi regrouper les variables qui ont un profil semblable.
Sujets similaires
» Etude de de 103 observations avec 29 variables binaires
» ACP variables binaires
» Comparaison groupes variables binaires
» Analyse multivariée pour variables binaires
» Lien entre plusieurs variables binaires
» ACP variables binaires
» Comparaison groupes variables binaires
» Analyse multivariée pour variables binaires
» Lien entre plusieurs variables binaires
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum