Les posteurs les plus actifs de la semaine
Aucun utilisateur |
Sujets les plus vus
Probleme de classement ?
4 participants
Page 1 sur 1
Probleme de classement ?
Bonjour,
Je recherche une méthode statistique qui me permettrait de traiter le problème suivant :
Je dispose de 4 variables quantitatives A , B , C et D . J'ai les valeurs prises par ces 4 variables pour N individus. Je cherche à obtenir un modèle de la forme :
S = a A + b B + c C + d D
avec : a, b, c et d des paramètres,
et : S une variable qui permettrait de classer/noter les individus, mais qui n'existe pas a priori (et c'est bien ça le problème...) et donc qu'on doit créer.
Je n'arrive pas bien à voir comment réaliser une telle chose (c'est un problème qu'on m'a posé), donc si quelqu'un a de quoi m'éclairer un peu ^^
Merci d'avance.
Cordialement,
A.D.
Je recherche une méthode statistique qui me permettrait de traiter le problème suivant :
Je dispose de 4 variables quantitatives A , B , C et D . J'ai les valeurs prises par ces 4 variables pour N individus. Je cherche à obtenir un modèle de la forme :
S = a A + b B + c C + d D
avec : a, b, c et d des paramètres,
et : S une variable qui permettrait de classer/noter les individus, mais qui n'existe pas a priori (et c'est bien ça le problème...) et donc qu'on doit créer.
Je n'arrive pas bien à voir comment réaliser une telle chose (c'est un problème qu'on m'a posé), donc si quelqu'un a de quoi m'éclairer un peu ^^
Merci d'avance.
Cordialement,
A.D.
Re: Probleme de classement ?
Eventuellement tu peux lancer une ACP sur tes 4 variables, tu auras alors tes composantes principales qui sont en fait des axes de discrimination, plus concrêtement un axe expliquera une certaine catégorie de personnes.
Aprés, et j'ai pas réfléchit à comment, tu peux développer le machin pour voir là ou ça peut mener...
Aprés, et j'ai pas réfléchit à comment, tu peux développer le machin pour voir là ou ça peut mener...
Re: Probleme de classement ?
Merci pour cette réponse rapide
Dans la mesure où je ne dispose pas de variable à expliquer, j'avais moi aussi pensé à effectuer une ACP. Ensuite, je disposerais des coordonnées de mes individus dans le plan/espace principal, ce qui pourrait éventuellement me donner un modèle de la forme :
S'= u1 C1 + u2 C2 + u3 C3 ...
avec : C1 , C2 ... les composantes principales
et : u1, u2... les coordonnées.
Mon raisonnement est-il correct?
Mais alors, comment faire pour de nouveaux individus ?
Petite précision, pour le moment je ne dispose pas du jeu de données, donc pas de bidouilles possibles, je dois raisonner d'un point de vue théorique :/
A.D.
Dans la mesure où je ne dispose pas de variable à expliquer, j'avais moi aussi pensé à effectuer une ACP. Ensuite, je disposerais des coordonnées de mes individus dans le plan/espace principal, ce qui pourrait éventuellement me donner un modèle de la forme :
S'= u1 C1 + u2 C2 + u3 C3 ...
avec : C1 , C2 ... les composantes principales
et : u1, u2... les coordonnées.
Mon raisonnement est-il correct?
Mais alors, comment faire pour de nouveaux individus ?
Petite précision, pour le moment je ne dispose pas du jeu de données, donc pas de bidouilles possibles, je dois raisonner d'un point de vue théorique :/
A.D.
Re: Probleme de classement ?
C'est vrai que c'est un exo interessant que tu as là.
Plutot que de faire une ACP je ferais d'abord une ACM pour voir ce que donne la classification de mes individus en fonction de mes variables/modalités. Du coup tu peux découper ton cadrant en 4 et à ce moment là voir si tu peux pas classer tes personnes, ou tant tu auras carrément des groupes d'individus qui se dessineront.
Pourquoi pas même faire un clustering ou tout autre méthode de classification non supervisée et à ce moment là ériger ta variable réponse S? Dés lors tu pourras te réorienter vers de la régression.
La logique serait qu'en fait tes individus décrivent des catégories et que ton exo se limite à prédire dans quel catégorie un nouvel individu pourrait être classé.
Le souci de l'ACP au final c'est que tu vas pas pouvoir réellement projeter tes points en terme de similarité, vue qu'en toute logique si tu fais cette projection tu vas avoir le nuage des individus d'une part et d'une autre les individus atypiques (enfin moi c'est ce que à quoi je suis habitué)... pour moi l'ACP met plus en évidence les corrélations que les similarités d'où le fait que je parle d'ACM.
Donc en gros rapport toi à une ACM (si tu as des modalités car logiquement tu peux pas rentrer de variable continue... enfin quand on voit ce qui se passe à la main je crois pas qu'on puisse...) et sinon au Cluster (si t'es en continue).
Plutot que de faire une ACP je ferais d'abord une ACM pour voir ce que donne la classification de mes individus en fonction de mes variables/modalités. Du coup tu peux découper ton cadrant en 4 et à ce moment là voir si tu peux pas classer tes personnes, ou tant tu auras carrément des groupes d'individus qui se dessineront.
Pourquoi pas même faire un clustering ou tout autre méthode de classification non supervisée et à ce moment là ériger ta variable réponse S? Dés lors tu pourras te réorienter vers de la régression.
La logique serait qu'en fait tes individus décrivent des catégories et que ton exo se limite à prédire dans quel catégorie un nouvel individu pourrait être classé.
Le souci de l'ACP au final c'est que tu vas pas pouvoir réellement projeter tes points en terme de similarité, vue qu'en toute logique si tu fais cette projection tu vas avoir le nuage des individus d'une part et d'une autre les individus atypiques (enfin moi c'est ce que à quoi je suis habitué)... pour moi l'ACP met plus en évidence les corrélations que les similarités d'où le fait que je parle d'ACM.
Donc en gros rapport toi à une ACM (si tu as des modalités car logiquement tu peux pas rentrer de variable continue... enfin quand on voit ce qui se passe à la main je crois pas qu'on puisse...) et sinon au Cluster (si t'es en continue).
Re: Probleme de classement ?
Je vois ce que vous voulez dire pour l'ACP.
Je dispose de variables continues, vous me conseillez donc de m'orienter vers une méthode de classification non-supervisée (par exemple, la méthode des k-means) ?
Je ne maîtrise pas bien ces types de méthodes, et je ne vois pas très bien comment "ériger ma variable S" à partir de ce type d'étude...
Merci de votre aide en tout cas
A.D.
Je dispose de variables continues, vous me conseillez donc de m'orienter vers une méthode de classification non-supervisée (par exemple, la méthode des k-means) ?
Je ne maîtrise pas bien ces types de méthodes, et je ne vois pas très bien comment "ériger ma variable S" à partir de ce type d'étude...
Merci de votre aide en tout cas
A.D.
Re: Probleme de classement ?
Ben en fait le clustering c'est tout bête, disons que tes individus sont projetés dans un plan en plusieurs dimensions (evidemment leur coordonnée sont dans ta matrice de donnée ou une ligne = un individu), toi ce que tu te dis c'est 'bon si similarité = distance' est ce qu'on va avoir plusieurs nuages de point dans divers coin du plan ou pourquoi pas avoir des nuages confondus mais avec des tendances qui en fait serait cette fameuse dissimilarité qu'on recherche.
Ben si tu as compris ça tu as tout compris au clustering, tu as plusieurs méthodes qui en fait se résume à regarder toujours la distance mais là ou ça diffère c'est la distance de quoi.
Je m'en souviens plus par coeur mais les grands principes sont:
-regardé la distance des points les plus éloignés de deux groupes
-celle des points les moins éloignés
-celle des barycentres
-celle des moyennes si tu projetes le tout sur une droite
ect ect aprés ya des variantes mais c'est toujours là l'idée.
Dans la construction tu démarres au hasard en fait dans ton plan, et tu montes tes groupes un à un en regardant si les distances entre un groupe (au début de deux points donc) et un autre point à rajouter sont minime en fonction de tel ou tel point/groupe. Dit comme ça c'est brouillon mais je décrit les méthodes d'assemblance en terme de groupe tout comme en terme de points.
Bref c'est l'idée, je prend le temps d'écrire ce pavé pour que tu saches bien vers quoi tu t'orientes.
Pour ce qui est du K-means, ben c'est exactement la même chose sauf que le point de départ de l'algorithme est tout d'abord deux points puis aprés on regarde en terme de barycentre.
Bref si tu veux plus d'explications tien moi au courant mais dans le sens où c'est juste un exo je pense que tu peux te limiter au principe.
Donc comme tu l'auras compris au final tu as plein de groupe/cluster, en fait tu vas avoir un arbre qui part d'une racine commune pour finalement se diviser jusqu'à rejoindre chacun de tes individus. C'est à ce moment là qu'entre les 3 critères de sélection: CCC, R square, pseudo-R square qui te dise à combien de branche couper ton arbre pour déterminer les clusters finaux.
Dés lors tu te retrouves avec N groupes qui logiquement décrivent des statuts différents, je parlerais plus de statut à risque par conséquent, les critères sont fiables dans le sens où ils jugent les pertes d'inertie intra et inter groupe, donc il te permet de prendre des groupes qui sont à la fois compact (en terme d'individus qui les composent) et distant les un des autre. La méthode ne triche pas dans le sens où elle s'optimise uniquement vis à vis de la situation de tes données, comme tu peux le lire la seule influence est au final la distribution de tes individus.
La finalité serait donc des groupes qui décrivent des catégories, maintenant en fonction de ta répartition ou tu parles de statut (groupes bien distinct) ou tu parles de groupes à risque (groupes trés trés proche).
Aprés pour le clustering ça reste une idée, je pense que tu devrais voir un peu l'avis d'autre personne.
EDIT: pour traiter tes données par clustering il te faut en tester plein WARD, MEDIAN, CENTROID, K-MEAN, ect ect ect
Avec SAS ça va vite, en général K-MEAN et WARD sont les plus efficaces mais dans le doute il y en a tellement... tu devrais facilement trouver la dizaine de méthodes dispos sur le net.
Ben si tu as compris ça tu as tout compris au clustering, tu as plusieurs méthodes qui en fait se résume à regarder toujours la distance mais là ou ça diffère c'est la distance de quoi.
Je m'en souviens plus par coeur mais les grands principes sont:
-regardé la distance des points les plus éloignés de deux groupes
-celle des points les moins éloignés
-celle des barycentres
-celle des moyennes si tu projetes le tout sur une droite
ect ect aprés ya des variantes mais c'est toujours là l'idée.
Dans la construction tu démarres au hasard en fait dans ton plan, et tu montes tes groupes un à un en regardant si les distances entre un groupe (au début de deux points donc) et un autre point à rajouter sont minime en fonction de tel ou tel point/groupe. Dit comme ça c'est brouillon mais je décrit les méthodes d'assemblance en terme de groupe tout comme en terme de points.
Bref c'est l'idée, je prend le temps d'écrire ce pavé pour que tu saches bien vers quoi tu t'orientes.
Pour ce qui est du K-means, ben c'est exactement la même chose sauf que le point de départ de l'algorithme est tout d'abord deux points puis aprés on regarde en terme de barycentre.
Bref si tu veux plus d'explications tien moi au courant mais dans le sens où c'est juste un exo je pense que tu peux te limiter au principe.
Donc comme tu l'auras compris au final tu as plein de groupe/cluster, en fait tu vas avoir un arbre qui part d'une racine commune pour finalement se diviser jusqu'à rejoindre chacun de tes individus. C'est à ce moment là qu'entre les 3 critères de sélection: CCC, R square, pseudo-R square qui te dise à combien de branche couper ton arbre pour déterminer les clusters finaux.
Dés lors tu te retrouves avec N groupes qui logiquement décrivent des statuts différents, je parlerais plus de statut à risque par conséquent, les critères sont fiables dans le sens où ils jugent les pertes d'inertie intra et inter groupe, donc il te permet de prendre des groupes qui sont à la fois compact (en terme d'individus qui les composent) et distant les un des autre. La méthode ne triche pas dans le sens où elle s'optimise uniquement vis à vis de la situation de tes données, comme tu peux le lire la seule influence est au final la distribution de tes individus.
La finalité serait donc des groupes qui décrivent des catégories, maintenant en fonction de ta répartition ou tu parles de statut (groupes bien distinct) ou tu parles de groupes à risque (groupes trés trés proche).
Aprés pour le clustering ça reste une idée, je pense que tu devrais voir un peu l'avis d'autre personne.
EDIT: pour traiter tes données par clustering il te faut en tester plein WARD, MEDIAN, CENTROID, K-MEAN, ect ect ect
Avec SAS ça va vite, en général K-MEAN et WARD sont les plus efficaces mais dans le doute il y en a tellement... tu devrais facilement trouver la dizaine de méthodes dispos sur le net.
Re: Probleme de classement ?
Pour moi l'ACP résous ton problème. tu ne peux pas faire de l'ACM car tes variables sont continues.
Avec l'ACP tu as la possibilité de faire une première analyse puis de prédire les coordonnées d'un nouvel individu en fonction des anciens.
Bon courage
Avec l'ACP tu as la possibilité de faire une première analyse puis de prédire les coordonnées d'un nouvel individu en fonction des anciens.
Bon courage
Re: Probleme de classement ?
Tout d'abord, merci joyeux_lapin13 pour votre explication détaillée.
J'ai déjà pratiqué un peu de clustering, mais la manière de déterminer le nombre de groupes m'a toujours parue un peu obscure.
La méthode que j'ai vu en cours : faire un arbre de classification avec la méthode de Ward (fonction "hclust" sous R, argument : "method=ward"), choisir combien on garde de groupes à partir de l'observation de cet arbre, puis appliquer la méthode des k-means avec le nombre de groupes que l'on aura choisi.
Sinon j'ai regardé le lien donné par kass (merci ), cela m'a permis de mieux comprendre la manière de traiter les individus supplémentaires en ACP (même si certaines explications de ce document gagneraient à être plus claires).
Ainsi, je pensais effectuer une ACP sur mes données, puis une classification (k-means?), et enfin, pour tout nouvel individu, le placer dans le plan de l'ACP et lui assigner le groupe le plus "proche" de son emplacement (ce dernier point reste à éclaircir), qu'en pensez-vous?
A.D.
J'ai déjà pratiqué un peu de clustering, mais la manière de déterminer le nombre de groupes m'a toujours parue un peu obscure.
La méthode que j'ai vu en cours : faire un arbre de classification avec la méthode de Ward (fonction "hclust" sous R, argument : "method=ward"), choisir combien on garde de groupes à partir de l'observation de cet arbre, puis appliquer la méthode des k-means avec le nombre de groupes que l'on aura choisi.
Sinon j'ai regardé le lien donné par kass (merci ), cela m'a permis de mieux comprendre la manière de traiter les individus supplémentaires en ACP (même si certaines explications de ce document gagneraient à être plus claires).
Ainsi, je pensais effectuer une ACP sur mes données, puis une classification (k-means?), et enfin, pour tout nouvel individu, le placer dans le plan de l'ACP et lui assigner le groupe le plus "proche" de son emplacement (ce dernier point reste à éclaircir), qu'en pensez-vous?
A.D.
Re: Probleme de classement ?
J'avais déjà vu du clustering sur les composantes principales d'une ACM en fait, donc je pense que ça se fait également avec l'ACP.
Aprés il faut utiliser le plus de méthodes possibles et retenir celle qui offre les meilleurs prédictions, c'est la démarche au final...
Mais sinon ton idée à l'air bonne, pour ce qui est de voir si ton individu est proche ou pas il faut que tu le projètes dans ton plan et que tu regardes de quel groupe il se rapproche le plus.
Logiquement avec les axes tu peux, reste à voir dans quel plan il se projète le mieux via la formule de la qualité de représentation.
Aprés il faut utiliser le plus de méthodes possibles et retenir celle qui offre les meilleurs prédictions, c'est la démarche au final...
Mais sinon ton idée à l'air bonne, pour ce qui est de voir si ton individu est proche ou pas il faut que tu le projètes dans ton plan et que tu regardes de quel groupe il se rapproche le plus.
Logiquement avec les axes tu peux, reste à voir dans quel plan il se projète le mieux via la formule de la qualité de représentation.
Re: Probleme de classement ?
pour moi tout ça n'a aucun sens ... classer les individus par rapport a quoi ? dans quel but ? juste pour dire de faire n groupes ? non non franchement je ne vois pas l'intérêt de la chose.
droopy- Nombre de messages : 1156
Date d'inscription : 04/09/2009
Re: Probleme de classement ?
Je pense que c'est juste un exo qui a pour but de s'orienter vers de la classification non supervisée, car si on leur file la variable réponse ils auront tendance à faire de la régression ou autre.
Si ce n'est pas le cas il se peut qu'il ait accés à une bibliographie qui lui permette de faire une analogie entre les individus des différents groupe et ce qu'ils sont censé représenter, c'est lui qui a l'exo devant les yeux aprés tout.
Perso j'en sais rien, en ce qui me concerne j'ai uniquement voulu aider en donnant mon avis qui vaut ce qu'il vaut...
Si ce n'est pas le cas il se peut qu'il ait accés à une bibliographie qui lui permette de faire une analogie entre les individus des différents groupe et ce qu'ils sont censé représenter, c'est lui qui a l'exo devant les yeux aprés tout.
Perso j'en sais rien, en ce qui me concerne j'ai uniquement voulu aider en donnant mon avis qui vaut ce qu'il vaut...
Sujets similaires
» classement par quartile
» Classement type Tripadvisor
» Faire un classement de moyennes?
» Analyse statistique de classement
» problème de représentativité d'un échantillon !!!
» Classement type Tripadvisor
» Faire un classement de moyennes?
» Analyse statistique de classement
» problème de représentativité d'un échantillon !!!
Page 1 sur 1
Permission de ce forum:
Vous ne pouvez pas répondre aux sujets dans ce forum