segmentation non supervisée à actualiser?

par niaboc Mar 27 Juil 2010 - 6:30

Bonjour,

1-je dois réaliser une segmentation non supervisée... pour cela deux méthodes me viennent en tête:
- ACM+CAH
- clustering (k-mean)

première question: existe-t-il d'autres méthodes de segmentation non supervisée?

2-Cependant, une fois ma segmentation faite, tous les x temps, je dois la mettre à jour. Les classes doivent être identiques, mais je dois classer des nouveaux clients et observer les clients qui ont migrés d'une classe à l'autre...

Donc je pensais utiliser une méthode de classification supervisée afin d'avoir un modèle statistique de mes variables par rapports à mes classes... est-ce la seule solution?
trois méthodes me viennent à l'esprit:
- analyse discriminante
- régression logistique multinomiale
- réseau de neurones

sachant que j'ai plus de deux classes, quelle méthode est la plus efficace? en existe -t-il d'autres?

dois-je réaliser la segmentation et le modèle sur un échantillon (grosse volumétrie au départ)? quels sont les inconvénients, avantages?

est-ce la bonne méthode pour ce type de problème ( segmentation non supervisée à actualiser régulièrement)? avez-vous déjà rencontré ce type de problématique? comment avez vous fait?

merci beaucoup par avance de prendre le temps de répondre à ces questions!

par joyeux_lapin13 Mar 27 Juil 2010 - 6:45

Le perceptron multicouche et les SVM sont réputés pour avoir de meilleur performance que le réseau de neurones (pour le premier j'en suis quasi sur pour le second je crois que ça dépend des cas).

par niaboc Mar 27 Juil 2010 - 8:45

mais ces deux méthodes ne sont pas implémentées dans SAS... logiciel que j'utilise.

par joyeux_lapin13 Mar 27 Juil 2010 - 9:07

Ah... vraiment désolé je n'avais pas compris que tu étais uniquement sous SAS en fait...

Alors en effet il me semble que les méthodes que tu as cité sont les seuls... tu peux éventuellement essayer de faire de la régression logistique sur composantes PLS en combinant proc LOGISTIC et proc PLS (dans le thème classification je veux dire).

par niaboc Mar 27 Juil 2010 - 11:36

"je n'avais pas compris que tu étais uniquement sous SAS en fait..." c'est normal, je ne l'avais pas précisé :-)

mais est ce que ma démarche est bonne pour cette problématique? y'a-t-il d'autres pistes de recherche?

par joyeux_lapin13 Mar 27 Juil 2010 - 12:29

Tu veux faire de la classification non supervisée pour voir si en partant à l'aveugle tu retrouves la même répartition des status à expliquer ou bien tu veux carrément créer des classes que tu staturas aprés? logiquement la classification par densité est celle à laquelle on revient la plupart du temps mais cependant essayer toutes les méthodes de clustering (Ward, median, centroid ect ect ect) te permettra d'être sur d'opter vers la meilleur solution.

Aprés pour le reste la démarche est correct pour moi, enfin je veux dire présenté comme ça j'aurais fait la même chose. Dés lors que tu as le coeur de variables explicatives et la règle de décision qui y ait associé tu peux classer tes nouveaux individus grâce à ça.

Par contre ce que je sais pas c'est si on doit actualiser une régle de décision, perso j'aurais tendance à dire que non, car si c'est le cas c'est qu'elle n'est pas bonne à moins et même si le temps joue un rôle dans son évolution il faudrait alors une formule générale dont le temps est un des paramètres. Aprés je dis peut être n'importe quoi mais c'est pour le moment l'image que j'ai de tout ça.

Logiquement on s'attendrait à ce que la régression logistique soit la plus efficace, si tu as énormément de corrélation il faudra surement faire de la PLS. Les réseaux de neurones sont performants mais la tronche de l'équation de classification est généralement peu agréable à manipuler (sommes de fonction munit de poids, elles même pondérés, enfin un vrai bordel la plupart du temps). L'analyse discriminante est, d'ordinaire, moins performante que la régression logistique mais vue que tu sembles avoir que des variables continues tu aurais tord de ne pas jeter un coup d'oeil.

Enfin pour ce qui est de l'apprentissage statistique, ça dépend de tes données de base, si tu en as beaucoup beaucoup beaucoup il faudra en faire, si tu en as un nombre convenable pas la peine.

par Contenu sponsorisé

segmentation non supervisée à actualiser?

segmentation non supervisée à actualiser?

Re: segmentation non supervisée à actualiser?

Re: segmentation non supervisée à actualiser?

Re: segmentation non supervisée à actualiser?

Re: segmentation non supervisée à actualiser?

Re: segmentation non supervisée à actualiser?

Re: segmentation non supervisée à actualiser?