Dynamik von Soft- zu Hard-Clustering

Hartes Clustering bestimmt als gewinnenden Prototypen den dem Datum am nächsten. Soft Clustering verteilt die Anteile am Gewinn graduell an alle Prototypen entsprechend des Abstands. Meist kann man den Grad der 'Verschmierung' anhand eines Parameters des Algorithmus einstellen und erhält crispes Clustering, wenn man den Parameter gegen Null oder Unendlich gehen läßt. Beispiel ist beim fuzzy-k-means der Parameter d (oder wie der auch immer hieß, steht im Exponenten), der für d -> Unendlich immer 'weicheres' Clustering bewirkt, für d->1 (d=1 geht im Algo nicht) gegen crispes Clustering konvergiert. Anderes Beispiel wären ähnlich einfache Versionen von offline-Vektorquantisierung.

Die Dynamik ist dabei interessant: für supersofte Clusterings ordnet im Limes der Algorithmus jeden Punkt zu gleichen Teilen allen Prototypen zu. Die optimalen Prototypen denaturieren und versammeln sich alle im Datenschwerpunkt. Für crispes Clustering erhät man immer den nächsten Prototypen als 100% Gewinner. Die Prototypen sind alle disjunkt und versammeln sich in 'geeigneten' lokalen Ansammlungen von Daten. Was passiert dazwischen? Wie spalten sich die Klassen von nur einem (soft) zu vielen (crisp) ab?

>>> Implementieren Sie fuzzy-k-means oder (schöner) Offline-Vektorquantisierung (Formeln sind genauso kurz) und schauen Sie, wie sich die Protoypen entwickeln, wenn man von crispen zu softem Clustering übergeht. Was ist, wenn man's umgekehrt probiert? Naja ... Es passiert da leider nichts, weil gleiche Prototypen nicht getrennt werden :-( Für die umgekehrte Dynamik muß man zu online-Varianten oder Tricks (Umsetzen von Prototypen) übergehen.


back