Quadratisch, praktisch, gut? (Gitterstrukturen für SOMs)

Self Organizing Maps stellen ein unüberwachtes neuronales online Clusteringverfahren dar. Sie leisten folgendes:

Es sei X der zu clusternde Raum. Man fixiert bei SOMs eine Anzahl für die Prototypen, sowie eine Nachbarschaftsbeziehung der Prototypen. Häufig bilden die Codebooks einfach ein zweidimensionales Gitter. Dieses Gitter wird jetzt über die Daten gestülpt, indem der Reihe nach Punkte x aus X präsentiert und der nächste Prototyp zum Punkt x ein Stück hingezogen wird. Mit dem Prototyp selbst wird auch seine Nachbarschaft etwas schwächer in Richtung von x gezogen.

Im Limes stülpt sich das Gitter über die Daten. Man hat nicht nur eine komprimierte Darstellung durch die Prototypen, sondern kann auch von Prototyp zu Prototyp navigieren durch die Nachbarschaftsbeziehung. Ist das Gitter 2D, dann kann man die Punkte zudem einfach in die Ebene projizieren und schön darstellen.

Problem ist, daß die Gitterstruktur vorab festgelegt werden muß. Es ist nicht klar, ob sie den Daten in X entspricht! Daher gibt's zahlreiche Variationen mit anderen Gitterstrukturen. Insbesondere findet der sogennante Neural Gas die Nachbarschaften optimal in Bezug auf die Daten, ohne daß sie noch irgendwelchen Beschränkungen unterliegen.

Der NG ist dabei genauso schnell erklärt: Es wird jeweils der nächste Prototyp adaptiert und, mit abfallender Stärke, auch der zweite Gewinner, dritte Gewinner, ... Benachbart sind letztendlich alle die Neuronen, die die ersten beiden Gewinner für mindestens einen Datenpunkt darstellen.

Aber: möchte man die Daten visuell darstellen, ist ein quadratisches zweidimensionales Gitter natürlich unschlagbar. Das wirft die Frage auf, wieviel sich beim visuell schönen 2-D Gitter (SOM) im Vergleich zu einem Daten-optimalen Gitter (NG) was ändert.

>>> Trainieren Sie 'typische' Daten mit einer 2D-SOM und schalten Sie für die trainierten Daten einen NG nach. Wie stark ändern sich die Prototypen? Wenn man die Prototypen des NG dem ursprünglichen Gitter gemäß im 2D darstellt, ist das noch nützlich?


back