Online Algorithmen für nichtstationäre Daten

Neuronale online Clustering Verfahren lesen die Daten sukzessive ein und ändern die Protoypen nach jedem Datum. Etwa der dem Datum ähnlichste Prototyp wird dem Datum noch ähnlicher gemacht. Dieses Verfahren kann man natürlich auch verwenden, wenn die Daten nicht komplett vorgegeben sind, sondern z.B. immer aktuell gewonnen werden. Z.B. im laufenden Betrieb: Adaptiert man immer weiter, dann kann sich der Klassifikator jeweils optimal auf die aktuellen Verhältnisse einstellen.

Ein Problem besteht aber darin, daß das Ergebnis üblicher Clusterverfahren sehr stark vom Startpunkt der Ptototypen abhängt. Startet man z.B. mit Prototypen außerhalb der Daten, dann gibt es viele Prototypen, die sich überhaupt nicht zu den Daten hinbewegen und also nicht gebraucht werden. Im Extremfall: Der den Daten nächste Prototyp wird Gewinner und bleibt das auch, alle anderen gehen auf Dauer leer aus.

Das macht besondere Probleme bei nicht stationären Daten, d.h. Daten, wo sich die Region, wo sie liegen, über die Zeit ändert. Etwa Verkaufsdaten, die Inflation unterliegen, oder zweidimensionale Daten, die nacheinander im ersten, zweiten, dritten und vierten Quadranten vorliegen. Es ist also nötig, Prototypen komplett umzusetzen. Dabei muß Daten-getrieben bestimmt werden, wie schnell Prototypen umgesetzt werden können, wie schnell die prinzipielle Adaptation geht, ...

>>> Implementieren Sie z.B. einen Vektorquantisierer mit der Möglichkeit des Umsetzens von nicht mehr gebrauchten Protoypen auf neue Daten und einer an die Daten angepaßten Schrittweite, der nicht stationären Daten folgen kann; den Sie quasi beliebig 'über die Ebene jagen' können.


back