Clusteringmethoden für Zeitreihendaten

Zeitreihendaten, etwa Börsenkurse, Daten eines dynamischen Systems, tägliche Umweltdaten, EEG Daten, Sprache, zeichnen sich dadurch aus, daß sie nicht in einem endlich dimensionalen Vektorraum enthalten sind. Übliche Clusteringverfahren benötigen also eine geeignete Vorverarbeitung, so daß die Daten durch einen endlichen Vektor bzw. endlich viele Merkmale beschrieben werden können.

Üblich ist, geeignete globale Merkmale wie etwa den Mittelwert zu extrahieren und zusätzlich je nur ein Fenster einer festen Dimension zu verwenden. Es gibt aber auch Ansätze für Clustering Verfahren, direkt mit den Zeitreihen umzugehen. Etwa bei einem neuronalen Clustering, wird dann die Zeitreihe Stück für Stück präsentiert und jeweils der Gewinner aus dem letzten Zeitschritt mit für den aktuellen Gewinner berücksichtigt. D.h. der aktuelle Abstand des Datums von den Prototypen wird mit geeignetem Faktor zum vorherigen Abstand des vorherigen datums zu den Prototypen addiert.

Sie können z.B.:

>>> einen Clusteringalgorithmus (LVQ) so entwerfen, daß bei einer vorgegebenen gewünschten Klassifikationsgüte automatisch das Zeitfenster sukzessive vergrößert wird, bis dir Güte erreicht ist.

>>> Austesten, was passiert, wenn bei sukzessiver Präsentation der Einträge der Zeitreihe der aktuelle Gewinner vom vorherigen Kontext abhägig wird. Erklärt das beobachtbare Effekte, wenn Menschen die Daten wahrnehmen?

>>> Symbolische Entscheidungsbäme für Sequenzen erweitern: Symbolische Entscheidungsbäume treffen aufgrund der Asuprägung von Merkmalen Entscheidungen. Man kann als Merkmal bei Zeitreihen einfach verwenden, daß ein bestimmter Wert in der Zeitreihe auftritt. Das ist natürlich mit Informationsverlust behaftet. Etwa HALLO und HOLLA würden bei Buchstaben-weiser Präsentation gleich bewertet. Man kann von einfachen Buchstaben, einfachen Einträgen der Zeitreihe, zu dreier-Tupeln übergehen. Also (HAL,ALL,LLO) und (HOL,OLL,LLA). Das reicht in obigem Fall schon. Bekommt man so z.B. eine Möglichkeit, Sätze als grammatikalisch zu klassifizieren?


back