|
|
Bei der Klassifikation von Objekten (z. B: Menschen, Aktienkursen, etc.) geht es darum, Vorhersagen über das zukünftige Verhalten auf Basis bekannter Attributwerte zu machen. Abbildung 17.7 zeigt ein Beispiel aus der Versicherungswirtschaft. Für die Risikoabschätzung könnte man beispielsweise vermuten, daß Männer zwischen 35 und 50 Jahren, die ein Coupé fahren, in eine hohe Risikogruppe gehören. Diese Klassifikation wird dann anhand einer repräsentativen Datenmenge verifiziert. Die Wahl der Attribute für die Klassifikation erfolgt benutzergesteuert oder auch automatisch durch ``Ausprobieren``.
Bei der Suche nach Assoziativregeln geht es darum, Zusammenhänge bestimmter Objekte durch Implikationsregeln auszudrücken, die vom Benutzer vorgeschlagen oder vom System generiert werden. Zum Beispiel könnte eine Regel beim Kaufverhalten von Kunden folgende (informelle) Struktur haben:
Wenn jemand einen PC kauft
dann kauft er auch einen Drucker.
Bei der Verifizierung solcher Regeln wird keine 100 %-ige Einhaltung erwartet. Stattdessen geht es um zwei Kenngrößen:
|
|
Zur Ermittlung der Assoziationsregeln verwendet man den A-Priori-Algorithmus, welcher sogenannte frequent itemsets berechnet, also Produktgruppen, die häufig gemeinsam gekauft wurden. Tabelle 17.1 zeigt den Verlauf des Algorithmus, der aus den beobachteten Verkäufen sukzessive alle Frequent Itemsets mit mindestens 3 Items ermittelt. Aus der TransaktionsID lässt sich zunächst ermitteln, welche Produkte gemeinsam gekauft wurden. Danach werden die Frequent Itemsets der Mächtigkeit erweitert zu Frequent Itemsets der Mächtigkeit . Zum Schluss bleibt die Kombination {Drucker, Papier, Toner } als einzige Dreier-Kombination übrig.
Sei ein Frequent Itemset. Dann gilt
Wir betrachten alle disjunkten Zerlegungen von in und .
Die Regel hat dann folgende Confidence
Beispiel: Die Regel {Drucker} {Papier, Toner} hat
Also haben 75 % der Kunden, die einen Drucker gekauft haben, auch Papier und Toner gekauft.