Daten:
-
Als Benchmarksammlung für Maschinelles Lernen
gilt immer noch das UCI-repository
mit
Hunderten von Einträgen verschiedenster
Datensätze.
Zu jedem Datensatz gibt's eine Beschreibung teilweise mit
Literaturangaben.
Besonders zu empfehlen für Klassifikationen:
Iris (klein und gut untersucht),
Abalone (ziemlich schwierig, größer),
Car Evaluation (bekanntes zugrundeliegendes Konzept, volle Information),
mushrooms (groß, einfach, bekannte gute Regeln),
medizinische Daten wie Hepatitis, Hart disease,
Letter Recognition für unüberwachte Methoden, da
groß und (hoffentlich) stetig,
Splice-junction (für einfache symbolische Zeitreihen),
MONK's (klein, artificial und gut untersucht),
QSARs (schön schwer),
Spam (wäre vielleicht nochmal nützlich ...),
Statlog (verschiedenste Daten mit Vergleich unterschiedlicher Verfahren,
auch schön große Bilddaten),
-
Das UCI wird inzwischen begleitet von
einer Ansammlung von
großen Datensätzen,
die aber für ein Praktikum meistens zu groß sein dürften.
Möchten Sie Web-Daten oder Texte, so finden Sie Sie hier.
-
Zeitreihendaten
jeglicher Art
- Zeitreihen/Text:
Englische und japanische
Sätze
mit einer Klassifikation als grammatikalisch.
Beinhaltet auch eine schöne Aufbereitung der
Sätze, so daß die Wörter nur durch den
grammatikalischen Typen repräsentiert werden, die
Sie direkt verwenden können (ist das jetzt noch grammatikalisch korrekt ;-).
back