Neuronale Netze PraktikumSS 2000

Daten:

Als Benchmarksammlung für Maschinelles Lernen gilt immer noch das UCI-repository mit Hunderten von Einträgen verschiedenster Datensätze. Zu jedem Datensatz gibt's eine Beschreibung teilweise mit Literaturangaben. Besonders zu empfehlen für Klassifikationen:
Iris (klein und gut untersucht),
Abalone (ziemlich schwierig, größer),
Car Evaluation (bekanntes zugrundeliegendes Konzept, volle Information),
mushrooms (groß, einfach, bekannte gute Regeln),
medizinische Daten wie Hepatitis, Hart disease,
Letter Recognition für unüberwachte Methoden, da groß und (hoffentlich) stetig,
Splice-junction (für einfache symbolische Zeitreihen),
MONK's (klein, artificial und gut untersucht),
QSARs (schön schwer),
Spam (wäre vielleicht nochmal nützlich ...),
Statlog (verschiedenste Daten mit Vergleich unterschiedlicher Verfahren, auch schön große Bilddaten),
Das UCI wird inzwischen begleitet von einer Ansammlung von großen Datensätzen, die aber für ein Praktikum meistens zu groß sein dürften. Möchten Sie Web-Daten oder Texte, so finden Sie Sie hier.
Zeitreihendaten jeglicher Art
Zeitreihen/Text: Englische und japanische Sätze mit einer Klassifikation als grammatikalisch. Beinhaltet auch eine schöne Aufbereitung der Sätze, so daß die Wörter nur durch den grammatikalischen Typen repräsentiert werden, die Sie direkt verwenden können (ist das jetzt noch grammatikalisch korrekt ;-).

back