Uni-Logo Institut für Informatik

Projektgruppe DataTwiSt

Datamining auf Twitter-Streams

Projektleitung Prof. Dr. Oliver Vornberger, Nils Haldenwang, M.Sc.
Projektidee

Im Rahmen der über zwei Semester laufenden Projektgruppe soll eine Plattform zur Auswertung des Twitter-Streams entstehen. Zunächst soll auf dem Stream von Tweets eine Event-Erkennung durchgeführt werden. Für jedes der gefunden Events sollen die Tweets auf ihre Stimmung hin analysiert und positive wie negative Aspekte des Events herausgestellt werden. Solche Informationen können von Firmen in der Marktforschung, von Politikern zur Bewertung politischer Entscheidungen oder auch von Endanwendern für Kaufentscheidungen bezüglich diverser Produkten genutzt werden.

In einem weiteren Schritt können in den Tweets verlinkte Websites ebenfalls untersucht und zu zusätzlichen Analysen herangezogen werden.

Anwendung

Beispiele für Events im öffentlichen Fokus sind Wahlen, Releases neuer Technologien wie Smartphones oder Konsolen oder auch Veranstaltungen wie der Eurovision Songcontest. Für die Veranstalter oder Interessenten solcher Events ist es oft sehr interessant zu erfahren, was die breite Masse - "Das Volk" - für eine Meinung bezüglich des Events hat. Wird z.B. das Event "das iPhone 6 ist erschienen" im Twitter-Stream als reges Gesprächsthema erkannt, dann sollte das System feststellen, dass die gegenüber dem Vorgänger erhöhte Displaygröße ein heiß diskutierter Punkt ist. Sowohl für Apple als Hersteller des iPhone 6 als auch für potentielle Käufer ist es dabei interessant, ob der Aspekt "großes Display" von der breiten Masse eher als positiv oder negativ aufgenommen wird.

Da Tweets aus maximal 140 Zeichen bestehen können, fallen die Informationen innerhalb eines Tweets eher gering aus. Oft wird daher in einem Tweet nur ein kurzer Satz und ein Link auf einen längeren Artikel irgendwo im Web geposted. Zusätzlich zu den aus dem Tweet-Stream gewonnen Informationen kann man nun z.B. als weitere Kategorie die verlinkten Websites untersuchen. Vielleicht ist es dabei sogar auch möglich zwischen verschiedenen Website-Typen wie z.B. "Nachrichtenseite", "privater Blog" oder "Diskussionsforum" zu unterscheiden um nach Website-Typ gestaffelte Informationen liefern zu können.

Neben dem reinen Informationsgehalt für die Interessierten bieten derartig aufbereitete Daten wertvolle Entscheidungshilfen für Politik und Wirtschaft und lassen sich auch erfolgreich zur Unterstützung von Vorhersagen am Finanzmarkt heranziehen. Aber auch für den Privatanwender kann eine solche Plattform großen Nutzen bringen. Für Kaufentscheidungen neuer Produkte kann es hilfreich sein, die als positiv oder negativ empfunden Aspekte des Produktes in Augenschein zu nehmen. Weiterhin kann die Plattform als Informationsquelle dienen, da sie automatisch das Weltgeschehen überwacht und - verglichen mit dem schier unendlichen Datenstrom des Web - eine sinnvoll aggregierte Übersicht aktueller Themen bietet.

Teilaufgaben Infrastruktur

Die Eventerkennung soll live auf dem Twitter-Stream geschehen. Es ist also ein System zu entwerfen, in welches sequenziell einzelne Tweets eingefügt werden können, die dann geeignet verarbeitet werden. Da die Zahl der Tweets pro Zeiteinheit relativ groß ausfallen kann, bietet sich hier eine verteilte Architektur an, die es erlaubt, die notwendigen Schritte der anderen Teilaufgaben live auf dem Stream durchzuführen..

Event- und Aspekterkennung

Zur eigentlichen Erkennung der Events müssen Clustering-Verfahren recherchiert und auf der verteilten Architektur implementiert werden, die für den vorgesehenen Zweck geeignet sind. Innerhalb der erkannten Events soll nun nochmals eine hierarchische Unterscheidung in die wichtigen Unteraspekte eines Events durchgeführt werden.

Stimmungserkennung in Tweets

Die Stimmung der gesammelten Tweets soll automatisiert erkannt werden um diese dann auf die erkannten Events und Aspekte beziehen zu können. Hier gilt es aktuelle Verfahren zu recherchieren, zu implementieren, miteinander zu vergleichen und das beste Verfahren dann in die Plattform zu integrieren. Da dieses Forschungsgebiet noch recht jung ist, bietet sich hier auch die Möglichkeit eigene Ideen einzubringen und vorhandene Verfahren evtl. noch zu verbessern.

Entwicklung einer Webapplikation zur Präsentation

Die von den anderen Gruppen gesammelten Daten müssen in ansprechender Weise in einer Webapplikation präsentiert werden. Neben der bloßen Darstellung der Daten soll auch eine Interaktion mit den Daten möglich sein. Als Nutzer möchte man z.B. die Möglichkeit haben, Events oder auch deren Unteraspekte manuell anzulegen, falls diese nicht automatisiert erkannt worden sind.

Webseitenverarbeitung

Die in den Tweets verlinkten Websites müssen ebenfalls geeignet verarbeitet werden. Darunter fallen Klassifikation des Website-Typen (Blog, News,...), Extraktion des relevanten Textes und schließlich eine ähnliche Verarbeitung wie bei den Tweets bezüglich Stimmungsanalyse und Aspektextraktion, wobei sich hier vermutlich andere Verfahren anbieten, die ebenfalls recherchiert und evaluiert werden müssen.

Ablauf und Workload

Die Projektgruppe läuft über einen Zeitraum von zwei Semestern und der Workload ist mit 24 Leistungspunkten veranschlagt. Dies entspricht einem Gesamtworkload von ca. 720 Stunden, verteilt auf 52 Wochen inklusive Vorlesungsfreier Zeit ergeben sich damit 12 Wochenstunden für die Dauer der Projektgruppe. Zur besseren Koordination wird es 6 SWS Präsenzzeit geben, die restliche Zeiteinteilung erfolgt frei.

In regelmäßigen Abständen werden Meetings und Vorträge zum aktuellen Stand des Projektes stattfinden, in denen aktuelle Ergebnisse und noch offene Problemstellungen präsentiert und diskutiert werden. Am Ende des Projekts wird eine schriftliche Ausarbeitung abgegeben und die Ergebnisse werden in einer Abschlusspräsentation präsentiert.