Text Mining Software

Der Forschungsbereich Text Mining Software (TMS) ist auf das Fachgebiet Computerlinguistik spezialisiert. Hier werden syntaktisch-semantische Verfahren entwickelt, die zur Informationsgewinnung aus digitalisierten Fließtexten dienen. Bezogen auf anwendungsspezifische Fragestellungen werden die jeweils relevanten Aussagen automatisiert erkannt, visualisiert und in strukturierte Knowledge Bases überführt.

Im Mittelpunkt der Arbeit steht die Faktenerkennung, wobei verschiedene Informationskategorien zu den Fragestellungen „Wer – Wann – Wo – Was?“ betrachtet werden. Ziel ist es, aus den Texten möglichst komplette Ereignisbeschreibungen zu filtern. Die FuE-Tätigkeit auf dem Gebiet des Natural Language Processing (NLP) ist anwendungsorientiert, die entwickelten Verfahren werden gemeinsam mit Kooperationspartnern in marktreife Lösungen überführt.

Profil

    • Entwicklung von NLP-Basisverfahren: Part-of-Speech Tagger (POS) , Named Entity Recognizer (NE),  Dependency Parser, Phrase Chunking Methods
    • Klassifikationsverfahren auf der Basis von Supervised Machine Learning Algorithmen und Entwicklung von trainierbaren Analyse- und Parser-Modulen
    • Entwicklung von Visualisierungs- und Korrekturoberflächen für NLP-Anwendungen
    • Konzeption und Implementierung von Datenbanken (RDBMS  und Graph Datenbanken) zur Persistenz der Text Mining Ergebnisse

    Research Projects

    CS.RECANA

    Verfahren zur automatisierten, zielgerichteten Datenaufbereitung in Citizen-Science-Projekten mit hoher Bürgerbeteiligung

    Entwicklung von Verfahren zur automatisierten Analyse von Beiträgen in Großprojekten der bundesweiten Bewegung „Bürgerwissenschaften“. Dabei sollen wichtige Kerninformationen zu den Fragen „Wer – Wann –Wo - Was“ identifiziert und extrahiert werden. Die Analyseergebnisse werden so aufbereitet, dass sie möglichst effektiv für die wissenschaftlichen Auswertungen der CS-Initiatoren genutzt werden können. 

    zum Projekt

    WISSARD

    Verfahren zur automatischen Wissensbereitstellung aus archivierten Druckerzeugnissen

    Entwicklung von Verfahren zur Analyse von historischen Zeitungsarchiven mit dem Ziel, einzelne Artikel verschlagworten zu können. Im Fokus standen weiterhin Methoden, die das automatische Clipping für die Zusammenstellung von themenspezifischen Pressemappen unterstützen.

    zum Projekt