WISSARD - Verfahren zur automatischen Wissensbereitstellung aus archivierten Druckerzeugnissen

Zielstellung des Projektes

Ziel des Vorhabens WISSARD war es Software-Werkzeuge zu entwickeln, mit denen historisches Archivmaterial wie Sammelausgaben von Fachzeitschriften oder Zeitungen automatisiert für eine produktive Nutzung erschlossen werden können. Im Vordergrund standen Verfahren, die für das automatische Ausschneiden (Clipping) von vollständig erkannten Artikeln und den Aufbau von Indizes genutzt werden können.

Projektergebnisse

Im Projekt wurden verschiedene Software-Bausteine zur Analyse von Zeitungssammlungen entwickelt. Es entstanden Verfahren zur automatisierten:

  • Identifizierung von Artikeln,
  • Feststellung der Lesereihenfolge auch für seitenübergreifende Beiträge inkl. einer automatisierten Zuordnung von „verwaisten“ Textblöcken,
  • Extraktion charakteristischer Bestandteile von Artikeln wie Überschriften, Autoren, Bildunterschriften, Fotografen usw.) und zur
  • artikelbezogenen Erstellung von Personen-, Ortsnamen- und Schlagwortlisten.

Die entwickelten Verfahren basierten auf einer Kombination von Layout-Analyse (Aufbau der Zeitungsseiten) und Stichworterkennung. Besonders im Fokus standen darüber hinaus Verfahren zur schnellen, interaktiven Korrektur der automatisch ermittelten Artikelelemente und Metadaten sowie Methoden für das automatische Ausschneiden (Clipping) von vollständig erkannten Artikeln.