Automatisierte Spracherkennung?

Test einer Spracherkennungssoftware zur automatisierten Metadatenerfassung


von Johannes Kapeller (Österreichische Mediathek, 2008)

1. Warum Spracherkennung?

Eines der Ziele des vorliegenden Projektes war, die Möglichkeiten einer automatischen Spracherkennung bei der inhaltlichen Erfassung eines großen Datenbestandes auszuloten. Diese Möglichkeit, so sie realisierbar wäre, würde eine große Arbeitserleichterung bzw. Zeiteinsparung in Bezug auf die intellektuelle bzw. manuelle Katalogisierung bedeuten, welche eine sehr zeitintensive Tätigkeit innerhalb von Editionsprojekten wie diesem darstellt.
Im Rahmen des Projektes sollte deshalb die Möglichkeit einer automatisierten Erstellung eines schriftlichen Transkriptes zum Zweck einer genauen inhaltlichen Erfassung des vorhandenen Bestandes an Hörfunksendungen überprüft werden. Weiters - und damit zusammenhängend - wurde versucht, die Möglichkeit der Metadatenanreicherung mittels automatisch generierter Stichwörter durch eine Spracherkennungssoftware auszuloten, sowie die eventuell sich ergebenden möglichen Ergänzungen zwischen manueller/intellektueller und automatisierter Katalogisierung zu testen.

2. Technische Grundlagen der Spracherkennung

Das Programm NOA Dactylo
Gearbeitet wurde mit der Spracherkennungssoftware „NOA Dactylo Indexer Version 1.0.0“ (Build 16) der Firma NOA und dem „Language Model Toolkit Version 3.0“ (Matador_1111) der Firma SAIL LABS Technology AG. Beide zusammen bilden eine Einheit.

Die Erkennung und Indizierung gesprochener Sprache erfolgt in diesem Programm auf folgender technischer Grundlage: Zur Spracherkennung wird eine digital vorhandene Tonaufnahme in einem vierstufigen Modell mathematisch analysiert.
In der ersten Stufe werden Hintergrundgeräusche aus dem Tonfile herausgefiltert, sodass das gesprochene Wort im Vordergrund steht.
In der zweiten Stufe wird eine Phonemtranskription durchgeführt. Phoneme sind per Definition die kleinsten bedeutungsunterscheidenden, aber nicht bedeutungstragenden Einheiten einer Sprache. Die deutsche Sprache verfügt über etwa 40 Phoneme, Dialekte mitunter über noch viel mehr. Phoneme sind nicht ident mit Buchstaben, da viele Buchstaben in mehreren Varianten ausgesprochen werden können. Dadurch ergeben sich weit mehr gesprochene Phoneme als niedergeschriebene Buchstaben.
In der dritten Stufe entsteht auf Grund dieses ersten phonetischen Transkriptes eine Übersetzung anhand eines Wörterbuchs. Das Spracherkennungsprogramm enthält ein Wörterbuch mit 150.000 bis 180.000 Wörtern, die in einem weiteren Arbeitsschritt mit neuen Worten ergänzt werden können.
In der vierten und letzten Stufe wird das Resultat mit einem Sprachmodell verglichen, das mit Hilfe von Linguist/innen durch Analyse der gesprochenen Sprache entwickelt wurde. Das Sprachmodell geht speziell auf den semantischen Kontext ein, der je nach Wissenschaftsgebiet oder Thema variiert. Es werden vektorielle Wahrscheinlichkeiten für jedes Wort berechnet.

Während für den Software-Benutzer bei den ersten drei Stufen nicht sehr viele Eingriffsmöglichkeiten bestehen – man kann nur auswählen, welches Tonfile transkribiert werden soll und sich anschließend das Ergebnis ansehen - ist die Arbeit mit dem in der vierten Stufe verwendeten „Language Model Toolkit“ eine sehr zeitintensive Tätigkeit, die es ermöglichen sollte, das Programm auf einen jeweiligen Bestand anzupassen. Hier wird ebenfalls ein fertiges Sprachmodell mit 150.000 bis 180.000 Wörtern zur Verfügung gestellt. Von dieser Basis aus kann ein eigenes Sprachmodell gebaut werden, indem man zu schon gespeicherten Wörtern neue hinzufügt. Da die Spracherkennungssoftware lernend ist, kann man durch das Hinzufügen neuer Wörter bzw. Textpassagen die Trefferquote der Texterkennung steigern.

3. Test der Spracherkennungssoftware NOA Dactylo

Ziele
Getestet wurde die Spracherkennungssoftware im Rahmen der oben erwähnten Projektziele erstens auf die Möglichkeit, die digitalisierten Audioaufnahmen in einer Volltextversion abzubilden, zweitens auf die Möglichkeit einer automatischen Indizierung (Beschlagwortung) der bearbeiteten Tonfiles als Zusatz zur manuellen Katalogisierung. Auf der Basis der vorhandenen Möglichkeiten sollte ein eigens auf den vorhandenen Bestand zugeschnittenes Sprachmodell entwickelt werden, wodurch die erzielten Ergebnisse noch verbessert werden sollten.  

4. Testanordnung

Der Bestand:
Da der zu indizierende Bestand hinsichtlich der für die Sendungen verwendeten Aufnahmesituationen und Stimmporträts sehr vielfältig ist, und damit zu rechnen war, dass sich dadurch Auswirkungen auf die Möglichkeiten der automatischen Spracherkennung ergeben würden, erfolgte vorerst eine Auswahl von einzelnen Beiträgen nach der jeweiligen  Aufnahmeumgebung.

Folgende Kategorien wurden ausgewählt:

    Studiobeiträge: Bei Studiobeiträgen handelt es sich um eine kontrollierte Aufnahmesituation, es kann von einer sehr guten Aufnahmequalität ausgegangen werden, zudem ist meist ein/e geschulte/r Sprecher/in beteiligt (Moderator/in, bzw. Gestalter/in) sowie teilweise weitere Gesprächspartner/innen.

    Nachrichtenbeiträge: Bei Nachrichtenbeiträgen handelt es sich um eine Sonderform einer Studioaufnahme, es kommt nur ein/e einzelne/r, geschulte/r Sprecher/in vor, zudem ist der Tonfall des Vortrags („Nachrichtenton“) keinen allzu großen Schwankungen unterworfen.

    Außenaufnahmen: Bei Außenaufnahmen können unterschiedlichste Qualitätsfaktoren zum Tragen kommen. Die Möglichkeit unerwünschter Nebengeräusche ist gegeben, die Aufnahmesituation ist in Bezug auf Hintergrundgeräusche nicht vollständig kontrollierbar.

    Kulturbeiträge: Bei Kulturbeiträgen handelt es sich natürlich nicht um eine „Aufnahmeumgebung“, im konkreten Fall wurden diese jedoch trotzdem als eigene Kategorie aufgenommen, da darin vermehrt O-Töne mit Interviewten in teilweise unterschiedlichen Sprachen mit Dolmetscher/innen verwendet werden, sowie teilweise Musik- bzw. Filmszenenausschnitte mit Sprache vermischt präsentiert werden, sowie Studio- und Außenaufnahmen gleichermaßen vertreten sind.

    Telefonübertragungen: Telefonübertragungen wurden ebenfalls als Testkategorie ausgewählt. Es handelt sich dabei meist um eine/n Sprecher/in (Gestalter/in), die Qualität der Aufnahme kann jedoch je nach Verbindung ziemlich unterschiedlich sein und ist im Vergleich zu Studioaufnahmen allgemein als niedriger einzuschätzen.


Zusätzlich wurden innerhalb der jeweiligen Aufnahmeumgebung verschiedene Aufnahmesituationen unterschieden, um auch eventuelle Auswirkungen durch verschiedene Außen-Einflüsse wie z.B. veränderte Dialog-Konstellationen etc. herauszufinden:

    Längeres Interview mit 2 Sprechern
    Männlicher Sprecher
    Weibliche Sprecherin
    Gute Qualität
    Schlechte Qualität
    Kanalausfälle
    Live-Reportage vor Ort
    Fremdsprachige Interviews
    Außeninterviews in geschlossenen Räumen
    Beitrag mit Probenausschnitten

Diese Auswahl erhebt keinen Anspruch auf Vollständigkeit, es ging hierbei vielmehr darum, eine möglichst große Bandbreite an verschiedenen Parametern (Aufnahmesituationen, Qualitätsunterschiede) bzw. möglichen Einflussfaktoren auf die Möglichkeiten der automatisierten Spracherkennung zu erstellen.
Tabelle 1: Verwendete Testbeiträge - Studiobeiträge
  1980- 1985- 1989
längeres Interview 2 Sprecher/innen --- jm-850112 jm-891230
männlicher Sprecher jm-841217 jm-850112 jm-891230
weibliche Sprecherin jm-830125 jm-870824 jm-891230
gute Qualität jm-841217 jm-870102 jm-891219
schlechte Qualität jm-820624 jm-861231 jm-891230
Kanalausfälle jm-820624 jm-870824 jm-891230
Tabelle 2: Verwendete Testbeiträge: Nachrichten
  1980- 1985- 1989
männlicher Sprecher jm-841217 jm-870102 jm-890130
weibliche Sprecherin jm-830125 jm-850112 jm-891230
gute Qualität jm-841217 jm-870102 jm-891219
schlechte Qualität jm-820624 jm-861231 jm-890130
Kanalausfälle jm-820624 jm-870824 jm-890130
Tabelle 3: Verwendete Testbeiträge: Außenaufnahmen
  1980- 1985- 1989
männlicher Sprecher jm-841217 jm-850112 jm-890130
weibliche Sprecherin jm-820624 jm-880915 jm-890130
gute Qualität jm-841217 jm-850112 jm-891219
schlechte Qualität jm-841217 jm-870824 jm-890130
Live-Reportage vor Ort jm-841217 jm-850112 jm-891230
fremdsprachige Interviews jm-841217 jm-881111 jm-891219
Kanalausfälle jm-820624 jm-870824 jm-890130
Außeninterview in geschl. Räumen jm-841217 jm-850112 jm-891230
Tabelle 4: Verwendete Testbeiträge: Kulturbeiträge
  1980- 1985- 1989
längeres Interview 2 Sprecher/innen jm-841217 jm-870824 jm-891230
gute Qualität jm-841217 jm-870102 jm-891219
schlechte Qualität jm-820624 jm-870824 jm-890130
Beitrag mit Proben-Aussschnitten --- jm-880312 jm-891219
Beitrag mit Musik jm-800128 jm-850112 jm-891230
Kanalausfälle jm-820624 jm-870824 jm-890130
fremdsprachige Interviews jm-800128 jm-881111 jm-891219
Außenaufnahmen jm-841217 jm-870824 jm-890130
Tabelle 5: Verwendete Testbeiträge: Telefonübertragungen
  1980- 1985- 1989
längeres Interview 2 Sprecher/innen jm-841217 jm-850112 jm-890130
männlicher Sprecher jm-841217 jm-861231 jm-890130
weibliche Sprecherin jm-841217 jm-850112 jm-890130
gute Qualität jm-841217 jm-870102 jm-891219
schlechte Qualität jm-841217 jm-861231 jm-891127
Telefoninterview allgemein jm-800126 jm-870102 jm-890130
Kanalausfälle jm-820624 jm-870824 jm-890130