Zum Hauptinhalt springen
BlogbeitragInformatik und Gesellschaft

Google-Apps zur Transkription und Audioverstärkung

Alle zwei Wochen erscheint der GI-Radar mit Neuigkeiten aus dem Informatik-Kosmos. In der Rubrik "Thema der Woche" widmen sich Autorinnen und Autoren darin immer einem aktuellen IT-Thema.

Die Weltgesundheitsorganisation WHO erwartet bis zum Jahre 2055 über 900 Millionen Gehörlose. Allein in Deutschland leben schätzungsweise derzeit 80.000 gehörlose und ca. 16 Millionen schwerhörige Menschen. In diesem Kontext hat Google nun in Zusammenarbeit mit der Gallaudet Universität, der weltweit ersten Universität für Gehörlose und Schwerhörige, zwei neue Applikationen vorgestellt (Google Blog), die es solchen Menschen leichter machen, am alltäglichen Leben teilzuhaben. Die beiden Apps „Automatische Transkription“ und „Audioverstärkung“ sind frei verfügbar. Sie sollen auf künftigen Google Smartphones bereits vorinstalliert sein. Auch Apple hat eine „live listening“ Funktion für ihre Smartphones vorgestellt, die ähnlich wie die Audioverstärkung von Google funktioniert und ab iOS 12 verfügbar ist (apple.com).

Die automatische Transkription (Google Play Store) wandelt Gesprochenes beinahe in Echtzeit in Text um und zeigt diesen auf dem Smartphone-Display an. Die Textgröße und das Design lassen sich einstellen, ebenso die Option „vulgäre Sprache ausblenden“. Insgesamt ist die Oberfläche sehr minimalistisch und einfach gehalten, sodass sie grundsätzlich von jedem bedient werden kann. Es werden derzeit 70 Sprachen und Dialekte unterstützt. Es lassen sich eine Standard- und Zweitsprache festlegen, um per einfachem Antippen zwischen ihnen wechseln zu können. Bei kurzen Abschnitten wird automatisch zwischen den Sprachen gewechselt. Bei größerem Sprachinput muss die Sprache allerdings manuell gewechselt werden. 

Die Anwendung zeigt an, ob Laute als Sprachinput oder als Hintergrundgeräusche wahrgenommen werden, sodass gegebenenfalls das Smartphone passend ausgerichtet werden kann. Für eine genauere Transkription ist es auch möglich auf ein externes Mikrofon zurückzugreifen. Des Weiteren nimmt die Anwendung Textinput über die Tastatureingabe an, sodass man auf diese Weise auf das Gesprochene antworten kann. Optional kann eingestellt werden, dass die Anwendung das Smartphone vibrieren lässt, um nach einer längeren Stille wieder auf Sprachinput aufmerksam zu machen. Da für die Spracherkennung Googles Cloud-Dienst eingesetzt wird, ist eine bestehende Internetverbindung während der Nutzung erforderlich.  

Der Audioverstärker (Google Play Store) passt den über das Mikrofon aufgenommenen Ton an, um ihn verständlicher zu machen. Dies funktioniert indem leise, nicht jedoch laute Töne verstärkt werden. Für die Wiedergabe sind kabelgebundene Kopfhörer notwendig im Gegensatz zur ähnlichen Funktion, die Apple kabellos für AirPods bereitstellt. 

Mikrofon- und Audioeinstellungen wie etwa Tonverstärkung, Stärke der Ausblendung von Hintergrundgeräuschen, Lautstärke, etc. ermöglichen eine Feinabstimmung auf die Bedürfnisse der Nutzer. Darüber hinaus können verschiedene Einstellungen getrennt für das linke und rechte Ohr angepasst werden. Optional kann ein externes Mikrofon mit größerer Empfindlichkeit genutzt werden. Hier erlaubt Google auch externen Entwicklern die Anwendung über die Dynamic Processing API in ihre eigenen Apps einzubinden. Die Anwendung funktioniert lokal und benötigt daher keine Internetverbindung (The Verge).

Wir haben die oben genannten Features in der Redaktion Sozioinformatik getestet, um eine genauere Vorstellung davon zu bekommen, wie gut die Anwendungen funktionieren. Insgesamt haben wir acht verschiedene Hochsprachen (Arabisch, Chinesisch, Deutsch, Englisch, Französisch, Niederländisch, Spanisch und Türkisch) ausprobiert. 

Positiv anzumerken, bei der Anwendung Automatisches Transkribieren, ist das Herausfiltern von Hintergrundgeräuschen. Bei einem Gespräch mit Musik und anderen Menschen im Hintergrund wurden nur die Worte des Gesprächspartners transkribiert. Es lassen sich mit der Anwendung auch Videoaufnahmen transkribieren, wenn die Aufnahme deutlich besprochen wurde. Jedoch stößt die Anwendung bei Liedern an ihre Grenzen, da die Musik im Gesamten als Hintergrundgeräusch eingestuft und so der Liedtext nicht separat erkannt wird. Der Sprachfilter für vulgäre Sprache funktioniert gut und zensiert entsprechende Wörter mit Sternen nach dem Anfangsbuchstaben. 

Die Anwendung zur Audioverstärkung funktioniert ebenfalls sehr gut. Auch hier werden Hintergrundgeräusche wirksam herausgefiltert, sodass Gesprochenes klar und deutlich zu verstehen ist. Allerdings werden auch leise Nebengeräusche, die nahe am Mikrofon entstehen, ebenfalls verstärkt. Dies kann sich mitunter irritierend auswirken.

Beim automatischen Transkribieren von Gesprächen kommt natürlich die Frage des Datenschutzes auf. Google versichert, die Audiodateien weder lokal noch auf Servern aufzubewahren. Weiterhin würden keinerlei Daten gespeichert oder verwendet, um den Algorithmus zu verbessern. Ferner sei es nicht möglich, den Text der Transkription auf dem Smartphone zu speichern. Ein solcher Angriff auf die Privatsphäre der Sprecher wäre ohnehin nicht mit dem Recht auf informationelle Selbstbestimmung vereinbar.

Trotz aller (oft durchaus berechtigten) Kritik an Google kommen wir zu einem positiven Ergebnis. Mit den neuen Apps können sich Gehörlose und Schwerhörige einfacher in den Alltag integrieren und Veranstaltungen oder Vorträgen beiwohnen, die nicht barrierefrei gestaltet sind. Maßnahmen für die Erweiterung der Barrierefreiheit sind oft sehr kostspielig und aufwändig umzusetzen. Eine kostenfreie App für Smartphones ist hier ein effektives Mittel, um einen Beitrag für die Inklusion von Minderheiten in unsere Gesellschaft zu leisten.

Dieser Artikel wurde verfasst von Yasmina Adams, Elrike van den Heuvel, Shun-Jie Yan und Johannes Korz aus unserer „Redaktion Sozioinformatik“ und ist zuerst erschienen im GI-Radar 234Sie erreichen die Autoren unter redaktion.sozioinformatik@cs.uni-kl.de.