Pagemachine.de/ Blog/ Technologie für digitale Barrierefreiheit

Technologie für digitale Barrierefreiheit

Sprache-zu-Text-Technologie zur Umsetzung von digitaler Barrierefreiheit

Laut der Weltgesundheitsorganisation sind weltweit 1,3 Milliarden Menschen von erheblichen Behinderungen betroffen. Behinderung beschreibt dabei die Wechselwirkung einer individuellen Beeinträchtigung mit räumlichen oder gesellschaftlichen Barrieren, die in Behinderung der betroffenen Individuen resultieren. Solche Barrieren treten dabei nicht nur im physischen, sondern auch in digitalen Räumen auf (ein fehlender Aufzug ist für einen Rollstuhlfahrer genauso eine Barriere wie die fehlende Untertitelung eines Videos für eine hörgeschädigte Person). Dem entgegen steht digitale Barrierefreiheit, also der Prozess, Barrieren im digitalen Raum zu identifizieren, abzubauen und die Entstehung von neuen Barrieren zu vermeiden. Aufgrund der steigenden Verbreitung von digitalen Produkten im alltäglichen Leben gewinnt auch das Thema digitale Barrierefreiheit an immer größerer Bedeutung. So wurden bereits mit dem European Accessibility Act, der Barrierefreie-Informationstechnik-Verordnung und dem Barrierefreiheits- stärkungsgesetz europäische und nationale Vorgaben geschaffen, die die Umsetzung von Barrierefreiheit und speziell digitaler Barrierefreiheit vorschreiben und regulieren. Nach diesen müssen bereits alle digitalen Angebote öffentlicher Stellen (in Deutschland) barrierefrei gestaltet sein. Weiter müssen alle Produkte und Dienstleistungen, die ab dem 28. Juni 2025 auf den europäischen Markt gebracht werden, ebenfalls barrierefrei gestaltet werden. Durch die steigende Relevanz von digitaler Barrierefreiheit sowie den Vorgaben der Gesetzgeber, erwächst die Notwendigkeit, Möglichkeiten zur Umsetzung von digitaler Barrierefreiheit zu erarbeiten.

Sprache-zu-Text-Technologie

Sprache-zu-Text-Technologie ist eine Technologie, die es erlaubt, Aufnahmen von gesprochener Sprache in geschriebenen Text zu übersetzen, also mittels Computern Transkripte generieren zu lassen. Im Bereich Sprache-zu-Text-Technologie wurden in den letzten Jahren erhebliche Fortschritte erzielt, besonders durch den Einsatz von künstlicher Intelligenz. Nach Angaben der Hersteller erreichen moderne Sprache-zu-Text-Systeme bereits Genauigkeiten von über 95 % und sind damit im Durchschnitt sogar genauer als menschliche Transkriptoren.

Anwendungsmöglichkeiten von Sprache-zu-Text-Technologie zur Umsetzung von digitaler Barrierefreiheit

Die Fortschritte im Bereich Sprache-zu-Text-Technologie sowie die wachsende Notwendigkeit, Möglichkeiten zur Umsetzung von digitaler Barrierefreiheit zu erarbeiten, erlauben die Überlegung, ob Sprache-zu-Text-Technologie zur Umsetzung von digitaler Barrierefreiheit genutzt werden kann. Deswegen habe ich in meiner durch Pagemachine betreuten Bachelorarbeit Möglichkeiten der Umsetzung von digitaler Barrierefreiheit durch den Einsatz von Sprache-zu-Text-Technologie erforscht und im Hinblick auf Anwendbarkeit beurteilt. Im Folgenden möchte ich Ihnen diese Anwendungsmöglichkeiten von Sprache-zu-Text-Technologie zur Umsetzung von digitaler Barrierefreiheit vorstellen.

Textalternativen für zeitbasierte Medien

Zeitbasierte Medien, also Medien, deren Inhalte in einer zeitlichen Abfolge präsentiert werden, wie Audio oder Video, können von Menschen, die schwerhörig oder taub sind, kaum bis gar nicht genutzt werden und stellen für diese Menschen eine Barriere dar. Hier kann Sprache-zu-Text-Technologie Abhilfe schaffen, indem unter Zuhilfenahme dieser Technologie Textalternativen für zeitbasierte Medien in Form von Transkripten oder Untertiteln generiert werden. Diese Textalternativen können anschließend auf beispielsweise einem Webauftritt zusammen mit den zeitbasierten Medien veröffentlicht werden, wodurch taube oder schwerhörige Menschen Zugang zu den Inhalten dieser Medien erlangen können.

Problematisch ist bei einem tatsächlichen Einsatz solcher Systeme die Genauigkeit, die aktuelle Sprache-zu-Text-Systeme erreichen können. Dabei ist eine höchstmögliche Genauigkeit für die Verwendung von Sprache-zu-Text-Technologe zur Generierung von Textalternativen für zeitbasierte Medien besonders wichtig, da Taube oder schwerhörige Menschen meist nicht in der Lage sind, den Inhalt des originalen Materials durch Anhören zu verifizieren und somit auf genaue Textalternativen angewiesen sind. Zwar liegen die Genauigkeiten dieser Systeme nach Angaben der Hersteller bereits im Bereich von über 95 %. Allerdings zeigte die Auswertung von unabhängigen Studien sowie eine eigens durchgeführte Messung der Genauigkeit moderner Sprache-zu-Text-Systeme, dass diese praktisch bei der Transkription von deutschsprachigen Inhalten durchschnittliche Genauigkeiten im Bereich von 84,7 % bis 88,7 % erreichen. Dies ist für einen automatisierten Einsatz zur Generierung von Textalternativen für zeitbasierte Medien unzureichend. Allerdings besteht der Umstand, dass Sprache-zu-Text-Technologie, sofern eine Genauigkeit von über 70 % erreicht wird, den Prozess der Transkription durch Menschen maßgeblich beschleunigen kann, in dem Transkriptoren die Transkripte nicht von Hand erstellen, sondern die durch Sprache-zu-Text-Technologie generierten Transkripte nur noch korrigieren. Analog dazu kann Sprache-zu-Text-Technologie einen unterstützenden Einsatz bei der Generierung von Textalternativen für zeitbasierte Medien finden, indem die generierten Textalternativen vor der Veröffentlichung durch Menschen korrigiert werden. Dieses Vorgehen würde die Erstellung von Textalternativen für zeitbasierte Medien beschleunigen und somit zur Umsetzung von digitaler Barrierefreiheit beitragen.

 

Übersetzung von gesprochener Sprache in Gebärdensprache

Gebärdensprache ist eine visuelle Form von zwischenmenschlicher Kommunikation, die auf Gestik, Körpersprache und Mimik basiert. Sie stellt die primäre Form der Kommunikation von tauben Menschen dar. In den letzten Jahren wurden verschiedene Versuche unternommen, die automatische Übersetzung von gesprochener Sprache in Gebärdensprache zu ermöglichen. Hierbei werden mittels Sprache-zu-Text-Technologie die einzelnen Worte aus einem gesprochenen Inhalt extrahiert und anschließend mit einem Datensatz von Worten, die in Gebärdensprache dargestellt sind, abgeglichen. Die mit den Worten übereinstimmenden Gebärden werden anschließend in der Reihenfolge der Worte des ursprünglichen Inhalts zu einem Video zusammengeschnitten, das die Übersetzung in Gebärdensprache darstellt. Eine solche Übersetzung könnte zusammen mit den ursprünglichen Inhalten auf einem Webauftritt veröffentlicht werden und würde tauben Menschen Zugang zu diesen Inhalten ermöglichen.

Die vorhandenen Systeme sind dabei aktuell allerdings noch im Anfangsstadium ihrer Entwicklung. Das größte Problem ist, neben zu kleinen Datensätzen von Gebärden, besonders die Vorgehensweise, Gebärden zu Worten einer gesprochenen Sprache zuzuordnen. Aufgrund des Umstandes, dass Gebärdensprache einen visuellen Kanal (und keinen akustischen) zur Kommunikation verwendet, unterscheiden sich Gebärdensprachen fundamental zu gesprochenen Sprachen, was beispielsweise Grammatik oder Syntax angeht. Demzufolge erzeugen die vorhandenen Systeme eigentlich Videos, die eine Darstellung von gesprochener Sprache als Gebärden darstellen und keine wirkliche Übersetzung. Somit ist die automatische Übersetzung von gesprochener Sprache in Gebärdensprache aktuell nicht für den Einsatz der Umsetzung von digitaler Barrierefreiheit geeignet.

Sprachsteuerung von digitalen Systemen

Die klassischen Eingabemethoden zur Bedienung von digitalen Systemen wie Maus & Tastatur oder Bildschirme sind für Menschen, die motorisch eingeschränkt oder blind sind, nur schwer bis gar nicht nutzbar und dementsprechend eine Barriere. Sprachsteuerung (mit Rückmeldungen in Form von Text-zu-Sprache-Technologie) würde diesen Menschen die Interaktion mit digitalen Systemen vereinfachen. Dabei wird Sprache-zu-Text-Technologie bereits von Sprachassistenten wie Siri oder Alexa als Grundlage der Sprachsteuerung verwendet. Hierbei werden mittels Sprache-zu-Text-Technologie die Spracheingaben des Nutzers in die Textform gewandelt. Diese wird anschließend mit den verfügbaren Befehlen des Sprachsteuerungssystems abgeglichen und bei einer Übereinstimmung wird die entsprechende Funktionalität ausgeführt. Auf diesem Vorgehen aufbauend gibt es Bemühungen, die Sprachsteuerung von Anwendungen bzw. Apps sowie Betriebssystemen und des gesamten Internets zu ermöglichen.

Dabei ist aktuell das größte Problem, zutreffende Sprachbefehle zu erzeugen. Bei einzelnen Anwendungen bzw. Apps ist dies noch einfach möglich, da hier alle Funktionen, die mit Sprachbefehlen abgedeckt werden müssen, vor der Entwicklung des Sprachsteuerungssystems bekannt sind, womit die nötigen Sprachbefehle einfach manuell implementiert werden können. Anders sieht es bei Betriebssystemen oder der Sprachsteuerung des Internets aus. Da hier ein Funktionsumfang mit Sprachbefehlen abgedeckt werden muss, der vor der Entwicklung des Sprachsteuerungssystems unbekannt ist und sich aufgrund der ständigen Weiterentwicklung dieser Systeme kontinuierlich erweitert. Erste Versuche, die nötigen Sprachbefehle dynamisch zu erzeugen, zeigen, dass ein solches Vorgehen aufgrund von mangelhaften Strategien zur Erzeugung von Sprachbefehlen sowie fehlender Standards aktuell noch sehr fehleranfällig und deswegen noch nicht für einen realen Einsatz geeignet ist. Erschwerend kommt hier die mangelhafte Genauigkeit der verfügbaren Sprache-zu-Text-Systeme hinzu, die als Grundlage der Sprachsteuerung genutzt werden. Deswegen ist die auf Sprache-zu-Text-Technologie basierende Sprachsteuerung von digitalen Systemen aktuell nur in sehr eingeschränkten Szenarien denkbar, aber keinesfalls für die Umsetzung von digitaler Barrierefreiheit geeignet.

Wir machen Ihre Website wow!

Wir sind Profis, wenn es um Ihre Website geht. Design, Programmierung, SEO, Support.

Fazit

Sprache-zu-Text-Technologie ist zum aktuellen Zeitpunkt zur Umsetzung von digitaler Barrierefreiheit nur unterstützend bei der Generierung von Textalternativen von zeitbasierten Medien nutzbar. Der Einsatz im Bereich der Übersetzung von gesprochener Sprache in Gebärdensprache sowie als Grundlage der Sprachsteuerung von digitalen Systemen ist aufgrund der mangelhaften Genauigkeit von Sprache-zu-Text-Technologie sowie weiteren Problemen der verfügbaren Systeme nicht für den Einsatz zur Umsetzung von digitaler Barrierefreiheit geeignet. Dennoch ist Sprache-zu-Text-Technologie ein spannendes Feld und es ist durchaus möglich, dass die verfügbaren Sprache-zu-Text-Systeme in den nächsten Jahren so weit verbessert werden, dass für den Einsatz der Umsetzung von digitaler Barrierefreiheit geeignete Genauigkeiten erreicht werden können.

Unsere Kundinnen und Kunden

Unser Newsletter

Pro Quartal versenden wir einen Newsletter, der spannende Neuigkeiten zu den Themen TYPO3, Webdesign, SEO und Trends enthält.

Don’t talk about!

Über 100 Mitarbeiter:innen!

Der FGTCLB: Fünf Agenturen, ein Netzwerk, seit 2017. Wir sind unabhängig, profitieren aber von einem geteilten Pool an Ressourcen und Erfahrung, auch aus gemeinsam realisierten Projekte.

Ein Team

Was haben Sie davon? Ganz einfach, Ihre Projekte werden schneller fertig. Wir gleichen Arbeitsspitzen aus. Und Sie profitieren von mehr Know-how, gerade bei kniffligen Aufgaben.