Pagemachine.de/ Blog/ Von der Forschung zur Praxis

Von der Forschung zur Praxis

Wie aigude aus der Videoverschlagwortung und Texterkennung entstand

Im Rahmen eines vom Bundesministerium für Wirtschaft und Klimaschutz (BMWK) geförderten Kooperationsprojekts mit der Frankfurt University of Applied Sciences (Frankfurt UAS) haben wir innovative KI-Technologien für Videokonferenzsysteme erforscht. Der Fokus lag auf Bilderkennung, Video-to-Text-Verfahren und der Automatisierung von Videoverschlagwortung.

Fortschritte durch den AI Proxy

Eine der zentralen Innovationen war die Entwicklung eines sogenannten AI Proxies. Dieses Konzept fungiert als Vermittler zwischen Anwendungen und verschiedenen KI-Modellen, wodurch die Nutzung und Kombination unterschiedlicher KI-Technologien erleichtert wird. Der AI Proxy ermöglicht unter anderem:

  • Flexible Modellwahl: Verschiedene KI-Modelle für Bild- und Texterkennung können kombiniert und ausgetauscht werden.
  • Erweiterbarkeit: Neue Technologien lassen sich einfach in bestehende Systeme integrieren.
  • Datenschutzkonforme Implementierung: Der AI Proxy kann lokal betrieben werden, um die Anforderungen der DSGVO zu erfüllen.

KI-gestützte Alt-Text-Generierung für Barrierefreiheit

Ein wichtiger Bestandteil unserer Forschung war die Entwicklung einer KI-gestützten Alt-Text-Generierung für Bilder. Barrierefreie digitale Inhalte sind essenziell, um Informationen für alle Nutzer zugänglich zu machen, insbesondere für Menschen mit Sehbehinderungen. In diesem Zusammenhang haben wir Modelle zur automatischen Bildbeschreibung getestet und optimiert.

Unser Ansatz basiert auf modernen Open-Source-KI-Modellen, die Bildinhalte analysieren und präzise Beschreibungen generieren. Diese Technologie ermöglicht es, automatisiert Alt-Texte für Bilder zu erstellen, die dann von Screenreadern vorgelesen werden können. Dadurch wird die Barrierefreiheit von Webinhalten erheblich verbessert.

Proof of Concept für Video2Text

Ein wichtiger Meilenstein war die Entwicklung eines Proof-of-Concept-Systems zur automatischen Videozusammenfassung. Dabei wurden auditive und visuelle Analysetechniken kombiniert, um umfassende Videobeschreibungen zu erstellen. Besonders vielversprechend erwies sich der Einsatz von multimodalen KI-Ansätzen für:

  • Spracherkennung (Speech2Text): Automatische Transkription gesprochener Inhalte.
  • Szenenerkennung: Analyse von Bild- und Videoinhalten zur Verschlagwortung.
  • Texterzeugung: Erstellung von Zusammenfassungen und Untertiteln.

Herausforderungen und zukünftige Entwicklungen

Obwohl das Projekt zahlreiche Erfolge erzielte, zeigten sich auch technologische Grenzen:

  • Die Genauigkeit aktueller Speech2Text-Modelle liegt bei etwa 84,7 % – für eine vollständig automatisierte Nutzung ist dies nicht ausreichend.
  • Die Verarbeitung rein visueller Inhalte (z. B. Stummfilme) bleibt eine Herausforderung.
  • Bestehende KI-Modelle zur Aufmerksamkeitserkennung, die wir zur Steuerung von Videokonferenzen verwenden wollten, erwiesen sich als unzuverlässig.

Daher werden zukünftige Entwicklungen insbesondere die Verbesserung der Video-LLM-Technologien und die Optimierung des AI Proxies fokussieren.

 

Wir machen Ihre Website wow!

Wir sind Profis, wenn es um Ihre Website geht. Design, Programmierung, SEO, Support.

Fazit

Auf Grundlage der gewonnenen Erkenntnisse haben wir aigude.io entwickelt, eine Lösung, die Unternehmen dabei unterstützt, KI-Modelle effizient in ihre bestehenden Systeme zu integrieren. aigude.io dient als Schnittstelle zwischen Anwendungen und künstlicher Intelligenz und ermöglicht eine flexible Nutzung unterschiedlicher KI-Modelle. Weitere Informationen dazu finden sich unter aigude.io und auf unserer Website unter AI Gateway.

Unsere Kundinnen und Kunden

Unser Newsletter

Pro Quartal versenden wir einen Newsletter, der spannende Neuigkeiten zu den Themen TYPO3, Webdesign, SEO und Trends enthält.

Don’t talk about!

Über 100 Mitarbeiter:innen!

Der FGTCLB: Fünf Agenturen, ein Netzwerk, seit 2017. Wir sind unabhängig, profitieren aber von einem geteilten Pool an Ressourcen und Erfahrung, auch aus gemeinsam realisierten Projekte.

Ein Team

Was haben Sie davon? Ganz einfach, Ihre Projekte werden schneller fertig. Wir gleichen Arbeitsspitzen aus. Und Sie profitieren von mehr Know-how, gerade bei kniffligen Aufgaben.

Pagemachine AG

Solmsstraße 6a
60486 Frankfurt am Main

Tel.: +49 69 260 99 70 30
E-mail: [email protected]

Kontakt aufnehmen

Haben Sie Fragen oder möchten Sie ein kostenloses, unverbindliches Angebot? Wir kommen gerne bei Ihnen vorbei oder laden Sie auf einen Kaffee bei uns ein.


© PAGEMACHINE AG 2025