KI Forschungsprojekt
Wie Künstliche Intelligenz Videokonferenzen revolutionieren könnte
Im Rahmen eines vom BMWK geförderten Forschungs- und Entwicklungsprojekts, das wir gemeinsam mit der University of Applied Sciences durchgeführt haben, arbeiten wir daran, wie KI das Erlebnis von Videokonferenzen optimieren kann. Unser Ansatz: KI-gestützte Moderation von Videokonferenzen.
Das finden Sie hier...
Die Herausforderung virtueller Kommunikation
Videokonferenzen sind inzwischen ein unverzichtbares Tool im Berufs- und Privatleben. Da die Interaktion rein virtuell stattfindet, fehlen wichtige nonverbale Signale, die in der realen Welt entscheidend sind. Das macht die Kommunikation oft unpersönlich und erschwert es, das Engagement der Teilnehmer richtig einzuschätzen – insbesondere in großen Konferenzen mit vielen Zuhörern.
KI zur Erkennung von Engagement
Durch den Einsatz von Künstlicher Intelligenz soll es möglich werden, das Engagement der Teilnehmer zu messen. Dies könnte den Rednern helfen, die Dynamik in der Gruppe besser zu verstehen und KI-gestützte Funktionen, wie etwa die automatische Anpassung des Fokus auf aktive Sprecher, zu nutzen. Eine große Herausforderung bleibt jedoch, dieses Engagement in realen, nicht-laborbasierten Umgebungen und auf individueller Basis zu erfassen.
Untersuchung von Videokonferenzsystemen: Big Blue Button und Zoom
Für unsere Forschung haben wir uns auf zwei Videokonferenzsysteme konzentriert: Big Blue Button und Zoom. Big Blue Button, ein Open-Source-System, betreiben wir auf einem eigenen Server und nutzen es für interne Meetings. Zoom, als eines der führenden Systeme, haben wir über die API angebunden, um die Videostreams zu analysieren und weiterzuverarbeiten.
Gesichtserkennung mit MotiSpectra: Erste Schritte
Um das Engagement zu messen, haben wir verschiedene Systeme zur Gesichtserkennung getestet, darunter MotiSpectra. Dieses Projekt zur Live-Gesichtserkennung und Emotionsmessung wurde von Studenten der Universität von Waterloo entwickelt und auf der ConUHacks 2024 vorgestellt. Es arbeitet mit Bildschirmaufnahmen und ist auf GitHub verfügbar.
Grenzen der Emotionserkennung in Videokonferenzen
Unsere Tests mit MotiSpectra und weiteren KIs, die auf unterschiedlich trainierten Datensätzen basierten, haben gezeigt, dass die zuverlässige Erkennung von Emotionen und damit die Vorhersage von Sprechabsichten derzeit noch nicht umsetzbar ist. Daher haben wir die Erforschung dieses Ansatzes vorerst eingestellt und uns anderen Lösungen zugewandt.
Veröffentlichung der Ergebnisse
Gemeinsam mit der FraUAS haben wir unsere Ergebnisse und Erfahrungen in einem wissenschaftlichen Paper zusammengefasst, das auf der ISMIT in Istanbul vorgestellt wird. Weitere Informationen und ein Link zum Paper werden im Dezember folgen.
Von der Emotionserkennung zur Bilderkennung mit CogVLM
Aufbauend auf unseren Erkenntnissen haben wir uns mit der Bilderkennung beschäftigt. Mithilfe einer Open-Source-KI entwickelten wir ein System, das Bilder automatisch textuell beschreibt. Diese Beschreibungen können dann als ALT-Tags auf Websites verwendet werden, um die Barrierefreiheit zu verbessern. Gleichzeitig tragen ALT-Tags zur Suchmaschinenoptimierung bei, was sie besonders wertvoll macht.
Fazit: Engagement und Bilderkennung als Zukunftsthemen
Obwohl die Emotionserkennung noch nicht ausgereift ist, bieten andere KI-Anwendungen wie die Bilderkennung großes Potenzial. Die Integration solcher Technologien in alltägliche Systeme wie Videokonferenzen oder Websites wird in Zukunft sicherlich weiter an Bedeutung gewinnen.
Barrierefreiheit in Videokonferenzen: Neue Anforderungen durch das BFSG
Seit der Einführung des Barrierefreiheitsstärkungsgesetzes (BFSG) wird die Barrierefreiheit auch in Videokonferenzen immer wichtiger. Menschen mit Einschränkungen, insbesondere Hörgeschädigte, haben oft Schwierigkeiten, an Konferenzen teilzunehmen. Hier setzt unser Forschungsprojekt an.
KI-basierte Lösungen für barrierefreie Videokonferenzen
Neben einem barrierefreien Interface können Audiostreams durch Untertitel ergänzt und am Ende der Konferenz Transkripte bereitgestellt werden. Dies ermöglicht es Gehörlosen, aktiv an den Gesprächen teilzunehmen. Wir entwickeln derzeit einen Prototypen, der diese Funktionen mithilfe von KI unterstützt und prüfen dabei die Qualität der automatischen Transkription.
Speech-to-Text: Automatische Untertitel und Transkripte
Durch verschiedene Speech-to-Text-Methoden können Untertitel und Zusammenfassungen der Konferenzen erstellt und allen Teilnehmern zugänglich gemacht werden. Unser Ziel ist es, KI-basierte Technologien einzusetzen, um Videokonferenzen für alle Menschen zugänglicher zu gestalten.
Wir machen Ihre Website wow!
Wir sind Profis, wenn es um Ihre Website geht. Design, Programmierung, SEO, Support.
Fazit/Ausblick
Auf Basis der beschriebenen Forschungen und Analysen der letzten Monate entwickeln wir aktuell KI-gestützte Lösungen für TYPO3. Diese werden z.B. Redakteure bei der täglichen Arbeit dabei unterstützen, Bilder und Videos barrierefrei auszugeben.
Mehr dazu in Kürze hier bei Pagemachine
Nichts verpassen: Hier geht es zur Anmeldung zu unserem Newsletter.
Unsere Kundinnen und Kunden
Unser Newsletter
Pro Quartal versenden wir einen Newsletter, der spannende Neuigkeiten zu den Themen TYPO3, Webdesign, SEO und Trends enthält.
Don’t talk about!
Über 100 Mitarbeiter:innen!
Der FGTCLB: Fünf Agenturen, ein Netzwerk, seit 2017. Wir sind unabhängig, profitieren aber von einem geteilten Pool an Ressourcen und Erfahrung, auch aus gemeinsam realisierten Projekte.
Ein Team
Was haben Sie davon? Ganz einfach, Ihre Projekte werden schneller fertig. Wir gleichen Arbeitsspitzen aus. Und Sie profitieren von mehr Know-how, gerade bei kniffligen Aufgaben.