Kommentar von Vadim Balannik, AnyClip Herausforderungen KI-generierter Video-Highlights

Von Vadim Balannik |

Anbieter zum Thema

Online-Meetings sind im unternehmerischen Alltag heute gang und gäbe. Mit gutem Grund: Sie ermöglichen nicht nur die Teilnahme von jedem beliebigen Ort aus, sondern auch die Aufzeichnung der Besprechungen. So können sich die Mitarbeiter jederzeit noch einmal ansehen und -hören, was besprochen wurde. Einzig einen Haken gibt es: Die meisten Mitarbeiter haben nicht die Zeit, sich sämtliche Aufzeichnungen in aller Länge anzusehen. Was daher nötig ist, sind kurze Zusammenfassungen der Meetings mit den wichtigsten Inhalten.

Der Autor: Vadim Balannik ist CTO von AnyClip
Der Autor: Vadim Balannik ist CTO von AnyClip
(Bild: AnyClip)

Video-Highlights werden mithilfe von Machine-Learning-Modellen erstellt, wobei für gewöhnlich mehrere verschiedene Modelle übereinandergelegt werden. Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) wird verwendet, um sowohl Speech-to-Text-Transkriptionen des in der Audiospur gesprochenen Textes als auch die optische Zeichenerkennung (OCR) des auf dem Bildschirm erscheinenden Textes zu analysieren. Die Modelle helfen dabei zu erkennen, ob der Text Teil einer Besprechung oder Präsentation ist oder aus einer anderen Quelle stammt. Wenn zum Beispiel ein Markenname in einer Präsentation auftaucht, ist das wahrscheinlich relevant für das Meeting; wenn derselbe Markenname auf dem Hemd einer Person steht, ist das weniger relevant.

Das Ziel ist es, sowohl das gesprochene Wort als auch den geschriebenen Text im Zusammenhang zu verstehen und dann zu bestimmen, welche Inhalte am wichtigsten sind. Daraus wird dann ein Supercut der wichtigsten Clips des Meetings zusammengestellt. Aus einer 60-minütigen Besprechung kann so zum Beispiel ein eigenständiges 2-minütiges Highlight-Video erstellt werden. Alternativ können Video-Overlays genutzt werden: Mithilfe dieser Technik können die Mitarbeiter in einem extra Videofenster einfach von einem Highlight zum nächsten springen. Da diese Version über dem Original liegt, können die Mitarbeiter auch einfach stoppen und sich die Aufnahme um das Highlight herum in Ruhe ansehen, um zusätzlichen Kontext zu erhalten.

Für KI-Forscher bedeutet die Erstellung von Video-Highlights einige Herausforderungen:

1. Zusammenhänge verstehen

Menschen verstehen Zusammenhänge beim gesprochenen Wort, die für Maschinen nicht offensichtlich sind. Zum Beispiel bei Pronomen: Wir sagen ein Wort und beziehen uns dann mit Pronomen darauf. In einem Online-Meeting könnte etwa jemand sagen: „Unser Budget betrug in Q1 den Betrag X.“ Ein paar Sätze später fügt er hinzu: „Aber in Q2 wird es auf Y ansteigen.“ Die Zuhörer haben keine Schwierigkeiten zu verstehen, dass „es“ sich auf „Budget“ aus dem ersten Satz bezieht. Einige Minuten später, wenn der Redner über seine Inhaltsstrategie spricht, werden die Zuhörer wiederum verstehen, dass „es“ jetzt „Inhaltsstrategie“ und nicht mehr „Budget“ bedeutet.

Eine große Herausforderung bei KI-generierten Inhalten besteht also darin, zu erkennen, wann jemand das Thema gewechselt hat. Bei der Auswahl der Video-Highlights ist es daher essenziell, einen Satz zu wählen, in dem das Thema explizit genannt wird – sonst wird das Video-Highlight unverständlich und unter Umständen sogar irreführend. Die Verwendung von Syntax, Pronomen oder Folienwechseln helfen dem Algorithmus dabei, einen verständlichen Clip zur Darstellung eines Abschnitts auszuwählen.

2. Sprecher erkennen

Kommen in einem Video mehrere Sprecher vor, ist das eine zusätzliche Herausforderung für die KI-Entwickler. Wenn Sprecher 2 auf Sprecher 1 folgt, ist Sprecher 2 dann ein Co-Sprecher, dessen Informationen gleichwertig sind? Macht er eine wichtige oder eine irrelevante Bemerkung? Beziehen sich Sprecher 1 und 2 überhaupt auf dasselbe Thema? Um diese Fragen zu klären, müssen die Stimmen der einzelnen Sprecher identifiziert und exakt verfolgt werden, wer was wann gesagt hat. Daraus lassen sich dann zuverlässige Highlights ableiten.

3. Stimmungsanalyse

Eine der wichtigsten (und zugleich kompliziertesten) Methoden zur Bestimmung von Video-Highlights ist die Stimmungsanalyse, also die Ermittlung der Emotionen hinter einer Aussage. Bisher hat sich die KI-Entwicklung vor allem auf die Unterscheidung zwischen positiven und negativen Stimmungen konzentriert. Viele Forschungsarbeiten befassen sich mit Online-Kommentaren, Rezensionen und emotionalen Ausdrücken in Gesichtern. Für Unternehmensvideos ist jedoch in der Regel überhaupt nicht relevant, ob eine Aussage positiv oder negativ ist. Es geht darum, ob sie wichtig oder unwichtig ist. Um genaue Schlussfolgerungen für lange Inhalte wie Besprechungen oder Präsentationen zu ziehen, müssen andere Datensätze erhoben werden. Dafür werden neue Forschungsansätze und -möglichkeiten benötigt, an denen die KI-Entwicklung bereits intensiv arbeitet.

Ausblick

Die Erstellung von Video-Highlights im unternehmerischen Kontext erfordert teilweise andere Anwendungen und Ansätze als jene, die in der Vergangenheit für die Video-KI verwendet wurden. Die KI-Forschung konzentriert sich daher aktuell verstärkt auf geschäftsorientierte maschinelle Lernmodelle.

Unternehmen und technische Mitarbeiter, die jetzt mit der Evaluierung von Technologien für Video-Highlights beginnen, sollten die oben genannten potenziellen Fallstricke kennen. Dann können sie geeignete Tools auswählen, die den Bedürfnissen ihres Unternehmens am besten entsprechen. Dabei sollten sie wissen, welche Arten von Videos das Unternehmen am häufigsten aufnimmt und inwiefern die genannten Herausforderungen auf diese Videos zutreffen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Video-Highlights haben ein immenses Potenzial, um Mitarbeiter stets auf dem Laufenden zu halten – ohne dass „Meeting-Müdigkeit“ entsteht. Im Moment hält die Technologie gerade erst Einzug in Unternehmen. Es ist jedoch davon auszugehen, dass es nicht lange dauern wird, bis sie ein wichtiger Teil der täglichen Routine sein wird.

Artikelfiles und Artikellinks

(ID:48561181)