Online-Meetings sind im unternehmerischen Alltag heute gang und gäbe. Mit gutem Grund: Sie ermöglichen nicht nur die Teilnahme von jedem beliebigen Ort aus, sondern auch die Aufzeichnung der Besprechungen. So können sich die Mitarbeiter jederzeit noch einmal ansehen und -hören, was besprochen wurde. Einzig einen Haken gibt es: Die meisten Mitarbeiter haben nicht die Zeit, sich sämtliche Aufzeichnungen in aller Länge anzusehen. Was daher nötig ist, sind kurze Zusammenfassungen der Meetings mit den wichtigsten Inhalten.
Der Autor: Vadim Balannik ist CTO von AnyClip
(Bild: AnyClip)
Video-Highlights werden mithilfe von Machine-Learning-Modellen erstellt, wobei für gewöhnlich mehrere verschiedene Modelle übereinandergelegt werden. Die Verarbeitung natürlicher Sprache (Natural Language Processing, NLP) wird verwendet, um sowohl Speech-to-Text-Transkriptionen des in der Audiospur gesprochenen Textes als auch die optische Zeichenerkennung (OCR) des auf dem Bildschirm erscheinenden Textes zu analysieren. Die Modelle helfen dabei zu erkennen, ob der Text Teil einer Besprechung oder Präsentation ist oder aus einer anderen Quelle stammt. Wenn zum Beispiel ein Markenname in einer Präsentation auftaucht, ist das wahrscheinlich relevant für das Meeting; wenn derselbe Markenname auf dem Hemd einer Person steht, ist das weniger relevant.
Das Ziel ist es, sowohl das gesprochene Wort als auch den geschriebenen Text im Zusammenhang zu verstehen und dann zu bestimmen, welche Inhalte am wichtigsten sind. Daraus wird dann ein Supercut der wichtigsten Clips des Meetings zusammengestellt. Aus einer 60-minütigen Besprechung kann so zum Beispiel ein eigenständiges 2-minütiges Highlight-Video erstellt werden. Alternativ können Video-Overlays genutzt werden: Mithilfe dieser Technik können die Mitarbeiter in einem extra Videofenster einfach von einem Highlight zum nächsten springen. Da diese Version über dem Original liegt, können die Mitarbeiter auch einfach stoppen und sich die Aufnahme um das Highlight herum in Ruhe ansehen, um zusätzlichen Kontext zu erhalten.
Für KI-Forscher bedeutet die Erstellung von Video-Highlights einige Herausforderungen:
1. Zusammenhänge verstehen
Menschen verstehen Zusammenhänge beim gesprochenen Wort, die für Maschinen nicht offensichtlich sind. Zum Beispiel bei Pronomen: Wir sagen ein Wort und beziehen uns dann mit Pronomen darauf. In einem Online-Meeting könnte etwa jemand sagen: „Unser Budget betrug in Q1 den Betrag X.“ Ein paar Sätze später fügt er hinzu: „Aber in Q2 wird es auf Y ansteigen.“ Die Zuhörer haben keine Schwierigkeiten zu verstehen, dass „es“ sich auf „Budget“ aus dem ersten Satz bezieht. Einige Minuten später, wenn der Redner über seine Inhaltsstrategie spricht, werden die Zuhörer wiederum verstehen, dass „es“ jetzt „Inhaltsstrategie“ und nicht mehr „Budget“ bedeutet.
Eine große Herausforderung bei KI-generierten Inhalten besteht also darin, zu erkennen, wann jemand das Thema gewechselt hat. Bei der Auswahl der Video-Highlights ist es daher essenziell, einen Satz zu wählen, in dem das Thema explizit genannt wird – sonst wird das Video-Highlight unverständlich und unter Umständen sogar irreführend. Die Verwendung von Syntax, Pronomen oder Folienwechseln helfen dem Algorithmus dabei, einen verständlichen Clip zur Darstellung eines Abschnitts auszuwählen.
2. Sprecher erkennen
Kommen in einem Video mehrere Sprecher vor, ist das eine zusätzliche Herausforderung für die KI-Entwickler. Wenn Sprecher 2 auf Sprecher 1 folgt, ist Sprecher 2 dann ein Co-Sprecher, dessen Informationen gleichwertig sind? Macht er eine wichtige oder eine irrelevante Bemerkung? Beziehen sich Sprecher 1 und 2 überhaupt auf dasselbe Thema? Um diese Fragen zu klären, müssen die Stimmen der einzelnen Sprecher identifiziert und exakt verfolgt werden, wer was wann gesagt hat. Daraus lassen sich dann zuverlässige Highlights ableiten.
3. Stimmungsanalyse
Eine der wichtigsten (und zugleich kompliziertesten) Methoden zur Bestimmung von Video-Highlights ist die Stimmungsanalyse, also die Ermittlung der Emotionen hinter einer Aussage. Bisher hat sich die KI-Entwicklung vor allem auf die Unterscheidung zwischen positiven und negativen Stimmungen konzentriert. Viele Forschungsarbeiten befassen sich mit Online-Kommentaren, Rezensionen und emotionalen Ausdrücken in Gesichtern. Für Unternehmensvideos ist jedoch in der Regel überhaupt nicht relevant, ob eine Aussage positiv oder negativ ist. Es geht darum, ob sie wichtig oder unwichtig ist. Um genaue Schlussfolgerungen für lange Inhalte wie Besprechungen oder Präsentationen zu ziehen, müssen andere Datensätze erhoben werden. Dafür werden neue Forschungsansätze und -möglichkeiten benötigt, an denen die KI-Entwicklung bereits intensiv arbeitet.
Ausblick
Die Erstellung von Video-Highlights im unternehmerischen Kontext erfordert teilweise andere Anwendungen und Ansätze als jene, die in der Vergangenheit für die Video-KI verwendet wurden. Die KI-Forschung konzentriert sich daher aktuell verstärkt auf geschäftsorientierte maschinelle Lernmodelle.
Unternehmen und technische Mitarbeiter, die jetzt mit der Evaluierung von Technologien für Video-Highlights beginnen, sollten die oben genannten potenziellen Fallstricke kennen. Dann können sie geeignete Tools auswählen, die den Bedürfnissen ihres Unternehmens am besten entsprechen. Dabei sollten sie wissen, welche Arten von Videos das Unternehmen am häufigsten aufnimmt und inwiefern die genannten Herausforderungen auf diese Videos zutreffen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Video-Highlights haben ein immenses Potenzial, um Mitarbeiter stets auf dem Laufenden zu halten – ohne dass „Meeting-Müdigkeit“ entsteht. Im Moment hält die Technologie gerade erst Einzug in Unternehmen. Es ist jedoch davon auszugehen, dass es nicht lange dauern wird, bis sie ein wichtiger Teil der täglichen Routine sein wird.