Die Suche in unternehmensinternen Beständen unstrukturierter Daten ist seit jeher schwierig. Das spanische Start-up Nuclia verwendet dazu eine neuartige Datenbank und einen KI-Service. So sollen die Produkte mit allen Arten von unstrukturierten Daten fertig werden.Rund 80 Prozent aller firmeninternen Daten sind unstrukturiert: Textfiles, PDFs, zunehmend Audios und Videos, Streams, Social Media – es gibt eine Unzahl von Quellen und Formaten. Das ist eine Herausforderung für Unternehmen.
Keine offenen Fragen mehr? Eine neue Softwarelösung soll die Suche in unternehmensinternen unstrukturierten Daten revolutionieren.
Wer geschäftlich nutzbare Erkenntnisse gewinnen will, muss diesen heterogenen Datenpool speichern, indexieren und mit Metadaten ausrüsten, um ihn sinnvoll durchsuchen zu können. Zudem stößt die übliche Suche nach Stichworten bei diesen Datenbeständen an ihre Grenzen.
Neue Methode für die Suche in unstrukturierten Datenbeständen
„Wir wollen die unternehmensinterne Informationssuche in unstrukturierten Daten verbessern“, Eudald Camprubí, CEO und Gründer von Nuclia.
(Bild: Nuclia)
„Die firmeninterne Suche in internen unstrukturierten Datenbeständen funktioniert traditionell nicht besonders gut“, weiß Eudald Camprubí, CEO und Gründer der Softwareschmiede Nuclia aus Barcelona. Zusammen mit einem langjährigen Freund, Ramon Navarra, den er an der Universität beim technologisch ausgerichteten Studium kennengelernt hatte, gründete er seine Firma. Navarro hat die Rolle des CTO inne.
Rund 20 Entwickler und Ingenieure beschäftigt die Gründung inzwischen. Ziel ist, die Recherche in Textinformationen aller Art zu revolutionieren. Den Venture-Capital-Firmen Crane und Elaia ist diese Idee immerhin 5,5 Millionen Euro Erstrundenfinanzierung wert. Nuclia verkauft sein Produkt als Ende-zu-Ende-Low-Code-API, das alle Arten von textbasierten Daten versteht, indexiert und suchbar macht.
Semantische Sprachmodelle als Basis
Kern der Lösung ist die Nutzung semantischer Sprachmodelle zur Indexierung und zum Verständnis sprachlicher Informationen. Sie wird kombiniert mit KI-gestützter Suche in den Datenbeständen als Cloud-Service (AI-SaaS) und einem Suchfenster, das sich in jede Applikation integrieren lässt.
Auf der Dateneingabeseite befinden sich der Nuclia-Desktop, ein Softwareentwicklungs-Kit und eine REST-Schnittstelle. Sind die Daten eingelesen, müssen sie zuerst die Datenextraktion passieren. Die Textdaten werden mittels der semantischen Sprachmodelle sprachunabhängig gewonnen. „Nur Sprachen, die mit grafischen Zeichen schreiben, wie Chinesisch oder Japanisch sowie Piktogramme, können wir noch nicht so gut“, sagt Navarra, „aber wir stehen auch erst am Anfang der Entwicklung.“
Jede Art von Textdaten lässt sich erfassen
Texte, auch solche in Video- oder Audiofiles, in Datenstreams oder anderen Formaten, werden ausgelesen und verschriftlicht. Links und beliebige andere, vorher festgelegte Inhalte, erkennt das System und extrahiert sie ebenfalls. Alle möglichen Inhalte, etwa Personennamen, Ortsnamen, KFZ-Kennzeichen, Messwerte oder Ähnliches, lassen sich als sogenannte Insights definieren. Diese werden separat extrahiert und sind suchbar.
Im anschließenden Schritt, dem Textverstehen, werden die Texte vektorisiert (also in Zahlenwerte verwandelt), als Vektor in der Nuclia-Datenbank gespeichert und aufsummiert. Namen und andere Indikatoren (Insights) werden zudem extrahiert..
Texte in Videos bildgenau anfahren
Die Architektur von Nuclias Ende-zu-Ende-Lösung für die Erschließung unternehmensinterner unstrukturierter Datenbestände.
(Bild: Nuclia)
Texte, egal, woher sie stammen, werden in Absätze geteilt. Bei audiovisuellen Medien sind die Absätze mit der Laufzeit des Mediums verbunden, sodass man sie bild- oder tongenau aufsuchen kann. Anschließend werden die Daten klassifiziert. Klickt man beispielsweise einen Paragraphen eines erfassten Videos an, fährt das Medium exakt an die Stelle, an der der betreffende Text gesprochen wird.
Anschließend wird die jeweils kundenspezifische NucliaDB gefüllt. Sie enthält die Beziehungen der Daten untereinander, die auf dem Wege der Vektorverarbeitung darstellbar werden. Dazu kommen die semantischen Strukturen, die mit den Sprachmodellen gewonnen werden, die Paragraphen und Dokumente. Diese Daten können in den Clouds der Hyperscaler oder in einer Nuclia-Cloud gespeichert werden.
Auf der Such-Seite befinden sich ebenfalls eine offene Schnittstelle. Auch hier liefert Nuclia ein Softwareentwicklungskit, eine entsprechende Benutzerschnittstelle und ein REST-Interface. Mit Low-Code-Programmierung lässt sich ein Such-Widget in jede Applikation eines Kundenunternehmens einbauen. Von dort kann man dann auf die gesamte NucliaDB zugreifen und sie AI-gestützt durchsuchen. Dazu kommt noch ein Modul zur Verarbeitung natürlicher Sprache (NLP), ebenfalls mit einer REST-Schnittstelle.
Insights selbst bauen
Neben den von Nuclia mitgelieferten Insights lassen sich auch firmenspezifische definieren. Das geschieht mittels weniger Schritte. Im Prinzip wird neue die Kategorie mit einem Namen versehen, z. B. Produktname oder Seriennummer.
Anschließend werden konkrete Werte, die zu der neuen Kategorie passen, in rund 50 Dokumenten markiert und ihr zugewiesen. Dank seiner KI-Fähigkeiten reicht das bei dem System aus, um die jeweilige Kategorie in weiteren Dokumenten selbstständig zu erkennen und zu kategorisieren.
Suchen lassen sich in Form beliebiger Fragen formulieren – auch fremdsprachig. Der Service findet daraufhin alle eingelesenen Dokumente in allen Formaten und Sprachen, in denen entsprechende Daten auftauchen und markiert die gesuchten Antworten. Die sprachübergreifende Suche funktioniert wegen der Kombination von Vektoren und semantischen Sprachmodellen in der NucliaDB.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Lernen durch Einlesen
Um die verwendete KI zu trainieren, müssen Unternehmen ihre Datenbestände einlesen. Dazu können sie bei Nuclia Rechenleistung aus der Google Cloud anmieten. Wie viel Rechenleistung nötig ist, ist einer der Faktoren, die über den Preis des neuen Angebots entscheiden werden. „Unser endgültiges Preismodell ist noch in Arbeit“, sagt CEO Camprubí. Einen Einstieg ermöglicht derzeit eine Version für maximal zehn Gigabyte Daten. Sie kostet 5.000 Euro pro Jahr.
Die Menge der Rechenleistung entscheidet auch darüber, wie lange das Einlesen, Indexieren und Klassifizieren der einzelnen Dokumente dauert.
Die heute etwa 20 Kunden von Nuclia sind Universitäten, multinationale Unternehmen, Kundenserviceunternehmen, Pharmafirmen und andere Unternehmen, die strengen Datenschutzbestimmungen unterliegen. Die Umsätze 2022 betrugen rund 100.000 US-Dollar, doch für 2023 stehen schon Verträge im Wert von knapp einer halben Million US-Dollar in den Büchern – das sind immerhin 500 Prozent mehr.
Zu den nächsten technischen Entwicklungsschritten gehört die Verbesserung der Lösung in Bezug auf das Verständnis von Sprachen, die Bildzeichen verwenden, und von Piktogrammen.