Eingebettete Modelle mit Stichwortsuche kombiniert Databricks startet hybride Suche in Mosaic AI Vector Search

Von Martin Hensel 1 min Lesedauer

Anbieter zum Thema

Der Data-Intelligence-Spezialist Databricks hat die allgemeine Verfügbarkeit der hybriden Suche in Mosaic AI Vector Search bekanntgegeben. Sie kombiniert die Stärken von vorab trainierten eingebetteten Modellen mit der Flexibilität einer Stichwortsuche.

Die hybride Suche in Databricks Mosaic AI Vector Search sorgt für optimierte Ergebnisse.(Bild:  Databricks)
Die hybride Suche in Databricks Mosaic AI Vector Search sorgt für optimierte Ergebnisse.
(Bild: Databricks)

Vorgefertigte eingebettete Modelle bieten eine leistungsstarke Möglichkeit, um unstrukturierte Daten darzustellen und deren semantische Bedeutungen in einem komprimierten und einfach durchsuchbaren Format zu erfassen. Die ab sofort verfügbare hybride Suche ergänzt den Index der Vektorsuche um einen gelernten Index für die Schlagwortsuche. Der Schlüsselwort-Suchindex ist auf spezifische Unternehmensdaten trainiert. Er beherrscht daher sämtliche Namen, Produktschlüssel und andere wichtige Identifikatoren.

Methodik im Überblick

Die hybride Suche in Mosaic AI Vector Search basiert auf der „Rank Reciprocal Fusion“ (RRF) der Ergebnisse der Vektor- und Schlagwortsuche. Databricks hat die Parameter der RRF dabei auf Werte abgestimmt, die für die meisten Datensätze qualitativ hochwertige Ergebnisse erwarten lassen. Punktzahlen werden dabei normalisiert: Die höchstmögliche Punktzahl 1,0 und Werte in ihrer Nähe stehen für ein sowohl von Vektor- als auch von der Schlagwortsuche als hochwertig eingestuftes Dokument. Werte im Bereich von 0,5 und weniger zeigen dagegen, dass einer oder beide Retriever das betreffende Dokument für wenig relevant halten.

Laut Databricks können Anwender sofort mit der hybriden Suche beginnen, da alle Indizes Zugriff darauf haben. Zusätzliche Einstellungen sind demnach nicht erforderlich. Der Schlüsselwortindex wird auf alle Textfelder in ihrem Korpus trainiert. Er hat damit automatisch Zugriff auf den Text-Chunk als auch auf alle Textmetadatenfelder.

Weitere detaillierte Informationen zur hybriden Suche hat Databricks in einem Blog-Beitrag zusammengefasst. Die vollständige Dokumentation steht ebenfalls ab sofort zur Verfügung.

(ID:50196206)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung