Databricks hat die nächste Entwicklungsstufe von Retrieval-Augmented Generation (RAG) vorgestellt und diese Architektur auf den Namen „Instructed Retriever“ getauft. Damit sollen RAG-basierte Suchvorgänge bis zu 70 Prozent mehr relevante Ergebnisse an einen KI-Assistenten liefern können als mit einfacher RAG allein.
Vergleich der Leistungsergebnisse für RAG, Multi-step-RAG, Instructed Retriver und Multi-Step-Instructed Retriever.
(Bild: Databricks)
Retrieval-Augmented Generation (RAG) gehört längst zu den wesentlichen Techniken, mit denen KI-Assistenten wie Chatbots, aber auch autonome KI-Agenten, weitergehende firmeninterne, aber auch heterogene externe Informationen beschaffen können, um beispielsweise Entscheidungen und Aktionen zu unterstützen.
Gleichzeitig sehen die Forscher viele Mängel bei einem solchen Grundaufbau. Vor allem LLMs halten sich oft einfach nicht an die Benutzeranweisungen. Darüber hinaus verstehen KI-Modelle regelmäßig den Kontext ihrer Quellen nicht sehr gut, insbesondere wenn es um stark domänenspezifische Daten geht. Darüber hinaus können Standardmodelle nicht über ihre Ausgabe nachdenken, bevor sie sie an den Benutzer senden. Präzise Suchläufe liefern dann die falschen oder keine Informationen.
Die meisten bestehenden Lösungen ignorieren dieses Problem und verwenden stattdessen zur Verfügung stehende Suchwerkzeuge. Andere unterschätzen die Herausforderung drastisch und verlassen sich ausschließlich auf benutzerdefinierte Modelle für die Einbettung und das Reranking, die in ihrer Ausdruckskraft grundlegend begrenzt sind. Eine Alternative ist wünschenswert, ja, notwendig.
Instructed Retriever
Das Mosaic-Team beim Datenplattformspezialisten Databricks hat in einem Blog kürzlich eine neue Such- Architektur vorgestellt, die sie „Instructed Retriever“ nennt. Im gleichen Blog demonstriert das Team, wie diese Architektur Suchagenten weitere Fähigkeiten verleiht, so etwa dem hauseigenen „Agent Bricks Knowledge Assistant“, einem Wissensassistenten, der über komplexe Unternehmensdaten hinweg Schlussfolgerungen ziehen und Nutzeranweisungen strikt einhalten muss.
Hier ein Beispiel für den instruierten Abruf-Workflow für die Abfrage [Was ist die Akkulaufzeiterwartung für FooBrand-Produkte]. Benutzeranweisungen werden in (a) zwei strukturierte Abrufabfragen übersetzt, die sowohl aktuelle Bewertungen als auch eine offizielle Produktbeschreibung (b) für eine kurze Antwort abrufen, die in den Suchergebnissen resultiert.
(Bild: Databricks)
Man betrachte das Beispiel in der Abbildung. Hier fragt der Nutzer nach der Akkulebensdauer eines fiktiven Produkts der Firma FooBrand. Die Systemspezifikationen (Prompt) umfassen Anweisungen hinsichtlich Aktualität, die zu berücksichtigenden Dokumenttypen und die Antwortlänge.
Um den Systemspezifikationen (Prompt) richtig zu folgen, muss die Benutzeranfrage zunächst in strukturierte Suchanfragen übersetzt werden, die neben Keywords auch die entsprechenden Spaltenfilter enthalten. Dann muss eine anhand den Abfrageergebnissen erstellte, prägnante Antwort gemäß den Benutzeranweisungen generiert werden. Eine solche komplexe und bewusste Befehlsfolge ist nicht durch eine einfache Abrufpipeline erreichbar, die sich allein auf die Benutzerabfrage konzentriert.
Traditionelle RAG-Pipelines basieren auf einem einstufigen Abruf allein durch Benutzerabfrage und enthalten keine zusätzlichen Systemspezifikationen wie etwa spezifische Anweisungen, Beispiele oder Wissensquellenschemata. Wie das Mosaic-Team jedoch zeigt, sind diese Spezifikationen der Schlüssel zu einer erfolgreichen Befehlsabfolge in agentischen Suchsystemen. Um diese Einschränkungen zu beheben und Aufgaben erfolgreich auszuführen, ermöglicht die Instructed-Retriever-Architektur die Einbeziehung von Systemspezifikationen in jede der Systemkomponenten.
Eine Zusammenfassung der Funktionen von traditionellem RAG, Instructed Retriever und einem mehrstufigen Suchagenten, der mit einem der Ansätze als Werkzeug implementiert wurde. ((DBX_Tabelle_01.png))
(Bild: Databricks)
Auch jenseits von RAG sind Anweisungsabfolgen und das zugrunde liegende Verständnis von Wissensquellenschemata die wichtigsten Funktionen, die sich nicht ausnutzen lassen, indem RAG einfach als Werkzeug für mehrere einfache Schritte ausgeführt wird. Das veranschaulicht die Tabelle. Daher bietet die Instructed-Retriever-Architektur eine hoch performante Alternative zu RAG, wenn geringe Latenz und ein kleiner „Modellfußabdruck“ (CPU statt GPU reicht) erforderlich sind. Gleichzeitig ermöglicht sie effektivere Suchagenten für Szenarien wie etwa Deep Research. Instructed Retriever benötigt lediglich vier Milliarden Parameter statt hunderten von Milliarden Parametern.
Um die Vorteile des Instructed Retriever (IR) zu demonstrieren, zeigt Abbildung 2 seine Leistung im Vergleich zu RAG-basierten Basislinien auf einer Abfolge von Unternehmensfragen, die Datensätze beantworten. Die Mosaic-Abfolge enthält eine Mischung aus fünf proprietären und akademischen Benchmarks, die auf die folgenden Funktionen testen: Instruction-Following, Domain-spezifische Suche, Berichtsgenerierung, Listengenerierung und Suche über PDFs mit komplexen Layouts. Jeder Benchmark ist mit einem benutzerdefinierten Qualitätsrichter verbunden, basierend auf dem Antworttyp.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Bei diesen komplexen Benchmarks steigert IR die Leistung im Vergleich zu herkömmlichen RAG um mehr als 70 Prozent. IR übertrifft sogar einen RAG-basierten Multi-Step-Agent um zehn Prozent. Die Integration von IR als Werkzeug in einen mehrstufigen Agenten bringt zusätzliche Gewinne mit sich, während die Anzahl der Ausführungsschritte im Vergleich zu RAG reduziert wird.
Eine Verbesserung für RAG-Implementierungen war also der Einsatz von Multi-Step-Agents. Diese ermöglichen es KI-Modellen, über ihre Ausgabe nachzudenken, bevor sie dem Benutzer angezeigt wird. Dem KI-Agenten fehlt es jedoch immer noch an Verständnis für den Kontext. Databricks legt dar, dass der Instructed Retriever die meisten, aber nicht alle Mängel beseitigt. Alle oben genannten Probleme rund um RAG können abgemildert werden, aber nicht alle auf einmal.
Anweisungen nötig
Wie bei früheren RAG-Setups geben Benutzer im IR-gestützten Modell eine Anfrage ein und können eine Antwort von einem KI-Chatbot erhalten. Unter der Oberfläche ist jedoch viel mehr los, als nur ein KI-Modell mit den Unternehmensdaten zu verknüpfen. Der Instructed Retriever fungiert als Werkzeug für einen Agenten oder einen statischen Workflow, der immer ausgelöst wird, wenn er abgefragt wird. Anstelle der Systemspezifikationen (Anweisungen, Beispiele für „gute“ Antworten, verfügbare Metadaten), die die Abfrage beeinflussen, wie bei der RAG, legen sie die Regeln sowohl für den Abruf (die Datensuche) als auch für die Generierung fest (nämlich die Antwort auf die Frage des Benutzers).
Obwohl Databricks hier immer noch von „Reasoning“, also Schlussfolgern, spricht, ist die Struktur des Instructed Retriever komplexer als nur aus „Reasoning-Schritten“. Ein KI-Modell ist stark eingeschränkt, weil es nicht nur überlegen muss, welche Daten es nachschlagen könnte, sondern auf architektonischer Ebene nur relevante Informationen nachschlagen kann. Das ist sowieso die Theorie, und jede Aufforderung, die für die Interpretation offen ist, kann eine unbefriedigende Antwort hinterlassen. IR reduziert nur dramatisch die Wahrscheinlichkeit, dass dies geschieht.
Um die Abfrage des Benutzers richtig zu interpretieren, muss der Instructed Retriever verschiedene Elemente der Systemspezifikationen berücksichtigen. Erstens teilt der IR die Abfrage auf (z. B. „Jahr“, „Division“ und „Umsatz“, wenn der Benutzer die Einnahmen für ein bestimmtes Jahr und eine bestimmte Abteilung anfordert), er ordnet die Daten auf der Grundlage der Relevanz ein und übersetzt die natürliche Sprache des Benutzers in die technisch korrekte Datenbankabfrage (beispielsweise „In diesem Jahr“ bis „HIER-Datum ZWISCHEN ‚2026-01-01‘ UND ‚2026-12-31‘).
Leistungsbelege durch Benchmarks
Der Instructed Retriever zeigt, wie unvollständig bisherige RAG-Lösungen tatsächlich waren. Die Übersetzung natürlicher Sprache in domänenspezifische Abfragen scheint auf architektonischer Ebene notwendig zu sein, nicht nur abhängig davon, dass KI-Modelle zu besseren Denkern werden. Benchmarks zeigen, dass die Verbesserung mit IR gegenüber der Basis-RAG signifikant ist. Der Instructed Retriever verbessert die Leistung im Vergleich zu herkömmlichen Implementierungen um 70 Prozent. Das belegt das Databricks-Team mit mehreren Benchmarks (siehe die Abbildungen).
Der Instructed Retriever übertrifft nicht immer ein traditionelles RAG-Setup. GPT-5.2 und Claude 4.5 Sonnet punkten zum Beispiel auf dem neuen StaRK-Instruct und StaRK-Amazon höher. Man sollte aber berücksichtigen, dass dies ein Vergleich mit zwei relativ riesigen LLMs mit mindestens Hunderten von Milliarden Parametern ist. Der Instructed Retriever enthält nur vier Milliarden davon. Dies ist riesiger Unterschied im Hinblick auf die Effizienz, denn die Modelle von OpenAI, Anthropic und Databricks IR erreichen letztendlich sehr ähnliche Benchmark-Bewertungen. IR erzielt rund 90 bis 95 Prozent von dem, was GPT-5.2 und Claude erreichen.
Mit welcher Art von Design und Architektur Databricks dies erreicht, erläutert das Mosaic Team im Rest seines Blogs, der sehr umfangreich und technisch ist. Außerdem werden mehrere Benchmarks vorgestellt und verglichen.
Fazit
Geschwindigkeit ist keine Entschuldigung für die Mängel der grundlegenden RAG-Implementierungen, und daraus ergibt sich, dass die anderen Anbieter auf dem KI-Markt schon bald dem Ansatz des Databricks IR folgen dürften. Auch wenn dessen Design komplexer ist, so kann er doch seinen Wert mit 70 Prozent besseren Ergebnissen beweisen.
KI kann also grundlegende Einschränkungen in einem bestimmten Maßstab überwinden, aber diese Bandbreite ist sehr groß. Triumphe für generative LLMs treten nur dann auf, wenn sie für mehrere Rechenzentrums-GPUs dimensioniert sind, und sie schlagen immer noch kaum ein Tool (den Instructed Retriever), das selbst auf einer regulären CPU mit seinem relativ kleinen Satz von vier Milliarden Parametern gut läuft. Eine grobe Faustregel besagt, dass man ein Gigabyte RAM pro Milliarde Parameter benötigt. Das bedeutet, dass die Arbeitsbelastung für das Rechnen so winzig ist, dass es sich genauso gut um einen Rundungsfehler bei den Rechenkosten handeln könnte.
Databricks hat eine Architektur mit wenigen Parametern für die Abarbeitung von Abfragen entwickelt, und dies spart viele Taktzyklen in der CPU. Der Rückgang der API-Kosten für KI und die erhöhte Genauigkeit dürften die Investition in eine IR-Anwendung schnell zurückzahlen.