NeMo Guardrails Nvidia bringt Richtlinien-Toolkit für generative KI
Anbieter zum Thema
Nvidia hat mit NeMo Guardrails ein Open Source Toolkit vorgestellt, mit dem jedes Large Language Model (LLM) – wie etwa ChatGPT oder Nvidia NeMo – mit einer zusätzlichen „Schutzschicht“ versehen werden kann. Diese Schutzschicht kann jeder Nutzer dazu verwenden, die Interaktion mit einem LLM und die Ergebnisse eines LLMs mithilfe von Regeln zu programmieren, die in Python geschrieben sind.

Nvidia bietet mit NeMo Framework ein LLM an, das eine Vielfalt von Aufgaben erfüllen kann und ChatGPT von OpenAI in nichts nachsteht. Im Bereich der Automatic Speech Regocnition (ASR), der Text-in-Sprache-Umwandlung und der maschinellen Übersetzung umfasst dieses LLM zahlreiche Funktionen. NeMo LLM ist aber auch ein Dienst, mit dem große Sprachmodelle, die auf mehreren Frameworks trainiert wurden, schnell angepasst und verwendet werden können.
Entwickler können KI-Anwendungen für Unternehmen mit NeMo LLM in privaten und öffentlichen Clouds bereitstellen. Außerdem können sie Megatron 530B, eines der größten Sprachmodelle, über den LLM-Dienst NeMo erleben.
NeMo Guardrails erlaubt einem Entwickler die programmierte Regelung von drei Funktionsbereichen in der Nutzung eines LLM: interne Themen, Halluzinationen und themenbezogene Gefahren wie etwa Hate Speech, schließlich Security hinsichtlich Identitäts- und Datenmissbrauch.
KI-Halluzinationen
Als Nvidia Vice President Jonathan Cohen seinen neuen Service NeMo Guardrails vorstellte, bezog er sich mehrfach auf KI-Halluzinationen. Diese sollen von Guardrails aufgedeckt, vermieden und verhindert werden, denn sie können eine fatale, manipulative Wirkung entfalten, vom unnötigen Energieverbrauch ganz abgesehen.
Seit etwa 2018 zeigt die Verwendung von LLMs – und ganz besonders von ChatGPT, dass die Modelle unsinnige Antworten liefern, sich ihre eigenen Wahrheiten und Fakten zusammenphantasieren und sogar darauf insistieren, dass sie richtig liegen. Dieses Phänomen der generativen KI wird „Halluzinationen“ genannt.
Sie sind indes kein psychologisches Phänomen, sondern beruhen auf technischen Mängeln. Es kann erstens datenbasierte Halluzinationen geben: Diese sind auf Widersprüche und Abweichungen in den Datenquellen zurückzuführen, besonders wenn die Menge von Trainingsdaten sehr umfangreich ist.
Im zweiten Fall können die Trainingsdaten noch so wenig Abweichungen aufweichen, es kommt dennoch zu Halluzinationen. Das Problem liegt in der Trainingsmethode. Das kann an einer fehlerhaften Dekodierung im sogenannten Transformer, einem ML-Modell, liegen. Oder an einem Bias, einer unzulässigen Ausrichtung, aufgrund der historischen Reihe, die das Modell zuvor erzeugt hat. Oder schließlich an einem Bias, der auf der Art und Weise beruht, wie das Modell sein „Wissen“ in seinen Parametern enkodiert.
Das deckt aber noch nicht Fälle ab, in denen beispielsweise ChatGPT einen ganzen Artikel der „New York Times“ erfunden und diesen zusammengefasst hat. Auch Jahresbilanzen wurden schon mit erfundenen Zahlen gespickt. Halluzinationen können also sehr weit reichend auftreten. Mit dem Guardrails Toolkit soll damit Schluss sein.
So funktioniert Guardrails
Der Nutzer hat ein beliebiges LLM und eine Anwendung, die das Modell zwecks Konversation usw. nutzt. Damit diese Interaktion sowohl vertrauenswürdig als auch gefahrenfrei, kann der Nutzer mithilfe des quelloffenen Guardrails Tookits und damit verbundener Tools Richtlinien und Regeln in Python programmieren. Hinzukommt die Richtliniensprache Colang von Nvidia, die bereits in NeMo verwendet wird. Zusammen stellen sie zusammensetzbare, lizenzfreie Blaupausen, APIs und Patterns zur Verfügung, die der Nutzer je nach Bedarf in seine Anwendung integriert, etwa als Chatbot. Alle sind von GitHub herunterzuladen.
Das Partner-Tool, das Jonathan Cohen als erstes vorstellte, ist LangChain. Dieses enthält selbst wieder ein LLM und trägt so zu NeMo bei. Ein weiteres Partnerwerkzeug kommt von Zapier. In einem Blogbeitrag erläutern zwei Nvidia-Mitarbeiter die genau Funktionsweise von Guardrails, seiner Programmiersprache Python bzw. Colang und seinen Komponenten wie etwa dem Dialogmanager und dem Richtlinien-Editor, damit die Workflows im ChatBot genau den Regeln entsprechen.
Offene Fragen
Auf Nachfrage versicherte Cohen, dass Guardrails auf alle Herausforderungen hin getestet worden sei. Dazu gehörten schädliche Chatbots und LLMs sowie andere Schadsoftware. Da Guardrails sowohl Missbrauch, für den es trainiert worden ist, verhindern als auch Nutzer sperren könne, stellte sich die Frage, wie weit diese Befugnisse reichen und ob sie obligatorisch werden sollten. Dazu wollte sich Cohen nicht äußern, aber er konnte mit Bestimmtheit verneinen, dass es für solche „Leitplanken“ der Chatbot-Nutzung noch keinen Industriestandard gebe.
(ID:49425340)