Kommentar von Ole Dawidzinski, Tisson & Company KI-Modelle und ihre Potenziale – Open Source versus Closed Source

Von Ole Dawidzinski Lesedauer: 6 min

Anbieter zum Thema

Wo bis vor kurzem noch außer Frage stand, dass Closed-Source-Anbieter wie OpenAI oder Google mit ihren Sprachmodellen ChatGPT, GPT-3/4 oder Bard eine Monopolstellung einnehmen, haben sich in kürzester Zeit Open-Source-Alternativen entwickelt. Der folgende Beitrag soll einen Einblick geben, was Closed- und Open-Source-Modelle voneinander unterscheidet, ob letztere eine Alternative sein können und wie die zukünftige Entwicklung aussehen kann.

Der Autor: Ole Dawidzinski ist Lead Data Scientist und Partner bei Tisson & Company
Der Autor: Ole Dawidzinski ist Lead Data Scientist und Partner bei Tisson & Company
(Bild: Sebastian Berndt)

Für die Einordnung der aktuellen Closed-Source-Modelle ist es wichtig zu wissen, dass es tatsächlich eine Vielzahl unterschiedlicher Large Language Models (LLM) gibt und auch ganz unterschiedliche Architekturen, die jeweils unterschiedliche Vor- und Nachteile haben. Ein LLM ist eine Art von Algorithmus der KI, der Deep-Learning-Techniken und massiv große Datensätze verwendet, um neue Inhalte zu verstehen, zusammenzufassen, zu generieren und vorherzusagen.

So basieren tatsächlich die wenigsten der aktuellen LLMs noch auf der 2017 von Google veröffentlichten Transformer-Architektur, die ursprünglich aus einem Encoder (analysiert und verarbeitet eine Eingabesequenz) und einem Decoder besteht. Die meisten aktuellen Modelle basieren alleine auf dem Decoder, wie die gesamte GPT-Serie von OpenAI. Man spricht von sogenannten „Decoder-Only“-Modellen. Diese zeichnen sich dadurch aus, dass sie eine Eingabesequenz erwarten und diese kontinuierlich fortschreiben, indem auf Basis der vorangegangenen Wörter versucht wird, das jeweils wahrscheinlichste Folgewort zu bestimmten. Dies macht solche Modelle „autoregressiv“. Wenn nun in der Eingabesequenz eine Aufgabenstellung angegeben ist, dann versucht das Modell diese zu beantworten, in dem es die wahrscheinlichsten Folgewörter für die Sequenz und damit die Antwort auf die Aufgabenstellung, vorhersagt.

Damit kann das Modell theoretisch beliebige Aufgabenstellungen lösen, ohne diese vorher beigebracht bekommen zu haben. Man spricht von den sogenannten Zero- und Few-Shot-Fähigkeiten eines Modells, wenn dieses eine Aufgabenstellung ohne Beispiele (Zero) oder mit wenigen Beispielen (Few-Shot) in der Eingabesequenz (sogenanntes Prompting) lösen kann. Dazu nutzen solche Modelle „interne“ Wahrscheinlichkeitsverteilungen. Diese lernen die LLMs durch ein Training auf großen Textmengen im Rahmen eines sogenannten „Pre-Trainings“. Dabei spielt sowohl die Textmenge und -Qualität als auch die Anzahl der Gewichte eines LLMs (dies sind nummerische Werte, die innerhalb eines LLMs in Form von Vektoren und Matrizen organisiert sind und beim Training „optimiert“ werden) eine Rolle, da sie bestimmen, wie gut ein LLM die Verteilungen abbildet bzw. „lernt“.

Dieses Pre-Training ist es, was Language Models „Large“ macht und gleichzeitig ein Grund ist für die Dominanz von Closed-Source und deren Anbietern wie OpenAI und Google, denn das Training und der Betrieb solcher Modelle ist extrem rechen- und damit kostenintensiv.

Die aktuelle Stärke von Closed Source und deren Anbietern

Tatsächlich gab es bereits vor der Veröffentlichung von GPT-3 und ChatGPT eine Vielzahl an LLMs, die Open Source waren und sind. So sind Modelle wie BERT (eines der ersten LLMs - Google), T5 (Google), GPT-2 (OpenAI), oder GPT-J und GPT-Neo (EleutherAI) frei verfügbar und auch kommerziell nutzbar. Jedoch mussten solche Modelle für viele Aufgaben erst angepasst werden, damit diese verwendet werden konnten. Man spricht vom sogenannten „Fine-Tuning“, wenn einem Modell eine Aufgabe (Downstream-Task) nachträglich beigebracht werden muss.

Bedingt durch ihre Größe und spezielle Trainingsmethoden (z. B. das Instruction Fine-Tuning mit menschlichem Feedback), sind aktuelle Closed-Source-Modelle wie jene hinter ChatGPT beeindruckende Generalisten. Sie wurden bereits so angepasst, dass diese von den unterschiedlichsten Nutzern, für die unterschiedlichsten Aufgaben – auch ohne Aufgabenspezifisches Fine-Tuning – genutzt werden können.

Derzeit sind nur Closed-Source-Anbieter und deren Modelle derart vielseitig und unkompliziert einsetzbar. Das betrifft auch den Umgang mit Halluzinationen (wenn ein LLM falsche Antworten oder Informationen generiert) und dem Erzeugen von unangemessenen und gefährlichen Inhalten. Das ist (aktuell) ein weiterer Vorteil von Closed Source gegenüber Open Source. Der Betrieb und Unterhalt vergleichbarer Modelle ist komplex und extrem ressourcenintensiv. OpenAI, Microsoft und Google stellen als Anbieter APIs (Schnittstellen) bereit, über die unkompliziert auf die Modelle zugegriffen werden kann. Man muss sich keine Gedanken um den Betrieb, die Wartung oder die Skalierung machen. KI wird zu einem Service, der einfach gebucht werden kann.

Open Source als Alternative?

Die aktuelle Stärke von Closed-Source-Modellen besteht damit in ihrer Fähigkeit zu generalisieren und der Art, wie mit den Modellen interagiert werden kann (Prompting). Sie sind aktuell tatsächlich das, was einer AGI (Allgemeinen Künstlichen Intelligenz) am nächsten kommt (auch wenn diese noch weit in der Zukunft liegt).

Eines der Hauptprobleme in der Open-Source-Entwicklung im Bereich der LLMs ist, dass die Kosten für die Entwicklung und den Betrieb vergleichbarerer Modelle, wie jenen hinter ChatGPT, eben sehr kostenintensiv sind. Als Schlüsselfaktoren für den Erfolg gelten die Größe eines Modells sowie das Training und die Anpassung in Form von Fine-Tuning. Je größer dabei das Basis-Modell, umso teurer und aufwendiger das Training und die Anpassungen.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung

Die Frage ist jedoch, ob es überhaupt für jeden Anwendungsfall ein derart generalistisches und großes LLM wie GPT-3 oder 4 sein muss. Tatsächlich hat das Fine-Tuning einen entscheidenden Einfluss. Bei den GPT-3-Modellen von OpenAI handelt es sich genau genommen um eine Modellfamilie mit Größen von 1,3 - 175 Milliarden Parametern. Für ChatGPT wurden diese auf Basis eines Anweisungsdatensatzes sowie einem speziellen Training mit menschlichem Feedback darauf angepasst, besser auf Anweisungen zu antworten und diese zu verstehen. Die auf diese Weise erzeugte Modellfamilie „InstructGPT“ war in der Lage, deutlich besser auf Anweisungen zu Antworten und diese umzusetzen. Es zeigte sich dabei, dass selbst das kleinste InstructGPT-Modell mit 1,3 Milliarden Parametern in dieser Disziplin bessere Antworten generierte als das größte GPT-3-Modell, das nicht angepasst wurde. Die Größe spielt somit nur bedingt eine Rolle und deutlich kleinere, aber angepasste Modelle können durchaus bessere Ergebnisse erzielen.

Dieses Wissen spielt der aktuellen Open Source Community, die hoch innovativ ist und sich schnell entwickelt, in die Hände. In kürzester Zeit wurden frei verfügbare LLMs genommen und mit ähnlichen Verfahren wie InstructGPT „angepasst“, wodurch Open-Source-Modelle, wie Alpaca oder Vicuna (beide nicht kommerziell nutzbar) oder Dolly-2 von Databricks mit ähnlichen Fähigkeiten wie ChatGPT möglich wurden oder in einzelnen Aufgabenstellungen sogar übertrafen. Die Entwicklung und das Aufkommen von speziellen Methoden und Techniken für das Fine-Tuning und Training wie Low-Rank-Adaption of LLM (LoRA / QLoRA) vereinfachen die Entwicklung und reduzieren die Kosten von angepassten LLMs nochmal deutlich und ermöglichen es, diese auch auf potenteren Heimcomputern anzupassen und zu nutzen. Wenn es um spezielle Aufgabenstellungen geht, sind aktuelle (und auch ältere) Open-Source-Modelle definitiv eine Alternative. Es kommt also auf die Aufgaben- und Problemstellung an.

Die Zukunft von Open Source

Die Entwicklung von generativer KI und LLMs ist rasend schnell und schwer vorherzusehen. Open Source war jedoch bereits von Anfang an ein Innovationstreiber und der Grundstein für unsere aktuellen Entwicklungen. Nicht nur mit Blick auf die Kosten für die Entwicklung und den Betrieb, sondern auch was Transparenz, die Nutzung sensibler Daten und die Vielzahl spezieller Anwendungsfälle anbelangt, ist zu erwarten, dass viele kleine, aber spezialisierte LLMs zukünftig mehr Vorteile bieten werden.

Modelle wie Metas LLaMA (Open Source, aber keine kommerzielle Nutzung) oder Dolly-2 von Databricks haben gezeigt, dass auch mit kleineren Modellen vergleichbare Leistungen für einzelne Aufgaben möglich sind und diese für unterschiedliche Anwendungsfälle angepasst werden können. So existieren durch Techniken wie Attention with Linear Biases (ALiBi) bereits jetzt Open-Source-Modelle (wie MPT von MosaicML), die bis zu 65.000 Tokens in einer Eingabe verarbeiten können (zum Vergleich: GPT-4 von OpenAI kann max. 32.000 und ChatGPT sogar nur 4000).

Große Bedeutung für die Nutzung und Zukunft von Open-Source-Modellen wird deshalb höchstwahrscheinlich die Entwicklung von kleineren Modellen haben, die leichter und kostengünstiger angepasst und betrieben werden können. Die aktuellen Entwicklungen scheinen dies zu bestätigen. Es wird davon ausgegangen, dass die aktuellen LLMs im Vergleich zu ihrer Größe stark unterperformen und damit auch kleinere, aber optimierte Modelle vergleichbare oder bessere Leistungen liefern können. So ist es durchaus vorstellbar, dass zukünftig, statt weniger großer „Monolithen“ viele kleine LLMs auf Basis von Open Source, mit jeweils eigenen Spezialisierungen, gemeinsam ein Ensemble-Modell bilden oder als solches genutzt werden können.

Artikelfiles und Artikellinks

(ID:49595274)