Large Language Models (LLMs) sind aus Forschung, Entwicklung und Unternehmens-IT nicht mehr wegzudenken. Die Vielfalt reicht von kompakten, spezialisierten Open-Source-Modellen bis hin zu multimodalen, milliardenschweren KI-Systemen. Die Auswahl sollte von Benchmark-Scores oder Modelgrößen abhängen, aber auch von einem strukturierten Abgleich zwischen Zielen, Rahmenbedingungen und technischen Eigenschaften.
Die Autorin: Elena Simon ist General Manager DACH bei Gcore
(Bild: Gcore)
Der Anwendungszweck gibt die technischen Anforderungen vor. Ein Marketingteam, das multilinguale Social-Media-Posts erstellt, benötigt beispielsweise ein Modell mit großem Vokabular, feiner Steuerbarkeit über Systemprompts und einem hohen Temperaturwert für kreative Variationen – Beispiele: GPT-4o, Claude 3.5.
Für eine Rechtsabteilung sind niedrige Temperaturwerte und Top-p-Sampling sinnvoll, um konsistente, faktenorientierte Antworten zu erhalten. Hier sind juristische Fine-Tunes von LLaMA 3 oder Open-Source-Modelle wie Falcon-Instruct mit spezialisierter Datenbasis im Vorteil.
Im Kundenservice sind Antwortlatenzen unter 500 ms und ein Kontextfenster von mindestens achttausend Tokens wichtig, um mehrere Dialogschritte ohne Kontextverlust zu führen – dafür eignen sich Modelle wie Mistral 7B Instruct oder GPT-4o Mini.
Architektur und Modellgröße realistisch bewerten
Die Modellarchitektur beeinflusst Effizienz und Funktionsumfang: Transformer-Decoder-Modelle (z. B. GPT oder LLaMA) sind für die Textgenerierung optimiert, während Encoder-Decoder-Modelle (z. B. T5) Stärken im semantischen Verständnis zeigen.
Große Modelle (≥ 70 Billionen Parameter) bieten längere Kontextfenster (32k+ Tokens), höhere Generalisierungsfähigkeit und bessere Few-Shot-Performance. Sie eignen sich für komplexe Wissensabfragen oder multimodale Aufgaben, etwa GPT-4 Turbo oder Mixtral 8x22B.
Mittlere Modelle (7 bis 13 B Parameter) liefern ein gutes Verhältnis von Genauigkeit zu Rechenaufwand. Mit quantisierten Versionen (INT8 oder INT4) lassen sie sich auf handelsüblicher GPU-Hardware betreiben.
Kleine Modelle (< 7 B Parameter) sind für Edge- oder Mobile-Einsatz interessant. Ein optimiertes Phi-3-Mini-Modell kann zum Beispiel lokal auf einem Raspberry Pi 5 mit 8 GB RAM laufen.
Datenbasis: Breite oder Tiefe?
Die Leistungsfähigkeit eines LLMs hängt stark von der Qualität, Quantität und Diversität seiner Trainingsdaten ab. Breite Trainingsdaten, die aus Common Crawl, Wikipedia und öffentlichen Code-Repositories stammen, sichern ein weites Sprach- und Wissensspektrum und sind ideal für kreative oder generische Aufgaben. Sie ermöglichen es dem Modell, flexibel auf verschiedene Themen und Formulierungsstile zu reagieren.
In spezialisierten Fachgebieten hingegen bieten domänenspezifische Daten – etwa medizinische Studien, juristische Fachtexte oder branchenspezifische Normen – einen entscheidenden Vorteil, da sie eine höhere Genauigkeit und fachliche Tiefe ermöglichen. Modelle für Finanztexte oder Med-PaLM 2 für medizinische Anwendungen sind Beispiele für gezielt trainierte Systeme, die in ihrem Spezialgebiet deutlich präzisere Ergebnisse liefern als generalistische Modelle. Teams setzen Verfahren wie Retrieval-Augmented Generation (RAG) ein, um die Aktualität zu wahren. Dabei binden sie externe, aktuelle Wissensquellen in die Antwortgenerierung ein, ohne dass ein vollständiges Re-Training des Modells notwendig ist – eine Methode, die besonders in schnelllebigen Bereichen relevant ist.
Diese Werte gilt es, im Kontext echter Anwendungsfälle zu interpretieren. Ein Versicherungsunternehmen sollte beispielsweise über die reinen MMLU-Ergebnisse hinaus schauen und mit eigenen Policen-Texten und realen Kundenanfragen testen. Dabei helfen Metriken wie Exact Match (EM), F1-Score, Latenz in Millisekunden und Token-Kosten pro Anfrage.
Sicherheit, Compliance und Governance
Technische Sicherheitsmaßnahmen und regulatorische Konformität sind im Unternehmensumfeld unverzichtbar. Unternehmen in sensiblen Branchen wie dem Gesundheitswesen, der öffentlichen Verwaltung oder der Finanzwirtschaft profitieren häufig von On-premises-Deployments, bei denen das Modell auf eigener Hardware betrieben wird und sämtliche Daten im eigenen Rechenzentrum verbleiben. Modelle wie LLaMA 3 oder Falcon lassen sich so vollständig unter interner Kontrolle halten, erfordern jedoch leistungsstarke GPU-Server wie Systeme mit NVIDIA A100 oder H100.
Neben der technischen Infrastruktur spielen organisatorische Kontrollmechanismen eine Rolle: Zugriffsbeschränkungen, detaillierte Audit-Logs und nachvollziehbare Protokollierungen sind zentrale Voraussetzungen für den sicheren Betrieb. Ebenso wichtig ist die Implementierung von Prompt-Filtering und Output-Moderation, um unerwünschte oder sensible Inhalte zu verhindern.
In der EU regelt die DSGVO den Umgang mit personenbezogenen Daten verbindlich. Unternehmen dürfen diese Daten nur verschlüsselt übertragen und nur mit rechtlicher Grundlage verarbeiten. Für den Einsatz in Deutschland ist daher sicherzustellen, dass Rechenzentren, in denen Cloud-Modelle laufen, innerhalb der EU stehen und entsprechende Zertifizierungen (z. B. ISO 27001) vorliegen.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Die Kostenstruktur eines LLM-Einsatzes setzt sich aus mehreren Faktoren zusammen:
direkten Lizenz- oder API-Kosten,
Inferenzkosten pro Anfrage,
Speicherbedarf,
Bandbreitenverbrauch,
und Aufwendungen für Betrieb und Wartung.
API-Modelle wie GPT-4 Turbo kosten auf dem deutschen Markt typischerweise etwa 0,008 bis 0,02 Euro pro 1.000 Eingabetokens und 0,015 bis 0,04 Euro pro 1.000 Ausgabetokens. Hohe Abfragevolumina lassen die Gesamtkosten schnell steigen. Wer lokal deployt, investiert einmalig in Hardware. Bei intensiver Nutzung rechnet sich das oft – vor allem, weil keine teuren Cloud-Gebühren anfallen. Proprietäre Systeme lassen sich jedoch nur schwer skalieren.
Zusätzliche Einsparpotenziale entstehen durch Optimierungen wie Quantisierung, Pruning oder Knowledge Distillation, die die Modellgröße und damit den Ressourcenverbrauch reduzieren, ohne die Qualität signifikant zu beeinträchtigen. Für den produktiven Einsatz lohnt es sich außerdem, Caching-Mechanismen zu implementieren, um wiederkehrende Antworten – etwa bei häufig gestellten Kundenfragen – aus dem Speicher abzurufen, anstatt sie jedes Mal neu generieren zu lassen. Diese Maßnahmen senken die Betriebskosten, ohne spürbare Einbußen bei der Nutzererfahrung.
Der Anwendungsfall entscheidet
Die technisch fundierte Auswahl eines LLMs erfordert mehr als einen Blick auf Kennzahlen. Sie basiert auf einer präzisen Definition der Einsatzanforderungen, einer realistischen Bewertung von Architektur und Ressourcenbedarf, einer transparenten Analyse der Datenbasis sowie praxisnahen Tests unter den Zielbedingungen.
Kreative Inhalte verlangen breite Sprachmodelle mit hoher Variabilität, Fachanwendungen profitieren von spezialisierten Fine-Tunes mit geringen Fehlerraten, ressourcensensible Szenarien von optimierten, kleinen Modellen. Wer technische Parameter, Compliance-Vorgaben und Wirtschaftlichkeit konsequent abgleicht, wählt das Modell, das für die Aufgabe wirklich gebaut ist.