LLMs & Knowledge-Graphen, Teil 4 DeepSeek R1 bietet große KI-Leistung zu kleinem Preis

Von Michael Matzer 5 min Lesedauer

Anbieter zum Thema

DeepSeek R1 ist ein vielseitiges KI-Modell, das mit Machine-Learning-Methoden verschiedene Zwecke erfüllen soll: generative KI mit Sprachverarbeitung, Computer Vision, Code- und Datenanalyse sowie KI-gestützte Sicherheit. Die Angabe des chinesischen Start-ups, dass das Modell mit geringen Rechenressourcen zu niedrigen Kosten arbeiten könne und kostenlos angeboten werde, hat Ende Januar zu einem massiven Vertrauensverlust an den Finanzbörsen geführt, weil Chipanbieter wie Nvidia, Broadcom und Infineon plötzlich überbewertet erschienen.

Die Frontseite der Webpräsenz von DeepSeek(Bild:  Deepseek.ai/Matzer)
Die Frontseite der Webpräsenz von DeepSeek
(Bild: Deepseek.ai/Matzer)

DeepSeek, das mit etablierten KI-Systemen wie ChatGPT von OpenAI und Claude von Anthropic konkurriert, ist kein gigantischer Monolith von einem großen Sprachmodell, sondern vielmehr eine Kombination aus Expertensystemen, was als „Mixture of Experts“ (MoE) bekannt ist. Das heißt, Mathe-Anfragen werden vom Mathe-Experten, Wissens-Anfragen vom Wissens-Experten beantwortet usw., anstelle eines Monolithen, der alles beantworten kann. Dieser Ansatz wird beispielsweise auch von Databricks‘ LLM DBRX verwendet, ist also durchaus branchenüblich.

Das Besondere: DeepSeek nutzt frei verfügbare Open-Source-Komponenten und kann so zu einem unschlagbaren Preis angeboten werden: Das Modell ist für reguläre Nutzer kostenfrei zugänglich und richtet sich an eine breite Anwendergruppe, um den offenen Zugang zu modernster KI-Technologie zu fördern.

Bildergalerie

Technologie

Am 20. Januar 2025 präsentierte DeepSeek das Large Language Model „DeepSeek-R1“, welches auf maschinellen Lerntechnologien basiert. „Wir stellen unsere Reasoning-Modelle der ersten Generation vor: DeepSeek-R1 Zero und DeepSeek-R1. DeepSeek-R1 Zero, das mit groß skaliertem Verstärkungslernen (RL) ohne überwachtes Feintuning (SFT) als vorläufige Stufe trainiert wurde, zeigt bemerkenswerte Reasoning-Fähigkeiten“, schreibt DeepSeek-CEO Liang Wenfeng in der Produktbeschreibung, die er online gestellt hat. Mit Reasoning ist Räsonieren gemeint, also vernunftbasiertes „Denken“. Allerdings sei Zero noch mit Problemen wie „mangelhafter Lesbarkeit“ und dem „Vermischen von Sprachen“ behaftet.

R1 soll diese Mängel beheben und die Reasoning-Leistung erhöhen. Es umfasse mehrstufiges Lernen und Kaltstart-Datenbereitstellung, bevor das Reinforcment Learning (RL) beginne. „R1 erreicht eine Reasoning-Leistung, die mit OpenAI-o1 vergleichbar ist“, so Wenfeng. „Um die Forschungsgemeinschaft zu unterstützen, stellen wir R1-Zero und R1 Open Source, ebenso wie sechs Modelle, die aus R1, (Alibaba) Qwen und (Meta) Llama destilliert wurden.“

Transformer-Architektur

DeepSeek R1 verwendet eine Architektur, die konzeptionell mit den gängigen Transformer-Modellen vergleichbar ist. Diese Machine-Learning-Modelle wurden ursprünglich von Google entwickelt.

Ein Transformer ist eine von Google entwickelte Deep-Learning-Architektur, die einen Aufmerksamkeitsmechanismus integriert, der erstmals im Artikel „Attention Is All You Need“ aus dem Jahr 2017 vorgestellt wurde. Dabei wird Text in numerische Darstellungen, die als Token bezeichnet werden, und anschließend durch Worteinbettung in Vektoren umgewandelt.

Das kann beispielsweise dazu benutzt werden, Text von einer Sprache in eine andere zu übersetzen. Dazu wird ein Transformer mittels Machine Learning anhand einer (großen) Menge von Beispieltexten trainiert, bevor das trainierte Modell dann zur Übersetzung verwendet werden kann. Weitere Beispielanwendungen von Transformern sind die Textgenerierung oder die Zusammenfassung längerer Texte, die als gängige GenAI-Funktionen bereits im Einsatz sind.

Transformer sind hierbei nach Expertenansicht effizienter als Long-short-term-memory-Architekturen (LSTM) und bilden die Grundarchitektur des generativen vortrainierten Transformers (GPT) sowie anderer vortrainierter Machine-Learning-Modelle.

Lizenzen

DeepSeek-R1 wurde unter der MIT-Lizenz veröffentlicht. Die MIT-Lizenz, auch X-Lizenz oder X11-Lizenz genannt, ist eine vom Massachusetts Institute of Technology (MIT) stammende freizügige Open-Source-Lizenz. Sie erlaubt die Wiederverwendung der unter ihr stehenden Software sowohl für Software, deren Quelltext frei verwendbar ist (Open Source), als auch für Software, deren Quelltext nicht frei verwendbar ist (Closed Source).

Diese Lizenz fördert uneingeschränkten Open Access zu wissenschaftlicher Literatur und anderen Materialien im Internet. Ein wissenschaftliches Dokument unter Open-Access-Bedingungen zu publizieren, gibt jedem die Erlaubnis, dieses Dokument zu lesen, herunterzuladen, zu speichern, es zu verlinken, zu drucken und damit kostenlos zu nutzen. Open Access erlaubt sowohl kommerzielle als auch akademische Nutzungen ohne Einschränkungen. Damit setzt DeepSeek bewusst einen Kontrast zu zahlreichen proprietären KI-Systemen, die durch restriktive Lizenzen gekennzeichnet sind.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

DeepSeek habe laut Eigendokumentation seine KI-Modelle so optimiert, dass der Energieverbrauch im Vergleich zu traditionellen, energieintensiveren KI-Modellen um bis zu 70 Prozent gesenkt werden kann, was durch effizientere Algorithmen und „spezialisierte Hardware“ ermöglicht werde. Was unter der „spezialisierten Hardware“ zu verstehen ist, ist unklar, aber es dürfte sich nach Expertenmeinung um veraltete Generationen von GPUs handeln, denn die USA haben schon 2022 ein entsprechendes Embargo gegen China verhängt.

Einschränkungen

Hinter dem Start-up DeepSeek steht als alleiniger Finanzier der chinesische Hedgefonds HighFlyer, den drei Ingenieure 2015 gegründet haben. Liang Wenfeng gründete DeepSeek im April 2023. Er hat beste Verbindungen zur Parteispitze, und es ist kein Zufall, dass das Release von DeepSeek R-1 auf seinen Besuch bei Staatspräsident Xi Jinping fiel.

Die Antworten, die DeepSeek R-1 liefert, sind mit Vorsicht zu genießen. Es wurde Analysten und Testern beobachtet, dass die offizielle API-Version von R1 bei sensiblen Themen, insbesondere solchen, die in China als politisch heikel gelten, Zensurmechanismen anwendet. So verweigert das Modell etwa Antworten auf Fragen zum Massaker auf dem Tian’anmen-Platz 1989, zur Unterdrückung der Uiguren oder Menschenrechten in China. Auch Fragen nach Xi Jinping werden abgewiesen. Mitunter generiert die KI eine Antwort, ersetzt diese jedoch kurz darauf durch eine Mitteilung wie: „Sorry, das liegt außerhalb meines aktuellen Aufgabenbereichs. Lass uns über etwas anderes sprechen.“

Die internen Zensurmechanismen und Einschränkungen lassen sich in der quelloffenen und modifizierbaren Open-Source-Version des R1-Modells nur aufwendig entfernen. Sobald von chinesischen Internet-Regulierungsbehörden definierte „sozialistische Grundwerte“ tangiert oder die Taiwan-Frage thematisiert wird, werden Diskussionen beendet.

Der Gründer von DeepSeek, Liang Wenfeng, hat enge Verbindungen zur Kommunistischen Partei. Daher befürchten Kritiker, dass das KI-System auch zur ausländischen Einflussnahme, Desinformation, Überwachung und zur Entwicklung von Cyberwaffen (wie neuen Hacking-Tools) für den chinesischen Geheimdienst verwendet werden könnte. Zudem warnen Datenschützer (ähnlich wie bei TikTok), dass die App persönliche Daten nach China übermitteln könnte.

Analystenkommentar

Der Zugang zur Neuregistrierung ist bei DeepSeek derzeit suspendiert. DeepSeek macht „massive Cyberattacken“ dafür verantwortlich, dass die Server vom Netz genommen wurden. Der Analyst Aras Nazarovas von Cybernews.com nimmt an, dass „groß angelegte Cyberattacken üblicherweise Taktiken wie etwa Distributed Denial of Service (DDoS)-Angriffe umfassen.“ Dabei werden die Server des Ziels mit einer großen Anzahl von mehr oder weniger unsinnigen Anfragen überlastet, bis sie nicht mehr antworten können.

„Die Schwierigkeit eines Start-ups im KI-Bereich besteht darin, dass die KI bei Antworten auf die Prompts auf große Bestände an Daten zugreifen und diese mit Rechenkapazitäten verarbeiten müssen“, so der Analyst. Es gebe eine Achillesferse für KI-Start-ups, die quelloffene Software-Komponenten verwenden. „Weil DeepSeek auf Open-Source-Modelle setzt und rasch skalieren musste, könnten Angreifer Software-Schwachstellen und Zero-day Exploits ausgenutzt haben“, so Nazarovas. „Die Ziele könnten schwache Stelle in DeepSeeks APIs oder Server-Konfiguration gewesen sein.“

Denkbar sei auch, dass weniger sichere Drittanbieter-Infrastruktur eine Rolle gespielt dabei haben, das Unternehmen ungeschützt zu lassen. „Start-ups, die sich leichter verfügbare oder alternative Rechenressourcen stützen, könnten sich unwissentlich größeren Risiken aussetzen, während sie ihren Betrieb skalieren.“

Was bedeutet dies für Bestandskunden? Sie müssen sich Sorgen machen, dass der Schutz ihrer vertraulichen Daten kompromittiert worden ist“, so Nazarovas. „Generative KI-Modelle wie DeepSeek verarbeiten große Mengen von Nutzereingaben, so etwa private Fragen, Unterhaltungen und Suchanfragen. Hat es ein Datenleck gegeben, könnten diese Informationen offengelegt und potenziell – zusammen mit Interaktionsmustern – in künftigen Angriffen ausgenutzt werden.“

(ID:50302840)