Definition Was ist DeepSeek-R1?

Von Dipl.-Ing. (FH) Stefan Luber 4 min Lesedauer

DeepSeek-R1 ist ein großes Sprachmodell des chinesischen KI-Start-ups DeepSeek. Es steht unter Open-Source-Lizenz und kann hinsichtlich seiner Fähigkeiten mit den Sprachmodellen großer KI-Player mithalten. Aufsehen erregte das Modell aufgrund seines im Vergleich zu anderen Modellen geringen Ressourcenbedarfs.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

DeepSeek-R1 ist der Name eines am 20. Januar 2025 vorgestellten und veröffentlichten großen KI-Sprachmodells (Large Language Model – LLM). Entwickelt wurde es vom chinesischen Start-up DeepSeek. DeepSeek ist noch ein recht junges Unternehmen und wurde erst im Jahr 2023 gegründet. CEO des Unternehmens ist Liang Wenfeng. Er ist gleichzeitig einer der Mitgründer des chinesischen Hedgefonds High-Flyer, der DeepSeek finanziert. Der Firmensitz von DeepSeek befindet sich in Hangzhou, Zhejiang. Seit seiner Gründung hat DeepSeek bereits eine ganze Reihe an KI-Modellen wie DeepSeek-R1 oder DeepSeek-V3 und DeepSeek-V2 veröffentlicht.

DeepSeek-R1 ist ein frei verfügbares Open-Source-KI-Modell. Es steht unter MIT-Lizenz und kann für beliebige Zwecke eingesetzt werden. Für Aufsehen sorgte das Modell aufgrund seiner Leistungsfähigkeit und seines im Vergleich zu anderen Modellen geringen Bedarfs an Hardware- und Rechenressourcen. DeepSeek kann bezüglich seiner Fähigkeiten mit aktuellen Modellen großer KI-Player wie Claude 3.5 von Anthropic oder GPT-4o und OpenAI o1 von OpenAI mithalten. Die Entwicklung und das Training des Modells kosteten laut Angaben von DeepSeek aber nur einen Bruchteil dessen, was aktuelle KI-Modelle benötigten.

DeepSeek veröffentlichte mehrere Modellvarianten von R1 in verschiedenen Größen, die sich lokal auf eigenen Rechnern installieren und betreiben lassen, und bietet auch eine gehostete Chatbot-Version des Sprachmodells an. Auf den gehosteten Chatbot kann per Webbrowser, App oder Programmierschnittstelle (API) zugegriffen werden.

DeepSeek verzeichnete binnen kürzester Zeit nach Veröffentlichung große Nutzerzahlen. Die DeepSeek-App belegte schon Ende Januar 2025 eine Spitzenposition in den Appstore-Listen der am häufigsten heruntergeladenen Apps. Im Zuge der Veröffentlichung von DeepSeek-R1 mussten die Aktienkurse großer KI-Unternehmen und KI-Hardwarehersteller wie Nvidia große Verluste hinnehmen.

Architektur und Funktionsweise von DeepSeek-R1

Die Grundarchitektur von DeepSeek-R1 basiert auf der ursprünglich von Google entwickelten Transformer-Architektur. Sie ähnelt der Architektur vergleichbarer Modelle, ist aber hinsichtlich ihrer Effizienz optimiert. DeepSeek-R1 baut auf dem DeepSeek-V3-Basismodell auf und besitzt eine sogenannte Mixture-of-Experts-Architektur (MoE-Architektur). Die MoE-Architektur kombiniert verschiedene Expertensysteme.

Das DeepSeek-R1-Hauptmodell hat circa 685 Milliarden Parameter, von denen nur 40 Milliarden Parameter gleichzeitig aktiv sind. Erreicht wird das über die MoE-Architektur, bei der jeweils spezialisierte Teile des Modells für bestimmte Aufgabenstellungen verwendet werden. Durch die kleinere Anzahl an gleichzeitig aktiven Parametern und Neuronen ist der Ressourcenbedarf des Modells deutlich reduziert.

Eine weitere für DeepSeek-R1 eingesetzte Technik ist Multi-Head Latent Attention (MLA), mit deren Hilfe sich der Kontext komplexer Anfragen verstehen lässt, gleichzeitig sich die KI aber auf verschiedene Teile eines Textes fokussieren kann.

Die Modellvarianten der DeepSeek-R1-Modellserie

DeepSeek veröffentlichte im Januar 2025 eine ganze Serie von DeepSeek-R1-Modellen:

  • DeepSeek-R1
  • DeepSeek-R1-Zero
  • DeepSeek-R1-Distill-Qwen-32B
  • DeepSeek-R1-Distill-Llama-8B
  • DeepSeek-R1-Distill-Llama-70B
  • DeepSeek-R1-Distill-Qwen-14B
  • DeepSeek-R1-Distill-Qwen-7B
  • DeepSeek-R1-Distill-Qwen-1.5B

DeepSeek-R1-Zero besitzt die gleiche Modellgröße wie das Hauptmodell DeepSeek-R1, hat aber weniger Trainingsprozesse durchlaufen.

Die Distill-Versionen haben deutlich weniger Parameter als das Hauptmodell und wurden per Wissensdestillation auf Basis der Modelle Qwen von Alibaba und LLaMa von Meta erzeugt. Die kleinen, effizienten Modelle lassen sich auch auf günstiger, lokaler Hardware betreiben. In ihrer Leistungsfähigkeit sind die 32B- und 70B-Modelle vergleichbar mit OpenAI-o1-mini.

Nutzungsmöglichkeiten der DeepSeek-R1-Modelle

Die DeepSeek-R1-Modelle sind unter Open-Source-Lizenz frei verfügbar und lassen sich lokal auf eigenen Rechnern installieren und betreiben und für beliebige Zwecke einsetzen. Darüber hinaus bietet DeepSeek auch eine gehostete Chatbot-Version von R1 an, auf die per DeepSeek-App, Weboberfläche oder Programmierschnittstelle (API) zugegriffen werden kann. Der Webzugang fungiert als Chat-Plattform und ermöglicht eine umfassende Interaktion mit dem Sprachmodell. Die DeepSeek-App fungiert als KI-Assistent und steht für die Betriebssysteme Android und iOS zur Verfügung. Über die DeepSeek API ist aus eigenen Anwendungen heraus ein programmatischer Zugang zu dem gehosteten Sprachmodell möglich. Das Format der API ist dem der OpenAI-API sehr ähnlich.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Die Nutzung der Chat-Plattform per App oder Webseite ist kostenlos. Der programmatische Zugang per API wird über die Anzahl der Input- und Output-Token abgerechnet.

Leistungsfähigkeit von DeepSeek-R1

DeepSeek-R1 wurde primär mit englischen und chinesischen Texten trainiert. Dementsprechend funktioniert das Sprachmodell in diesen Sprachen am besten.

Obwohl für das Training und den Betrieb der R1-Modelle im Vergleich zu anderen Modellen nur ein Bruchteil der Hardware und Kosten notwendig sind (nach Angaben von DeepSeek wurden für das Training nur 2.048 Nvidia-GPUs vom Typ H800 benötigt), kann es hinsichtlich seiner Leistungsfähigkeit mit Modellen wie OpenAI o1 oder Chatbots wie ChatGPT mithalten. Vor allem im Bereich „logisches Denken“ besitzt das KI-Modell große Stärken.

Die Leistungsfähigkeit von DeepSeek-R1 wurde mit zahlreichen Benchmarks getestet und erreicht das Ergebnisniveau aktueller großer KI-Modelle oder übertrifft es sogar. Benchmarks, mit denen DeepSeek-R1 getestet wurde, sind zum Beispiel:

  • AIME 2024 und MATH-500 für Mathematikprobleme und mathematische Schlussfolgerungen
  • Codeforces für Programmieraufgaben
  • GPQA Diamond für Multiple-Choice-Fragen zum Allgemeinwissen
  • MMLU für Massive Multitask Language Understanding aus verschiedenen Wissensgebieten

Bedenken und Kritikpunkte an DeepSeek-R1

Trotz der Effizienz und Leistungsfähigkeit von DeepSeek-R1 gibt es zahlreiche Bedenken und Kritikpunkte, die hinsichtlich des KI-Modells und des chinesischen KI-Unternehmens geäußert werden. Dazu zählen zum Beispiel:

  • DeepSeek-R1 ist zwar Open Source, es ist aber weitgehend unbekannt, mit welchen Daten das Modell trainiert wurde und woher sie stammen.
  • Was chinakritische Themen angeht, unterliegen die Modelle der Zensur.
  • Es gibt massive Bedenken hinsichtlich des Datenschutzes (Daten der Nutzer werden auf Servern in China gespeichert, es gibt aber kein Datenschutzabkommen zwischen der EU und China).
  • Die Angaben zu der Art des Trainings und den dafür eingesetzten Hardwareressourcen beruhen auf den Aussagen von DeepSeek und werden teils bezweifelt.
  • DeepSeek-R1 scheint an verschiedenen Stellen Schwachstellen zu besitzen und vulnerabel zu sein.
  • Eine Datenbank mit sensiblen DeepSeek-Daten war zeitweise offen im Netz verfügbar.
  • Die freie Verfügbarkeit der leistungsfähigen KI-Modelle kann zu unkontrollierbarem Missbrauch durch Cyberkriminelle führen.
  • Es besteht das Risiko einer politischen Einflussnahme und Desinformation durch China mithilfe der Modelle und des Chatbots.

(ID:50313452)