DeepSeek-R1 ist ein großes Sprachmodell des chinesischen KI-Start-ups DeepSeek. Es steht unter Open-Source-Lizenz und kann hinsichtlich seiner Fähigkeiten mit den Sprachmodellen großer KI-Player mithalten. Aufsehen erregte das Modell aufgrund seines im Vergleich zu anderen Modellen geringen Ressourcenbedarfs.
DeepSeek-R1 ist der Name eines am 20. Januar 2025 vorgestellten und veröffentlichten großen KI-Sprachmodells (Large Language Model – LLM). Entwickelt wurde es vom chinesischen Start-up DeepSeek. DeepSeek ist noch ein recht junges Unternehmen und wurde erst im Jahr 2023 gegründet. CEO des Unternehmens ist Liang Wenfeng. Er ist gleichzeitig einer der Mitgründer des chinesischen Hedgefonds High-Flyer, der DeepSeek finanziert. Der Firmensitz von DeepSeek befindet sich in Hangzhou, Zhejiang. Seit seiner Gründung hat DeepSeek bereits eine ganze Reihe an KI-Modellen wie DeepSeek-R1 oder DeepSeek-V3 und DeepSeek-V2 veröffentlicht.
DeepSeek-R1 ist ein frei verfügbares Open-Source-KI-Modell. Es steht unter MIT-Lizenz und kann für beliebige Zwecke eingesetzt werden. Für Aufsehen sorgte das Modell aufgrund seiner Leistungsfähigkeit und seines im Vergleich zu anderen Modellen geringen Bedarfs an Hardware- und Rechenressourcen. DeepSeek kann bezüglich seiner Fähigkeiten mit aktuellen Modellen großer KI-Player wie Claude 3.5 von Anthropic oder GPT-4o und OpenAI o1 von OpenAI mithalten. Die Entwicklung und das Training des Modells kosteten laut Angaben von DeepSeek aber nur einen Bruchteil dessen, was aktuelle KI-Modelle benötigten.
DeepSeek veröffentlichte mehrere Modellvarianten von R1 in verschiedenen Größen, die sich lokal auf eigenen Rechnern installieren und betreiben lassen, und bietet auch eine gehostete Chatbot-Version des Sprachmodells an. Auf den gehosteten Chatbot kann per Webbrowser, App oder Programmierschnittstelle (API) zugegriffen werden.
DeepSeek verzeichnete binnen kürzester Zeit nach Veröffentlichung große Nutzerzahlen. Die DeepSeek-App belegte schon Ende Januar 2025 eine Spitzenposition in den Appstore-Listen der am häufigsten heruntergeladenen Apps. Im Zuge der Veröffentlichung von DeepSeek-R1 mussten die Aktienkurse großer KI-Unternehmen und KI-Hardwarehersteller wie Nvidia große Verluste hinnehmen.
Architektur und Funktionsweise von DeepSeek-R1
Die Grundarchitektur von DeepSeek-R1 basiert auf der ursprünglich von Google entwickelten Transformer-Architektur. Sie ähnelt der Architektur vergleichbarer Modelle, ist aber hinsichtlich ihrer Effizienz optimiert. DeepSeek-R1 baut auf dem DeepSeek-V3-Basismodell auf und besitzt eine sogenannte Mixture-of-Experts-Architektur (MoE-Architektur). Die MoE-Architektur kombiniert verschiedene Expertensysteme.
Das DeepSeek-R1-Hauptmodell hat circa 685 Milliarden Parameter, von denen nur 40 Milliarden Parameter gleichzeitig aktiv sind. Erreicht wird das über die MoE-Architektur, bei der jeweils spezialisierte Teile des Modells für bestimmte Aufgabenstellungen verwendet werden. Durch die kleinere Anzahl an gleichzeitig aktiven Parametern und Neuronen ist der Ressourcenbedarf des Modells deutlich reduziert.
Eine weitere für DeepSeek-R1 eingesetzte Technik ist Multi-Head Latent Attention (MLA), mit deren Hilfe sich der Kontext komplexer Anfragen verstehen lässt, gleichzeitig sich die KI aber auf verschiedene Teile eines Textes fokussieren kann.
Die Modellvarianten der DeepSeek-R1-Modellserie
DeepSeek veröffentlichte im Januar 2025 eine ganze Serie von DeepSeek-R1-Modellen:
DeepSeek-R1
DeepSeek-R1-Zero
DeepSeek-R1-Distill-Qwen-32B
DeepSeek-R1-Distill-Llama-8B
DeepSeek-R1-Distill-Llama-70B
DeepSeek-R1-Distill-Qwen-14B
DeepSeek-R1-Distill-Qwen-7B
DeepSeek-R1-Distill-Qwen-1.5B
DeepSeek-R1-Zero besitzt die gleiche Modellgröße wie das Hauptmodell DeepSeek-R1, hat aber weniger Trainingsprozesse durchlaufen.
Die Distill-Versionen haben deutlich weniger Parameter als das Hauptmodell und wurden per Wissensdestillation auf Basis der Modelle Qwen von Alibaba und LLaMa von Meta erzeugt. Die kleinen, effizienten Modelle lassen sich auch auf günstiger, lokaler Hardware betreiben. In ihrer Leistungsfähigkeit sind die 32B- und 70B-Modelle vergleichbar mit OpenAI-o1-mini.
Nutzungsmöglichkeiten der DeepSeek-R1-Modelle
Die DeepSeek-R1-Modelle sind unter Open-Source-Lizenz frei verfügbar und lassen sich lokal auf eigenen Rechnern installieren und betreiben und für beliebige Zwecke einsetzen. Darüber hinaus bietet DeepSeek auch eine gehostete Chatbot-Version von R1 an, auf die per DeepSeek-App, Weboberfläche oder Programmierschnittstelle (API) zugegriffen werden kann. Der Webzugang fungiert als Chat-Plattform und ermöglicht eine umfassende Interaktion mit dem Sprachmodell. Die DeepSeek-App fungiert als KI-Assistent und steht für die Betriebssysteme Android und iOS zur Verfügung. Über die DeepSeek API ist aus eigenen Anwendungen heraus ein programmatischer Zugang zu dem gehosteten Sprachmodell möglich. Das Format der API ist dem der OpenAI-API sehr ähnlich.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Die Nutzung der Chat-Plattform per App oder Webseite ist kostenlos. Der programmatische Zugang per API wird über die Anzahl der Input- und Output-Token abgerechnet.
Leistungsfähigkeit von DeepSeek-R1
DeepSeek-R1 wurde primär mit englischen und chinesischen Texten trainiert. Dementsprechend funktioniert das Sprachmodell in diesen Sprachen am besten.
Obwohl für das Training und den Betrieb der R1-Modelle im Vergleich zu anderen Modellen nur ein Bruchteil der Hardware und Kosten notwendig sind (nach Angaben von DeepSeek wurden für das Training nur 2.048 Nvidia-GPUs vom Typ H800 benötigt), kann es hinsichtlich seiner Leistungsfähigkeit mit Modellen wie OpenAI o1 oder Chatbots wie ChatGPT mithalten. Vor allem im Bereich „logisches Denken“ besitzt das KI-Modell große Stärken.
Die Leistungsfähigkeit von DeepSeek-R1 wurde mit zahlreichen Benchmarks getestet und erreicht das Ergebnisniveau aktueller großer KI-Modelle oder übertrifft es sogar. Benchmarks, mit denen DeepSeek-R1 getestet wurde, sind zum Beispiel:
AIME 2024 und MATH-500 für Mathematikprobleme und mathematische Schlussfolgerungen
Codeforces für Programmieraufgaben
GPQA Diamond für Multiple-Choice-Fragen zum Allgemeinwissen
MMLU für Massive Multitask Language Understanding aus verschiedenen Wissensgebieten
Bedenken und Kritikpunkte an DeepSeek-R1
Trotz der Effizienz und Leistungsfähigkeit von DeepSeek-R1 gibt es zahlreiche Bedenken und Kritikpunkte, die hinsichtlich des KI-Modells und des chinesischen KI-Unternehmens geäußert werden. Dazu zählen zum Beispiel:
DeepSeek-R1 ist zwar Open Source, es ist aber weitgehend unbekannt, mit welchen Daten das Modell trainiert wurde und woher sie stammen.
Was chinakritische Themen angeht, unterliegen die Modelle der Zensur.
Es gibt massive Bedenken hinsichtlich des Datenschutzes (Daten der Nutzer werden auf Servern in China gespeichert, es gibt aber kein Datenschutzabkommen zwischen der EU und China).
Die Angaben zu der Art des Trainings und den dafür eingesetzten Hardwareressourcen beruhen auf den Aussagen von DeepSeek und werden teils bezweifelt.
DeepSeek-R1 scheint an verschiedenen Stellen Schwachstellen zu besitzen und vulnerabel zu sein.
Eine Datenbank mit sensiblen DeepSeek-Daten war zeitweise offen im Netz verfügbar.
Die freie Verfügbarkeit der leistungsfähigen KI-Modelle kann zu unkontrollierbarem Missbrauch durch Cyberkriminelle führen.
Es besteht das Risiko einer politischen Einflussnahme und Desinformation durch China mithilfe der Modelle und des Chatbots.