Cohere bietet seine großen Sprachmodelle der Command-Reihe nicht nur für große Unternehmen mit 32 GPUs an, sondern auch für kleine und mittlere Firmen, die sich nur eine oder zwei GPUs leisten wollen. Modelle für Einbettungen und Tools für das Ranking von Suchergebnissen ergänzen die Palette. Bemerkenswert an allen Modellen: Sie lassen sich lokal oder in einer Virtual Private Cloud betreiben, was der Datensouveränität zugutekommt.
In den meisten AWS-Regionen stehen auf Amazon Bedrock alle fünf Cohere-Modelle zur Verfügung, aber nicht überall.
(Bild: Cohere)
Cohere ist einer der bedeutenderen Player im GenAI-Markt. Sein Basismodell Command weist mehrere Varianten auf und ist in 26 Sprachen erhältlich, doch als durchschnittliches generatives LLM erlaubt es bereits maximale Token-Anzahl von 4.000 auf. Das lassen sich bereits einige Anwendungsfälle bewältigen, nämlich Chat, Textgenerierung und Textzusammenfassung. Die unterstützte Feinabstimmung erlaubt die Anpassung an Kundenanforderungen.
Command Light ist eine kleinere Version von Command, doch die maximale Token-Anzahl ist die gleiche, nämlich 4.000, und auch die Use Cases sind die gleichen. Command R ist das generative Sprachmodell, das für Aufgaben mit langen Kontexten wie RAG und Tools sowie für große Produktions-Workloads optimiert ist. Mit einer maximalen Token-Anzahl von 128.000 und einer breiten Sprachunterstützung eignet es sich für den internationalen Business-Einsatz. Noch ist keine Feinabstimmung realisierbar, aber die Use Cases übertreffen Standard Command erheblich: Textgenerierung, Textzusammenfassung, Chat, Wissensassistenten, F&A, RAG.
Command R+ ist das leistungsstärkste generative Sprachmodell von Cohere, das für Aufgaben mit langen Kontexten wie RAG und die Verwendung mehrstufiger Tools optimiert ist. Bei Command R und Command R+ handelt es sich um hochmoderne FMs (Foundation Models), mit denen Kunden generative KI-Anwendungen der Enterprise-Klasse mit erweiterten RAG-Funktionen in zehn Sprachen erstellen können, um ihre globalen Geschäftsabläufe in mehreren Schritten zu unterstützen.
Command R und R+ eignen sich laut Hersteller für globale Unternehmen und für RAG-Anwendungsfälle, besonders für die Textgenerierung. Durch ihre Fähigkeit, hochzuskalieren seien sie besonders für Aufgaben mit langem Kontext (128.000 Tokens) und entsprechenden Zitaten geeignet, die sicherstellen sollen, dass keine der berüchtigten „Halluzinationen“ auftreten. Diese Genauigkeit kann zulasten von Effizienz gehen, sodass die beiden Modelle eine Balance zu erreichen versuchen. Sie eignen sich zudem laut Cohere gut für eine vollständige KI-Implementierung, wobei R+ eine verbesserte Leistung für Unternehmen bietet, die bereit sind, KI in allen Geschäftsbereichen zu nutzen.
Mit beiden Basismodellen ist die Nutzung von drei vorgefertigten KI-Agenten realisierbar, und Mitarbeiter können damit ihren eigenen persönlichen Agenten erstellen. Doch Cohere hat noch mehr Pfeile im Köcher.
Cohere Embed 3
Coheres Embed 3 ist ein Einbettungsmodell, das Einbettungen (Embeddings) sowohl aus Text als auch aus Bildern generiert. Es ermöglicht Unternehmen, aus riesigen Bilddaten Werte zu schöpfen, indem es präzise Suchsysteme für komplexe Berichte, Produktkataloge und Designdateien erstellt. Embed unterstützt über hundert Sprachen und soll sehr gut für multimodale, sprachübergreifende semantische Such- und Abrufaufgaben geeignet sein. Es optimiere fortschrittliche KI-Anwendungen, verbessere das E-Commerce-Erlebnis von Kunden, das Management von Assets und datengesteuerte Entscheidungsprozesse.
Embed 3 gibt es entweder als „English“ oder als Mehrsprachige Version. Im Unterschied zu Command R und Command R+ sind die beiden Varianten bei AWS in der Region Frankfurt/M. verfügbar (siehe Abbildungen). Die maximale Anzahl an Tokens beträgt lediglich 512, aber für die Einbettung reicht das. Die unterstützten Anwendungsfälle sind: semantische Suche, RAG, Klassifizierung, Clustering, multimodale Suche und Abruf.
Cohere Rerank
Das Rerank-Tool von Cohere, Cohere Rerank 3.5, bietet eine semantische Steigerung der Suchqualität jedes Keyword- oder Vektorsuchsystems. In RAG-Anwendungsfällen kann die Neubewertung dazu beitragen, dass nur die relevantesten Informationen an das Modell weitergegeben werden. Das kann zu besseren Antworten, einer geringeren Latenz und niedrigeren Kosten führen, da das Modell weniger Informationen verarbeitet.
Rerank 3.5 verbessert somit die Suchgenauigkeit durch eine neue Rangfolge der Ergebnisse für Suchbegriffe und Vektoren. Dadurch wird sichergestellt, dass nur die relevantesten Inhalte das Modell erreichen, was zu besseren Antworten führt und gleichzeitig die Latenzzeit und die Kosten reduziert. Da es nicht eingebettet wird, darf es auch mehr Token verarbeiten, nämlich 4.096.
Rerank unterstützt über 100 Sprachen, darunter Englisch, Chinesisch, Koreanisch, Hindi, Japanisch, Spanisch, Deutsch, Französisch, Arabisch, Russisch und Portugiesisch. Wie schon bei Embed 3 ist keine Feinabstimmung möglich. Zu den unterstützte Anwendungsfällen zählen Such-, Dokument- und RAG-Szenarien (zum Beispiel die Suche nach einem Hotel oder einem Flug).
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Weitere Modelle
Command R7B, das seit Dezember 2024 verfügbar ist, ist das kleinste Command-Modell. Es soll schnell, effizient und läuft auf Low-End-GPUs, auf einem MacBook und „sogar auf einer CPU“. Das LLM richtet sich an Entwickler und mittelgroße Unternehmen, die auf Kosten und Rechenleistung achten müssen. Die Kontextlänge liegt bei 128k, mehrere Sprachen werden unterstützt. Obwohl auf Sparsamkeit geachtet wird, unterstützt das Modell RAG, Schlussfolgern, Tool-Nutzung und „agentisches Verhalten“. Damit ist wohl das selbstständige Handeln eines KI-Agenten gemeint. R7B soll die Kosten, die mit dem Bereitstellen von KI-Apps für den Betrieb verbunden sind, „drastisch senken“.
Das GenAI-Modell Command A, lanciert im Dezember 2024, soll maximale Leistung mit minimaler Hardware-Rechenleistung vereinen, verglichen mit GPT-4o und DeepSeek V3. Command A können Tokens mit einer Rate von bis zu 156 Tokens/s liefern, was 1,75-mal mehr sei als bei GPT-4o und 2,4-mal mehr als in DeepSeek V3. In privaten Deployments, also in einer Virtual Private Cloud oder on-premises, könne Command A bis zu 50 Prozent kostengünstiger sein als ein API-basierter Zugriff. „Ein wichtiges Verkaufsargument für Cohere North [und andere Cohere-Modelle] ist, dass es sich privat bereitstellen lässt, um die Datensicherheit und den Datenschutz von Unternehmensdaten zu gewährleisten“, sagt Analyst Larry Dignan von Constellation Research.
Obwohl es agentische Eigenschaften und Mehrsprachigkeit aufweist, lässt es sich auf „nur“ zwei GPUs bereitstellen. Andere Modelle dieser Qualität würden üblicherweise bis zu 32 GPUs erfordern, schreibt Cohere. Command A eigne sich insbesondere für wirtschaftliche Aufgaben, aber auch für MINT-Fächer (Mathematik, Informatik, Naturwissenschaft, Technik) und für das Programmieren. Auf diesen Feldern käme seine Leistung im Realwelt-Einsatz anderen Modellen gleich oder übertreffe sie.
Command A Translate, Ende August 2025 lanciert, soll Übersetzungen der höchsten Qualität für große Unternehmen erledigen können. Hinsichtlich der Leistung soll es laut Cohere den aktuellen Modellen GPT-5, DeepSeek-V3, DeepL Pro und Google Translate überlegen sein.
Command A Reasoning ist ein ebenfalls Ende August 2025 lanciertes Modell für Schlussfolgerungen, die für Entscheidungsprozesse benötigt werden. Damit lassen sich agentenbasierte Workflows ebenso realisieren wie Anfang-bis-Ende-Systeme. Hinsichtlich der Leistung sei es gpt-oss-120b, DeepSeek R1 0528 und Mistral Magistral Medium überlegen. Eine große Rolle spielt, welche GPU für die Ausführung der Workflows genutzt wird. „Mit einer einzelnen H100 oder A100 [von Nvidia] lässt sich eine Kontextlänge von 128k bewältigen, mit zwei oder mehr GPUs eine Kontextlänge von 256k. Das käme der Latenz zugute“, so Cohere.
Command A Vision ist kein weiterer Bildgenerator, sondern eher dessen Gegenteil: Es kann Grafiken, Fotos, Bilder aller Art, Diagramme und sogar Realweltphänomene interpretieren, analysieren und in Text umwandeln. Das hilft Unternehmen bei der Riskobewertung, etwa bei Haus- oder Unfallschäden, aber auch bei der schnellen Verwertung von PDFs und ähnlichen grafischen Dokumenten. Das Ende Juli 2025 veröffentlichte LLM kann bei Hugging Face für wissenschaftliche Zwecke genutzt werden.
Eine neue KI-Plattform
Mit Cohere North stellte der KI-Anbieter im Januar 2025 eine kollaborative agentische KI-Plattform vor, um die Angebotspalette zu verbreitern. North richtet sich an Sachbearbeiter, die ihre Arbeit effizienter erledigen wollen. Die Funktionen liegen auf den drei Schwerpunkten „Entdecken“, „Erstellen“ und „Automatisieren“.
„Entdecken“ meint Suchen und Finden, also die Bandbreite zwischen simplem Frage-und-Antwort-Verfahren bis zu komplizierter Entscheidungsfindung. Die Erkenntnisse beruhen auf den Daten, die der Nutzer bereitgestellt hat. Das „Erstellen“ mit GenAI erzeugt Dokumente, Zusammenfassungen und Tabellen bzw. Diagramme. Die Automation betrifft vor allem Arbeitsabläufe. Hier kann der Sachbearbeiter vorgefertigte oder selbst erstellte Agenten in Teams einsetzen, um lästige Aufgaben abzugeben und kompliziertere Abläufe zu beschleunigen.
Cohere hat kürzlich eine strategische Partnerschaft mit Bell Canada angekündigt, um umfassende souveräne KI-Applikationen für Regierung und Unternehmenskunden in ganz Kanada anzubieten, als auch innerhalb von Bell Canada, die proprietär und sicher sind“, weiß Larry Dignan von Constellation Research (s.o.) zu berichten.