LLMs & Knowledge-Graphen, Teil 6 Agentische KI-Modelle von Cohere für Datensouveränität

Von Michael Matzer 6 min Lesedauer

Cohere bietet seine großen Sprachmodelle der Command-Reihe nicht nur für große Unternehmen mit 32 GPUs an, sondern auch für kleine und mittlere Firmen, die sich nur eine oder zwei GPUs leisten wollen. Modelle für Einbettungen und Tools für das Ranking von Suchergebnissen ergänzen die Palette. Bemerkenswert an allen Modellen: Sie lassen sich lokal oder in einer Virtual Private Cloud betreiben, was der Datensouveränität zugutekommt.

In den meisten AWS-Regionen stehen auf Amazon Bedrock alle fünf Cohere-Modelle zur Verfügung, aber nicht überall.(Bild:  Cohere)
In den meisten AWS-Regionen stehen auf Amazon Bedrock alle fünf Cohere-Modelle zur Verfügung, aber nicht überall.
(Bild: Cohere)

Cohere ist einer der bedeutenderen Player im GenAI-Markt. Sein Basismodell Command weist mehrere Varianten auf und ist in 26 Sprachen erhältlich, doch als durchschnittliches generatives LLM erlaubt es bereits maximale Token-Anzahl von 4.000 auf. Das lassen sich bereits einige Anwendungsfälle bewältigen, nämlich Chat, Textgenerierung und Textzusammenfassung. Die unterstützte Feinabstimmung erlaubt die Anpassung an Kundenanforderungen.

Command Light ist eine kleinere Version von Command, doch die maximale Token-Anzahl ist die gleiche, nämlich 4.000, und auch die Use Cases sind die gleichen. Command R ist das generative Sprachmodell, das für Aufgaben mit langen Kontexten wie RAG und Tools sowie für große Produktions-Workloads optimiert ist. Mit einer maximalen Token-Anzahl von 128.000 und einer breiten Sprachunterstützung eignet es sich für den internationalen Business-Einsatz. Noch ist keine Feinabstimmung realisierbar, aber die Use Cases übertreffen Standard Command erheblich: Textgenerierung, Textzusammenfassung, Chat, Wissensassistenten, F&A, RAG.

Bildergalerie
Bildergalerie mit 7 Bildern

Command R+ ist das leistungsstärkste generative Sprachmodell von Cohere, das für Aufgaben mit langen Kontexten wie RAG und die Verwendung mehrstufiger Tools optimiert ist. Bei Command R und Command R+ handelt es sich um hochmoderne FMs (Foundation Models), mit denen Kunden generative KI-Anwendungen der Enterprise-Klasse mit erweiterten RAG-Funktionen in zehn Sprachen erstellen können, um ihre globalen Geschäftsabläufe in mehreren Schritten zu unterstützen.

Command R und R+ eignen sich laut Hersteller für globale Unternehmen und für RAG-Anwendungsfälle, besonders für die Textgenerierung. Durch ihre Fähigkeit, hochzuskalieren seien sie besonders für Aufgaben mit langem Kontext (128.000 Tokens) und entsprechenden Zitaten geeignet, die sicherstellen sollen, dass keine der berüchtigten „Halluzinationen“ auftreten. Diese Genauigkeit kann zulasten von Effizienz gehen, sodass die beiden Modelle eine Balance zu erreichen versuchen. Sie eignen sich zudem laut Cohere gut für eine vollständige KI-Implementierung, wobei R+ eine verbesserte Leistung für Unternehmen bietet, die bereit sind, KI in allen Geschäftsbereichen zu nutzen.

Mit beiden Basismodellen ist die Nutzung von drei vorgefertigten KI-Agenten realisierbar, und Mitarbeiter können damit ihren eigenen persönlichen Agenten erstellen. Doch Cohere hat noch mehr Pfeile im Köcher.

Cohere Embed 3

Coheres Embed 3 ist ein Einbettungsmodell, das Einbettungen (Embeddings) sowohl aus Text als auch aus Bildern generiert. Es ermöglicht Unternehmen, aus riesigen Bilddaten Werte zu schöpfen, indem es präzise Suchsysteme für komplexe Berichte, Produktkataloge und Designdateien erstellt. Embed unterstützt über hundert Sprachen und soll sehr gut für multimodale, sprachübergreifende semantische Such- und Abrufaufgaben geeignet sein. Es optimiere fortschrittliche KI-Anwendungen, verbessere das E-Commerce-Erlebnis von Kunden, das Management von Assets und datengesteuerte Entscheidungsprozesse.

Embed 3 gibt es entweder als „English“ oder als Mehrsprachige Version. Im Unterschied zu Command R und Command R+ sind die beiden Varianten bei AWS in der Region Frankfurt/M. verfügbar (siehe Abbildungen). Die maximale Anzahl an Tokens beträgt lediglich 512, aber für die Einbettung reicht das. Die unterstützten Anwendungsfälle sind: semantische Suche, RAG, Klassifizierung, Clustering, multimodale Suche und Abruf.

Cohere Rerank

Das Rerank-Tool von Cohere, Cohere Rerank 3.5, bietet eine semantische Steigerung der Suchqualität jedes Keyword- oder Vektorsuchsystems. In RAG-Anwendungsfällen kann die Neubewertung dazu beitragen, dass nur die relevantesten Informationen an das Modell weitergegeben werden. Das kann zu besseren Antworten, einer geringeren Latenz und niedrigeren Kosten führen, da das Modell weniger Informationen verarbeitet.

Rerank 3.5 verbessert somit die Suchgenauigkeit durch eine neue Rangfolge der Ergebnisse für Suchbegriffe und Vektoren. Dadurch wird sichergestellt, dass nur die relevantesten Inhalte das Modell erreichen, was zu besseren Antworten führt und gleichzeitig die Latenzzeit und die Kosten reduziert. Da es nicht eingebettet wird, darf es auch mehr Token verarbeiten, nämlich 4.096.

Rerank unterstützt über 100 Sprachen, darunter Englisch, Chinesisch, Koreanisch, Hindi, Japanisch, Spanisch, Deutsch, Französisch, Arabisch, Russisch und Portugiesisch. Wie schon bei Embed 3 ist keine Feinabstimmung möglich. Zu den unterstützte Anwendungsfällen zählen Such-, Dokument- und RAG-Szenarien (zum Beispiel die Suche nach einem Hotel oder einem Flug).

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Weitere Modelle

Command R7B, das seit Dezember 2024 verfügbar ist, ist das kleinste Command-Modell. Es soll schnell, effizient und läuft auf Low-End-GPUs, auf einem MacBook und „sogar auf einer CPU“. Das LLM richtet sich an Entwickler und mittelgroße Unternehmen, die auf Kosten und Rechenleistung achten müssen. Die Kontextlänge liegt bei 128k, mehrere Sprachen werden unterstützt. Obwohl auf Sparsamkeit geachtet wird, unterstützt das Modell RAG, Schlussfolgern, Tool-Nutzung und „agentisches Verhalten“. Damit ist wohl das selbstständige Handeln eines KI-Agenten gemeint. R7B soll die Kosten, die mit dem Bereitstellen von KI-Apps für den Betrieb verbunden sind, „drastisch senken“.

Das GenAI-Modell Command A, lanciert im Dezember 2024, soll maximale Leistung mit minimaler Hardware-Rechenleistung vereinen, verglichen mit GPT-4o und DeepSeek V3. Command A können Tokens mit einer Rate von bis zu 156 Tokens/s liefern, was 1,75-mal mehr sei als bei GPT-4o und 2,4-mal mehr als in DeepSeek V3. In privaten Deployments, also in einer Virtual Private Cloud oder on-premises, könne Command A bis zu 50 Prozent kostengünstiger sein als ein API-basierter Zugriff. „Ein wichtiges Verkaufsargument für Cohere North [und andere Cohere-Modelle] ist, dass es sich privat bereitstellen lässt, um die Datensicherheit und den Datenschutz von Unternehmensdaten zu gewährleisten“, sagt Analyst Larry Dignan von Constellation Research.

Obwohl es agentische Eigenschaften und Mehrsprachigkeit aufweist, lässt es sich auf „nur“ zwei GPUs bereitstellen. Andere Modelle dieser Qualität würden üblicherweise bis zu 32 GPUs erfordern, schreibt Cohere. Command A eigne sich insbesondere für wirtschaftliche Aufgaben, aber auch für MINT-Fächer (Mathematik, Informatik, Naturwissenschaft, Technik) und für das Programmieren. Auf diesen Feldern käme seine Leistung im Realwelt-Einsatz anderen Modellen gleich oder übertreffe sie.

Command A Translate, Ende August 2025 lanciert, soll Übersetzungen der höchsten Qualität für große Unternehmen erledigen können. Hinsichtlich der Leistung soll es laut Cohere den aktuellen Modellen GPT-5, DeepSeek-V3, DeepL Pro und Google Translate überlegen sein.

Command A Reasoning ist ein ebenfalls Ende August 2025 lanciertes Modell für Schlussfolgerungen, die für Entscheidungsprozesse benötigt werden. Damit lassen sich agentenbasierte Workflows ebenso realisieren wie Anfang-bis-Ende-Systeme. Hinsichtlich der Leistung sei es gpt-oss-120b, DeepSeek R1 0528 und Mistral Magistral Medium überlegen. Eine große Rolle spielt, welche GPU für die Ausführung der Workflows genutzt wird. „Mit einer einzelnen H100 oder A100 [von Nvidia] lässt sich eine Kontextlänge von 128k bewältigen, mit zwei oder mehr GPUs eine Kontextlänge von 256k. Das käme der Latenz zugute“, so Cohere.

Command A Vision ist kein weiterer Bildgenerator, sondern eher dessen Gegenteil: Es kann Grafiken, Fotos, Bilder aller Art, Diagramme und sogar Realweltphänomene interpretieren, analysieren und in Text umwandeln. Das hilft Unternehmen bei der Riskobewertung, etwa bei Haus- oder Unfallschäden, aber auch bei der schnellen Verwertung von PDFs und ähnlichen grafischen Dokumenten. Das Ende Juli 2025 veröffentlichte LLM kann bei Hugging Face für wissenschaftliche Zwecke genutzt werden.

Eine neue KI-Plattform

Mit Cohere North stellte der KI-Anbieter im Januar 2025 eine kollaborative agentische KI-Plattform vor, um die Angebotspalette zu verbreitern. North richtet sich an Sachbearbeiter, die ihre Arbeit effizienter erledigen wollen. Die Funktionen liegen auf den drei Schwerpunkten „Entdecken“, „Erstellen“ und „Automatisieren“.

„Entdecken“ meint Suchen und Finden, also die Bandbreite zwischen simplem Frage-und-Antwort-Verfahren bis zu komplizierter Entscheidungsfindung. Die Erkenntnisse beruhen auf den Daten, die der Nutzer bereitgestellt hat. Das „Erstellen“ mit GenAI erzeugt Dokumente, Zusammenfassungen und Tabellen bzw. Diagramme. Die Automation betrifft vor allem Arbeitsabläufe. Hier kann der Sachbearbeiter vorgefertigte oder selbst erstellte Agenten in Teams einsetzen, um lästige Aufgaben abzugeben und kompliziertere Abläufe zu beschleunigen.

Cohere hat kürzlich eine strategische Partnerschaft mit Bell Canada angekündigt, um umfassende souveräne KI-Applikationen für Regierung und Unternehmenskunden in ganz Kanada anzubieten, als auch innerhalb von Bell Canada, die proprietär und sicher sind“, weiß Larry Dignan von Constellation Research (s.o.) zu berichten.

(ID:50540216)