Open-Source-Sprachmodell JetBrains bringt mit Mellum2 ein 12B-MoE-Modell für Code und Text

Von Berk Kutsal 1 min Lesedauer

Anbieter zum Thema

JetBrains hat sein Sprachmodell Mellum2 als Open Source veröffentlicht. Das 12-Milliarden-Parameter-Modell setzt auf eine Mixture-of-Experts-Architektur, aktiviert pro Token nur 2,5 Milliarden Parameter und ist auf schnelle Inferenz für Code- und Textaufgaben ausgelegt.

Mellum2 ist JetBrains' erstes von Grund auf quelloffenes Modell und löst den 2025 freigegebenen 4B-Vorgänger ab.(Bild:  JetBrains)
Mellum2 ist JetBrains' erstes von Grund auf quelloffenes Modell und löst den 2025 freigegebenen 4B-Vorgänger ab.
(Bild: JetBrains)

Der Entwicklungswerkzeug-Anbieter JetBrains hat Mellum2 vorgestellt, ein quelloffenes Sprachmodell für Code und natürliche Sprache. Das Modell steht unter der Apache-2.0-Lizenz auf Hugging Face bereit und kann lokal, selbstgehostet oder feinjustiert betrieben werden.

Mellum2 nutzt eine Mixture-of-Experts-Architektur (MoE). Von insgesamt 12 Milliarden Parametern sind pro Token nur 2,5 Milliarden aktiv. Nach Angaben von JetBrains senkt das die Rechenkosten und ermöglicht eine Inferenz mit hohem Durchsatz und niedriger Latenz. Die Inferenzzeit falle dabei auf weniger als die Hälfte vergleichbarer Modelle. Auf Benchmarks für Codegenerierung, Wissenschaft, Mathematik und logisches Schlussfolgern erreiche Mellum2 dem Hersteller zufolge eine mit ähnlich großen Modellen vergleichbare Leistung. Die zugrundeliegenden Messwerte legt JetBrains in einem technischen Bericht offen.

Das Modell ist nicht multimodal, sondern ausschließlich auf Text und Code trainiert. Diese Spezialisierung halte das Modell kompakt und für Software-Engineering-Aufgaben effizient, so JetBrains. Als Einsatzfelder nennt der Hersteller das Routing in Mehr-Modell-Systemen, RAG-Pipelines, Teilaufgaben von Agenten sowie den Betrieb in privaten Umgebungen mit proprietärem Code.

JetBrains ordnet Mellum2 weiterhin als „focal model“ ein, also als schnelle, spezialisierte Komponente für hochfrequente Aufgaben innerhalb größerer KI-Systeme. Das Unternehmen setzt nach eigener Darstellung auf koordinierte Systeme statt auf einzelne Allzweckmodelle.

Mellum2 ist der Nachfolger des ursprünglichen Mellum, eines 4-Milliarden-Parameter-Modells für die Code-Vervollständigung. JetBrains hatte dieses Modell letztes Jahr quelloffen auf Hugging Face bereitgestellt, nachdem es zuvor in den hauseigenen IDEs zum Einsatz kam. Anders als der Vorgänger ist Mellum2 von Beginn an offen.

(ID:50862448)

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung