Google Gemini ist ein multimodales KI-Modell, das auf Forschung von DeepMind basiert und von Google entwickelt wurde. Das Modell gehört zu einer neuen Generation von KI-Anwendungen, die komplexe Aufgaben in der Datenverarbeitung und -analyse bewältigen.
Google Gemini: Googles neuestes KI-Modell mit multimodalen Fähigkeiten.
(Bild: Google)
Google Gemini wurde im Dezember 2023 als generative Künstliche Intelligenz vorgestellt und von Google DeepMind entwickelt. Laut Google ist es das größte, leistungsstärkste und vielseitigste große Sprachmodell (Large Language Model – LLM), das jemals von Google realisiert wurde. Ursprünglich als Bard bezeichnet, wurde der Chatbot im Februar 2024 in Gemini umbenannt. Somit bezeichnet Gemini sowohl den Google Chatbot als auch das zugrunde liegenden Sprachmodell.
Die verschiedenen Gemini-Modelle im Überblick
Das Sprachmodell Gemini steht in drei Größen und Leistungsstufen zur Auswahl. Sie sind für verschiedene Anforderungen konzipiert und setzen unterschiedliche Computing-Leistungen voraus.
Die drei Gemini-Modellgrößen sind:
Gemini Nano: Kleinstes Gemini-Modell in den Größen Nano-1 und Nano-2. Für die lokale Ausführung zum Beispiel auf Smartphones vorgesehen.
Gemini Pro: Mittlere Modellgröße und Basisversion des multimodalen Gemini-KI-Modells.
Gemini Ultra: Leistungsfähigstes und größtes Gemini-Modell für komplexe multimodale Aufgabenstellungen. Unter anderem für die Gemini-Advanced-Version des Chatbots im Einsatz.
Entwicklung und Versionen
Die Entwicklung von Google Gemini verlief in schnellen Iterationen, wobei jede Version deutliche Sprünge nach vorn machte. Ein kurzer Blick auf die wichtigsten Meilensteine:
1. Gemini 1.0 (Dezember 2023) – Einführung des ersten multimodalen KI-Modells von Google.
2. Gemini 1.5 (Frühjahr 2024) – Verbesserte Skalierbarkeit und Rekord-Kontextfenster von einer Million Tokens.
4. Gemini 2.5 (Mai 2025) – Bietet verbesserte Intelligenz, Multimodalität, längere Kontexte und optimierte Leistung für komplexe (Pro) und schnelle/günstige (Flash) Anwendungen.
Google Gemini basiert auf den Grundlagen früherer Google-Sprachmodelle wie LaMDA und PaLM 2 und nutzt eine Transformer-Architektur, die für maximale Skalierbarkeit und Leistungsfähigkeit optimiert wurde.
Zu den Schlüsselmerkmalen gehören eine unterstützte Kontextlänge von bis zu einer Million Token, ein Multi-Query-Aufmerksamkeitsmechanismus für effizientere Verarbeitung, der Einsatz modernster KI-Beschleuniger wie TPU v5 für Training und Inferenz sowie multimodale Fähigkeiten durch integriertes Training auf verschiedenen Datentypen.
Ein weiteres markantes Merkmal von Gemini ist die Verwendung der „Mixture of Experts“ (MoE)-Technologie. Dadurch kann das Modell spezielle Teile des Netzwerks selektiv aktivieren, was die Rechenressourcen optimal nutzt und die Effizienz erhöht. Das ermöglicht es Gemini, anspruchsvolle Aufgaben in kürzerer Zeit zu verarbeiten.
Funktionen von Gemini
Multimodalität: Gemini kann Texte, Bilder, Videos und Audiosignale verarbeiten. Diese Fähigkeit eröffnet zahlreiche Anwendungsmöglichkeiten, etwa in der Content-Erstellung oder in der Analyse komplexer Daten.
Lange Kontextfenster: Das 1-Million-Tokens-Fenster ermöglicht es Gemini, Informationen aus umfangreichen Dokumenten zusammenzufassen und zu analysieren.
Effiziente Skalierung: Das Design von Gemini erlaubt ein schnelles Lernen und eine effiziente Anwendung, wodurch der Ressourcenverbrauch während des Trainings optimiert wird.
Native Tool-Nutzung: Das Modell ist in der Lage, Tools wie Google-Suchanfragen oder benutzerdefinierte Funktionen direkt zu integrieren, wodurch seine Funktionalität erweitert wird.
Multilinguale Fähigkeiten: Gemini unterstützt mehrere Sprachen sowohl bei der Eingabe als auch bei der Ausgabe, was seine Anwendung international fördert.
Mit der Einführung von Gemini 2.0 im Februar 2025 wurden bedeutende Verbesserungen und neue Funktionen implementiert:
Gemini 2.0 Flash:
Verfügbar über die Gemini API in Google AI Studio und Vertex AI.
Bietet verbesserte Leistung, native Tool-Nutzung, multimodale Generierung und ein 1-Million-Tokens-Fenster.
Unterstützt multimodale Eingaben (Audio, Bilder, Videos, Text) sowie die textbasierte Ausgabe.
Entwicklerversionen für experimentelle Bildgenerierung sind verfügbar.
Gemini 2.0 Flash-Lite:
Ein neues Modell, das für Kosteneffizienz und geringe Latenz optimiert ist und Gemini 1.5 Flash in den meisten Benchmarks übertrifft.
Gemini 2.0 Pro Experimental:
Das leistungsstärkste Modell der zweiten Generation mit ausgeprägten Denk- und Lernfähigkeiten und einem Zwei-Millionen-Tokens-Kontextfenster.
Gemini 2.0 Flash Thinking Experimental:
Ein verbessertes Modell, das komplexe Probleme lösen und seine „Denkprozesse“ demonstrieren kann.
Gemini 2.5 Flash:
Ist jetzt für alle Nutzer in der Gemini App verfügbar. Es soll Anfang Juni 2025 allgemein in Google AI Studio für Entwickler und in Vertex AI für Unternehmen verfügbar gemacht werden.
Gemini 2.5 Pro:
Ist als Preview für Entwickler im Google AI Studio und in Vertex AI verfügbar. Es wird erwartet, dass es kurz nach Gemini 2.5 Flash allgemein verfügbar sein wird.
Neue Funktionen der Gemini-App:
Erweiterte Funktionen für Deep Research, Personalisierung und Integration mit Google-Diensten, wodurch maßgeschneiderte Antworten möglich sind.
Gemini Advanced:
Bietet Zugang zu den leistungsfähigsten Modellen und ermöglicht das Hochladen und die Analyse von bis zu 1.500 Seiten an Dokumenten oder 30.000 Zeilen Code.
Google hat zudem neue Funktionen für die Gemini-App eingeführt, darunter „Canvas“ und „Audio Overview“. „Canvas“ bietet einen Arbeitsbereich innerhalb von Gemini zum Erstellen und Verfeinern von Dokumenten und Code in Echtzeit, während „Audio Overview“ schriftliche Materialien in eine Podcast-ähnliche Diskussion zwischen KI-Hosts verwandelt.
Die Architektur von Gemini
Die Architektur von Gemini baut auf den Grundlagen früherer Google-Sprachmodelle wie LaMDA und PaLM 2 auf. Das Modell nutzt eine Transformer-Architektur, die für maximale Skalierbarkeit und Leistungsfähigkeit optimiert wurde.
Einige Schlüsselmerkmale der Gemini-Architektur sind:
Unterstützte Kontextlänge von bis zu einer Million Token
Multi-Query-Aufmerksamkeitsmechanismus für effizientere Verarbeitung
Einsatz modernster KI-Beschleuniger wie TPU v5 für Training und Inferenz
Multimodale Fähigkeiten durch integriertes Training auf verschiedenen Datentypen
Anders als viele multimodale Modell, die verschiedene Modalitäten nachträglich zusammenführen, wurde Gemini direkt mit multimodalen Daten trainiert. Als Trainingsplattform setzte Google Rechner-Cluster und Tensor Processing Units (TPUs) neuester Generation v4 und v5 als KI-Beschleuniger ein.
Gemini steht in Konkurrenz zu anderen LLMs wie den GPT-Sprachmodellen von OpenAI (GPT-4 und andere) und dem auf diesen Sprachmodellen aufbauenden Chatbot ChatGPT.
Gemini in Google-Produkten
Google beabsichtigt, die generative KI Gemini in zahlreiche eigene Produkte zu integrieren bzw. hat das bereits begonnen. Gemini soll die Fähigkeiten der Websuche, des Chrome-Browsers, des Gmail-Services, verschiedener Entwicklungstools und weiterer Produkte und Services verbessern und erweitern.
Auch in Google-Diensten wie Google Cloud oder Workspace wird Gemini integriert. Aus Google Duet AI wurde Gemini für Workspace.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Was ist Google Robotics?
Im März 2025 stellte Google Gemini Robotics vor, eine speziell auf die Robotikbranche zugeschnittene KI-Modelle, die verschiedene Robotertypen, einschließlich industrieller humanoider Roboter, unterstützen. Diese Modelle sollen Unternehmen dabei helfen, Kosten zu senken und die Markteinführung zu beschleunigen.