Medprompt ist eine von Microsoft entwickelte Prompting-Strategie. Sie verbessert die Leistung von GPT-4 in medizinischen Benchmarks. Die Strategie ist auf andere Bereiche übertragbar. So erreicht GPT-4 mit der Version Medprompt+ neue Spitzenwerte im MMLU-Benchmark und übertrifft sogar Google Gemini Ultra.
Medprompt ist der Name einer von Microsoft entwickelten und im November 2023 erstmals vorgestellten Prompting-Strategie. Die Medprompt-Entwicklungsarbeit von Microsoft untersuchte diese Fragestellung: Kann ein für generalistische Zwecke entwickeltes großes Grundlagensprachmodell durch die Anwendung effektiver Prompting-Strategien die Leistung von für spezifische Zwecke trainierten und feinabgestimmten Modellen übertreffen?
Diese Fragestellung wurde von Microsoft für den medizinischen Bereich untersucht, lässt sich aber auch auf andere Fachgebiete übertragen. In ihrer Arbeit zeigten die Forscher, dass das Large Language Model (LLM) GPT-4 von OpenAI durch die Anwendung der Medprompt-Strategie in medizinischen Benchmarks bessere Ergebnisse erzielt als spezialisierte Modelle wie Med-PaLM-2.
Im Wesentlichen kombiniert Medprompt drei Prompting-Ansätze. Durch die Kombination dieser Prompting-Ansätze kann GPT-4 auch in anderen Fachbereichen deutlich bessere Ergebnisse erzielen. Die Erkenntnisse der Forschungsarbeit von Microsoft sind auf andere Domänen übertragbar und lassen sich verallgemeinern. Eine modifizierte Version und Optimierung der Prompting-Strategie mit der Bezeichnung Medprompt+ erreicht beispielsweise im MMLU-Benchmark die höchste bisher erzielte Punktzahl und übertrifft den bisherigen Spitzenreiter Gemini Ultra von Google.
Die Ergebnisse der Prompting-Strategie Medprompt werden als Hinweis darauf gedeutet, dass das Potenzial aktueller Basissprachmodelle wie GPT-4 noch nicht voll ausgeschöpft ist und dass sich deren Leistung ohne zusätzliches Training oder weitere Feinabstimmung alleine durch die Anwendung intelligenter Prompting-Strategien noch weiter steigern lässt.
Die für Medprompt kombinierten Prompting-Methoden
Für Medprompt wurden keine grundlegend neuen Prompting-Ansätze entwickelt. Die Forscher kombinierten drei bereits bekannte und teils schon häufig angewandte Prompting-Methoden. Bei diesen drei kombinierten Prompting-Methoden handelt es sich um:
dynamisches Few-Shot-Prompting (eine Form von In-Context Learning – ICL)
selbstgenerierte Chain-of-Thought (CoT)
Choice Shuffle Ensembling
Dynamisches Few-Shot-Prompting ist eine Form von In-Context Learning (ICL). Für jede zu stellende Frage erhält das Modell eine dynamisch erstellte Auswahl an ähnlichen Paaren von Beispielfragen und Antworten. Das gibt dem Modell den Kontext der späteren Fragestellung vor und hilft ihm, sie besser zu verstehen und die richtigen Antworten zu generieren.
Der nächste Schritt in der Prompt-Engineering-Pipeline ist die selbstgenerierte Chain-of-Thought (CoT). Das Modell wird in natürlicher Sprache dazu animiert, vor der Beantwortung der eigentlichen Fragestellung selbstständig und automatisch eine Reihe von einzelnen Argumentationsschritten zu generieren. So lassen sich komplexe Aufgaben in kleinere Bearbeitungsschritte aufspalten. Durch die mehreren einzelnen Bearbeitungsschritte der vom Modell selbst generierten Chain-of-Thought ist GPT-4 in der Lage, genauere Antworten zu liefern.
Choice Shuffle Ensembling ist ein Prompting-Ansatz, bei dem mehrere Antwortoptionen in unterschiedlichen Reihenfolgen präsentiert und nach verschiedenen Methoden abgeglichen werden, bevor die endgültige Antwort ausgegeben wird.
Mittlerweile hat Microsoft mit Medprompt+ eine modifizierte und optimierte Version der Prompting-Strategie Medprompt entwickelt. Bei Medprompt+ handelt es sich um ein Zwei-Prompt-System. Der erste Prompt ist der normale Medprompt, der zweite Prompt eine mit automatisch generiertem CoT vereinfachte Prompt-Version. Aus den beiden Prompts und die Antworten darauf, wird das endgültige Ergebnis abgeleitet.
Benchmark-Ergebnisse
Medprompt wurde ursprünglich für medizinische Fragestellungen und Benchmarks entwickelt. GPT-4 ohne spezielle Prompting-Strategie liegt in medizinischen Benchmarks deutlich hinter spezialisierten Modellen Med-PaLM-2 zurück. Doch mit Medprompt übertrifft GPT-4 spezialisierte Modelle in Benchmark-Datensätzen wie dem MedQA-, MedMCQA- und PubMedQA-Datensatz der MultiMedQA-Suite.
Stand: 08.12.2025
Es ist für uns eine Selbstverständlichkeit, dass wir verantwortungsvoll mit Ihren personenbezogenen Daten umgehen. Sofern wir personenbezogene Daten von Ihnen erheben, verarbeiten wir diese unter Beachtung der geltenden Datenschutzvorschriften. Detaillierte Informationen finden Sie in unserer Datenschutzerklärung.
Einwilligung in die Verwendung von Daten zu Werbezwecken
Ich bin damit einverstanden, dass die Vogel IT-Medien GmbH, Max-Josef-Metzger-Straße 21, 86157 Augsburg, einschließlich aller mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen (im weiteren: Vogel Communications Group) meine E-Mail-Adresse für die Zusendung von Newslettern und Werbung nutzt. Auflistungen der jeweils zugehörigen Unternehmen können hier abgerufen werden.
Der Newsletterinhalt erstreckt sich dabei auf Produkte und Dienstleistungen aller zuvor genannten Unternehmen, darunter beispielsweise Fachzeitschriften und Fachbücher, Veranstaltungen und Messen sowie veranstaltungsbezogene Produkte und Dienstleistungen, Print- und Digital-Mediaangebote und Services wie weitere (redaktionelle) Newsletter, Gewinnspiele, Lead-Kampagnen, Marktforschung im Online- und Offline-Bereich, fachspezifische Webportale und E-Learning-Angebote. Wenn auch meine persönliche Telefonnummer erhoben wurde, darf diese für die Unterbreitung von Angeboten der vorgenannten Produkte und Dienstleistungen der vorgenannten Unternehmen und Marktforschung genutzt werden.
Meine Einwilligung umfasst zudem die Verarbeitung meiner E-Mail-Adresse und Telefonnummer für den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern wie z.B. LinkedIN, Google und Meta. Hierfür darf die Vogel Communications Group die genannten Daten gehasht an Werbepartner übermitteln, die diese Daten dann nutzen, um feststellen zu können, ob ich ebenfalls Mitglied auf den besagten Werbepartnerportalen bin. Die Vogel Communications Group nutzt diese Funktion zu Zwecken des Retargeting (Upselling, Crossselling und Kundenbindung), der Generierung von sog. Lookalike Audiences zur Neukundengewinnung und als Ausschlussgrundlage für laufende Werbekampagnen. Weitere Informationen kann ich dem Abschnitt „Datenabgleich zu Marketingzwecken“ in der Datenschutzerklärung entnehmen.
Falls ich im Internet auf Portalen der Vogel Communications Group einschließlich deren mit ihr im Sinne der §§ 15 ff. AktG verbundenen Unternehmen geschützte Inhalte abrufe, muss ich mich mit weiteren Daten für den Zugang zu diesen Inhalten registrieren. Im Gegenzug für diesen gebührenlosen Zugang zu redaktionellen Inhalten dürfen meine Daten im Sinne dieser Einwilligung für die hier genannten Zwecke verwendet werden. Dies gilt nicht für den Datenabgleich zu Marketingzwecken.
Recht auf Widerruf
Mir ist bewusst, dass ich diese Einwilligung jederzeit für die Zukunft widerrufen kann. Durch meinen Widerruf wird die Rechtmäßigkeit der aufgrund meiner Einwilligung bis zum Widerruf erfolgten Verarbeitung nicht berührt. Um meinen Widerruf zu erklären, kann ich als eine Möglichkeit das unter https://contact.vogel.de abrufbare Kontaktformular nutzen. Sofern ich einzelne von mir abonnierte Newsletter nicht mehr erhalten möchte, kann ich darüber hinaus auch den am Ende eines Newsletters eingebundenen Abmeldelink anklicken. Weitere Informationen zu meinem Widerrufsrecht und dessen Ausübung sowie zu den Folgen meines Widerrufs finde ich in der Datenschutzerklärung.
Die Medprompt-Strategie ist aber nicht nur im medizinischen Umfeld anwendbar, sondern lässt sich auf andere Domänen übertragen. GPT-4 und die optimierte Prompt-Strategie Medprompt+ wurde beispielsweise mit dem MMLU-Benchmark (Measuring Massive Multitask Language Understanding) getestet.
Mit Medprompt+ erreicht GPT-4 eine Spitzenpunktzahl und übertrifft mit 90,10 Prozent sogar das Basissprachmodell Gemini Ultra von Google (90,04 Prozent). Der MMLU-Benchmark testet das Allgemeinwissen und die Fähigkeit zum logischen Denken und Schlussfolgern von Sprachmodellen. Der Test umfasst Zehntausende von Aufgaben aus mehreren Dutzend Fachgebieten wie Mathematik, Informatik, Recht, Ingenieurwissenschaften, Geschichte und andere.
Auch in weiteren Benchmarks wie GSM8K, MATH, HumanEval, BIG-Bench-Hard, DROP und HellaSwag soll GPT-4 andere große Sprachmodelle Gemini Ultra übertreffen.
Die Ergebnisse der Microsoft-Arbeit zeigen, dass ein leistungsfähiges großes Basissprachmodell in Kombination mit fortgeschrittenem Prompt-Engineering domänenspezifische Modelle übertreffen kann. Eine intelligente Prompt-Engineering-Strategie steigert die Fähigkeiten und Leistung generativer Künstlicher Intelligenz. Gleichzeitig reduziert sie den für die Bearbeitung von Aufgaben aus spezifischen Domänen notwendigen Trainings- und Feinabstimmungsaufwand.