Definition Was ist Medprompt?

Von Dipl.-Ing. (FH) Stefan Luber 3 min Lesedauer

Anbieter zum Thema

Medprompt ist eine von Microsoft entwickelte Prompting-Strategie. Sie verbessert die Leistung von GPT-4 in medizinischen Benchmarks. Die Strategie ist auf andere Bereiche übertragbar. So erreicht GPT-4 mit der Version Medprompt+ neue Spitzenwerte im MMLU-Benchmark und übertrifft sogar Google Gemini Ultra.

(Bild:  © aga7ta - stock.adobe.com)
(Bild: © aga7ta - stock.adobe.com)

Medprompt ist der Name einer von Microsoft entwickelten und im November 2023 erstmals vorgestellten Prompting-Strategie. Die Medprompt-Entwicklungsarbeit von Microsoft untersuchte diese Fragestellung: Kann ein für generalistische Zwecke entwickeltes großes Grundlagensprachmodell durch die Anwendung effektiver Prompting-Strategien die Leistung von für spezifische Zwecke trainierten und feinabgestimmten Modellen übertreffen?

Diese Fragestellung wurde von Microsoft für den medizinischen Bereich untersucht, lässt sich aber auch auf andere Fachgebiete übertragen. In ihrer Arbeit zeigten die Forscher, dass das Large Language Model (LLM) GPT-4 von OpenAI durch die Anwendung der Medprompt-Strategie in medizinischen Benchmarks bessere Ergebnisse erzielt als spezialisierte Modelle wie Med-PaLM-2.

Im Wesentlichen kombiniert Medprompt drei Prompting-Ansätze. Durch die Kombination dieser Prompting-Ansätze kann GPT-4 auch in anderen Fachbereichen deutlich bessere Ergebnisse erzielen. Die Erkenntnisse der Forschungsarbeit von Microsoft sind auf andere Domänen übertragbar und lassen sich verallgemeinern. Eine modifizierte Version und Optimierung der Prompting-Strategie mit der Bezeichnung Medprompt+ erreicht beispielsweise im MMLU-Benchmark die höchste bisher erzielte Punktzahl und übertrifft den bisherigen Spitzenreiter Gemini Ultra von Google.

Die Ergebnisse der Prompting-Strategie Medprompt werden als Hinweis darauf gedeutet, dass das Potenzial aktueller Basissprachmodelle wie GPT-4 noch nicht voll ausgeschöpft ist und dass sich deren Leistung ohne zusätzliches Training oder weitere Feinabstimmung alleine durch die Anwendung intelligenter Prompting-Strategien noch weiter steigern lässt.

Die für Medprompt kombinierten Prompting-Methoden

Für Medprompt wurden keine grundlegend neuen Prompting-Ansätze entwickelt. Die Forscher kombinierten drei bereits bekannte und teils schon häufig angewandte Prompting-Methoden. Bei diesen drei kombinierten Prompting-Methoden handelt es sich um:

  • dynamisches Few-Shot-Prompting (eine Form von In-Context Learning – ICL)
  • selbstgenerierte Chain-of-Thought (CoT)
  • Choice Shuffle Ensembling

Dynamisches Few-Shot-Prompting ist eine Form von In-Context Learning (ICL). Für jede zu stellende Frage erhält das Modell eine dynamisch erstellte Auswahl an ähnlichen Paaren von Beispielfragen und Antworten. Das gibt dem Modell den Kontext der späteren Fragestellung vor und hilft ihm, sie besser zu verstehen und die richtigen Antworten zu generieren.

Der nächste Schritt in der Prompt-Engineering-Pipeline ist die selbstgenerierte Chain-of-Thought (CoT). Das Modell wird in natürlicher Sprache dazu animiert, vor der Beantwortung der eigentlichen Fragestellung selbstständig und automatisch eine Reihe von einzelnen Argumentationsschritten zu generieren. So lassen sich komplexe Aufgaben in kleinere Bearbeitungsschritte aufspalten. Durch die mehreren einzelnen Bearbeitungsschritte der vom Modell selbst generierten Chain-of-Thought ist GPT-4 in der Lage, genauere Antworten zu liefern.

Choice Shuffle Ensembling ist ein Prompting-Ansatz, bei dem mehrere Antwortoptionen in unterschiedlichen Reihenfolgen präsentiert und nach verschiedenen Methoden abgeglichen werden, bevor die endgültige Antwort ausgegeben wird.

Mittlerweile hat Microsoft mit Medprompt+ eine modifizierte und optimierte Version der Prompting-Strategie Medprompt entwickelt. Bei Medprompt+ handelt es sich um ein Zwei-Prompt-System. Der erste Prompt ist der normale Medprompt, der zweite Prompt eine mit automatisch generiertem CoT vereinfachte Prompt-Version. Aus den beiden Prompts und die Antworten darauf, wird das endgültige Ergebnis abgeleitet.

Benchmark-Ergebnisse

Medprompt wurde ursprünglich für medizinische Fragestellungen und Benchmarks entwickelt. GPT-4 ohne spezielle Prompting-Strategie liegt in medizinischen Benchmarks deutlich hinter spezialisierten Modellen Med-PaLM-2 zurück. Doch mit Medprompt übertrifft GPT-4 spezialisierte Modelle in Benchmark-Datensätzen wie dem MedQA-, MedMCQA- und PubMedQA-Datensatz der MultiMedQA-Suite.

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Big Data, Analytics & AI

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung. Die Einwilligungserklärung bezieht sich u. a. auf die Zusendung von redaktionellen Newslettern per E-Mail und auf den Datenabgleich zu Marketingzwecken mit ausgewählten Werbepartnern (z. B. LinkedIn, Google, Meta).

Aufklappen für Details zu Ihrer Einwilligung

Die Medprompt-Strategie ist aber nicht nur im medizinischen Umfeld anwendbar, sondern lässt sich auf andere Domänen übertragen. GPT-4 und die optimierte Prompt-Strategie Medprompt+ wurde beispielsweise mit dem MMLU-Benchmark (Measuring Massive Multitask Language Understanding) getestet.

Mit Medprompt+ erreicht GPT-4 eine Spitzenpunktzahl und übertrifft mit 90,10 Prozent sogar das Basissprachmodell Gemini Ultra von Google (90,04 Prozent). Der MMLU-Benchmark testet das Allgemeinwissen und die Fähigkeit zum logischen Denken und Schlussfolgern von Sprachmodellen. Der Test umfasst Zehntausende von Aufgaben aus mehreren Dutzend Fachgebieten wie Mathematik, Informatik, Recht, Ingenieurwissenschaften, Geschichte und andere.

Auch in weiteren Benchmarks wie GSM8K, MATH, HumanEval, BIG-Bench-Hard, DROP und HellaSwag soll GPT-4 andere große Sprachmodelle Gemini Ultra übertreffen.

Die Ergebnisse der Microsoft-Arbeit zeigen, dass ein leistungsfähiges großes Basissprachmodell in Kombination mit fortgeschrittenem Prompt-Engineering domänenspezifische Modelle übertreffen kann. Eine intelligente Prompt-Engineering-Strategie steigert die Fähigkeiten und Leistung generativer Künstlicher Intelligenz. Gleichzeitig reduziert sie den für die Bearbeitung von Aufgaben aus spezifischen Domänen notwendigen Trainings- und Feinabstimmungsaufwand.

(ID:50036524)