Massive Multitask Language Understanding (MMLU) ist ein Benchmark, mit dem sich das allgemeine Weltwissen und die Problemlösungsfähigkeiten von Sprachmodellen testen und beurteilen lassen. Der Benchmark deckt verschiedene Wissensgebiete ab, darunter den MINT-Bereich (Mathematik, Informatik, Naturwissenschaft und Technik), aber auch Geistes- und Sozialwissenschaften sowie weitere. Die Schwierigkeit der Aufgaben variiert von Grundstufenwissen bis zu fortgeschrittenem Expertenwissen.
Weiterlesen