LLMs als Arzthelfer: Benchmark von Hugging Face gibt Zeugnisse für GPT und Co.
Die Betreiber einer Hosting-Plattform für KI-Modelle bieten einen Benchmark, um den Einsatz von LLMs im Gesundheitswesen zu beurteilen.
Die Betreiber der KI-Plattform Hugging Face haben das "Open Medical-LLM Leaderboard" vorgestellt. Der Benchmark bewertet große Sprachmodelle (Large Language Models, LLMs) danach, wie gut sie sich bei Fragen im Gesundheitswesen schlagen.
Als Motivation nennt Hugging Face, dass Fehler – LLMs neigen zum Halluzinieren – im Small Talk kaum ins Gewicht fallen, aber im Gesundheitswesen eine falsche Erklärung oder Antwort schwerwiegende Konsequenzen für die Patientenversorgung oder Behandlungsergebnisse haben können.
Diagnose korrekt, Kontraindikation ignoriert
Als Beispiel führt der Blogbeitrag zur Veröffentlichung des Benchmarks eine medizinische Frage zur Versorgung einer schwangeren Patientin an, die nach einem Biss bei der Gartenarbeit über Fieber, Kopf- und Gelenkschmerzen klagt. Ein Test für Borreliose wird durchgeführt, und die Frage ist, mit welcher Medikation der Patientin am besten zu helfen ist. Die Optionen sind Ibuprofen, Tetracyclin, Amoxicillin und Gentamicin.
Zwar reagiert das LLM GPT-3.5 korrekt auf die vermutliche Borreliose, wählt allerdings Tetracyclin aus, für das eine klare Kontraindikation zur Einnahme in der Schwangerschaft besteht. GPT-3.5 beruft sich dagegen darauf, dass die Einnahme nach dem ersten Trimester der Schwangerschaft sicher sei.
Ein Benchmark ist daher laut Hugging Face unerlässlich, um bewerten zu können, wie weit sich welche LLMs für den Einsatz im Gesundheitswesen einsetzen lassen.
Medizinische Datensätze als Grundlage
Der Benchmark verwendet zahlreiche medizinische Datensätze, darunter MedQA (USMLE) (Medical Domain Question Answering), PubMedQA, MedMCQA (Medical Domain Multiple-Choice Question Answering) und Teile von MMLU (Measuring Massive Multitask Language Understanding) für Fragen bezüglich Medizin und Biologie. Das Leaderboard bewertet das medizinische Wissen und die Fähigkeiten der einzelnen Modelle, konkrete Fragen zu beantworten.
Die Genauigkeit der Antworten (Metric Accuracy, ACC) ist der Hauptfaktor zur Evaluierung der Modelle. Das Leaderboard verwendet das Open-Source-Framework Eleuther AI Language Model Evaluation Harness, um die Large Language Models zu bewerten.
Weitere Details unter anderem zu den einzelnen Datensätzen lassen sich dem Hugging-Face-Blog entnehmen. Der Beitrag enthält eine interaktive Tabelle mit den Ergebnissen einiger Sprachmodelle.
(rme)