KI in der Notaufnahme: Studie zeigt Grenzen von Chatbots bei diagnostischen Entscheidungen
Large Language Models (LLMs) schneiden in medizinischen Wissenstests immer besser ab. KI-Chatbots kommen daher zunehmend als Hilfsmittel im Klinikalltag infrage. Forschende der Technischen Universität München testeten Sprachmodelle erstmals an realen Patient*innendaten im Kontext einer Notaufnahme. Das Ergebnis: LLMs sind klinischen Entscheidungssituationen derzeit (noch) nicht gewachsen.
Künstliche Intelligenz (KI) wird in der klinischen Forschung und Praxis immer wichtiger, insbesondere für die Auswertung großer Datenmengen oder der Analyse bildgebender Verfahren. Mit dem Aufstieg von Chatbots gerieten Large Language Models (LLMs) in den Fokus. KI-Sprachprogramme können bereits Patient*innenakten zusammenfassen, Arztbriefe erstellen und radiologische Ergebnisse beschreiben. Da LLMs mit riesigen Textkorpora trainiert werden, können sie umfassendes Fachwissen abrufen: Inzwischen bestehen gängige Sprachmodelle problemlos medizinische Prüfungen und Aufnahmetests. LLMs bringen sich damit als Assistenz für klinische Entscheidungen ins Spiel, von der Diagnose bis zur Wahl der richtigen Therapie.
KI in der Diagnostik: Wissen allein reicht nicht
Ein interdisziplinäres Team der TU München hat untersucht, ob diese Hoffnung derzeit der Realität standhält. „LLMs sind deswegen spannend, weil sie auf jede Frage flexibel reagieren können, ohne dass sie auf diese Frage trainiert worden sind“, erklärt Informatiker Paul Hager. Zusammen mit der Radiologie-Assistenzärztin Friederike Jungmann ist er Erstautor der Studie, die in Nature Medicine erschienen ist. „Wir haben getestet, wie gut gängige Sprachmodelle ihre Stärken auf ein klinisches Notfallszenario anwenden können.“ Dafür braucht es mehr als medizinisches Wissen, wie Friederike Jungmann betont: „Die KI muss außerdem Behandlungsrichtlinien folgen und damit umgehen können, dass nicht alle Daten gleich verfügbar sind. So wie ich als Ärztin erst die richtigen Tests anordnen muss, bevor ich zur Diagnose gelangen und einen Therapieplan erstellen kann.“ In bisherigen Studien, die LLMs vorwiegend mit hypothetischen Patient*innenfällen und Single-Choice-Tests prüften, war das aber nicht berücksichtigt worden.
Hager, Jungmann und Kolleg*innen schlossen diese Forschungslücke, indem sie fünf führende LLMs mit 2.400 anonymisierten Patient*innendaten aus den USA konfrontierten. Alle Betroffenen waren mit Bauchschmerzen in die Notaufnahme gekommen. Die KI erhielt jeweils nur die Daten, die auch die realen Ärzt*innen zum jeweiligen Zeitpunkt hatten, und musste die nächsten Schritte autonom entscheiden. So wurde ein realistisches klinisches Setting simuliert.
Chatbots sind ungeduldig und unzuverlässig
Die Ergebnisse waren ernüchternd. Nicht nur, dass die KI es verabsäumte, wichtige Labortests anzuordnen: Sie war auch nicht in der Lage, Laborergebnisse richtig zu interpretieren. Zudem befolgte sie Behandlungsrichtlinien nicht und diagnostizierte vorschnell. Die KI-Performance war auch nicht robust: Sie schwankte je nachdem, wie Informationen formuliert waren und welcher Reihenfolge sie erschienen. Das macht einen Alltags-Einsatz der KI unmöglich. Die Modelle diagnostizierten sogar schlechter, je mehr Informationen sie bekamen, was zeigt, dass sie neue diagnostische Hinweise nicht priorisieren konnten.
Selbst dann, wenn der KI direkt alle Details vorlagen, diagnostizierten sie signifikant schlechter als ihre menschlichen Pendants. Das beste Modell lag im Schnitt in 73 Prozent der Krankheitsbilder richtig, die Kontrollgruppe der Ärzt*innen zu 89 Prozent. Ein Modell erkannte sogar nur 13 Prozent der vorliegenden Cholecystitis-Fälle. Lediglich die Appendicitis-Fälle konnten drei LLMs zu 100 Prozent richtig diagnostizieren. In Summe wären LLMs als autonome Entscheider derzeit nicht nur unpraktisch, sondern ein Risiko.
Messlatte für neue KI-Generationen
Abschreiben sollte man die Technologie deswegen nicht, sind die Forscher*innen überzeugt. „Die neuesten LLMs sind im schrittweisen Problemlösen wieder ein Stückchen besser“, so Hager. Mit ihrem Testumfeld haben die Forscher*innen eine klinisch relevante Benchmark für künftige Chatbot-Generationen etabliert. LLMs in der Medizin sind jedenfalls gekommen, um zu bleiben: Da Menschen hauptsächlich über Sprache mit ihrer Umwelt interagieren, könnten Large Language Models künftig eine unverzichtbare Schnittstelle zu medizinischen KI-Anwendungen bilden.
Text: Sebastian Deiber
Foto : Klinikum rechts der Isar/ K. Czoppelt
Quellen: Hager, Paul, et al. Evaluation and mitigation of the limitations of large language models in clinical decision-making. Nature medicine 30.9 (2024): 2613-2622; Interview mit Paul Hager und Friederike Jungmann; Pressemitteilung der TU München