Studie: KI-Chatbots wären miserable Ärzte

Sie stellen vorschnelle Diagnosen, scheren sich nicht um Richtlinien und verlangen riskante Untersuchungen.

, 26. Juli 2024 um 05:00
letzte Aktualisierung: 1. November 2024 um 09:06

Symbolbild: Medinside (erstellt mit KI Midjourney).

So lässt sich ein Befund aus der Technischen Universität München zusammenfassen. Dort setzte ein Team dem so genannten Large Language Model Llama 2 reale Fälle vor. Dazu nahmen die Forscher anonymisierte Daten von 2400 Patienten aus einer Notaufnahme in den USA. Alle Betroffenen waren mit Bauchschmerzen ins Spital gekommen – und zu ihren Fällen waren alle Daten verfügbar, die in der Wirklichkeit für die Diagnose erfasst wurden, beispielsweise Krankengeschichte, Blutwerte und Bildgebungsdaten.

«Wir haben die Daten so aufbereitet, dass die Algorithmen die realen Abläufe und Entscheidungsprozesse im Krankenhaus nachspielen konnten», sagt Friederike Jungmann; sie ist Assistenzärztin in der Radiologie des Klinikums rechts der Isar und mit dem Informatiker Paul Hager Erstautorin der Studie: «Das Programm hat immer nur die Informationen, die auch die realen Ärztinnen und Ärzte hatten. Ob es beispielsweise ein Blutbild in Auftrag gibt, muss es selbst entscheiden und dann mit dieser Information die nächste Entscheidung treffen, bis es schliesslich eine Diagnose und einen Behandlungsplan erstellt.»

Paul Hager, Friederike Jungmann, Robbie Holland …, Daniel Rueckert et al.: «Evaluation and mitigation of the limitations of large language models in clinical decision-making», in: «Nature Medicine», Juli 2024.
DOI: 10.1038/s41591-024-03097-1

Es zeigte sich, dass der digitale Assistenzarzt ziemlich schlampte. Keines der Large Language Models forderte durchgängig alle notwendigen Untersuchungen ein.

Behandlungsrichtlinien befolgten die Programme oftmals nicht. Und so ordnete die KI teils auch Untersuchungen an, die für echte Patientinnen und Patienten schwere gesundheitliche Folgen gehabt hätten.

Bemerkenswert dabei: Die Diagnosen wurden sogar weniger zutreffend, je mehr Informationen zum Fall vorlagen.

Weiter verglich das Team um Friederike Jungmann und Paul Hager die KI-Diagnosen mit den Diagnosen von vier Ärztinnen und Ärzten. Während die menschlichen Mediziner bei 89 Prozent der Diagnosen richtig lagen, kam das beste Large Language Model auf 73 Prozent. In einem Extremfall diagnostizierte ein Modell Gallenblasenentzündungen nur in 13 Prozent der Fälle korrekt.

«Je nachdem, ob das Programm um eine 'Main Diagnosis', eine 'Primary Diagnosis' oder eine 'Final Diagnosis' gebeten wurde, befand es etwas anderes.»

Jedes Modell erkannte manche Erkrankungen besser als andere. Und welche Diagnose ein Large Language Modell stellte, hing unter anderem davon ab, in welcher Reihenfolge die Informationen eingefüttert wurden.

Sprachliche Feinheiten beeinflussten das Ergebnis ebenfalls – je nachdem, ob das Programm um eine «Main Diagnosis», eine «Primary Diagnosis» oder eine «Final Diagnosis» gebeten wurde, befand es etwas anderes. Aber im Klinikalltag sind diese Begriffe zumeist austauschbar.

Damit bestätigt sich wieder einmal, dass die KI-Systeme Orientierungshilfen sind – mehr nicht.

«Large Language Models könnten in Zukunft wichtige Werkzeuge für Ärztinnen und Ärzte werden, mit denen sich beispielsweise ein Fall diskutieren lässt», sagt Daniel Rückert, der Leiter des Zentrums für Digitale Medizin und Gesundheit an der TUM: «Wir müssen uns aber immer der Grenzen und Eigenheiten dieser Technologie bewusst sein und diese beim Erstellen von Anwendungen berücksichtigen.»

Der KI-Ticker: KI kann aus Sprechweise Demenz ableiten ++ Deutschsprachiges «ChatGPT für Ärzte» ++ KI und ärztliche Ethik ++ KI in der Kardiologie ++ Entzündung durch Bakterien oder Viren? ➡️ KI findet den Unterschied.

künstliche intelligenz

Artikel teilen

Kommentar

2 x pro Woche
Abonnieren Sie unseren Newsletter.

Mehr zum Thema

Künstliche Intelligenz optimiert klinische Abläufe und ermöglicht neue Behandlungsmöglichkeiten

Künstliche Intelligenz (KI) und maschinelles Lernen (ML) revolutionieren die Medizintechnik und verbessern die Patientenversorgung. Trotz innovativer Lösungen bei Diagnostik und Therapie gibt es Herausforderungen bei der Integration, wie Datenqualität, transparente Algorithmen und ethische Fragen.

Der KI-Ticker

Wo Künstliche Intelligenz das Gesundheitswesen verändert

Chatbox für Patientenfragen ++ Leitfaden: KI in Medizin und Pflege ++ Modell erahnt Parkinson-Risiko ++ KI in der Krebserkennung ++ KI kann aus Sprechweise Demenz ableiten ++

KI wird zum Hilfsmittel für die Psychotherapie

Eine Studie der Universität Basel zeigt: Künstliche Intelligenz misst kurze Gefühlsregungen sensibler als geschulte Psychologen. Sie dürfte bald helfen, Therapie-Fortschritte zu messen.

Bildanalyse kann Brustkrebs besser voraussagen

Schweizer Forscher schätzen mit Künstlicher Intelligenz das Stadium von Brustkrebs ein. Das könnte Ärzten helfen, die richtige Behandlung zu wählen.

KI auf Abwegen: Wenn das Röntgenbild sagt, dass einer Bier trinkt

Künstliche Intelligenz birgt in der Medizin ein heikles Risiko: das «Shortcut Learning». Dabei liefern Algorithmen völlig akkurate Ergebnisse – die völlig falsch sind.

Kantonsspital Baden: KI überwacht den Husten

Ein neues Gerät soll helfen, anrollende Infektionswellen zu erkennen – um früher Massnahmen einzuleiten.

Vom gleichen Autor

USZ: Mehr Vertrauen in die Spitalleitung

Die Fluktuationsrate des Personals im Universitätsspital Zürich erreichte letztes Jahr 13 Prozent. Im Kantonsspital Winterthur lag sie bei 11 Prozent.

Kantonsspital Winterthur kämpft sich zurück

Mehr Patienten, strikteres Kostenmanagement, verbesserte Abläufe: Das KSW konnte letztes Jahr den Verlust halbieren.

Zurück auf die Beine: Stimulation hilft Gelähmten beim Gehen

Ein neues Verfahren aus Lausanne verbindet Rückenmark-Stimulation mit Robotik – um bei Querschnittgelähmten die Muskelkoordination zu verbessern. Das System könnte weltweit in Reha-Kliniken eingesetzt werden.