Wie präzise die medizinischen Diagnosen von KI- beziehungsweise Large-Language-Model-Systemen sind – dies wurde bekanntlich schon mehrfach analysiert.
Ein Team des Cohen Children's Medical Center in New York ging nun einem Spezialfall nach: nämlich den Kinderkrankheiten. Respektive der Präzision solcher KI-Hilfsdiagnosen in der Pädiatrie.
Das Ergebnis war enttäuschend. Konkret gaben die Autoren um den Pädiater Joseph Barile 100 Symptomschilderungen als Prompts bei ChatGPT (Version 3.5) ein. Resultat: In 83 von 100 Fällen war die Diagnose des Systems inkorrekt.
Mehrheitlich waren die Vorschläge schlicht falsch (72 Fälle), und bei elf Antworten wies ChatGPT zwar auf den richtigen Befund hin, aber die Aussage war zu allgemein gehalten, als dass sie wirklich gestimmt hätte.
Bemerkenswert ist dies, weil das Ergebnis auf spezielle Probleme in der Pädiatrie hinweist. Denn eine
ähnlich angelegte Studie von Forschern aus Boston hatte im Juni 2023 ergeben, dass ChatGPT immerhin in 39 Prozent der Fälle dieselbe Diagnose stellte wie ein Expertenteam (im Rahmen der «New England Journal of Medicine»
Case Challenges, wo jeweils komplexe Fälle analysiert werden). Hier waren die Ergebnisse also spürbar besser gewesen.
Die Autoren des New Yorker Teams erklären nun das deutlich schlechtere Abschneiden bei den pädiatrischen Tests damit, dass das Alter in diesem Feld meist wichtig ist für die präzise Diagnose – und dass die kleinen Patienten ihre Beschwerden oft unklar beschreiben.
Purpura statt Skorbut
Für die Studien nahmen die Autoren Fälle aus Kinderarzt-Praxen, die in «JAMA Pediatrics» in den vergangenen zehn Jahren diskutiert worden waren, und gaben die Symptome und Beschreibungen bei ChatGPT ein.
Dass weniger als ein Fünftel der Eingaben zu einer korrekten Diagnose führten, lässt ahnen, dass solche KI-Helfer bestenfalls als Ideenstütze dienen können.
Oder positiv formuliert: In 57 Prozent der Fälle schaffte es ChatGPT immerhin, die Krankheit bei den richtigen Organen zu verorten.
Beispielsweise diagnostizierte die KI bei einer einer nässenden Papel am Hals eines Säuglings eine Astspaltzyste – die Diagnose des Arztes lautete Branchio-oto-renales Syndrom.
Oder bei einem autistischen Teenager mit Hautausschlag und Arthralgien tippte ChatGPT auf immunthrombozytopenische Purpura; die Diagnose des Arztes lautete: Skorbut.