Dies sei der «Deep Blue»-Moment für die Pathologen:
So kommentierte ein Professor der Yale Medical School die Ergebnisse in «Medscape». Dass ein Künstliche-Intelligenz-System in so einem Test besser Metastasen erkannte als Ärzte – das soll also ein ähnlich drastischer Bruch sein wie die Niederlage des Schach-Weltmeisters Kasparow gegen den IBM-Computer «Deep Blue» im Jahr 1996.
Was war geschehen? Ein Team von Forschern und Entwicklern aus Nord- und Südamerika, Asien und Europa veranstaltete einen ausgeklügelten Wettbewerb; es ging um die Analyse von Gewebeproben aus Lymphknoten von Brustkrebs-Patientinnen.
B. Ehteshami Bejnordi, M. Veta, P. Johannes van Diest et al.: «Diagnostic Assessment of Deep Learning Algorithms for Detection of Lymph Node Metastases in Women With Breast Cancer», in: JAMA, Dezember 2017
.
- Auf der einen Seite standen 32 AI-Entwicklerteams aus mehreren Ländern. Die Autoren der Studie – Forscher der Uni Nijmegen – stellten ihnen insgesamt 270 CT-Aufnahmen zu, wobei 110 gefährliche Knoten hatten, während 160 keine Befunde aufwiesen. Dies bildete quasi das «Lernmaterial» für die jeweiligen künstlichen Diagnose-Systeme. Danach hatte das Programm 129 Abbildungen von Gewebeproben zu beurteilen.
- Auf der anderen Seite waren zwei Gruppen von Ärzten: Einerseits ein Team von 11 Pathologen, die innert zwei Stunden jene 129 Slides beurteilen mussten. Und andererseits ein Pathologe, dem unbeschränkt Zeit zur Verfügung stand, um alle Bilder zu überprüfen.
Heraus kam, dass die Top-AI-Systeme gar nicht mehr zu schlagen sind. Das beste Programm erkannte Krebs-Gewebe und harmlose Befunde mit fast 100prozentiger Präzision und hatte den praktischen Zusatznutzen, dass es alle heiklen Punkte gleich einfärbte.
Starker Einzelkämpfer
Insgesamt 7 der 32 geprüften Systeme zeitigten bessere Resultate als die Pathologen-Gruppe. Allerdings: Der Einzel-Kämpfer ohne Zeitlimite erzielte dann ebenfalls eine vollständige Präzision. Insgesamt nahm er sich 30 Stunden Zeit, um die 129 Slides zu lesen.
Erwähnt sei allerdings auch, dass die Vertreter der Pathologen-Gruppe fast ausschliesslich Mikrometastasen von weniger als 2 Millimetern übersahen. Den Massstab bildeten dabei Überprüfungen mit immunhistochemischen Färbungen.
Der entscheidende neue Punkt ist nun vor allem die Breite dieser Untersuchung. Dass lernende Algorithmen immer besser in der Lage sind, Bilder nach Krankheitssignalen zu durchforsten, war zuvor ja schon weitherum bekannt. Es gab dieses Jahr mehrere vielbachtete Fälle.
- So meldete die Stanford University, dass ein «Deep Learning»-System Hautkrebs mit ebenso hoher Präzision erkennen kann wie erfahrene Dermatologen.
- Im Februar bewilligte die US-Aufsichtsbehörde FDA eine Software, welche dreidimensionale Ansichten des Herzens erarbeitet und dann, in einem zweiten Schritt, auch Diagnose-Vorschläge präsentiert.
- Im März gab Google bekannt, dass es sein Künstliche-Intelligenz-System in der Brustkrebs-Diagnose mit dem Menschen aufnehmen könne.
- Auch konnten Mediziner des Universitätsspitals Zürich derartige Erfolgsmeldungen bieten. Am USZ-Institut für Diagnostische und Interventionelle Radiologie wurde eine Deep-Learning-basierte Software genutzt, um Brustkrebs in Mammographien zu entdecken. Das Resultat, veröffentlicht im Juli: Die Software zeigte ähnlich gute Resultate wie erfahrene Radiologen.
Das Programm wurde in einem ersten Schritt mit einer Durchschnittsauswahl von Mammographien aus dem USZ-Bestand trainiert. Dann testete das Team um Anton Becker und Andreas Boss die Qualität der Aussagen durch einen Vergleich mit diversen weiteren Mammographie-Sammlungen; so mit Kohorten mit hoher Brustkrebshäufigkeit oder mit einem Bestand aus Portugal, also mit einer völlig anderen Bevölkerung.
Sensitivität versus Spezifität
Auf der Gegenseite suchten dann drei erfahrene Radiologen nach Brustkrebs-Signalen in den Bildern. Das Ergebnis: Das trainierte AI-Programm erreichte ungefähr die Leistung der Radiologen. Auch in einer Kohorte mit tiefer Brustkrebs-Neigung schaffte das System ähnliche Werte wie die Ärzte aus Fleisch und Blut.
Oder genauer: Die Radiologen waren durchgehend weniger sensitiv – das heisst, sie entdeckten Abweichungen weniger zuverlässig. Aber: Bei der Spezifität schnitten sie besser ab – sie konnten die erfassten Läsionen besser einschätzen.
Zum Vergleich: In Anfang Jahr veröffentlichten Versuchen bei Google lokalisierte und erkannte das AI-System in 89 Prozent der Fälle einen Tumor in der Brust korrekt. In einer Vergleichsgruppe aus erfahrenen Pathologen – ohne Zeitdruck – lag die Quote bei 73 Prozent.
Hilfsmittel zur Bestätigung
«Im Ergebnis zeigte sich, dass das trainierte Programm schon sehr nahe an die menschliche Leistung heranreicht», kommentierte Andreas Boss die
Ergebnisse im USZ-Blog im November. Der Leitende Arzt am USZ erwartet, dass sich mit solchen Techniken insbesondere die Arbeit der Radiologen in den nächsten Jahren nachhaltig verändern wird – die maschinellen Befunde würden mehr und mehr als Hilfsmittel zur Bestätigung und Interpretation eingesetzt.
—