Skip to main content
Erschienen in: Die Pathologie 2/2024

Open Access 19.02.2024 | Künstliche Intelligenz | Originalien

Die Modelltransferierbarkeit von KI in der digitalen Pathologie

Potenzial und Realität

verfasst von: Robin S. Mayer, Maximilian N. Kinzler, Alexandra K. Stoll, Steffen Gretser, Paul K. Ziegler, Anna Saborowski, Henning Reis, Arndt Vogel, Peter J. Wild, Nadine Flinner

Erschienen in: Die Pathologie | Ausgabe 2/2024

Zusammenfassung

Ziel der Arbeit

Künstliche Intelligenz hat das Potenzial, in der Pathologie weitreichende Fortschritte zu erzielen. Doch die tatsächliche Anwendung und Zertifizierung für die Praxis bleibt begrenzt, oft aufgrund von Herausforderungen bei der Transferierbarkeit von Modellen. In diesem Kontext untersuchen wir die Faktoren, die die Transferierbarkeit beeinflussen, und präsentieren Methoden, die dazu beitragen, die Nutzung von KI-Algorithmen in der Pathologie zu verbessern.

Material und Methoden

Mithilfe von Datensätzen aus 2 Instituten und dem öffentlich zugänglichen TCGA-MBIC-Datensatz (TCGA, The Cancer Genome Atlas) wurden Convolutional Neural Networks (CNN) und Vision Transformer (ViT) für Vorhersagen an Urothelgewebe (Karzinom- vs. Normalgewebe) und an intrahepatischen Cholangiokarzinomen (iCCA, „small vs. large duct“) trainiert. Veranschaulicht wird der Einfluss von Farbnormalisierung, Bildartefakten in Training und Anwendung sowie der NoisyEnsemble-Methode.

Ergebnisse

Wir konnten demonstrieren, dass Farbnormalisierung von Gewebeschnitten einen positiven Effekt auf die Interinstitutstransferierbarkeit von CNNs und ViTs hat (respektive +13 % und +10 %) und ViTs meist eine höhere Genauigkeit im externen Test erzielen (hier +1,5 %). Ebenso konnten wir zeigen, dass Artefakte in Testdaten die Vorhersagen von CNNs negativ beeinflusst und dass das Einbeziehen dieser Artefakte während des Trainings zu einer Verbesserung führt. Schließlich erhöhen NoisyEnsembles aus CNNs (besser als aus ViTs) auf verschiedenen Geweben und Fragestellungen die Transferierbarkeit (+7 % Blase, +15 % iCCA).

Diskussion

Wichtig ist vor allem, sich dem Problem der Transferierbarkeit bewusst zu sein: Gute Performance in der Entwicklung bedeutet nicht gute Performance in der Anwendung. Der Einbezug vieler bereits existierender Methoden zur Verbesserung der Transferierbarkeit, wie z. B. Farbnormalisierung und NoisyEnsemble, und deren Weiterentwicklung sind von großer Wichtigkeit.
Hinweise

Schwerpunktherausgebende

Peter Boor, Aachen
Nadine Flinner, Frankfurt a. M.
Peter Wild, Frankfurt a. M.

Zusatzmaterial online

Die Online-Version dieses Beitrags (https://​doi.​org/​10.​1007/​s00292-024-01299-5) enthält eine ausführliche Version der Methoden inkl. Abb. S1 und Abb. S2.
Zusatzmaterial online – bitte QR-Code scannen

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.
Künstliche Intelligenz (KI) hat sich in einer Vielzahl von Anwendungen bewährt, angefangen bei Bildverarbeitung (z. B. Gesichtserkennung) bis hin zu Datenbanken (z. B. zielgerichtete Werbung). Auch in der Pathologie wird an KI geforscht und vor allem im wissenschaftlichen Umfeld konnten bereits Erfolge verbucht werden, die von der Unterstützung einfacher diagnostischer Aufgaben bis hin zur Vorhersage von molekularen Eigenschaften oder dem Überleben von Patienten reichen [1, 2]. Dennoch gibt es in der Pathologie Herausforderungen, die in anderen Bereichen weniger gravierende Folgen haben: Die Transferierbarkeit der Algorithmen auf neue Datensätze.
Unter der Transferierbarkeit versteht man das Anwenden von trainierten KI-Modellen auf Daten, welche nicht Teil des Trainings waren und z. B. aus neuen Instituten stammen. Geprüft wird hierbei, ob die Modelle das Gelernte generalisieren können oder ob sie sich auf spezifische Eigenschaften des Trainingsdatensatzes konzentrieren. Um dies zu testen, ist es gängige Praxis Out-of-domain-Tests zu verwenden, die z. B. Bilder enthalten, die in Instituten erstellt wurden, die noch nicht zum Training beigetragen haben [3]. Im Gegensatz hierzu wird beim Transferlernen die Lösung eines bestimmten Problems auf ein neues Problem übertragen. Das Vortraining von Convolutional Neural Networks (CNN) auf großen Datensätzen ist hier ein prominentes Beispiel [4].
Im Allgemeinen gilt: Je vielfältiger und repräsentativer der Trainingsdatensatz ist, desto wahrscheinlicher ist es, dass das Modell auf Daten mit leicht veränderten Eigenschaften erfolgreich angewendet werden kann und transferierbar ist [5]. Jedoch sind große und vielfältige Trainingsdatensätze aus multiplen Instituten nicht für jede Fragestellung vorhanden, vor allem dann nicht, wenn es um seltene Krankheiten geht [6]. Außerdem sollte bewusst sein, dass nicht immer alle Eventualitäten im Trainingsdatensatz abgebildet sind, da durch neue Entwicklungen immer unvorhergesehene Eigenschaften in den Schnitten auftreten können. Somit ist es wichtig, sich mit der Transferierbarkeit von KI-Modellen auseinanderzusetzen, um zu verstehen, wie diese beeinflusst wird und optimiert werden kann.

Realität der KI-Integration in der digitalen Pathologie

Die Anzahl der für die Pathologie entwickelten KI-Methoden steigt rasant. In PubMed wurden in 2000 nur 77 Artikel, in 2010 schon 453 und in 2020 bereits 3108 Artikel veröffentlicht, die auf die Suchanfrage „pathology AND (artificial intelligence OR machine learning)“ passen. Diese Zahlen zeigen, dass KI eine wichtige Rolle in der Pathologie einnimmt und dazu beitragen kann, verschiedene Probleme zu lösen:
1.
Reduzierung von Kosten, wenn mittels KI bestimmt wird, welche Labortests sinnvoll sind [1, 7],
 
2.
vermindern von Intra- und Interbeobachtervariabilität und das Schaffen neuer Standards, wenn mittels KI z. B. das Schätzen von betroffenen Zellen (z. B. Anteil Ki-67+-Zellen) unterstützt wird [8],
 
3.
Zeitersparnis, wenn die KI z. B. alle Schnitte eines Falls nach Relevanz sortiert oder hoch repetitive Aufgaben, z. B. Auszählen von Objekten, unterstützt [8, 9],
 
4.
vermeiden von Fehlern und Übersehen von seltenen Diagnosen, da niemand Experte für alles ist [6].
 
Trotzdem gibt es erst einen von der Food and Drug Administration (FDA) zugelassenen KI-Algorithmus in der Pathologie, welcher Inferenz von KI in der Anwendung nutzt ([10], Stand FDA: Okt. 2023). In der Radiologie hingegen gibt es bereits 531 FDA-zugelassene Algorithmen und weniger Transferprobleme, da hier z. B. bestehende Standardisierungssysteme wie DICOM („Digital Imaging and Communications in Medicine“) angewendet werden [11]. Beim Beispiel aus der Pathologie handelt es sich um das KI-Tool Paige Prostate [2], welches die Unterstützung von Ärzten während der Routinediagnostik ermöglicht. Die FDA-Zertifizierung war allerdings ein weiter Weg: Erst nach mehreren Jahren, genauester Analyse von Daten aus 218 verschiedenen Instituten und der Kontrolle durch 16 Pathologen erfolgte die Marktfreigabe durch die FDA [12].
Dies verdeutlicht, wie schwierig es ist, ausreichend genaue und robuste Algorithmen für die Pathologie zu entwickeln, die auch auf Daten aus anderen Instituten anwendbar sind. Da Fehler bei Entscheidungen von KI gerade im medizinischen Bereich gravierende Auswirkungen haben können, muss mit den bekannten Herausforderungen sorgfältig umgegangen werden. Neben Punkten wie der Erklärbarkeit oder der Bewertung der Güte von Vorhersagen hat die Transferierbarkeit der Algorithmen auf neue Datensätze eine besondere Relevanz.
Auch im wissenschaftlichen Umfeld nutzen immer mehr Studien externe Testdaten, um zu prüfen, ob ihre Modelle generalisieren [5].
Jedoch ist es nicht nur wichtig, empirisch zu überprüfen, ob ein Modell generalisiert, sondern auch zu verstehen, welche Parameter die Übertragbarkeit verbessern und wie das Problem überwunden werden kann. Im Folgenden werden, auch anhand von eigenen Beispieldaten, diese Faktoren genauer beleuchtet und Methoden vorgestellt, die den Transfer von Modellen verbessern.

Einflussfaktoren auf Transferierbarkeit

Sollen Daten genutzt werden, welche vom Trainingsdatensatz abweichen, verlieren Modelle häufig Genauigkeit [13]. Dies kann von vielen Faktoren beeinflusst werden (Abb. 1):
1.
Ein wichtiger Faktor ist die Modellarchitektur, einschließlich ihrer Größe und der Anzahl der Layer. Generell gilt, dass größere Modelle i. d. R. ein größeres Potenzial haben, zu generalisieren. Sie benötigen jedoch auch mehr Daten zum Trainieren [14]. Dabei kann die Datenerweiterung (engl. „data augmentation“) helfen, bei der bestehende Daten durch z. B. Rotation leicht verändert werden [4]. Zusätzlich kann ein Vortraining (engl. „pre-training“) helfen. Hier wird das Modell vor dem eigentlichen Training auf Daten trainiert, die möglicherweise nicht direkt mit der Zielaufgabe zusammenhängen [15].
Die Dauer des Trainings ist ein weiterer entscheidender Faktor. Eine zu kurze Trainingsdauer kann dazu führen, dass das Modell nicht genügend Features erlernt und nicht generalisiert. Andererseits kann ein zu langes Training dazu führen, dass das Modell die Trainingsdaten auswendig lernt (engl. „overfitting“) und neue Datenpunkte nicht korrekt zuordnen kann [5]. Durch frühzeitiges Anhalten des Trainings (engl. „early stopping“) bei stagnierender Performance kann dieses Problem weitgehend vermieden werden.
 
2.
Der Trainingsdatensatz spielt ebenfalls eine entscheidende Rolle bei der erfolgreichen Übertragbarkeit von Modellen. Zum einen ist die Größe des Datensatzes von Bedeutung [16]. In der digitalen Pathologie ist es oft eine Herausforderung, ausreichend große Mengen an annotierten Daten zu erhalten. Teilweise werden zeitaufwendige manuelle Annotationen benötigt [17], es fehlen Metadaten (z. B. Sequenzierungs- und/oder Überlebensdaten) oder das Einverständnis der Patienten. Aber auch Scandauer und permanente Speicherung hochauflösender Bilder digitalisierter Schnittpräparate stellen Hindernisse dar [18]. Zum anderen kann es auch bei einem großen, zu einheitlichen und wenig variablen Trainingsdatensatz passieren, dass Modelle nicht genügend Features erlernen und nicht generalisieren [19].
Ein ungewollter Bias kann ebenfalls leicht im Trainingsdatensatz entstehen, wenn z. B. Daten nicht aus verschiedenen Einrichtungen kommen oder sogar Daten einzelner Subgruppen bevorzugt aus einer spezialisierten Einrichtung gewählt werden, in denen Patienten nur mit bereits bestehendem Verdacht behandelt werden. Dann können sich Modelle schnell an Mustern orientieren, die nur im Trainingsdatensatz auftreten [19]. Weiterhin kann ein Bias im Datensatz entstehen, wenn die Trainingsdaten bevorzugt aus bestimmten Regionen (z. B. Deutschland) stammen und dadurch nicht alle ethnische Gruppen repräsentiert sind, auf die der Algorithmus möglicherweise angewendet werden soll.
 
3.
Die Übertragung von Modellen kann auch durch organisatorische Faktoren beeinflusst werden, wie z. B. die Standardisierung von Bildformaten und Metadaten sowie die Einstellungen der Scannerparameter [5]. Hier könnten auch Standards wie DICOM eine Übertragung vereinfachen. Anders als in der Radiologie gibt es in der Pathologie jedoch nur eine sehr geringe Adaption [11].
 
4.
Schließlich können bei der Verarbeitung von Geweben und Objektträgern im Institut verschiedene Effekte und Artefakte auftreten. Dabei spielt z. B. die Wahl des Scanners sowie dessen Konfiguration eine Rolle. Zur Konfiguration gehören Punkte wie Farbschema, Kontrast, Kompressionsstärke, Auflösung, Anzahl der Fokuspunkte und das Stitching (Zusammenfügen kleiner gescannter Bereiche zum Gesamtbild). Zudem können physische Merkmale der Glas-Slides wie das Vorhandensein fremder Objekte auf dem Objektträger (z. B. Haare, Hautschuppen) sowie Veränderungen am Gewebe, die während der Verarbeitung auftreten können, die Übertragbarkeit erschweren. Dazu gehören Deformationen des Gewebes, zu dünne/dicke Schnitte, Falten sowie Risse im Gewebe [20].
 

Material und Methoden

In dieser Arbeit haben wir die Übertragbarkeit von trainierten Modellen anhand zweier Beispiele untersucht. Für die Unterscheidung zwischen Karzinom- und Normalgewebe (Urothelgewebe) wurden Whole Slide Images (WSI) aus dem TCGA („The Cancer Genome Atlas“; n = 107) für Training, Validierung und den internen Test verwendet. Für jedes WSI wurden 80 Kacheln (299 × 299 Pixel mit einer Auflösung von 1 µm/Pixel) jeder Klasse gesampelt und patientenstratifiziert auf die Datensätze aufgeteilt. Als externer Test wurden Daten (n = 17) aus dem Dr. Senckenbergischen Institut für Pathologie (SIP) genutzt, um die Generalisierbarkeit der Modelle zu überprüfen. Im zweiten Bespiel wurde zwischen histologischem „small duct“ und „large duct“ des intrahepatischen Cholangiokarzinoms (iCAA) unterschieden. WSIs aus dem SIP (n = 62) wurden für Training, Validierung und internen Test genutzt. Eine weitere Kohorte (n = 25) aus der Medizinischen Hochschule Hannover (MHH) diente als externer Test.
Die Modelle wurden für 25 Epochen mit TensorFlow [21] trainiert und umfassten CNNs (ResNet18, DenseNet121, VGG16 und Xception) und Vision Transformer (ViT-B/16). Als Optimierungsalgorithmus wurde AdaMax mit einer Lernrate von 0,001 genutzt, als Verlustfunktion („loss“) wurde die binäre Kreuzentropie („binary cross-entropy“) gewählt. Für Ensembles wurden je 15 Modelle durch Bagging trainiert und aggregiert. Bei NoisyEnsembles wurden zusätzlich 15 % der Labels im Training verfälscht [13].
Die Farbnormalisierung der Kacheln (Training + Test) wurde nach Vahadane [22] durchgeführt, für die Farbaugmentierung (nur Training) wurde die Hue-Saturation-Value-Methode (HSV) [23] genutzt. Die untersuchten Bildartefakte wurden mit dem Python-Modul cv2 (für Unschärfe, Helligkeit und Kontrast) und Pillow (für JPEG-Komprimierung) nach der Farbnormalisierung in das Bild eingebracht.
Für eine ausführlichere Version der Methoden mit allen verwendeten Parametern wird auf den Text im Onlinezusatzmaterial verwiesen.

Ergebnisse und Diskussion

Farbnormalisierung verbessert Übertragbarkeit von CNNs

Eine etablierte Methode zur Überwindung von Transferproblemen in der digitalen Pathologie ist die Farbnormalisierung (FN) (engl. „stain normalization“) [24], die Farbunterschiede aus Digitalisierung und Labor ausgleichen kann (Abb. 2a). Bei der Vahadane-FN [22] werden zuerst die Hämatoxylin- und Eosin-Konzentrationen approximiert (Abb. 2b) und an ein Referenzbild angeglichen. Die FN verändert in unserem Beispiel zur Unterscheidung von Karzinom- vs. Normalgewebe im muskelinvasiven Urothelkarzinom die Genauigkeit im internen Test (der genau wie Trainings- und Validierungsdatensatz Daten aus der TCGA-Kohorte [25] enthält) nicht. Die Patienten wurden stratifiziert auf die verschiedenen Datensätze aufgeteilt. Im Transfer auf Daten aus einem anderen Institut (hier dem SIP) kommt es aber zu einer signifikanten Erhöhung der Genauigkeit (+13 %, Abb. 2d). Neben Vahadane gibt es noch weitere FN-Methoden, z. B. werden KI-Modelle wie StainGan [26] für den Farb- und Styletransfer genutzt. Diese funktionieren oft besser, benötigen aber zum Trainingszeitpunkt Beispiele der Zieldomain und können Artefakte in die Bilder einfügen. Die absichtliche Augmentation mit verschiedenen Farbschemata (z. B. HSV) [23] wird nur während des Trainings angewendet. Sie ruft durch Änderungen an Hue und Sättigungswerten Änderungen im Farbschema hervor (Abb. 2c), erzielt genau wie die FN signifikant höhere Genauigkeiten im externen Test (Abb. 2d) und verbessert somit den Transfer der Modelle (+14 %). Dabei scheint HSV einen Vorteil gegenüber der FN zu haben, der jedoch nicht statistisch signifikant ist (Abb. 2d). Aufgrund der ähnlichen Performance können daher beide Methoden genutzt werden.

Bildartefakte verschlechtern die Transferierbarkeit von CNNs

Um zu untersuchen, welchen Einfluss institutsbedingte Eigenschaften auf die Transferierbarkeit haben, wurden verschiedene Artefakte in die Bilder eingefügt:
1.
Ein nicht korrekter Fokuspunkt des Scanners wurde durch Gauß-Unschärfe (engl. „blur“) simuliert (Abb. 3a).
 
2.
Um die Dateigröße von WSIs zu minimieren, werden sie als JPEG-komprimierte Bilder gespeichert. Um zu sehen, welchen Einfluss verschiedene Kompressionsraten haben, wurden die Bilder mit verschiedenen Raten komprimiert (Abb. 3b).
 
3.
Verschiedene Helligkeiten (Abb. 3c) und Kontraste (Abb. 3d) können durch Eigenschaften der Slide/des Scanners bedingt sein.
 
War das Artefakt nur im Test, verschlechterte sich die Performance mit zunehmender Stärke für alle Artefakte auf bis zu 50 % (Abb. 3). War das Artefakt jedoch im Training anwesend, konnte ein Teil der Performance erhalten werden. Bei „blur“ und JPEG-Kompression gab es sogar bei starkem Effekt keinen Qualitätsverlust. Der Performancegewinn (∆ = Genauigkeit+Artefakt – Genauigkeit-Artefakt) ist für den internen Test immer höher als für den externen Test. Somit sind Modelle beim Transfer entsprechend anfälliger für Artefakteinflüsse, selbst wenn diese im Training berücksichtigt wurden.

Methoden zu Verbesserung der Transferierbarkeit von CNN-Modellen

Die Vielseitigkeit der Probleme der Transferierbarkeit haben wir eingehend erläutert, aber wie können diese überwunden werden? Guan et al. [3] beschreiben 2 Methodengruppen, um einen erfolgreichen Transfer oder die auch sog. Domain Adaptation zu erreichen: Shallow Models und Deep Models. Shallow models beruhen auf Statistik und klassischem Machine Learning. Darunter fällt zum Beispiel das Instance Weighting, bei dem die Bilder der Quelldomäne, z. B. anhand ihrer Ähnlichkeit der Featureverteilung zur Zieldomäne, gewichtet werden. Beispiel für Deep Models ist u. a. das Image Alignment. Hier werden Eigenschaften der Bilder (z. B. die Menge des Bildrauschens) durch Deep-Learning-Modelle angeglichen, bevor eine Klassifizierung durchgeführt wird. Die meisten dieser Methoden fokussieren sich jedoch auf die Anpassung an eine bekannte Zieldomäne. Es ist also erforderlich, vor dem Training zu wissen, dass unterschiedliche Domänen existieren und Beispielbilder für beispielsweise das Finetuning oder das Trainieren eines Generative Adversarial Networks (GAN) oder Domänendiskriminators zu haben. Wenn der Domänenshift jedoch unerwartet auftritt, z. B. durch eine veränderte Qualität der Schnitte [13] aufgrund veränderter Arbeitsabläufe im Labor, können diese Methoden zur Domainadaption ohne Neukalibrierung versagen. Daher ist es wichtig auch allgemeine Methoden zur Transferverbesserung anzuwenden, die ohne Wissen über Zieldomänen auskommen, wie z. B. FN oder HSV-Augmentierung. Auch Ensembles, die Kombination mehrerer Modelle zu einer Vorhersage, sind für die Verbesserung der Vorhersagegenauigkeit geeignet, da diese besser auf externe Datensätze übertragen werden können und zum Training keine Informationen über die Testdatensätze benötigen [16, 27].
Beispielhaft ist hier die Variation von Ensembles genannt, die das Potenzial hat, die Übertragbarkeit in vielen Situationen zu verbessern. Beim NoisyEnsemble [13] wird für jedes Modell des Ensembles ein neues Subset von Patienten und für jeden Patienten nur je eine Klasse gewählt. Auf dieser Klasse werden die Labels verändert, also ein Noise eingefügt (Abb. 4a). Bei den Urothelkarzinommodellen konnten wir mit dem CNN-NoisyEnsemble den Transfer für den externen Datensatz signifikant um 3 % im Vergleich zum einfachen Ensemble verbessern. Auf dem internen Testdatensatz ist kein Unterschied erkennbar (Abb. 4b). Ebenfalls wurde das CNN-NoisyEnsemble für die Vorhersage von histologischen Small-Duct- und Large-Duct-Typen des intrahepatischen Cholangiokarzinoms (iCCA) getestet. Trainiert wurde hier auf WSI-Daten des SIP, wobei ausreichend WSIs für einen unabhängigen internen Testdatensatz zurückgehalten wurden. Ein externer Datensatz wurde von der Medizinischen Hochschule Hannover zur Verfügung gestellt. Beim internen Test konnte eine Ensemblegenauigkeit von etwa 79 % erreicht werden, extern sinkt diese jedoch auf etwa 53 % (Abb. 4c). Durch Verwendung des NoisyEnsembles konnte die Genauigkeit des externen Tests im Vergleich zum einfachen Ensemble signifikant um ~13 % gesteigert werden, während der interne Test statistisch unverändert blieb. Somit konnte beim iCCA der Transfer auf die neue Domäne ermöglicht werden.

ViT-Modelle generalisieren oft besser als CNN-Modelle

Unterschiedliche Modelle können zu unterschiedlich guter Transferierbarkeit führen. So auch in unserem Beispiel, in welchem wir mit einer limitierten Datenmenge zum Urothelkarzinom tiefere CNN-Modelle mit höherer Performance im internen Test (Xception > Densenet121 > ResNet18 >> VGG16; Abb. S1) erreichen. Allerdings ist hier auch die Differenz zum externen Test höher als für kleinere Modelle. ResNet18 zeigt eine sehr gute Balance zwischen Performance und Transferierbarkeit (Abb. S1) für die gegebene Fragestellung und Datenmenge.
Neben CNNs gibt es in der KI-basierten Bildverarbeitung auch neuere Modellarchitekturen, die zunehmend in den Fokus rücken: Vision Transformer (ViT) [28]. In der Unterscheidung von Karzinom- und Normalgewebe im Urothelgewebe erreichten die individuellen ViTs im internen Test jedoch meistens eine geringere Genauigkeit als CNNs (92 %). Dafür war die Performance der einzelnen Modelle auf dem externen Testdatensatz (81 %) meist höher (Abb. 5), womit ihre Transferierbarkeit besser war. Die ViTs haben also vermutlich eine geringere Anfälligkeit, die Trainingsdaten zu overfitten, und generalisieren besser. Auch ist die FN wichtig, um die Modelle zu verbessern. Beim Training mit FN übertrafen die ViTs signifikant die klassischen CNNs um 2 %im externen Test (~92 %). Die HSV-Augmentierung hingegen verbesserte zwar ebenfalls die Transferierbarkeit (ViT: extern ~88 %), die Performance im externen Test blieb aber trotzdem hinter den CNNs (Abb. 5) und ist somit nicht sinnvoll in Verbindung mit ViTs.
Auch das Bilden von ViT-Ensembles ist ratsam: Die Performance wurde im Vergleich zum individuellen Modell leicht erhöht und interner und externer Test erreichten eine Genauigkeit von ~95 % (Abb. 5). Somit gab es keine Verschlechterung der Performance im Transferfall und ViT-Ensembles stellen eine potenziell robuste Methode für die Transferierbarkeit zwischen verschiedenen Datensätzen dar. Trotzdem erzielten CNN-Ensembles auf dem internen Test die höhere Genauigkeit (97 %, Abb. 5).
Ein NoisyEnsemble aus ViTs ist jedoch nicht sinnvoll. Hier sank die Genauigkeit im Vergleich zu den ViT-Ensembles und die CNN-NoisyEnsembles erreichten insgesamt die höchste Genauigkeit für die Unterscheidung von Karzinom- und Normalgewebe der Blase auf beiden Testdatensätzen (intern 98 %, extern 96 %, Abb. 5). Generell ist bekannt, dass Label Noise bei CNNs vor allem die globalen Features, die in hinteren Layern gelernt werden, beeinflusst [29, 30]. ViTs hingegen lernen globale Features in allen Layern [30] und werden somit ganzheitlich von Label Noise beeinflusst, was das veränderte Verhalten erklären kann. Auch bei der Unterscheidung von histologischem Small-Duct- und Large-Duct-Typen im iCCA zeigt sich das Potenzial von ViTs: Im externen Test war die Genauigkeit der ViT-basierten Vorhersagen entweder höher oder mit CNN-basierten Vorhersagen vergleichbar. Im internen Test ist die Genauigkeit jedoch wieder niedriger (Abb. S2).
Somit sollte die Modellarchitektur mit Bedacht gewählt werden. CNNs erreichen im internen Test meist höhere Genauigkeiten und eignen sich sehr gut für die NoisyEnsemble Methode. Die Transformer wiederrum, erreichen zwar geringere maximale Genauigkeiten im internen Test, aber konnten im Ensemble teilweise ohne Verlust von Genauigkeit auf einen neuen Datensatz transferiert werden. Für ein NoisyEnsemble sind ViTs jedoch weniger geeignet.

Fazit für die Praxis

  • Künstliche Intelligenz wird zukünftig eine große, unterstützende Rolle in der Pathologie einnehmen. Dem im Weg stehen bislang vor allem die Zertifizierung und das damit zusammenhängende Sicherstellen der Transferierbarkeit von Machine-Learning-Algorithmen.
  • Die Transferierbarkeit wird von Faktoren beeinflusst, die modell-, datensatz-, instituts- und/oder standardisierungsbedingt sind.
  • Wichtig bei Entwicklung und Auswahl von Modellen sind vor allem:
    • Das Bewusstsein des Übertragbarkeitsproblems: Gute Performance in der Entwicklung garantiert keine verlässliche Performance in der Anwendung.
    • Die Nutzung von großen, diversen und unabhängigen Datensätzen für Training und Test, wenn möglich.
    • Das Anwenden und Weiterentwickeln von Methoden zur Verbesserung der Transferierbarkeit, wie z. B. Stain-Normalisierung und NoisyEnsemble.

Danksagung

N. Flinner und R. S. Mayer sind durch das Mildred-Scheel-Nachwuchszentrum (Deutsche Krebshilfe) Frankfurt finanziert.

Einhaltung ethischer Richtlinien

Interessenkonflikt

R.S. Mayer: Zeitlich unbegrenzt: jegliche Unterstützung für das vorliegende Manuskript (z. B. Finanzierung, Bereitstellung von Studienmaterialien, medizinisches Schreiben, Artikelbearbeitungsgebühren usw.): MSNZ Frankfurt. A. Saborowski: Zeitlich unbegrenzt: jegliche Unterstützung für das vorliegende Manuskript (z. B. Finanzierung, Bereitstellung von Studienmaterialien, medizinisches Schreiben, Artikelbearbeitungsgebühren usw.): Deutsche Krebshilfe 70114101. In den letzten 36 Monaten: Bezahlung oder Honorare für Vorträge, Präsentationen, Referentenbüros, Manuskripterstellung oder Bildungsveranstaltungen: BMS, Roche, Servier, Ipsen, Lilly, AstraZeneca, MSD; Unterstützung bei der Teilnahme an Meetings und/oder Reisen: Ipsen, Servier, Pierre-Fabre, MSD; Mitarbeit in einem Data Safety Monitoring Board oder Beirat: Eisai, MSD; Führungs- oder Treuhandrolle in einem anderen Vorstand, einer Gesellschaft, einem Ausschuss oder einer Interessengruppe, bezahlt oder unbezahlt: EASL. H. Reis: In den letzten 36 Monaten: Zuschüsse oder Verträge: Bristol-Myers Squibb; Beratungshonorare: Roche, Bristol-Myers Squibb; Bezahlung oder Honorare für Vorträge, Präsentationen, Referentenbüros, Manuskripterstellung oder Bildungsveranstaltungen: Roche, Bristol-Myers Squibb, Janssen-Cilag, Novartis, AstraZeneca, MCI, CHOP GmbH, Sanofi, Boehringer Ingelheim, GlaxoSmithKline, Merck, Diaceutics; Unterstützung bei der Teilnahme an Meetings und/oder Reisen: Philips, Roche, Bristol-Myers Squibb; Mitarbeit in einem Data Safety Monitoring Board oder Beirat: Adboards: Roche, Bristol-Myers Squibb. A. Vogel: In den letzten 36 Monaten: Beratungshonorare: AstraZeneca, Amgen, BeiGene, Böhringer Mannheim, BMS, BTG, Daiichi Sankyo, EISAI, Incyte, Ipsen, MSD, Pierre Fabre, Roche, Servier, Sirtex, Tahio, Terumo; Bezahlung oder Honorare für Vorträge, Präsentationen, Referentenbüros, Manuskripterstellung oder Bildungsveranstaltungen: AstraZeneca, Amgen, BeiGene, Böhringer Mannheim, BMS, BTG, Daiichi Sankyo, EISAI, GSK, Imaging Equipment Ltd. (AAA), Incyte, Ipsen, Jiangsu Hengrui Medicines, MSD, Pierre Fabre, Roche, Servier, Sirtex, Tahio, Terumo; Unterstützung bei der Teilnahme an Meetings und/oder Reisen: Roche, MSD, Astellas Pharma; Mitarbeit in einem Data Safety Monitoring Board oder Beirat: AstraZeneca, Amgen, BeiGene, Böhringer Mannheim, BMS, BTG, Daiichi Sankyo, EISAI, Incyte, Ipsen, MSD, Pierre Fabre, Roche, Servier, Sirtex, Tahio, Terumo. P.J. Wild: In den letzten 36 Monaten: Zuschüsse oder Verträge: AstraZeneca, Thermo Fisher Scientific; Bezahlung oder Honorare für Vorträge, Präsentationen, Referentenbüros, Manuskripterstellung oder Bildungsveranstaltungen: Bayer, Janssen-Cilag, Novartis, Roche, MSD, Astellas Pharma, Bristol-Myers Squibb, Hedera Dx, Thermo Fisher Scientific, Molecular Health, Sophia Genetics, Qiagen, Eli Lilly, Myriad, AstraZeneca. N. Flinner: Zeitlich unbegrenzt: Jegliche Unterstützung für das vorliegende Manuskript (z. B. Finanzierung, Bereitstellung von Studienmaterialien, medizinisches Schreiben, Artikelbearbeitungsgebühren usw.): MSNZ Frankfurt. M.N. Kinzler, A.K. Stoll, S. Gretser und P.K. Ziegler geben an, dass kein Interessenkonflikt besteht.
Die Studie wurde von der Ethikkommission durch das UCT Frankfurt genehmigt (SGI-1-2021, SGI-3-2021).
Open Access Dieser Artikel wird unter der Creative Commons Namensnennung 4.0 International Lizenz veröffentlicht, welche die Nutzung, Vervielfältigung, Bearbeitung, Verbreitung und Wiedergabe in jeglichem Medium und Format erlaubt, sofern Sie den/die ursprünglichen Autor(en) und die Quelle ordnungsgemäß nennen, einen Link zur Creative Commons Lizenz beifügen und angeben, ob Änderungen vorgenommen wurden.
Die in diesem Artikel enthaltenen Bilder und sonstiges Drittmaterial unterliegen ebenfalls der genannten Creative Commons Lizenz, sofern sich aus der Abbildungslegende nichts anderes ergibt. Sofern das betreffende Material nicht unter der genannten Creative Commons Lizenz steht und die betreffende Handlung nicht nach gesetzlichen Vorschriften erlaubt ist, ist für die oben aufgeführten Weiterverwendungen des Materials die Einwilligung des jeweiligen Rechteinhabers einzuholen.
Weitere Details zur Lizenz entnehmen Sie bitte der Lizenzinformation auf http://​creativecommons.​org/​licenses/​by/​4.​0/​deed.​de.

Hinweis des Verlags

Der Verlag bleibt in Hinblick auf geografische Zuordnungen und Gebietsbezeichnungen in veröffentlichten Karten und Institutsadressen neutral.

Unsere Produktempfehlungen

Die Pathologie

Print-Titel

  • Umfassende Themenschwerpunkte aus allen
    Bereichen der Pathologie
  • Pitfalls: Fallstricke in der Diagnostik 

e.Med Interdisziplinär

Kombi-Abonnement

Für Ihren Erfolg in Klinik und Praxis - Die beste Hilfe in Ihrem Arbeitsalltag

Mit e.Med Interdisziplinär erhalten Sie Zugang zu allen CME-Fortbildungen und Fachzeitschriften auf SpringerMedizin.de.

e.Dent – Das Online-Abo der Zahnmedizin

Online-Abonnement

Mit e.Dent erhalten Sie Zugang zu allen zahnmedizinischen Fortbildungen und unseren zahnmedizinischen und ausgesuchten medizinischen Zeitschriften.

Literatur
1.
Zurück zum Zitat Flinner N, Gretser S, Quaas A et al (2022) Deep learning based on hematoxylin-eosin staining outperforms immunohistochemistry in predicting molecular subtypes of gastric adenocarcinoma. J Pathol 257:218–226CrossRefPubMed Flinner N, Gretser S, Quaas A et al (2022) Deep learning based on hematoxylin-eosin staining outperforms immunohistochemistry in predicting molecular subtypes of gastric adenocarcinoma. J Pathol 257:218–226CrossRefPubMed
2.
Zurück zum Zitat Perincheri S, Levi AW, Celli R et al (2021) An independent assessment of an artificial intelligence system for prostate cancer detection shows strong diagnostic accuracy. Mod Pathol 34:1588–1595CrossRefPubMedPubMedCentral Perincheri S, Levi AW, Celli R et al (2021) An independent assessment of an artificial intelligence system for prostate cancer detection shows strong diagnostic accuracy. Mod Pathol 34:1588–1595CrossRefPubMedPubMedCentral
4.
Zurück zum Zitat Shorten C, Khoshgoftaar TM (2019) A survey on image data augmentation for deep learning. J Big Data 6:1–48CrossRef Shorten C, Khoshgoftaar TM (2019) A survey on image data augmentation for deep learning. J Big Data 6:1–48CrossRef
5.
Zurück zum Zitat Homeyer A, Geißler C, Schwen LO et al (2022) Recommendations on compiling test datasets for evaluating artificial intelligence solutions in pathology. Mod Pathol 35:1759–1769CrossRefPubMedPubMedCentral Homeyer A, Geißler C, Schwen LO et al (2022) Recommendations on compiling test datasets for evaluating artificial intelligence solutions in pathology. Mod Pathol 35:1759–1769CrossRefPubMedPubMedCentral
6.
Zurück zum Zitat Stenzinger A, Alber M, Allgäuer M et al (2022) Artificial intelligence and pathology: from principles to practice and future applications in histomorphology and molecular profiling. Semin Cancer Biol 84:129–143CrossRefPubMed Stenzinger A, Alber M, Allgäuer M et al (2022) Artificial intelligence and pathology: from principles to practice and future applications in histomorphology and molecular profiling. Semin Cancer Biol 84:129–143CrossRefPubMed
7.
Zurück zum Zitat Kather JN, Pearson AT, Halama N et al (2019) Deep learning can predict microsatellite instability directly from histology in gastrointestinal cancer. Nat Med 25:1054CrossRefPubMedPubMedCentral Kather JN, Pearson AT, Halama N et al (2019) Deep learning can predict microsatellite instability directly from histology in gastrointestinal cancer. Nat Med 25:1054CrossRefPubMedPubMedCentral
8.
Zurück zum Zitat Fulawka L, Blaszczyk J, Tabakov M, Halon A (2022) Assessment of Ki-67 proliferation index with deep learning in DCIS (ductal carcinoma in situ). Sci Rep 12(1):1–12CrossRef Fulawka L, Blaszczyk J, Tabakov M, Halon A (2022) Assessment of Ki-67 proliferation index with deep learning in DCIS (ductal carcinoma in situ). Sci Rep 12(1):1–12CrossRef
9.
Zurück zum Zitat Campanella G, Hanna MG, Geneslaw L et al (2019) Clinical-grade computational pathology using weakly supervised deep learning on whole slide images. Nat Med 25:1301CrossRefPubMedPubMedCentral Campanella G, Hanna MG, Geneslaw L et al (2019) Clinical-grade computational pathology using weakly supervised deep learning on whole slide images. Nat Med 25:1301CrossRefPubMedPubMedCentral
13.
Zurück zum Zitat Mayer RS, Gretser S, Heckmann LE et al (2022) How to learn with intentional mistakes: NoisyEnsembles to overcome poor tissue quality for deep learning in computational pathology. Front Med 9:959068CrossRef Mayer RS, Gretser S, Heckmann LE et al (2022) How to learn with intentional mistakes: NoisyEnsembles to overcome poor tissue quality for deep learning in computational pathology. Front Med 9:959068CrossRef
14.
Zurück zum Zitat Alzubaidi L, Zhang J, Humaidi AJ et al (2021) Review of deep learning: concepts, CNN architectures, challenges, applications, future directions. J Big Data 8(1):1–74CrossRef Alzubaidi L, Zhang J, Humaidi AJ et al (2021) Review of deep learning: concepts, CNN architectures, challenges, applications, future directions. J Big Data 8(1):1–74CrossRef
15.
Zurück zum Zitat Li X, Cen M, Xu J et al (2022) Improving feature extraction from histopathological images through a fine-tuning ImageNet model. J Pathol Inform 13:100115CrossRefPubMedPubMedCentral Li X, Cen M, Xu J et al (2022) Improving feature extraction from histopathological images through a fine-tuning ImageNet model. J Pathol Inform 13:100115CrossRefPubMedPubMedCentral
16.
Zurück zum Zitat Dawson HL, Dubrule O, John CM (2023) Impact of dataset size and convolutional neural network architecture on transfer learning for carbonate rock classification. Comput Geosci 171:105284CrossRef Dawson HL, Dubrule O, John CM (2023) Impact of dataset size and convolutional neural network architecture on transfer learning for carbonate rock classification. Comput Geosci 171:105284CrossRef
17.
Zurück zum Zitat Lan J, Chen M, Wang J et al (2023) Using less annotation workload to establish a pathological auxiliary diagnosis system for gastric cancerCrossRef Lan J, Chen M, Wang J et al (2023) Using less annotation workload to establish a pathological auxiliary diagnosis system for gastric cancerCrossRef
19.
Zurück zum Zitat Tang H, Sun N, Shen S (2021) Improving generalization of deep learning models for diagnostic pathology by increasing variability in training data: experiments on osteosarcoma subtypes. J Pathol Inform 12:30CrossRefPubMedPubMedCentral Tang H, Sun N, Shen S (2021) Improving generalization of deep learning models for diagnostic pathology by increasing variability in training data: experiments on osteosarcoma subtypes. J Pathol Inform 12:30CrossRefPubMedPubMedCentral
20.
Zurück zum Zitat Schömig-Markiefka B, Pryalukhin A, Hulla W et al (2021) Quality control stress test for deep learning-based diagnostic model in digital pathology. Mod Pathol 34:2098–2108CrossRefPubMedPubMedCentral Schömig-Markiefka B, Pryalukhin A, Hulla W et al (2021) Quality control stress test for deep learning-based diagnostic model in digital pathology. Mod Pathol 34:2098–2108CrossRefPubMedPubMedCentral
21.
Zurück zum Zitat Abadi M, Agarwal A, Barham P et al (2015) TensorFlow: Large-scale machine learning on heterogeneous systems. Software available from tensorflow.org Abadi M, Agarwal A, Barham P et al (2015) TensorFlow: Large-scale machine learning on heterogeneous systems. Software available from tensorflow.​org
22.
Zurück zum Zitat Vahadane A, Peng T, Sethi A et al (2016) Structure-preserving color normalization and sparse stain separation for histological images. IEEE Trans Med Imaging 35:1962–1971CrossRefPubMed Vahadane A, Peng T, Sethi A et al (2016) Structure-preserving color normalization and sparse stain separation for histological images. IEEE Trans Med Imaging 35:1962–1971CrossRefPubMed
23.
Zurück zum Zitat Tellez D, Litjens G, Bándi P et al (2019) Quantifying the effects of data augmentation and stain color normalization in convolutional neural networks for computational pathology. Med Image Anal 58:101544CrossRefPubMed Tellez D, Litjens G, Bándi P et al (2019) Quantifying the effects of data augmentation and stain color normalization in convolutional neural networks for computational pathology. Med Image Anal 58:101544CrossRefPubMed
24.
Zurück zum Zitat Ciompi F, Geessink O, Bejnordi BE et al (2017) The importance of stain normalization in colorectal tissue classification with convolutional networks. Proceedings—international symposium on biomedical imaging, S 160–163 Ciompi F, Geessink O, Bejnordi BE et al (2017) The importance of stain normalization in colorectal tissue classification with convolutional networks. Proceedings—international symposium on biomedical imaging, S 160–163
25.
Zurück zum Zitat Robertson AG, Kim J, Al-Ahmadie H et al (2017) Comprehensive molecular characterization of muscle-invasive bladder cancer. Cell 171:540–556.e25CrossRefPubMedPubMedCentral Robertson AG, Kim J, Al-Ahmadie H et al (2017) Comprehensive molecular characterization of muscle-invasive bladder cancer. Cell 171:540–556.e25CrossRefPubMedPubMedCentral
26.
Zurück zum Zitat Shaban MT, Baur C, Navab N, Albarqouni S (2019) Staingan: stain style transfer for digital histological images. Proceedings—international symposium on biomedical imaging, S 953–956 Shaban MT, Baur C, Navab N, Albarqouni S (2019) Staingan: stain style transfer for digital histological images. Proceedings—international symposium on biomedical imaging, S 953–956
27.
Zurück zum Zitat Jiang H, Yang K, Gao M et al (2019) An interpretable ensemble deep learning model for diabetic retinopathy disease classification. Proceedings of the annual international conference of the IEEE engineering in medicine and biology society, EMBS, S 2045–2048 Jiang H, Yang K, Gao M et al (2019) An interpretable ensemble deep learning model for diabetic retinopathy disease classification. Proceedings of the annual international conference of the IEEE engineering in medicine and biology society, EMBS, S 2045–2048
28.
Zurück zum Zitat Dosovitskiy A, Beyer L, Kolesnikov A et al (2020) An image is worth 16x16 words: transformers for image recognition at scale. ICLR 2021—9th international conference on learning representations Dosovitskiy A, Beyer L, Kolesnikov A et al (2020) An image is worth 16x16 words: transformers for image recognition at scale. ICLR 2021—9th international conference on learning representations
29.
Zurück zum Zitat Bai Y, Yang E, Han B et al (2021) Understanding and improving early stopping for learning with noisy labels. Adv Neural Inf Process Syst 29:24392–24403 Bai Y, Yang E, Han B et al (2021) Understanding and improving early stopping for learning with noisy labels. Adv Neural Inf Process Syst 29:24392–24403
30.
Zurück zum Zitat Raghu M, Unterthiner T, Kornblith S et al (2021) Do vision transformers see like convolutional neural networks? Adv Neural Inf Process Syst 15:12116–12128 Raghu M, Unterthiner T, Kornblith S et al (2021) Do vision transformers see like convolutional neural networks? Adv Neural Inf Process Syst 15:12116–12128
Metadaten
Titel
Die Modelltransferierbarkeit von KI in der digitalen Pathologie
Potenzial und Realität
verfasst von
Robin S. Mayer
Maximilian N. Kinzler
Alexandra K. Stoll
Steffen Gretser
Paul K. Ziegler
Anna Saborowski
Henning Reis
Arndt Vogel
Peter J. Wild
Nadine Flinner
Publikationsdatum
19.02.2024
Verlag
Springer Medizin
Erschienen in
Die Pathologie / Ausgabe 2/2024
Print ISSN: 2731-7188
Elektronische ISSN: 2731-7196
DOI
https://doi.org/10.1007/s00292-024-01299-5

Weitere Artikel der Ausgabe 2/2024

Die Pathologie 2/2024 Zur Ausgabe

Mitteilungen der Österreichischen Gesellschaft für Klinische Pathologie und Molekularpathologie

Mitteilungen der Österreichischen Gesellschaft für Klinische Pathologie und Molekularpathologie

Mitteilungen der Deutschen Gesellschaft für Pathologie

Mitteilungen der Deutschen Gesellschaft für Pathologie

Leitlinien kompakt für die Innere Medizin

Mit medbee Pocketcards sicher entscheiden.

Seit 2022 gehört die medbee GmbH zum Springer Medizin Verlag

„Jeder Fall von plötzlichem Tod muss obduziert werden!“

17.05.2024 Plötzlicher Herztod Nachrichten

Ein signifikanter Anteil der Fälle von plötzlichem Herztod ist genetisch bedingt. Um ihre Verwandten vor diesem Schicksal zu bewahren, sollten jüngere Personen, die plötzlich unerwartet versterben, ausnahmslos einer Autopsie unterzogen werden.

Hirnblutung unter DOAK und VKA ähnlich bedrohlich

17.05.2024 Direkte orale Antikoagulanzien Nachrichten

Kommt es zu einer nichttraumatischen Hirnblutung, spielt es keine große Rolle, ob die Betroffenen zuvor direkt wirksame orale Antikoagulanzien oder Marcumar bekommen haben: Die Prognose ist ähnlich schlecht.

Schlechtere Vorhofflimmern-Prognose bei kleinem linken Ventrikel

17.05.2024 Vorhofflimmern Nachrichten

Nicht nur ein vergrößerter, sondern auch ein kleiner linker Ventrikel ist bei Vorhofflimmern mit einer erhöhten Komplikationsrate assoziiert. Der Zusammenhang besteht nach Daten aus China unabhängig von anderen Risikofaktoren.

Semaglutid bei Herzinsuffizienz: Wie erklärt sich die Wirksamkeit?

17.05.2024 Herzinsuffizienz Nachrichten

Bei adipösen Patienten mit Herzinsuffizienz des HFpEF-Phänotyps ist Semaglutid von symptomatischem Nutzen. Resultiert dieser Benefit allein aus der Gewichtsreduktion oder auch aus spezifischen Effekten auf die Herzinsuffizienz-Pathogenese? Eine neue Analyse gibt Aufschluss.

Update Innere Medizin

Bestellen Sie unseren Fach-Newsletter und bleiben Sie gut informiert.