Künstliche Intelligenz in der MedizinKünstliche Intelligenz in der Medizin ist ein stark wachsender Teilbereich der künstlichen Intelligenz (KI), bei dem digital vorliegende Informationen ausgewertet werden, um möglichst aussagekräftige Diagnosen zu stellen und bzw. oder optimierte Therapien vorzuschlagen[1]. DiagnostikComputer Vision für bildgebende DiagnostikKünstliche Intelligenz spielt eine Rolle in der bildgebenden Diagnostik. Die Auswertung von Bilddateien mit statistischen und lernenden Methoden wird auch unter dem Fachbereich Radiomics zusammengefasst. Dabei erhalten Ärzte durch Entscheidungsunterstützungssystemen zusätzliche Informationen. Durch den Einsatz dieser Methoden ist es beispielsweise möglich, den Typ von Krebszellen genauer zu bestimmen, da die Unterscheidungsmerkmale oft schwer und individuell verschieden mit dem menschlichen Auge zu erkennen sind. Dies ist im Rahmen der Präzisionsmedizin wichtig, um eine zielgerichtete Therapie vorzuschlagen. Je nach Typ des Karzinoms sind teils unterschiedliche Therapien notwendig oder sinnvoll. Eingesetzt wird Radiomics etwa zur Klassifizierung von Tumoren unter anderem in Lunge, Brust, Gehirn und Haut.[2] OnkologieDie bisher größte, webbasierte und international durchgeführte Studie zur automatisierten Hautkrebsdiagnose unter Leitung der Medizinischen Universität Wien verglich 511 Mediziner aus 63 Ländern mit 139 Algorithmen (zumeist basierend auf neuronalen Netzwerken, CNN) in der Erkennung von Hautkrebs an dermatoskopischen Bildern.[3] Im Gegensatz zu anderen Studien mussten nicht nur zwei Arten von Hautveränderungen (Muttermale und Melanome) erkannt werden, sondern auch die sieben häufigsten pigmentierten Hautveränderungen.[4] In der Studie zeigte sich – im experimentellen Setting – nicht nur eine klare Überlegenheit der besten Algorithmen, sondern auch, dass bereits „durchschnittliche“ Programme ähnlich gut oder besser Kategorien erkennen können als Mediziner. In einer internationalen Studie der Universität Heidelberg, bei der 58 Dermatologen aus 17 Ländern gegen ein faltendes neuronales Netzwerk im Vergleichstest antraten, fand sich ebenfalls eine Überlegenheit des neuronalen Netzwerks zu Dermatologen in der Erkennung von Melanomen. Dies war jedoch nicht der Fall, wenn die Dermatologen vorher zusätzliche Informationen wie Alter, Geschlecht und Lage der Läsion erhielten. Die Richtig-negativ-Rate lag bei den Dermatologen jedoch mit 75,7 % deutlich über der des Netzwerkes, das nur 63,8 % der ungefährlichen Muttermale als solche erkannte. Die Forscher betonten, dass künstliche Intelligenz die Ärzte bei der Diagnose von Hautkrebs unterstützen, sie aber nicht ersetzen könne.[5] Es gibt weitere Studien in größerem bzw. internationalem Rahmen,[6][7][8] oder kleinen bzw. lokalen Rahmen.[9][10][11][12] Obwohl die Meinung zu diesen Techniken auch bei Dermatologen großteils positiv erscheint,[13] und sich erste Ergebnisse zum Vorteil der Kollaboration zwischen Mensch und Maschine zeigen,[14] mahnen einige Wissenschaftler und Kliniker zur Vorsicht bei der Anwendung dieser Techniken.[15][16] Viele Firmen arbeiten auch an der Kommerzialisierung dieser Projekte, manche auf Basis von Hardware wie Infrarot-Laserstrahl-Geräten,[17] manche auf Basis von Dermatoskopie,[18][19] Für Smartphones gibt es bereits seit Jahren eine Reihe häufig kostenpflichtiger Apps, die Hautkrebs anhand eines Fotos erkennen können sollen, aber meist nicht auf neuen Techniken wie neuronalen Netzwerken basieren. Eine wissenschaftliche Aufarbeitung konnte zeigen, dass keine der getesteten Applikationen eine ausreichende Genauigkeit, und damit Nutzen für Patienten aufweisen konnte.[20] Der Dermatologe und Versorgungsforscher Matthias Augustin sieht dies ebenfalls kritisch, da es zu Anwendungsfehlern und Fehldiagnosen kommen könne, die Laien nicht richtig einschätzen könnten.[21] In einem wissenschaftlichen Wettbewerb zur automatisierten Erkennung von Brustkrebszellen (Diagnose von Metastasen in Sentinel-Node-Biopsien) traten jeweils 32 Programme von 23 Teams gegen ein Team aus elf Pathologen an, die jeweils zwei Stunden Zeit zur Analyse von 129 Präparaten hatten. Eine Vergleichsgruppe bestand aus einem versierten Pathologen, der sich so viel Zeit nehmen durfte, wie er wollte, was allerdings nicht dem klinischen Alltag entspricht. Die Programme nutzten meist Convolutional Neural Networks. Sieben der Programme lieferten bessere Ergebnisse als die Gruppe der Pathologen, die häufig Mikrometastasen übersahen, was den besseren Programmen nur selten passierte. Fünf der Programme waren sogar besser als der versierte Pathologe, der sich 30 Stunden Zeit für die Analyse nahm. Selbst dieser versierte Analytiker übersah ein Viertel der Mikrometastasen.[22] Die Darmspiegelung gilt als die sicherste Methode, um bösartige Tumore in Mast- und Dickdarm frühzeitig zu erkennen. Jährlich erkranken etwa 61.000 Menschen in Deutschland an Darmkrebs. Bei einer Darmspiegelung entfernt der Arzt alle verdächtigen Wucherungen, sog. Polypen, egal ob die Wucherung gut- oder bösartig ist. Ob es sich um einen bösartigen Tumor (sog. Adenom) handelt, kann erst später im Labor festgestellt werden. Im Herbst 2018 setzten japanische Gastroenterologen in einem klinischen Test eine KI ein, die auf die Erkennung von bösartigen Tumoren im Darm trainiert wurde. Die Trefferrate lag bei 93 %. Dabei werden Bilder aus dem Darm in 500-facher Vergrößerung an eine KI übermittelt, die dann innerhalb einer Sekunde erkennen kann, ob es sich bei dem Polyp um einen gut- oder bösartigen Tumor handelt. Der Arzt erhält dann eine Rückmeldung über einen Ton oder über einen Hinweis auf dem Bildschirm. Die KI soll weiter trainiert werden, um die Erkennungsrate noch zu verbessern. Dann könnte die KI in den Routinebetrieb gehen.[23] NeurologieWissenschaftler an der University of California in San Francisco haben im Herbst 2018 eine Pilotstudie mit tiefen, künstlichen neuronalen Netzen im Journal Radiology vorgestellt, die anhand von Gehirnscans eine Alzheimererkrankung im Schnitt sechs Jahre vor der finalen Diagnose erkennen können. Häufig werde Alzheimer von Ärzten erst dann diagnostiziert, wenn sich die ersten Symptome zeigen. Selbst erfahrenen Ärzten fällt es schwer, die bei Frühstadien auftretenden, kleinen Veränderungen im Gehirn zu erkennen und richtig einzuordnen. Deshalb könne die KI-gestützte Erkennung einen wichtigen Beitrag zur Früherkennung und damit zur Behandlung leisten. Das Netz erreichte eine Sensitivität von 100 %, bei einer Richtig-negativ-Rate von 82 %. Weitere Untersuchungen sollen folgen, um die Ergebnisse zu verifizieren.[24][25] PneumologieDas Wiener KI-Labor Deep Insight veröffentlichte 2020 den Quellcode eines künstlichen neuronalen Netzwerkes, das darauf trainiert wurde, anhand von CT-Aufnahmen der Lunge zu klassifizieren, ob der Patient an COVID-19 leidet, sofern das Virus bereits die Lunge befallen hat. Das Netzwerk unterscheidet zwischen durch COVID-19 verursachten Veränderungen der Lunge, sonstigen pathologischen Befunden und Normalzustand.[26] OphthalmologieIn der Augenheilkunde konnte für KI-basierte Ansätze eine Überlegenheit gegenüber Fachspezialisten für verschiedene klinisch-relevante Aufgaben nachgewiesen werden. Dies umfasst unter anderem das Erkennen von Diagnosen anhand von Netzhaut-Bildgebung, die Berechnung der idealen Linsenstärke vor Grauer-Star-Operation, sowie das Erkennen von systemischen Risikofaktoren (bspw. Blutdruck) anhand von ophthalmologischen Bildaufnahmen.[27] Im Direktvergleich zwischen Deep Learning und 13 menschlichen Spezialisten wurden 25.326 Fundus-Fotografien (Fotos des Augenhintergrundes) von Diabetikern einer diagnostischen Bewertung der diabetischen Retinopathie unterzogen. Die Sensitivität des Neuronalen Netzwerks lag bei 0,97 (0,74 bei den Spezialisten) und die Spezifität bei 0,96 (0,98).[28] Das Projekt wurde als Nachweis herausragender menschlicher Leistungen in dem AI Index Report 2019 als Meilenstein gewürdigt.[29] 2021 zeigten sich in einer herstellerunabhängigen, vergleichenden Bewertung von Algorithmen in den USA (head-to-head) an Real-World-Daten von 310.000 Fundus-Fotografien zum Screening auf eine diabetische Retinopathie erhebliche Unterschiede, sowohl bei der Sensitivität (51-86 %) als auch der Spezifität. Menschliche Augenspezialisten traten gegen insgesamt 7 Algorithmen an, welche bereits in mehreren Ländern in Gebrauch waren, wobei einer eine FDA-Zulassung und mehrere eine CE-Kennzeichnung hatten.[30] Interessanterweise konnte gezeigt werden, dass sich sogar das Geschlecht anhand von Farbfundus-Fotos mittels KI identifizieren lässt.[31] Dies galt unter Fachspezialisten zuvor als unmöglich. Folgearbeiten konnten zeigen, dass KI-Anwendungen das Geschlecht an subtilen Unterschieden des Verlaufs der Gefäße erkennen können.[32] KardiologieIn der Kardiologie sind Algorithmen in Gebrauch, die Langzeit-EKGs für einen Arzt auswerten und wichtige Rhythmusstörungen binnen Sekunden finden und auflisten. Für den medizinischen Laien gibt es niederschwellige mobile Anwendungen mit Algorithmen („Smart Apps“), welche die Pulsfrequenz mittels Photoplethysmographie messen können (ähnlich der Pulsoxymetrie). Hier sind Arrhythmien, besonders Vorhofflimmern, bedeutsam, weil damit das Schlaganfallrisiko steigt.[33] RadiologieBrustkrebs-ScreeningDie Auswertung der Röntgenbilder durch Radiologen ist eine monotone, langwierige, ermüdende und fehleranfällige Arbeit.[34] Eine solche Untersuchung ist in Deutschland, in Österreich und teilweise in der Schweiz für Frauen ab 45 alle zwei Jahre Standard. Falsch-positive Ergebnisse führen zu unnötigen Biopsien, falsch-negative Resultate übersehen einen Brustkrebs im Frühstadium, in welchem noch eine Heilung möglich wäre. Bei zweijährlichen Untersuchungen fallen insbesondere diese Falsch-Positiven ins Gewicht, die auf 50 % geschätzt werden und eine unnötige psychologische Belastung für die Patientin darstellen, insbesondere, wenn sich hinterher histologisch ein gutartiger Befund ergibt. Durch die Digitalisierung in der Radiologie (PACS) liegen mittlerweile sehr viele Aufnahmen in Datenbanken, welche ein maschinelles Lernen (ML) ermöglicht haben. Mehrere Projekte zeigen, dass es bei KI nicht immer darum geht, ob die Maschine besser ist als der Mensch, sondern
Befundet hingegen eine KI Mammografien ohne Mithilfe eines Radiologen, so fand sich eine geringfügig verbesserte diagnostische Performance bei gleichbleibendem Zeitaufwand pro Bild. Die Autoren der Studie[35] halten einen multimodalen Ansatz, bei dem nicht alleine die Maschine den Arzt ersetzt, für zukunftsweisend. Sie sehen den Radiologen als Beruf somit nicht gefährdet. PflegeKünstliche Intelligenz in der Pflege umfasst ein breites Spektrum an Anwendungsbeispielen, die sowohl den Dokumentationsaufwand verringern, als auch die Pflegequalität verbessern sollen. Ein Anwendungsbeispiel ist die Geriatrie. Bei älteren Menschen sollen KI-Algorithmen die individuelle Eintrittswahrscheinlichkeit von Ereignissen – insbesondere Gefahrensituationen – vorhersagen. Dazu sollen Risiken erkannt werden, um dadurch die Pflegebedürftigen bzw. deren Angehörige frühzeitig zu warnen. Das Ziel des Projekts KI@Home ist die Entwicklung eines selbstlernenden Systems für den Bereich altersgerechtes Wohnen.[36] Mithilfe von Sensoren und anderen Methoden der Datenerfassung werden Vitalwerte und Verhaltensmuster von Probanden aufgezeichnet und ausgewertet. Ein spezielles Verfahren ist die Ganganalyse. In der Geriatrie sind KI-basierte Algorithmen in der Lage, Parameter, die zu Stürzen führen können, aus einer gängigen Videoaufnahme einer sich bewegenden Person abzuleiten. Den Entwicklern der App LINDERA gelang es, Gangparameter (u. a. Schrittlänge, Ganggeschwindigkeit) per Video über ein Smartphone mit ähnlicher oder besserer Präzision als dem Goldstandard unter Zuhilfenahme von KI zu bestimmen.[37] Bisherige Ganganalysen waren deutlich aufwendiger und erforderten klinisch-apparative Methoden, z. B. mit Sensoren bestückte „Teppiche“. Um zu zeigen, dass solche Methoden alten Menschen einen Nutzen bringen, führt der Weg von der Bestimmung von Gangparametern zur Sturzhäufigkeit über randomisierte Studien, die bisher fehlen bzw. erst in Vorbereitung sind. Mittels Ganganalyse könnten auch Alterskrankheiten wie Morbus Parkinson per Video, Telemedizin und/oder KI einen Innovationsschub bei der Therapiebewertung erhalten, indem man das Gangbild vor und nach Therapiebeginn analysiert. Insgesamt ist diese Disziplin noch am Anfang, laut einer Metaanalyse[38] sind die Bewertungsmetriken noch zu heterogen und es fehlen Standards. Personalisierte Vorhersagen mittels PräzisionsmedizinMit Hilfe statistischer Methoden können Studien für eine Gruppe von Menschen (z. B. gleiche Diagnose) sehr gut vorhersagen, ob ein Therapieverfahren wirksam ist oder nicht (z. B. ein neues Medikament). Ziel der Präzisionsmedizin (personalisierte Medizin) ist es, dies auf ein Individuum herunterzubrechen, von welchem man mehr Parameter kennt, z. B. Biomarker. Das beinhaltet auch ein Aussortieren von Personen, bei denen eine spezielle Therapie nicht hilft und deren Anwendung wegen Nebenwirkungen sogar schädlich sein könnte und/oder unnötige Kosten verursachen würde. Einzelerfolge ohne Anwendung von KI aus der Krebstherapie sind beschrieben, wobei auch eine kausale Beziehung zwischen Biomarker und Outcome besteht[39][40]. Beispielsweise konnte im August 2016 am Medical Institute der Universität Tokyo das Computerprogramm IBM Watson eine Fehldiagnose der Ärzte korrigieren. Die Ärzte diagnostizierten bei einer Patientin eine akute myeloische Leukämie. Die Therapie blieb erfolglos, weswegen man Watson zu Rate zog. Die KI benötigte 10 Minuten, um die DNA der Frau mit 20 Millionen Krebsstudien abzugleichen. Watson erkannte eine sehr seltene Form der Leukämie, die bislang nur 41 Patienten betrifft und heilbar ist.[41] Große Hoffnung liegt in der durch maschinelles Lernen gestützten Präzisionsmedizin: Allerdings können aus erkenntnistheoretischer Sicht datengesteuerte Vorhersagemodelle mit maschinellem Lernen keine kausalen Schlussfolgerungen liefern, sondern nur statistische Korrelationen aufzeigen[42]. Dies könnte ein merkliches Hindernis sein, mittels KI präzise individuelle Vorhersagen zu machen, trotz rapide wachsender Datensätze und ausgefeilter Algorithmen. Automatische DatenanalyseWissenschaftler der Universität Stanford haben im Januar 2018 eine KI vorgestellt, die mit einer Wahrscheinlichkeit von 90 % bei unheilbar kranken Patienten aus den Krankendaten berechnen kann, ob diese innerhalb der nächsten 3 bis 12 Monate versterben werden. Dies könne unheilbar kranken Patienten helfen, die letzten Monate würdevoll und ohne aggressive Behandlungsmethoden und eventuell daheim unter Palliativversorgung zu verleben.[43] Die Armbanduhr Apple Watch zeichnet unter anderem die Herzfrequenz des Trägers auf. Apple gab bekannt, dass KIs mit einer Wahrscheinlichkeit von 85 % aus der Analyse der Herzfrequenz Diabetes mellitus beim Träger der Armbanduhr feststellen können. Die Idee basiert auf der Framingham-Herz-Studie, die bereits 2015 erkennen ließ, dass man allein mit Hilfe der Herzfrequenz Diabetes diagnostizieren kann. Apple war es bereits früher schon gelungen, aus der Herzfrequenz einen abnormalen Herzrhythmus mit 97 % Wahrscheinlichkeit, Schlafapnoe mit 90 %, Hypertonie (Bluthochdruck) mit 82 % zu erkennen.[44] Personalisierte Vorhersagen in EchtzeitBei der Sepsis (im Volksmund „Blutvergiftung“) werden in der Regel Antibiotika und Infusionen verordnet, wenn eindeutige Symptome vorliegen. Ein zu später Beginn endet vielfach tödlich. In den USA wurden mehrere Echtzeit-Modelle entwickelt, die frühzeitig eine Vorhersage mit Hilfe von Künstlicher Intelligenz machen.[45] Das Epic Sepsis Model (ESM), eine auf Maschinellem Lernen aufbauende frühzeitige Prädiktion einer Sepsis, wurde in Hunderten von Kliniken in den USA implementiert, weil es mit der Elektronischen Patientenakte (EHR) der Vertreiberfirma enthalten war. Erst eine externe Validierung zeigte, dass das Modell eine schlechte Diskriminierung aufweist bzgl. Sensitivität und Spezifität und eine Alarmmüdigkeit durch unkorrekte und nicht-relevante Vorhersagen auslöst[46]. SprachverarbeitungForscher der Mount Sinai School of Medicine demonstrierten im Januar 2018, wie aus psychologischen Gesprächsprotokollen mit Jugendlichen erkennbar ist, ob diese in den nächsten zwei Jahren an einer Psychose erkranken könnten. Die natürliche Sprachverarbeitung half, in standardisierten Tests bis zu 83 % Genauigkeit zu erreichen, etwa anhand unorganisierter Gedankengänge, umständlicher Formulierungen, unklarer Assoziationen oder einer reduzierten Sprach-Komplexität. Diese subtilen Unterschiede seien nach einem Training mit vielen solchen Gesprächen zu erkennen.[47][48] Forscher des MIT stellten im September 2018 eine KI vor, die anhand von gesprochenem oder geschriebenem Text eine Depression bei Patienten diagnostizieren kann. An sich stellen Ärzte und Psychologen dem Patienten Fragen zu Lebensgewohnheiten, Verhaltensweisen und Befindlichkeiten, um aus Antworten die Depression zu diagnostizieren. Nach einem Training mit solchen Interviews erkannte das Programm auch anhand von Alltagsgesprächen eine Depression mit einer Trefferquote von 83 % – und bei der Einordnung der Schwere der Depression auf einer Skala von 0 bis 27 mit einer 71 % Trefferquote. Die KI könnte Ärzte unterstützen oder als App Benutzer permanent überwachen, um im Notfall zu alarmieren. Die Forscher wollen aus der Sprache künftig auch eine Demenz erkennen.[49] Digitale Anwendungen, die bei der Diagnoseerstellung und Priorisierung von Hilfen unterstützen, werden Symptom-Checker genannt. Diese verwenden statt KI auch oft klassische statistische und algorithmische Verfahren (Entscheidungsbäume, Korrelationen). Siehe Hauptartikel → Symptom-Checker ChatbotsEin Chatbot ist ein Computerprogramm, das KI und natürliche Sprachverarbeitung nutzt, um Fragen zu verstehen und die Antworten darauf zu automatisieren und so menschliche Konversation simuliert.[50] Ein sehr früher medizinischer Chatbot, ELIZA, wurde zwischen 1964 und 1966 von Joseph Weizenbaum am Artificial Intelligence Laboratory des Massachusetts Institute of Technology entwickelt. Die bekanntesten modernen Chatbots sind LaMDA (Google) und GPT-3.5 bzw. GPT-4 (Generative Pretrained Transformer) entwickelt von OpenAI. Beide gehören in den Bereich der Generativen Künstlichen Intelligenz. Mit GPT-4 sind klinische Problemlösungen in der Kommunikation mit Ärzten möglich: Es werden zunächst die Beschwerden/Symptome in natürlicher Sprache präsentiert und an GPT-4 zur Analyse übergeben. Der KI-Chatbot schlägt im nächsten Schritt weitere körperliche Untersuchungen, Laboranalysen und Bildgebungen vor, deren Ergebnisse ihm in Folge übergeben werden. GPT-4 ermittelt daraus die pathologischen Befunde und schlägt eine Diagnose bzw. Differentialdiagnose vor. Ggf. wird noch ein Bestätigungsparameter vorgeschlagen, der die endgültige Diagnose festschreibt bzw. untermauert. Das Programm liefert auch eine Begründung, wie es zu dieser Entscheidung kommt[51]. Im Gegensatz zu Symptom-Checkern ist dies ein Werkzeug ausschließlich für Mediziner. Mit einem Chatbot versucht das Britische NHS psychisch Kranken zu helfen, schnell einen richtigen Therapieplatz zu finden. Der durch KI unterstützten Chatbot LimbicAccess möchte dies vereinfachen und vor allem die ansonsten üblichen Wartezeiten auf einen Therapieplatz verkürzen. Eine 2024 veröffentlichte Studie (vom Entwickler von Limbic selbst durchgeführt) an 124.400 Personen zeigt einen Erfolg: Bei Nutzung des Chatbots kam es zu 15 % mehr Selbstüberweisungen, während es bei Nutzung anderer Kontrolldienste nur 6 % waren.[52] Der Chatbot erzielte offenbar dort mehr Erfolge, wo psychologische Barrieren, wie Schamgefühl und Stigmatisierungsängste, eine Rolle spielen (z. B. bei Personen im LGBT-Umfeld oder bei ethnischen Minderheiten). Hier kann das Bewusstsein, mit einer Maschine statt mit einem Menschen zu kommunizieren, entlastend sein. ValidierungAuch um Methoden der Künstlichen Intelligenz (KI) und des Maschinellen Lernens zu bewerten erweisen sich randomisierte Studien RCT's als sinnvoll, wie eine strukturierten Literaturrecherche (scoping review) durch amerikanische Wissenschaftler demonstriert hat. Sie wählten 86 Studien aus, die die Kriterien für eine randomisierte Studie erfüllten[53]. Im Jahre 2023 dominierten Anwendungen aus den USA und China, bei letzteren das video-basierte Screening auf Darmkrebs mittels Deep-Learning. Primäre Endpunkte waren meistens die diagnostische Zuverlässigkeit, z.B die Erkennungsrate einer bösartigen Erkrankung bzw. das Übersehen einer solchen. Seltener waren es auch Patientenverhalten bzw. Symptome oder Zeiten im Zielbereich für Blutdruck und Blutzucker. 80 % der Studien zeigten (beim primären Endpunkt) ein besseres Ergebnis bei Anwendung von Künstlicher Intelligenz, der Rest fand keinen Vorteil gegenüber Routine bzw. nicht durch KI assistierte Verfahren. Sekundäre Endpunkte waren z. B. die benötigte Zeit für die Prozeduren. Hier zeigten nur 35 %, dass weniger Zeit durch die KI-Anwendung benötigt wurde[53]. Kritisch bemerkten die Autoren, dass von den 627 Studien, die 2023 in der Datenbank für laufende Studien (ClinicalTrials.gov ) registriert waren, nur 1 % eine abschließende Publikation aufwiesen. Die Autoren vermuteten, dass dadurch erhebliche Verzerrungen (Publikationsbias) entstehen könnten. KosteneffektivitätDie Kosteneffektivität der künstlichen Intelligenz in der Diagnostik wurde an drei verschiedenen Krankheitsbildern in drei verschiedenen Nationen mit unterschiedlichen Gesundheitssystemen modelliert. Dabei wurde das Screening auf Maligne Melanome, Karies-Röntgenuntersuchung und Fundusfotos bei Diabetischer Retinopathie mittels KI und mittels herkömmlicher Verfahren über einen lebenslangen Zeitraum mit konventionellen Verfahren verglichen. Ergebnisparameter waren die jeweiligen Kosten (bei Einzelabrechnung) und die Qualitäts-korrigierten Lebensjahre (QALYs) bzw. die Zahnerhaltung. Als Resultat zeigte sich, dass sowohl die Kosten wie auch die Patienten-relevanten Ergebnisse im Langzeitvergleich ähnlich waren. Geringe Vorteile zeigten sich bei der Zahnerhaltung[54]. Behördlich erteilte ZulassungenGeräte oder Software, die künstliche Intelligenz verwenden, müssen in Europa als Medizinprodukte eine CE-Kennzeichnung erhalten und in den USA durch die FDA zugelassen sein. Ein Vergleich zwischen USA und Europa in den Jahren 2015 bis 2020 erbrachte eine schnell zunehmende Zahl von Zulassungen, wobei die CE-Markierung zahlenmäßig leicht dominiert (2019 USA 79, EU 100). Oft erfolgt die CE-Markierung vor der FDA-Zulassung, was auf ein weniger rigoroses Verfahren hindeuten könnte. Das Schwergewicht liegt bei der Radiologie. Nur 15 % der Produkte wenden sich direkt an Privatpersonen (Patienten), der Rest an Fachpersonal (Ärzte). In diesem Zeitraum entfallen nur 1 % der Zulassungen auf die höchsten Risikoklassen, z. B. solche für die Diagnose von Brustkrebs[55]. Mehr noch in Europa als in Amerika finden die Autoren der Studie einen Mangel an Transparenz in der Gerätebeschreibung und dem Prozess der Bewertung. Sie spiegelt die ethische Verantwortung der Regulierer genauso wie der Hersteller wider. Auch wird eine öffentlich zugängliche Datenbank für CE-markierte Geräte und Software angemahnt. Die Zulassungspraxis digitaler Gesundheitsanwendungen wurde in einer weiteren Studie als ungenügend befunden und als „regulatorische Lücke“ bezeichnet.[56] PharmaforschungIn der Pharmaforschung hat sich das automatisierte Hochdurchsatz-Screening als Methode etabliert, sogenannte Hits und damit Kandidaten für Leitstrukturen zu finden. Britische Forscher der Universität Cambridge entwickelten die Automatisierung weiter. Der Forschungsroboter „Eve“, der 2015 im Journal of the Royal Society Interface vorgestellt wurde, verwendet sowohl statistische Modelle als auch maschinelles Lernen und produziert und testet damit Annahmen, prüft Beobachtungen, führt Experimente aus, interpretiert Ergebnisse, ändert Hypothesen und wiederholt dies immer wieder. Dadurch könne der Roboter vielversprechende Substanzen vorhersagen und damit das Identifizieren von Leitstrukturen effizienter machen.[57][58] Mit Hilfe dieses Roboters fanden die Forscher 2018 heraus, dass Triclosan, das auch in Zahnpasta verwendet wird, Malaria-Infektionen in zwei kritischen Stadien, nämlich dem Befall der Leber und des Bluts, bekämpfen könnte. Mit der Entdeckung durch die KI könnte nun ein neues Medikament entwickelt werden.[59] Kritik und StreitfragenEs ist umstritten, ob die hohe Treffergenauigkeit der künstlichen Intelligenz etwa zur Diagnose von Krankheiten, die in manchen Studien angegeben wurden, in der Praxis gültig sind. Die Werte beziehen sich in der Regel auf vorher festgelegte, mitunter nicht repräsentative historische Datensätze. Beispielhaft wird eine Studie von Googles Tochterfirma DeepMind zur automatisierten Vorhersage von Nierenversagen kritisiert, die auf einem Datensatz durchgeführt wurde, der nur zu 6 % von weiblichen Patienten stammte. Die fehlende Variation in den Datensätzen könnte zu Computeranalysen führen, die in ihrer Generalisierung stark eingeschränkt sind und in realen Einsatzszenarien nicht die erwünschte Genauigkeit liefern.[60] Die Behandlungsvorschläge von IBM Watson können fehlerhaft sein, wenn etwa zu wenig Trainingsdaten zur Verfügung stehen. Entsprechende Berichte über fehlerhafte Empfehlungen, deren Anwendung die Patienten gefährde, wurden 2018 von einem Medizinfachportal veröffentlicht. Die Fehlfunktion soll laut IBM in einer späteren Version behoben worden sein.[61] Datenschutz und PrivatheitDa künstliche Intelligenz und maschinelles Lernen beim Training große Datenmengen benötigen und medizinische Daten als besonders sensibel gelten, wird dem Datenschutz große Bedeutung beigemessen. Beim federated learning und swarm learning wird der Algorithmus nicht zentral trainiert, sondern an lokalen Institutionen (z. B. Krankenhäusern), wo die Daten geschützt verbleiben. Außerdem kann dem Besitzer eines Modells (Firma) besser garantiert werden, dass sein Modell nicht missbraucht, gestohlen oder verändert wird.[62][63] ErklärbarkeitDer Nutzer möchte die Gründe für eine algorithmische Entscheidung verstehen. Bei künstlicher Intelligenz und maschinellem Lernen sind Algorithmen oft komplett undurchsichtig („Black Box“), typischerweise bei neuronalen Netzwerken, insbesondere Deep Learning.[60] Um dem entgegenzuwirken, entwickelte sich das Feld Explainable AI.[64] Im Gesundheitsbereich werden vertrauenswürdige Modellentwickler, umfangreiche externe Validierung mittels Studien und standardisierte Bewertungsverfahren diskutiert.[65] Boris Babic von der University of Toronto wendet ein, dass Explainable AI oftmals nur post-hoc Erklärungen für Black-Box-Algorithmen liefern würden. Diese Erklärungen seien nicht zuverlässig und könnten den Anwender in die Irre führen. Echte White-Box-Algorithmen, die tatsächlich nachvollziehbare Erklärungen liefern, seien hingegen in ihrer Komplexität deutlich beschränkt und daher für viele Anwendungsfälle kaum geeignet. Er hält es daher für einen Fehler, die Erklärbarkeit von Algorithmen etwa als Zulassungsvoraussetzung vorzuschreiben, da dies kaum Vorteile biete, dafür aber Innovationen bremse und zur Anwendung von Algorithmen mit geringerer Genauigkeit führe. Stattdessen sollten Algorithmen stärker in klinischen Studien getestet werden, um deren Effektivität und Sicherheit zu gewährleisten.[66][67] Siehe auchWeblinks
Literatur
Einzelnachweise
|