Über die Gefahren überstrapazierter KI-Metaphern
14/04/2023USA beginnen Studie über mögliche Regeln zur Regulierung von KI wie Chatgpt
15/04/2023Ich bin Arzt in der Notaufnahme: ChatGPT hat vor kurzem das U.S. Medical Licensing Exam bestanden, also dachte ich mir, ich teste das einmal aus. Folgendes fand ich heraus, als ich ChatGPT bat, meine Patienten zu diagnostizieren.
ChatGPT für eine echte medizinische Diagnose zu benutzen, würde schnell tödlich enden.
von Josh Tamayo-Sarver, MD, PhD
ChatGPT in der Notaufnahme: Ein Test in der Praxis
Nachdem ich gehört hatte, dass ChatGPT die medizinische Zulassungsprüfung in den USA bestanden hatte, war ich neugierig, wie es sich in einer echten medizinischen Situation verhalten würde. Als Befürworter des Einsatzes künstlicher Intelligenz zur Verbesserung der Qualität und Effizienz im Gesundheitswesen wollte ich sehen, wie sich die aktuelle Version von ChatGPT in meiner eigenen Praxis einsetzen lässt.
Also habe ich letzte Woche nach meiner regulären Schicht in der Notaufnahme die Anamnesen von 35 bis 40 Patienten anonymisiert – das heißt, ich habe die Anamnese jedes Patienten und die Symptome, die ihn in die Notaufnahme geführt haben, detailliert aufgeschrieben – und sie in ChatGPT eingegeben.
Die Frage war: „Was sind die Differentialdiagnosen für diesen Patienten, der in die Notaufnahme kommt [hier HPI-Notizen des Patienten einfügen]?„
Die Ergebnisse waren faszinierend, aber auch ziemlich beunruhigend.
Differentialdiagnosen und die Trefferquote von ChatGPT
Der Chatbot von OpenAI leistete gute Arbeit und nannte mir häufige Diagnosen, die ich nicht übersehen wollte – solange ich alles, was ich ihm sagte, präzise und sehr detailliert formulierte. Ich brauchte etwa 200 Wörter, um die richtige Diagnose für einen Patienten mit einem Ellenbogenschmerz zu stellen, und die gesamten 600 Wörter meines HPI, um die Orbitawandfraktur eines anderen Patienten zu identifizieren.
Bei etwa der Hälfte meiner Patienten schlug ChatGPT sechs mögliche Diagnosen vor, und die „richtige“ Diagnose – oder zumindest die, die ich nach einer vollständigen Untersuchung und Prüfung für richtig hielt – war unter den sechs von ChatGPT vorgeschlagenen.
Nicht schlecht. Andererseits ist eine Trefferquote von 50% in der Notaufnahme auch nicht gut.
Am schlechtesten schnitt ChatGPT bei einer 21-jährigen Patientin ab, die mit Bauchschmerzen im rechten unteren Quadranten in die Notaufnahme kam. Ich gab ihren HPI in ChatGPT ein, das sofort eine Differentialdiagnose wie Appendizitis oder Ovarialzyste erstellte.
Fehldiagnosen und lebensbedrohliche Situationen
Aber ChatGPT übersah eine wichtige Diagnose bei dieser Frau.
Sie hatte eine Eileiterschwangerschaft, bei der sich ein missgebildeter Fötus nicht in der Gebärmutter, sondern im Eileiter der Frau entwickelt. Wird die Krankheit zu spät erkannt, kann sie tödlich sein und zum Tod durch innere Blutungen führen. Zum Glück für meine Patientin konnten wir sie schnell in den Operationssaal bringen und sofort behandeln.
Als sie zu mir in die Notaufnahme kam, wusste sie nicht einmal, dass sie schwanger war. Das ist kein untypisches Szenario und stellt sich oft erst nach einigem Nachfragen heraus:
„Kann es sein, dass Sie schwanger sind?„
Manchmal antwortet die Patientin: „Das kann nicht sein„.
„Aber woher wissen Sie das?„
Wenn sich die Antwort auf diese Frage nicht auf die Spirale oder ein bestimmtes medizinisches Problem bezieht, ist es wahrscheinlicher, dass die Patientin sagt, dass sie aus verschiedenen Gründen nicht schwanger werden möchte. (Untreue, Probleme in der Familie oder andere externe Faktoren.) Auch das ist kein ungewöhnliches Szenario: Etwa 8 % der Schwangerschaften, die in der Notaufnahme festgestellt werden, stammen von Frauen, die angeben, nicht sexuell aktiv zu sein.
Als ich mir jedoch die ChatGPT-Diagnose ansah, fiel mir auf, dass kein einziger Punkt in der Antwort darauf hindeutete, dass meine Patientin schwanger war. Sie wusste nicht einmal, dass sie danach fragen sollte.
Ich befürchte, dass bereits unzählige Menschen ChatGPT nutzen, um sich selbst eine medizinische Diagnose zu stellen, anstatt einen Arzt aufzusuchen. Wenn meine Patientin das getan hätte, hätte die Antwort von ChatGPT sie töten können.
ChatGPT hat auch mehrere andere Patienten mit lebensbedrohlichen Krankheiten falsch diagnostiziert. Bei einem von ihnen wurde zu Recht ein Hirntumor vermutet, aber zwei andere, die ebenfalls einen Tumor hatten, wurden übersehen. Bei einem anderen Patienten mit Schmerzen im Rumpf wurde ein Nierenstein diagnostiziert, aber es wurde übersehen, dass der Patient in Wirklichkeit eine Aortenruptur hatte. (Er starb auf unserem Operationstisch).
Kurz gesagt, ChatGPT funktionierte als Diagnosewerkzeug ziemlich gut, wenn ich es mit perfekten Informationen fütterte und der Patient ein klassisches Krankheitsbild hatte.
Die Grenzen von ChatGPT in der Medizin
Dies ist wahrscheinlich der Grund, warum ChatGPT die Fallvignetten der ärztlichen Prüfung „bestanden“ hat. Nicht weil es „schlau“ ist, sondern weil die klassischen Fälle in der Prüfung eine deterministische Antwort haben, die bereits in seiner Datenbank existiert. ChatGPT zeigt die Antworten schnell in natürlicher Sprache an (das ist der wirklich beeindruckende Teil), aber dahinter verbirgt sich ein Wissenserwerbsprozess, der der Google-Suche ähnelt. Und die meisten realen Patientenfälle sind nicht klassisch.
Meine Erfahrung hat gezeigt, dass der größte Teil jeder medizinischen Begegnung darin besteht, die richtige Patientengeschichte herauszufinden. Wenn jemand in meine Notaufnahme kommt und sagt, dass sein Handgelenk schmerzt, aber nicht wegen eines kürzlichen Unfalls, könnte es eine psychosomatische Reaktion sein, nachdem der Enkel des Patienten hingefallen ist, oder es könnte eine sexuell übertragbare Krankheit sein oder etwas ganz anderes. Die Kunst der Medizin besteht darin, alle notwendigen Informationen herauszufiltern, um die richtige Geschichte zu erzählen.
Könnte ChatGPT auch als Arzthelferin arbeiten, indem es während der Behandlung automatisch meine Patientennotizen liest und Differentialdiagnosen vorschlägt? Möglicherweise. Aber ich befürchte, dass dies zu noch schlechteren Ergebnissen führen würde.
Wenn meine Patientennotizen eine Frage nicht enthalten, die ich noch nicht gestellt habe, wird ChatGPT mich dazu ermutigen, diese Frage weiterhin auszulassen. Wie im Fall meiner jungen Patientin, die nicht wusste, dass sie schwanger war. Hätte ich nicht sofort an eine mögliche Eileiterschwangerschaft gedacht, hätte ChatGPT diese Auslassung immer wieder erzwungen und mir nur das gespiegelt, was ich für offensichtlich hielt – und meine Voreingenommenheit wie der gefährlichste Ja-Sager der Welt enthusiastisch bestätigt.
Das soll nicht heißen, dass die KI in der Medizin keinen potenziell nützlichen Platz hat.
Potenzielle Einsatzgebiete für KI in der Medizin und die Grenzen von ChatGPT
Als Arzt bin ich durch die Zahl der Patienten begrenzt, die ich persönlich behandeln kann. Ich schätze, dass ich in meinem Leben etwa 10.000 Patienten sehen werde, jeder mit einer einzigartigen Körpermasse, Blutdruck, Familiengeschichte etc. – Eine riesige Vielfalt von Merkmalen, die ich in meinem mentalen Modell verfolge. Jeder Mensch hat unzählige Variablen, die für seine Gesundheit relevant sind, aber als Arzt, der mit einem begrenzten Zeitfenster arbeitet, konzentriere ich mich auf die Faktoren, die historisch gesehen am wichtigsten sind.
Wenn ich mir zum Beispiel die Blutprobe eines Patienten ansehe und einen hohen Hämoglobin A1C-Wert feststelle, diagnostiziere ich, dass der Patient wahrscheinlich an Diabetes im Frühstadium leidet. Aber was wäre, wenn ich die unzähligen Variablen des Gesundheitszustandes dieser Person im Auge behalten und sie mit anderen Menschen vergleichen könnte, die sich in all diesen Millionen Variablen ähneln, nicht nur in ihrem Hämoglobin A1C? Vielleicht könnte ich dann sehen, dass die anderen 100.000 Patienten, die in einer Vielzahl von Faktoren dem Patienten vor mir glichen, ein großartiges Ergebnis hatten, als sie anfingen, mehr Brokkoli zu essen.
In diesem Bereich kann die KI gedeihen, indem sie unermüdlich die unzähligen Merkmale jedes Patienten, den ich jemals behandelt habe, und jedes anderen Patienten, den ein anderer Arzt behandelt hat, verarbeitet und uns tiefe und umfassende Einblicke gewährt. KI kann uns dabei helfen, aber sie muss erst Millionen von Patientendatensätzen verarbeiten, die diese vielen Merkmale, das Verhalten des Patienten (z. B. die Einnahme eines bestimmten Medikaments) und das Ergebnis enthalten.
In der Zwischenzeit brauchen wir im Silicon Valley und in der Öffentlichkeit dringend eine realistischere Einschätzung dessen, was KI heute leisten kann – und wo ihre vielen, oft gefährlichen Grenzen liegen. Wir müssen sehr vorsichtig sein, um übertriebene Erwartungen an Programme wie ChatGPT zu vermeiden, denn wenn es um die menschliche Gesundheit geht, können sie im wahrsten Sinne des Wortes lebensgefährlich sein.
Dr. Tamayo-Sarver antwortet auf die wichtigsten Gedanken der Leser:
Vielen Dank für Ihre Kommentare.
Zunächst einmal habe ich ChatGPT 3.5 verwendet, aber ich glaube, dass es ein grundlegenderes Problem gibt, das mit dem Mechanismus zu tun hat, mit dem ein großes Sprachmodell funktioniert, und das war für mich die größere Entdeckung als der Grad der Ausbildung oder Spezialisierung.
Ich bin mir nicht sicher, ob der Ansatz der großen Sprachmodelle die Antwort auf die Problemlösungsfunktion in einer medizinischen Begegnung sein wird. Bei der KI mit großen Sprachmodellen werden nur die Assoziationen zwischen Wörtern erfasst und es gibt kein zugrunde liegendes konzeptionelles Modell. Auf diese Weise sind einige erstaunliche Verhaltensweisen entstanden, die ich täglich für nicht-klinische Aufgaben einsetze.
Wenn man über das Training von Wortassoziationen nachdenkt, scheint es, als ob ein LLM darauf ausgelegt ist, Wissen abzurufen und dieses Wissen zu präsentieren. Im Anwendungsfall der medizinischen Diagnose besteht der erste Schritt darin, ein gut formuliertes Problem zu erstellen, was eine Menge Problemlösungsarbeit erfordert, die ein konzeptionelles Modell voraussetzt, über das ein LLM nicht verfügt.
Ich habe jedoch gesehen, dass KI-Systeme, die auf Wissensgraphen basieren, dies unglaublich gut können. Sobald das Problem, was mit dem Patienten nicht stimmt, gut formuliert ist, wird es zu einem Wissenssuchproblem, und ich würde erwarten, dass ChatGPT und andere große Sprachmodellierungssysteme darin hervorragend sind.
Ich kann mir eine Zukunft vorstellen, in der verschiedene KI-Modelle, die mit verschiedenen Techniken erstellt wurden, synergetisch an verschiedenen Aufgaben arbeiten, um Probleme zu lösen, die heute sehr komplex erscheinen.
Das sind nur meine 2 Cent – obwohl viele Verhaltensweisen aus LLMs entstanden sind, die ich nicht erwartet hätte.
Ursprünglich erschienen bei FastCompany
Dr. Josh Tamayo-Sarver arbeitet klinisch in der Notaufnahme seiner Gemeinde und ist Vice President of Innovation bei Inflect Health, einem Innovations-Inkubator für Gesundheitstechnologien.