Immer mehr Studien beschäftigen sich mit dem Einsatz von ChatGPT in der Arztpraxis, in der Forschung oder allgemein zu medizinischen Fragen. Die Ergebnisse sind meist erstaunlich. Viele Studien deuten daraufhin, dass KI-Technologien, wie ChatGPT nicht nur die Effizienz innerhalb einer Gesundheitsorganisation stärken können, sondern auch die Qualität der Arbeitsergebnisse von Ärzten und medizinischen Angestellten auf ein neues Niveau heben können.
In diesem Beitrag stelle ich die relevantesten und aktuellsten Studien vor und gebe meine eigene Einschätzung zur Bewertung der Ergebnisse im Hinblick auf den Einsatz in der Schweizer und Deutschen Gesundheitswelt.
Chat-GPT schreibt Berichte zehnmal schneller als Ärzte
Basler und schwedische Forscher haben den Chatbot mit sechs virtuellen Patientenfällen getestet.
Die Forscher erfanden dafür sechs Patientenfälle und schrieben für sie fiktive medizinische Aktennotizen. Daraus erstellten Chat-GPT als auch echte Fachärztinnen und -ärzte Arztberichte für die sechs Patienten. Ein 15-köpfiges Expertengremium bewertete Qualität und Erstellungsgeschwindigkeit der Berichte. Das Gremium wusste nicht, von wem die Berichte geschrieben worden waren, Mensch oder Maschine.
Im Grossen und Ganzen war die Qualität der Berichte von KI und Mensch vergleichbar. Beide machten ungefähr gleich viele Fehler, bei mehreren Berichten waren Korrekturen nötig. Aber: Das KI-Modell Chat-GPT-4 hat die Dokumente zehnmal schneller erstellt als die Ärzte.
Das KI-Modell Chat-GPT kann Arztberichte bis zu zehnmal schneller schreiben als Ärztinnen und Ärzte, ohne dass dabei die Qualität leidet. Das schlussfolgern Forscher der Klinik für Orthopädie und Traumatologie des Universitätsspitals Basel (USB) aus einer Pilotstudie mit sechs virtuellen Patientenfällen. Die Studie führten sie zusammen mit schwedischen Kollegen aus dem Karolinska-Institut, dem Universitätsklinikum Uppsala und dem Danderyd-Krankenhaus durch.
Meine Einschätzung zur Studie
Die Ergebnisse der Studie sind beeindruckend und spiegeln das wieder, was ich selbst schon mit Arztpraxen in Pilotgruppen getestet habe. Sofern ChatGPT einen passenden Prompt erhält, ist die Qualität der Arztberichte von ChatGPT enorm gut. Dabei ist anzumerken, dass die Qualität bzw. Genauigkeit des Prompts einen grossen Einfluss auf das Ergebnis hat.
Weiter möchte ich anmerken, dass ChatGPT auf keinem Fall den Datenschutz-Standards entspricht. ChatGPT für Qualitäts- und Effizienztests ist eine gute Option. Wenn KI-Technologien, aber im operativen Betrieb genutzt werden sollen, muss auf sichere (Schweizer) Lösungen zurückgegriffen werden. Eine davon ist SwissGPT von AlpineAI.
Schlussendlich bleibt die Tatsache, dass wie es heute bereits mit herkömmlich erstellten Dokumenten der Fall ist – jeder Bericht von Menschen überprüft werden muss.
ChatGPT: Einfühlsamer als eine Ärztin oder eine Ärztin
In Kalifornien und Wisconsin, USA, testeten einige Krankenhäuser die Open-AI-Software ChatGPT im Rahmen eines umfassenden Pilotprojekts. Dazu sollten der Chatbot Fragen von Patientinnen und Patienten beantworten, die diese über ein Social-Media-Forum einreichen konnten. Das Ergebnis: Laut der Studie schnitt der Bot dabei besser ab als die menschlichen Ärztinnen und Ärzte.
Für die Untersuchung wurden schriftliche Antworten von Ärztinnen und Ärzten auf reale Gesundheitsfragen mit Antworten verglichen, die ChatGPT gab. Anschliessend wertete ein Team von lizenzierten Gesundheitsfachkräften die Ergebnisse aus und entschieden – natürlich ohne zu wissen, welche Antwort von Menschen und welche von der KI kam – welche Antwort besser war. Dabei beurteilten sie sowohl die Qualität der bereitgestellten Informationen (sehr schlecht, schlecht, akzeptabel, gut oder sehr gut) als auch die Empathie oder das Verhalten am Krankenbett (nicht einfühlsam, leicht einfühlsam, mässig einfühlsam). Die durchschnittlichen Ergebnisse wurden auf einer Skala von 1 bis 5 geordnet und zwischen Chatbot und Ärzten verglichen. Das Ergebnis war ziemlich eindeutig: In 79 Prozent der Fälle bevorzugte das Gremium die Antworten von ChatGPT. Sie kamen sogar zu dem Schluss, dass die Antworten sogar sowohl qualitativ hochwertiger als auch einfühlsamer waren.
In der Schlussfolgerung der Studie heisst es: „Es ist eine weitere Erforschung dieser Technologie im klinischen Umfeld erforderlich, beispielsweise durch die Verwendung von Chatbots für den Entwurf von Antworten auf Patientenfragen. Diese können Ärztinnen und Ärzte dann bearbeiten. Randomisierte Studien könnten weiter untersuchen, ob der Einsatz von KI-Assistenten die Antworten auf Patientenfragen verbessern, Burnout bei Ärztinnen und Ärzten verringern und die Patientenversorgung verbessern könnte.“.
Mehr Infos zur Studie „ChatGPT: Einfühlsamer als eine Ärztin oder eine Ärztin?“ unter diesem Link.
Meine Einschätzung zur Studie
Die Fähigkeit von ChatGPT Stimmungen von Nutzern erkennt und darauf sogar individuell einzugehen, wird im Customer Service bereits seit einiger Zeit eingesetzt und auch in vielen Studien als sehr nützlich bewiesen. Es erstaunt mich daher nicht, dass KI-Technologien, wie ChatGPT auch im Kontext der Medizin als emphatisch und zum Teil sogar sympathischer bzw. in der Tonalität passender als ein Mensch wahrgenommen werden. Natürlich muss immer berücksichtigt werden, mit wem die KI gerade verglichen wird. Im Gesundheitskontext kommt dann häufig noch der Zeitmangel des Pflegepersonals hinzu, der individuelle persönliche Tonalitätsanpassungen erschwert.
Schlussendlich muss aber auch bei dieser Studie wieder berücksichtigt werden, dass sich ChatGOT direkt aufgrund von Datenschutz nicht eignet. Vergleichbare Tools, aber sichere KI-Technologien aber ähnlich-gute Ergebnisse liefern
ChatGPT insgesamt besser als Ärzte bei medizinischen Schlussfolgerungen
ChatGPT hat in einem Vergleichstest in den USA bei der Diagnose von Krankheiten bessere Punktzahlen erreicht als gut ausgebildetes medizinisches Personal. Allerdings streute die KI auch starke Fehler ein. ChatGPT-4 hat die Leistungen von Ober- und Assistenzärzten bei der Verarbeitung medizinischer Daten und im Hinblick auf klinische Argumentation insgesamt, trotz einzelner Fehler, übertroffen. Der Vergleichstest wurde am Beth Israel Deaconess Medical Center (BIDMC) in Boston durchgeführt. Grundlage war ein bei Medizinern anerkanntes Punktesystem, der sogenannte „r-IDEA Score“.
Die Forscher rekrutierten 21 Oberärzte sowie 18 Assistenzärzte, die jeweils einen von 20 ausgewählten klinischen Fällen bearbeiteten, die aus vier aufeinanderfolgenden Phasen des diagnostischen Denkens bestanden. Die Autoren wiesen die Ärzte an, ihre Differentialdiagnosen in jeder Phase aufzuschreiben und zu begründen. Der Chatbot GPT-4 erhielt identische Anweisungen für alle 20 Fälle. Die Antworten wurden dann hinsichtlich des klinischen Urteilsvermögens (r-IDEA-Score) und verschiedener anderer Massstäbe für das logische Denken bewertet.
Beim r-IDEA-Score lag ChatGPT am Ende mit durchschnittlich zehn von zehn Punkten vorn. Die Oberärzte kamen auf durchschnittlich neun von zehn, das Assistenzpersonal auf acht von zehn Punkte. In einzelnen Teilbereichen machte der Chatbot aber auch offensichtliche Fehler, die das menschliche Personal nicht beging.
Meine Einschätzung zur Studie
Die Tatsache, dass ChatGPT sogar bei inhaltlichen Fragen besser abschneidet, als Menschen, hat selbst mich stark beeindruckt. Es verdeutlicht aber einmal mehr, dass vor allem die Zusammenarbeit zwischen Mensch und Künstlicher Intelligenz immer wichtiger wird. ChatGPT hatte in der Studie auch grobe Fehler gemacht, die ein Mensch wiederum schnell gefunden hätte. Wie auch Thilo Stadelmann bereits mal im SRF sagte, die KI ist wahrscheinlich dann am nützlichsten, wenn sie den menschlichen Denkprozess unterstützt, aber nicht ersetzt. Oder KI-Technologien dienen als Kontrollinstanzen, die Menschen helfen, sicherzustellen, dass nichts übersehen wird.
ChatGPT bei Diagnose in der Notaufnahme so gut wie Ärzte
Laut einer Studie aus der Fachzeitschrift «Annals of Emergency Medicine» stellt ChatGPT bei Patienten in der Notaufnahme mindestens genauso korrekte Diagnosen wie die Ärzte. Nach Angaben der niederländischen Studienautoren übertraf der Chatbot, der Künstliche Intelligenz (KI) einsetzt, in einigen Fällen sogar die Arbeit der Ärzte – war aber gleichwohl fehleranfällig.
Für ihre Studie untersuchten die Forscher 30 Fälle von Patienten, die im vergangenen Jahr in einer niederländischen Notaufnahme behandelt worden waren. Sie fütterten ChatGPT mit den anonymisierte Patientendaten, Labortests und den Beobachtungen der Ärzte und baten den Chatbot, fünf mögliche Diagnosen zu stellen. Diese verglichen sie dann mit der Diagnoseliste der Ärzte und glichen sie schliesslich mit der jeweils richtigen Diagnose ab.
Bei den Ärzten fand sich die richtige Diagnose in 87 Prozent der Fälle unter den fünf Vorschlägen, bei der ChatGPT-Version 3.5 sogar in 97 Prozent der Fälle. Einfach ausgedrückt bedeutet dies, dass ChatGPT in der Lage war, medizinische Diagnosen vorzuschlagen, ähnlich wie es ein menschlicher Arzt tun würde. Wie auf anderen Gebieten auch, zeigte der Chatbot aber auch einige Schwächen. Manchmal sei die Argumentation des Chatbots «medizinisch wenig plausibel oder widersprüchlich gewesen», heisst es in der Studie. Dies könne zu «Fehlinformationen oder Fehldiagnosen» führen – mit entsprechend schwerwiegenden Auswirkungen.
Der Studien-Mitautor Steef Kurstjens ordnet die Studie selbst ein und gibt an, dass er nicht davon ausgeht, dass ChatGPT oder ähnliche KI-Technologien die Gesamtleitung der Notaufnahme übernehmen könnten. Aber KI-Technologien können unter Druck stehende Ärzte bei der Diagnose unterstützen und so Zeit einsparen und damit die Wartezeiten in der Notaufnahme zu verkürzen.
Die Studie wurde in der Fachzeitschrift «Annals of Emergency Medicine» veröffentlicht.
Meine Einschätzung zur Studie
Zunächst möchte ich darauf hinweisen, dass die Studie zwar mit ChatGPT durchgeführt worden ist, aber das in der Realität auf keinen Fall echte Patientendaten in ChatGPT eingegeben werden dürfen.
Weiter zeigt sich auch in dieser Studie wieder, dass ChatGPT zwar grundsätzliche gute bzw. richtige Ergebnisse und Diagnosen liefert. Wenn es aber um tiefere Details oder logische Erklärungen geht, sind KI-Technologien, wie ChatGPT meist schlechter als ein Mensch.
KI-gestützte Diagnostik: Weniger Benachteiligung von Frauen
Die Ergebnisse der Machbarkeitsstudie „Frau.Herz.KI – Gerechte Medizin für Frauen“ bei der Früherkennung von koronaren Herzerkrankungen bei Frauen mittels Künstlicher Intelligenz zeigt, dass KI-Technologien zum Teil besser Krebs erkennen, als klassische Tools. Frauen sterben häufiger an Herzinfarkten als Männer. Ein Problem dabei ist oft, dass sie nicht dieselben typischen Symptome aufweisen, was zu einer Fehleinschätzung der Diagnose oder zu einer verspäteten Behandlung führen kann. Aus diesem Grund befasst sich die Gendermedizin schon länger mit dem Einfluss des Geschlechts auf verschiedene Erkrankungen und Behandlungsmethoden.
Für das Projekt „Frau.Herz-KI – Gerechte Medizin für Frauen“ wurden Patientendaten des Klinikums rechts der Isar in München und des Osypka-Herzzentrums genutzt. Die Daten wurden exportiert, aufbereitet und im Anschluss mit unterschiedlichen KI-Systemen analysiert. Die ersten Tests sind vielversprechend: Bis zu 19 Prozent konnten KHK auf Basis der verwendeten Daten besser vorhergesagt werden als durch die Einschätzung von Experten. Zusammen mit Ärzten könne der KI-Kardiologe die Diagnose von Herzkrankheiten signifikant verbessern und somit schnellere und passgenauere Therapien ermöglichen. Für die Zukunft sei es laut der Studie denkbar, auf Basis der Projektergebnisse eine Art „digitalen Assistenzarzt“ zu entwickeln, der Medizinern bei der Überwindung der Gender-Health-Gap helfe. Frauen würden bei einem Herzinfarkt häufiger an Kurzatmigkeit, Rückenschmerzen, Übelkeit oder Schmerzen im Oberbauch leiden. Geschlechterspezifische KI-Anwendungen für Frauen werden daher immer wichtiger und existieren heute bislang kaum. Die nächsten Schritte umfassen laut der Studie die Beschaffung neuer, umfassenderer Datensätze, die mehr Frauen und entsprechende weibliche Einflussfaktoren beinhalten. Nur so könnten die trainierten Modelle optimiert werden, um individualisierte Diagnostik und Behandlung wirksam zu unterstützen und die Prävention zu verbessern.
Mehr Infos zum Projekt „Frau.Herz.KI – Gerechte Medizin für Frauen“ hier.
Meine Einschätzung zur Studie
Ich würde die Relevanz dieser Studie nicht nur auf die Gendermedizin übertragen, sondern allgemein auf Medizin im Hinblick auf Randgruppen. Es gibt viele Kulturen oder Menschengruppen, deren Gesundheitsdaten in der Forschung bislang kaum vertreten sind. Und aufgrund von Kosten- und Zeitdruck können wohl auch nicht immer alle Menschengruppen berücksichtigt werden. KI-Technologien können aber genau diese Lücke schliessen und kostenneutral, sowie skalierbar auch Randgruppen in ihre Diagnostik einbeziehen.
KI-Chatbots transformieren die Patientenversorgung
Laut einem Bericht von Harald Witte, Tobias Blatter, Alexander B. Leichtle von der Computational Medicine Group am Inselspital Bern können Chatbots bereits heute eine Reihe von Aufgaben im Gesundheitswesen wahrnehmen. Dazu zählen Tätigkeiten wie das Vereinbaren von Arztterminen oder Aufnehmen von Patientendaten, aber auch Teilschritte beim Bearbeiten von Versicherungsanfragen. Das Auslagern solch vergleichsweise einfacher, aber zeitaufwendiger Funktionen entpastet Mitarbeitende im Gesundheitswesen heute schon enorm.
Darüber hinaus können Chatbots zuverlässige medizinische Informationen «ermüdungsfrei» kommunizieren. Auch auf Expertenebene werden KIs laut der Computational Medicine Group in Zukunft die Kommunikation verbessern können, zwischen Arztpersonal und Patientinnen und Patienten, aber auch zwischen Fachleuten verschiedener Disziplinen. Tiefes Fachwissen ist schliesslich keine Garantie dafür, dieses auch auf einfache Weise vermitteln zu können.
Die ganze Studie „Performance of ChatGPT on USMLE: Potential for AI-assisted medical education using large language models“ hier.
Meine Einschätzung zur Studie
Ich bin davon überzeugt, dass Chatbots, und auch Voicebots gute KI-Anwendungen für das Gesundheitswesen sind. Neben den oben gezeigten Beispielen möchte ich die Tatsache, dass Chatbots immer auf Augenhöher ihrer Nutzer kommunizieren können, betonen. Diese Fähigkeit ist gerade in der Gesundheitskommunikation von grosser Bedeutung. Egal ob, einfühlsames Erklären von Krankheiten und Symptomen oder wirksame Kommunikation im Rahmen der Gesundheitserziehung – Chat- und Voicebots können jegliche Inhalte zielgruppengerecht aufbereiten. Dies steigert, sowohl die Qualität der Dialoge, wie auch die Effizienz des medizinischen Personal.
Using ChatGPT to evaluate cancer myths and misconceptions: artificial intelligence and cancer information
Es gibt nur wenige Daten über die Qualität der Krebsinformationen, die Chatbots und andere KI-Technologien bereitstellen. Die Studie „Using ChatGPT to evaluate cancer myths and misconceptions: artificial intelligence and cancer information“ bewertet die Genauigkeit der Krebsinformationen auf ChatGPT im Vergleich zu den Antworten des National Cancer Institute (NCI) anhand der Fragen auf der Webseite „Common Cancer Myths and Misconceptions“. Die Antworten des NCI und die ChatGPT-Antworten zu jeder Frage wurden verblindet und dann auf ihre Genauigkeit hin bewertet (genau: ja oder nein). Die Bewertungen wurden für jede Frage unabhängig voneinander ausgewertet und dann zwischen den verblindeten NCI- und ChatGPT-Antworten verglichen. Zusätzlich wurden die Wortzahl und der Flesch-Kincaid-Lesbarkeitsgrad für jede einzelne Antwort bewertet. Nach der Überprüfung durch Experten betrug der Prozentsatz der Gesamtübereinstimmung für die Genauigkeit 100 % für die NCI-Antworten und 96,9 % für die ChatGPT-Ausgaben für die Fragen 1 bis 13 (ĸ = -0,03, Standardfehler = 0,08). Es gab kaum nennenswerte Unterschiede in der Anzahl der Wörter oder der Lesbarkeit der Antworten von NCI und ChatGPT. Insgesamt deuten die Ergebnisse darauf hin, dass ChatGPT genaue Informationen über gängige Krebsmythen und falsche Vorstellungen liefert.
Die ganze Studie Using ChatGPT to evaluate cancer myths and misconceptions: artificial intelligence and cancer information kann hier gelesen werden.
Meine Einschätzung der Studie
Es existieren bereits viele Studien zur Qualität und Richtigkeit der Antworten von ChatGPT. Dabei muss immer berücksichtigt werden, dass ChatGPT selbst auch nur auf vorhandenen Daten lernt. Es scheint hier der Fall zu sein, dass die existierenden Grundlagendaten eine sehr hohe Qualität haben und somit auch ChatGPT gute Antworten gibt. Dies muss aber nicht auch in Zukunft so bleiben. Andere Studien zeigen auch, dass sich die Richtigkeit der ChatGPT-Antworten zum Teil verschlechtert hat, da auch die Datengrundlage unsauber geworden ist.
Fazit: Studien zu ChatGPT und KI in der Medizin
Im Allgemeinen sind die Studien zum Einsatz von ChatGPT äusserst positiv und setzen die KI-Technologie von ChatGPT in ein sehr positives Licht. Es gilt aber unbedingt zu beachten, dass ChatGPT sich nicht zum Teilen von persönlichen bzw. vertraulichen Daten eignet. Es gibt aber heute schon gute Alternativen zu ChatGPT, vgl. SwissGPT, die dem Schweizer und Datenschutz nicht im Wege stehen.
Wenn ihr mehr zu diesem oder ähnlichen Themen wissen möchtet, schreibt mir eine Nachricht mit euren Wünschen und Fragen. Ihr könnt eure Nachricht per WhatsApp Nachricht oder per E-Mail schicken.
Oder ihr schaut euch selbst mein AI-Angebot speziell für die Gesundheitsbranche an.