Sempre più studi si concentrano sull’uso della ChatGPT nelle pratiche mediche, nella ricerca o nelle questioni mediche in generale. I risultati sono di solito sorprendenti. Molti studi suggeriscono che le tecnologie AI, come ChatGPT, possono non solo aumentare l’efficienza all’interno di un’organizzazione sanitaria, ma anche innalzare la qualità dei risultati del lavoro di medici e personale sanitario a un nuovo livello.
In questo articolo presento gli studi più rilevanti e aggiornati e fornisco la mia valutazione dei risultati in merito al loro utilizzo nel mondo sanitario svizzero e tedesco.
Chat-GPT scrive rapporti dieci volte più velocemente dei medici
I ricercatori di Basilea e della Svezia hanno testato il chatbot con sei casi di pazienti virtuali.
I ricercatori hanno inventato sei casi di pazienti e hanno scritto per loro delle note mediche fittizie. Da questo, i GPT della chat e i medici specialisti reali hanno creato i referti medici per i sei pazienti. Un gruppo di 15 esperti ha valutato la qualità e la velocità con cui sono stati prodotti i rapporti. La commissione non sapeva chi avesse scritto i rapporti, se un uomo o una macchina.
In linea di massima, la qualità dei rapporti dell’IA e degli esseri umani era paragonabile. Entrambi hanno commesso più o meno lo stesso numero di errori e sono state necessarie correzioni per diversi rapporti. Ma: il modello AI Chat-GPT-4 ha creato i documenti dieci volte più velocemente dei medici.
Il modello Chat-GPT AI è in grado di scrivere rapporti medici fino a dieci volte più velocemente dei medici senza compromettere la qualità. Questa è la conclusione tratta dai ricercatori del Dipartimento di Ortopedia e Traumatologia dell’Ospedale Universitario di Basilea (USB) da uno studio pilota che ha coinvolto sei casi di pazienti virtuali. Hanno condotto lo studio insieme ai colleghi svedesi del Karolinska Institute, dell’Uppsala University Hospital e del Danderyd Hospital.
La mia valutazione dello studio
I risultati dello studio sono impressionanti e riflettono ciò che ho già testato personalmente con gli studi medici in gruppi pilota. A condizione che ChatGPT riceva una risposta adeguata, la qualità dei referti medici di ChatGPT è estremamente buona. Va notato che la qualità e l’accuratezza del prompt influiscono notevolmente sul risultato.
Vorrei inoltre sottolineare che ChatGPT non rispetta in alcun modo gli standard di protezione dei dati. ChatGPT per i test di qualità ed efficienza è una buona opzione. Se le tecnologie AI devono essere utilizzate nelle operazioni, tuttavia, è necessario utilizzare soluzioni sicure (svizzere). Uno di questi è SwissGPT di AlpineAI.
In definitiva, resta il fatto che, come già avviene oggi per i documenti creati in modo convenzionale, ogni rapporto deve essere controllato da esseri umani.
ChatGPT: più empatico di un medico
In California e in Wisconsin, negli Stati Uniti, diversi ospedali hanno testato il software di intelligenza artificiale aperta ChatGPT nell’ambito di un progetto pilota completo. Il chatbot aveva il compito di rispondere alle domande dei pazienti che potevano inviarle tramite un forum sui social media. Il risultato: secondo lo studio, il bot ha ottenuto risultati migliori rispetto ai medici umani.
Per lo studio sono state confrontate le risposte scritte dei medici a domande reali sulla salute con le risposte fornite da ChatGPT. Un team di professionisti sanitari abilitati ha poi analizzato i risultati e deciso – ovviamente senza sapere quale risposta provenisse dagli esseri umani e quale dall’IA – quale fosse la migliore. Hanno valutato sia la qualità delle informazioni fornite (molto scarsa, scarsa, accettabile, buona o molto buona) sia l’empatia o il modo di porsi al letto (non empatico, poco empatico, moderatamente empatico). I risultati medi sono stati classificati su una scala da 1 a 5 e confrontati tra il chatbot e i medici. Il risultato è stato abbastanza chiaro: nel 79% dei casi, il panel ha favorito le risposte di ChatGPT. Sono persino giunti alla conclusione che le risposte erano di qualità superiore e più empatiche.
Nelle conclusioni dello studio si legge: “Sono necessarie ulteriori ricerche su questa tecnologia in ambito clinico, ad esempio utilizzando i chatbot per elaborare le risposte alle domande dei pazienti. I medici possono poi elaborarle. Gli studi randomizzati potrebbero studiare ulteriormente se l’uso di assistenti AI possa migliorare le risposte alle domande dei pazienti, ridurre il burnout dei medici e migliorare l’assistenza ai pazienti”.
La mia valutazione dello studio
La capacità di ChatGPT di riconoscere gli stati d’animo degli utenti e di rispondere loro individualmente è già stata utilizzata da tempo nel servizio clienti e si è rivelata molto utile in molti studi. Non mi sorprende quindi che le tecnologie AI come ChatGPT siano percepite come enfatiche anche nel contesto della medicina e a volte persino più comprensive o più appropriate nel tono rispetto a un essere umano. Naturalmente, bisogna sempre considerare con chi viene confrontata l’IA. Nel contesto sanitario, questo è spesso aggravato dalla mancanza di tempo da parte del personale di assistenza, che rende difficile adattare la tonalità personale.
In definitiva, però, anche in questo studio bisogna tenere conto del fatto che ChatGOT non è direttamente adatto a causa della protezione dei dati. Strumenti comparabili ma tecnologie AI sicure, ma che offrono risultati altrettanto validi
ChatGPT è complessivamente migliore dei medici nel trarre conclusioni mediche
In un test comparativo condotto negli Stati Uniti, il ChatGPT ha ottenuto punteggi migliori nella diagnosi delle malattie rispetto al personale medico ben addestrato. Tuttavia, l’IA ha anche commesso alcuni gravi errori. ChatGPT-4 ha superato le prestazioni dei medici senior e degli assistenti nell’elaborazione dei dati medici e in termini di ragionamento clinico in generale, nonostante gli errori individuali. Il test comparativo è stato effettuato presso il Beth Israel Deaconess Medical Centre (BIDMC) di Boston. La base era un sistema a punti riconosciuto dai medici, il cosiddetto “punteggio r-IDEA”.
I ricercatori hanno reclutato 21 medici senior e 18 specializzandi, che hanno lavorato ciascuno su uno dei 20 casi clinici selezionati, costituiti da quattro fasi consecutive di ragionamento diagnostico. Gli autori hanno chiesto ai medici di scrivere e giustificare le loro diagnosi differenziali in ogni fase. Il chatbot GPT-4 ha ricevuto istruzioni identiche per tutti i 20 casi. Le risposte sono state poi valutate in base al giudizio clinico (punteggio r-IDEA) e a varie altre misure di ragionamento.
ChatGPT si è aggiudicato il primo posto nel punteggio di r-IDEA con una media di dieci punti su dieci. I medici senior hanno ottenuto una media di nove su dieci, gli assistenti otto su dieci. In alcune aree, tuttavia, il chatbot ha commesso errori evidenti che il personale umano non ha commesso.
La mia valutazione dello studio
Il fatto che ChatGPT sia addirittura migliore degli esseri umani quando si tratta di domande relative ai contenuti ha impressionato anche me. Tuttavia, dimostra ancora una volta che la collaborazione tra esseri umani e intelligenza artificiale sta diventando sempre più importante. ChatGPT aveva anche commesso errori grossolani nello studio, che un umano avrebbe individuato rapidamente. Come ha detto Thilo Stadelmann su SRF, l’IA è probabilmente più utile quando supporta il processo di pensiero umano, ma non lo sostituisce. Oppure le tecnologie AI fungono da istanze di controllo che aiutano le persone a garantire che nulla venga trascurato.
Il ChatGPT è bravo quanto i medici nella diagnosi al pronto soccorso
Secondo uno studio pubblicato sulla rivista “Annals of Emergency Medicine”, la ChatGPT fa diagnosi ai pazienti del pronto soccorso che sono almeno altrettanto accurate di quelle fatte dai medici. Secondo gli autori dello studio olandese, il chatbot, che utilizza l’intelligenza artificiale (AI), in alcuni casi ha addirittura superato il lavoro dei medici, ma era comunque soggetto a errori.
Per il loro studio, i ricercatori hanno analizzato 30 casi di pazienti che erano stati curati in un pronto soccorso olandese nell’ultimo anno. Hanno alimentato ChatGPT con i dati anonimizzati dei pazienti, gli esami di laboratorio e le osservazioni dei medici e hanno chiesto al chatbot di formulare cinque possibili diagnosi. Hanno poi confrontato questi dati con l’elenco delle diagnosi dei medici e infine li hanno abbinati alla diagnosi corretta.
Tra i medici, la diagnosi corretta è stata trovata nell’87% dei casi tra i cinque suggerimenti, con ChatGPT versione 3.5 anche nel 97% dei casi. In parole povere, questo significa che ChatGPT era in grado di suggerire diagnosi mediche, proprio come farebbe un medico umano. Tuttavia, come in altre aree, il chatbot ha mostrato anche alcuni punti deboli. Secondo lo studio, a volte il ragionamento del chatbot era “implausibile o contraddittorio dal punto di vista medico”. Questo potrebbe portare a “disinformazione o diagnosi errate”, con conseguenti gravi conseguenze.
Il coautore dello studio Steef Kurstjens categorizza lo studio stesso e afferma di non supporre che ChatGPT o tecnologie AI simili possano subentrare nella gestione complessiva del dipartimento di emergenza. Ma le tecnologie AI possono aiutare i medici sotto pressione a formulare una diagnosi e quindi a risparmiare tempo e a ridurre i tempi di attesa al pronto soccorso.
Lo studio è stato pubblicato sulla rivista “Annals of Emergency Medicine”.
La mia valutazione dello studio
Prima di tutto, vorrei sottolineare che sebbene lo studio sia stato condotto con ChatGPT, in realtà i dati dei pazienti reali non devono essere inseriti in ChatGPT in nessun caso.
Questo studio dimostra anche che ChatGPT fornisce risultati e diagnosi fondamentalmente buoni o corretti. Tuttavia, quando si tratta di dettagli più profondi o di spiegazioni logiche, le tecnologie AI come ChatGPT sono solitamente peggiori di un umano.
Diagnostica supportata dall’AI: meno discriminazione nei confronti delle donne
I risultati dello studio di fattibilità “Frau.Herz.KI – Gerechte Medizin für Frauen” (Woman.Heart.AI – Medicina equa per le donne) sulla diagnosi precoce delle malattie coronariche nelle donne utilizzando l’intelligenza artificiale dimostrano che le tecnologie AI sono talvolta migliori nel riconoscere il cancro rispetto agli strumenti tradizionali. Le donne muoiono più frequentemente di infarto rispetto agli uomini. Un problema è che spesso non presentano gli stessi sintomi tipici, il che può portare a una diagnosi errata o a un trattamento ritardato. Per questo motivo, la medicina di genere si occupa da tempo dell’influenza del genere su varie malattie e metodi di trattamento.
Per il progetto “Frau.Herz-KI – Gerechte Medizin für Frauen” sono stati utilizzati i dati dei pazienti del Klinikum rechts der Isar di Monaco di Baviera e dell’Osypka Heart Centre. I dati sono stati esportati, elaborati e poi analizzati con diversi sistemi di intelligenza artificiale. I primi test sono promettenti: fino al 19% dei casi di CHD potrebbe essere previsto meglio sulla base dei dati utilizzati rispetto al giudizio di un esperto. Insieme ai medici, il cardiologo AI potrebbe migliorare significativamente la diagnosi delle malattie cardiache e quindi consentire terapie più rapide e personalizzate. Secondo lo studio, in futuro è ipotizzabile lo sviluppo di un tipo di “medico assistente digitale” basato sui risultati del progetto, che aiuterebbe i medici a superare il divario sanitario di genere. Le donne hanno maggiori probabilità di soffrire di respiro corto, mal di schiena, nausea o dolore nella parte superiore dell’addome in caso di attacco cardiaco. Le applicazioni di IA specifiche per le donne stanno quindi diventando sempre più importanti e oggi non esistono quasi più. Secondo lo studio, i prossimi passi includono l’ottenimento di nuovi set di dati più completi che includano un maggior numero di donne e i corrispondenti fattori di influenza femminili. Questo è l’unico modo per ottimizzare i modelli addestrati al fine di supportare efficacemente diagnosi e trattamenti personalizzati e migliorare la prevenzione.
Maggiori informazioni sul progetto “Frau.Herz.KI – Gerechte Medizin für Frauen” qui.
La mia valutazione dello studio
Vorrei applicare la rilevanza di questo studio non solo alla medicina di genere, ma alla medicina in generale per quanto riguarda i gruppi emarginati. Ci sono molte culture o gruppi di persone i cui dati sulla salute sono stati finora poco rappresentati nella ricerca. Inoltre, per motivi di costi e di tempo, non tutti i gruppi di persone possono essere presi in considerazione. Tuttavia, le tecnologie AI possono colmare proprio questo divario e includere i gruppi emarginati nelle loro diagnosi in modo scalabile e senza costi.
I chatbot AI stanno trasformando l’assistenza ai pazienti
Secondo un rapporto di Harald Witte, Tobias Blatter e Alexander B. Leichtle del Computational Medicine Group dell’Inselspital di Berna, i chatbot possono già svolgere una serie di compiti nel settore sanitario. Questo include attività come l’organizzazione di appuntamenti medici o la registrazione dei dati dei pazienti, nonché le fasi secondarie dell’elaborazione delle richieste di assicurazione. L’esternalizzazione di queste funzioni, relativamente semplici ma che richiedono molto tempo, sta già togliendo un’enorme quantità di pressione ai dipendenti del settore sanitario.
Inoltre, i chatbot possono comunicare informazioni mediche affidabili “senza fatica”. Secondo il Computational Medicine Group, in futuro le IA saranno anche in grado di migliorare la comunicazione a livello di esperti, tra personale medico e pazienti, ma anche tra specialisti di diverse discipline. Dopo tutto, una conoscenza specialistica approfondita non garantisce che possa essere comunicata in modo semplice.
Lo studio completo“Performance di ChatGPT sull’USMLE: potenziale per l’educazione medica assistita dall’intelligenza artificiale utilizzando modelli linguistici di grandi dimensioni” è disponibile qui.
La mia valutazione dello studio
Sono convinto che i chatbot e i voicebot siano ottime applicazioni di AI per il settore sanitario. Oltre agli esempi illustrati sopra, vorrei sottolineare il fatto che i chatbot possono sempre comunicare all’altezza degli occhi degli utenti. Questa capacità è particolarmente importante nella comunicazione sanitaria. Che si tratti di una spiegazione delicata di malattie e sintomi o di una comunicazione efficace nel contesto dell’educazione sanitaria, le chat e i voicebot possono preparare qualsiasi contenuto per adattarsi al gruppo target. Questo aumenta sia la qualità del dialogo che l’efficienza del personale medico.
Utilizzo della ChatGPT per valutare i miti e le idee sbagliate sul cancro: intelligenza artificiale e informazione sul cancro
Ci sono pochi dati sulla qualità delle informazioni sul cancro fornite dai chatbot e da altre tecnologie AI. Lo studio “Using ChatGPT to evaluate cancer myths and misconceptions: artificial intelligence and cancer information” valuta l’accuratezza delle informazioni sul cancro su ChatGPT rispetto alle risposte del National Cancer Institute (NCI) alle domande del sito web Common Cancer Myths and Misconceptions. Le risposte dell’NCI e le risposte del ChatGPT a ciascuna domanda sono state valutate in cieco e poi valutate per l’accuratezza (esattamente: sì o no). I punteggi sono stati analizzati in modo indipendente per ogni domanda e poi confrontati tra le risposte dell’NCI e della ChatGPT in cieco. Inoltre, per ogni singola risposta sono stati valutati il numero di parole e il livello di leggibilità Flesch-Kincaid. Dopo la revisione da parte degli esperti, la percentuale di accordo complessivo per l’accuratezza è stata del 100% per le risposte NCI e del 96,9% per i risultati ChatGPT per le domande da 1 a 13 (ĸ = -0,03, errore standard = 0,08). Non ci sono state differenze significative nel numero di parole o nella leggibilità delle risposte di NCI e ChatGPT. Nel complesso, i risultati suggeriscono che la ChatGPT fornisce informazioni accurate sui miti e sulle idee sbagliate più comuni sul cancro.
Lo studio completo Using ChatGPT to evaluate cancer myths and misconceptions: artificial intelligence and cancer information può essere letto qui.
La mia valutazione dello studio
Esistono già molti studi sulla qualità e l’accuratezza delle risposte della ChatGPT. Bisogna sempre considerare che ChatGPT stesso impara solo dai dati esistenti. In questo caso sembra che i dati di base esistenti siano di qualità molto elevata e quindi anche ChatGPT fornisce buone risposte. Tuttavia, non è detto che la situazione rimanga tale anche in futuro. Altri studi dimostrano che l’accuratezza delle risposte ChatGPT è peggiorata in alcuni casi, poiché anche la base dei dati è diventata impura.
Conclusione: Studi su ChatGPT e AI in medicina
In generale, gli studi sull’uso di ChatGPT sono estremamente positivi e mettono la tecnologia AI di ChatGPT in una luce molto favorevole. Tuttavia, è importante notare che ChatGPT non è adatto alla condivisione di dati personali o riservati. Tuttavia, esistono già valide alternative a ChatGPT, come SwissGPT, che non ostacolano la protezione della Svizzera e dei dati.
Se vuoi saperne di più su questo o altri argomenti simili, scrivimi un messaggio con i tuoi desideri e le tue domande. Puoi inviare il tuo messaggio tramite WhatsApp o via e-mail.
Oppure puoi dare un’occhiata alla mia offerta di AI specifica per il settore sanitario.