ChatGPT Health non sa riconoscere un'emergenza medica

ChatGPT Health non sa riconoscere un’emergenza medica

di Cristina Da Rold
Immagine di Cristina Da Rold

Cristina Da Rold

Perché ne stiamo parlando
Uno studio su Nature Medicine rivela che ChatGPT Health sottovaluta oltre la metà delle emergenze mediche. Perché il servizio di OpenAI dedicato alla salute sbaglia? Ne parliamo con Francesca Chiaromonte, professoressa di Statistica alla Scuola Superiore Sant’Anna di Pisa.

Getting your Trinity Audio player ready...

Un chatbot che dovrebbe aiutare milioni di persone a orientarsi nella sanità fatica a distinguere un’urgenza da un appuntamento dal medico di base. È questo, in sintesi, il verdetto di uno studio appena pubblicato su Nature Medicine, che ha messo sotto esame ChatGPT Health, il servizio di OpenAI dedicato alla salute.

Uno stress test delle sue capacità di triage

Il team della prestigiosa Mount Sinai School of Medicine di New York ha condotto quello che Francesca Chiaromonte, professoressa di Statistica alla Scuola Superiore Sant’Anna di Pisa, definisce uno stress test delle capacità di triage del sistema: sessanta scenari clinici elaborati da esperti, ciascuno declinato in sedici varianti che modificavano variabili demografiche come sesso ed etnia del paziente, senza che questo dovesse influire sul giudizio di gravità.

Ne è emerso un sistema che funziona discretamente nella zona grigia della medicina – i casi di media gravità – ma che perde precisione agli estremi clinici. In oltre la metà delle emergenze reali, il 51,6%, ChatGPT Health ha suggerito di aspettare un appuntamento nelle successive 24-48 ore, anziché raccomandare il pronto soccorso. Tra i casi sottovalutati, una chetoacidosi diabetica e un paziente in insufficienza respiratoria: condizioni che, senza intervento immediato, portano alla morte.

Quando ChatGPT Health sbaglia

«Qualsiasi medico, e chiunque abbia seguito un percorso di formazione di qualsiasi livello, direbbe che quel paziente deve recarsi al pronto soccorso», ha dichiarato a Nature Ashwin Ramaswamy, autore principale dello studio. In certi casi, ha aggiunto, «il bot sembrava aspettare che l’emergenza diventasse innegabile» prima di indicare il ricovero d’urgenza. Fanno eccezione le emergenze dai sintomi inequivocabili, come l’ictus, riconosciuto correttamente nel 100% dei casi.

Il sistema sbaglia anche nell’altra direzione: il 64,8% dei casi non urgenti viene sovrastimato, con raccomandazioni di visita medica laddove basterebbero cure domiciliari. Un mal di gola di tre giorni, nel test, si è visto prescrivere una consulenza urgente. «Per me non c’è alcuna logica nel perché fornisse raccomandazioni in alcune aree piuttosto che in altre», ha osservato Ramaswamy.

A preoccupare non sono solo le sottostime – che restano il problema più grave – ma anche l’incoerenza nelle situazioni di ideazione suicidaria. ChatGPT Health dovrebbe indirizzare automaticamente al numero 988, la Suicide and Crisis Lifeline, chiunque esprima pensieri di autolesionismo (in Italia 112 è il numero d’emergenza, 02 2327 2327 di Telefono Amico e 06 77208977 di Samaritans). Nello studio, però, il bot ha attivato questo meccanismo in casi in cui non era necessario, e lo ha omesso in quelli in cui lo era. Un’inconsistenza che Chiaromonte giudica particolarmente allarmante, trattandosi di situazioni in cui la risposta del sistema può avere conseguenze irreversibili.

Perché ChatGPT Health sbaglia?

A cosa si deve tutto questo? Gli autori ipotizzano una central tendency bias: il sistema tende verso la media perché gli estremi clinici – le emergenze rare, le crisi acute – sono sottorappresentati nei dati su cui è stato addestrato. «La domanda su quali dati e con quali modalità sia avvenuto l’addestramento è ovvia, mentre la risposta lo è molto meno» osserva Chiaromonte. ChatGPT tiene molto a informarci che i dati forniti dagli utenti non sono utilizzati per attività di addestramento, e che la privacy degli utenti è di massima priorità. Infatti, ChatGPT Health, a detta di ChatGPT, è stato sviluppato proprio per garantire maggiore privacy della versione “general purpose”, che a quanto pare è utilizzata per ottenere feedback medico oltre 230 milioni di volte alla settimana.

«Le informazioni che si riescono a evincere su quali dati siano utilizzati sono però vaghe. ChatGPT Health funziona con gli stessi modelli di base di ChatGPT, cioè sfruttando pattern nei testi e nei dati sui quali è addestrato. E l’addestramento avviene attraverso un mix di testi pubblici (siti web, articoli scientifici, risorse didattiche), dataset concessi in licenza, e dati creati o curati da esperti per “rafforzare” l’apprendimento. Ma OpenAI, intenzionalmente, non divulga una lista completa e consultabile di questi inputs, adducendo motivazioni di sicurezza, diritti di proprietà e privacy.

Queste motivazioni hanno tutte una loro logica, con cui si può essere in accordo o in disaccordo. Resta il fatto che, non conoscendo in dettaglio cosa ChatGPT Health abbia “in pancia”, non è possibile andar oltre la “educated guess” degli autori dello studio: probabilmente gli estremi clinici, almeno per alcune condizioni, sono sottorappresentati nei corpora sui quali avviene l’addestramento».

Studi necessari per tutelare la nostra salute

La distinzione che OpenAI tiene a ribadire – ChatGPT Health è un assistente informativo, non un dispositivo medico – non basta, secondo l’esperta, a mitigare i rischi. I sistemi di IA clinica propriamente detti sono addestrati su enormi archivi di dati anonimizzati, producono output verificabili e sono soggetti a regolamentazione stringente, con norme precise su responsabilità e liability. ChatGPT Health non lo è. Eppure, di fatto, per i suoi utenti si trasforma in uno strumento di triage fai-da-te.

Resta aperta la questione di fondo. Si sostiene spesso che l’IA, per quanto imperfetta, valga qualcosa laddove l’alternativa umana è assente: un chatbot-infermiere è pur sempre meglio del vuoto, quando gli infermieri scarseggiano. «Forse sì – concede Chiaromonte – ma studi come quello pubblicato da Nature Medicine sono assolutamente necessari affinché pubblico, attori istituzionali e policy makers, in questa era di crescente distrazione, tengano gli occhi aperti e le mani sul volante».

Keypoints

  • ChatGPT Health sbaglia nel triage agli estremi clinici: sottostima il 51,6% delle emergenze e sovrastima il 64,8% dei casi non urgenti
  • Il sistema mostra pericolose incoerenze nelle situazioni di ideazione suicidaria, attivando o omettendo il rinvio alla crisis line in modo imprevedibile
  • La causa probabile è una “central tendency bias”: le emergenze rare sono sottorappresentate nei dati di addestramento, ma OpenAI non rende pubblici i dettagli di quel processo
  • ChatGPT Health non è classificato come dispositivo medico, ma di fatto funziona come strumento di triage per milioni di utenti — senza le garanzie regolamentari previste per i sistemi clinici
  • Il servizio è ancora in fase sperimentale e inaccessibile agli utenti europei: un segnale, secondo Chiaromonte, che le implicazioni normative non sono affatto risolte

 

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Altri articoli

Iscriviti alla nostra newsletter

Rimani aggiornato su tutte le novità