Pronto soccorso, l'intelligenza artificiale meglio dello staff medico nel ragionamento clinico? I risultati di un grande studio su Science

Pronto soccorso, l’intelligenza artificiale meglio dello staff medico nel ragionamento clinico? I risultati di un grande studio su Science

di Cristina Da Rold
Immagine di Cristina Da Rold

Cristina Da Rold

Perché ne stiamo parlando
Un modello linguistico avanzato ha dimostrato prestazioni superiori a quelle di centinaia di specialisti in sei diversi esperimenti. Ma i sistemi di intelligenza artificiale non sono ancora pronti a praticare medicina in autonomia.

Getting your Trinity Audio player ready...

A marzo avevamo commentato un articolo apparso su Nature Medicine a firma di un gruppo di ricerca nientemeno che del Mount Sinai School of Medicine di New York dal quale emergeva che ChatGPT Health non sa riconoscere un’emergenza medica.

Torniamo sul tema, anche del triage, oggi che su Science è stato pubblicato un altro lavoro che dice che il modello o1 di OpenAI, invece, sta imparando molto bene a ragionare come un clinico, anche, pare, quando si tratta di emergenza.

Il modello avrebbe superato il personale medico in alcuni dei compiti più cruciali del ragionamento clinico: le decisioni in pronto soccorso, l’identificazione delle diagnosi più probabili e la pianificazione dei passaggi successivi nella gestione del paziente. È quanto emerge da un nuovo studio condotto dal Beth Israel Deaconess Medical Center e dalla Harvard Medical School.

Lo studio: dati reali, non scenari controllati

La ricerca ha valutato in modo sistematico le capacità diagnostiche e di pianificazione terapeutica del modello OpenAI o1, un trasformatore generativo pre-addestrato, il primo della serie “o” di modelli di ragionamento di OpenAI, mettendole a confronto con quelle di centinaia di medici e di precedenti sistemi di intelligenza artificiale come GPT-4.

L’elemento distintivo, rispetto alla maggior parte degli studi precedenti, è l’uso di dati reali: oltre ai casi clinici standardizzati, lo studio ha incluso una componente su pazienti reali. Le prestazioni del sistema sono state infatti confrontate con quelle di centinaia di medici in una serie di compiti di ragionamento clinico che includevano sia casi clinici standardizzati sia uno studio reale che coinvolgeva pazienti selezionati casualmente presso un importante centro di emergenza medica del Massachusetts.

Meglio del personale medico in Pronto Soccorso

Gli autori hanno osservato che, in tutti e sei gli esperimenti, il modello LLM ha costantemente eguagliato o superato le prestazioni umane nel ragionamento diagnostico e gestionale. In particolare, il suo vantaggio è risultato più pronunciato nella fase iniziale del triage in pronto soccorso, dove i medici devono prendere decisioni rapide con informazioni minime.

I ricercatori hanno confrontato le capacità diagnostiche di o1, GPT-4o e due medici specialisti su 76 casi di pronto soccorso del Beth Israel Deaconess Medical Center. Il modello o1 ha dimostrato prestazioni superiori – rispetto sia all’altro modello di intelligenza artificiale che ai medici umani – nel formulare diagnosi differenziali, con differenze particolarmente marcate nelle fasi iniziali del triage, dove le informazioni disponibili sono minori e l’urgenza decisionale è massima. In questa fase, o1 ha identificato la diagnosi corretta o molto vicina nel 67,1% dei casi, superando i due medici (55,3% e 50,0%), e il vantaggio si è mantenuto nelle fasi successive fino al ricovero (81,6% contro 78,9% e 69,7%).

La valutazione è stata condotta in cieco da altri due medici, che non sono riusciti a distinguere le diagnosi umane da quelle dell’intelligenza artificiale nella grande maggioranza dei casi, conferendo solidità metodologica ai risultati.

Come funziona OpenAI o1

Nel settembre 2024 OpenAI ha annunciato o1, un modello in grado di affrontare molti problemi complessi “ragionando” in modo logico, significativamente più capace delle IA esistenti senza un grande aumento di scala.

La chiave è prendersi più tempo per pensare.

Sono modelli strutturati per dedicare più tempo a riflettere sui problemi prima di rispondere, proprio come farebbe una persona. Attraverso l’addestramento, imparano a perfezionare il loro processo di pensiero, a provare diverse strategie e a riconoscere i propri errori.

Navigando sul sito di OpenAI dedicato a o1 si capisce che il sistema “funziona” in diversi campi: genetica, matematica, ragionamento, puzzle logici, coding.

Accurato nell’incertezza?

Un aspetto particolarmente significativo riguarda la capacità del modello di operare efficacemente anche in condizioni di incertezza, utilizzando in modo proficuo anche dati sanitari incompleti e non strutturati. Sia i medici che il sistema di intelligenza artificiale miglioravano le proprie prestazioni man mano che diventavano disponibili più informazioni cliniche, ma il modello ha mostrato una robustezza distintiva proprio nelle fasi più critiche, quelle in cui i dati sono ancora pochi.

Che cosa non significa questo studio

Gli autori dell’articolo pubblicato su Science sono espliciti su un punto fondamentale: i risultati non significano che i sistemi di intelligenza artificiale siano pronti a praticare medicina in modo autonomo, né che i medici possano essere esclusi dal processo diagnostico. «I task che abbiamo studiato, ovvero fornire un secondo parere in punti predefiniti, è da intendersi principalmente come una prova di concetto». Lo studio riguarda esclusivamente le prestazioni basate sul testo, sia per gli esseri umani che per le macchine; la medicina clinica è multiforme e ricca di input non testuali, incluse informazioni uditive e visive che i clinici utilizzano di routine.

Inoltre, «l’accuratezza in un compito definito è solo una dimensione della prontezza all’implementazione. L’IA clinica deve anche fornire risultati equi, economicamente vantaggiosi e sicuri, supportati da responsabilità, trasparenza e monitoraggio continuo», scrivono Ashley Hopkins ed Erik Cornelisse, della Flinders University, in un articolo di approfondimento correlato. «Senza una solida dimostrazione di efficacia, equità e sicurezza, molti sistemi di intelligenza artificiale rimarranno inadeguati per l’uso clinico». L’IA – evidenziano – ha il potenziale per supportare una vasta gamma di applicazioni sanitarie (decisioni cliniche, formazione medica, ecc.) ma deve essere applicata in modo responsabile: la sfida è raggiungere un’implementazione clinica sicura.

Anche Arjum Manrai e Adam Rodman, tra i coautori dello studio che ha testato la performance di questo modello di intelligenza artificiale, sottolineano che stiamo assistendo a un cambiamento davvero significativo «nella tecnologia che rimodellerà la medicina», ed è necessario condurre rigorosamente studi clinici prospettici. «Ciò che i nostri risultati supportano è un programma di ricerca solido e ambizioso per cercare di capire come possiamo utilizzare queste tecnologie per migliorare la vita dei pazienti, per facilitare l’integrazione sicura degli strumenti di intelligenza artificiale nei flussi di lavoro di cura». Strumenti di supporto decisionale clinico e non macchine che sostituiranno il personale medico, ribadiscono.

Keypoints

  • Secondo un nuovo studio pubblicato su Science  il modello o1 di OpenAI eccellerebbe proprio nelle fasi iniziali del triage, dove le decisioni sono più critiche.
  • Il modello ha eguagliato o superato le prestazioni di centinaia di medici in compiti cruciali: diagnosi differenziale, decisioni in pronto soccorso e pianificazione della gestione del paziente.
  • A differenza di molti studi precedenti, la ricerca si basa anche su pazienti reali di un pronto soccorso del Massachusetts, rafforzando la validità dei risultati.
  • Il sistema si distingue per la capacità di ragionare con informazioni incomplete o non strutturate, mostrando particolare efficacia proprio nelle fasi più complesse e ambigue del processo clinico.
  • Gli autori sono chiari: l’IA non è pronta per operare in autonomia. Resta uno strumento di supporto che richiede validazione su sicurezza, equità e impatto reale prima di un uso clinico diffuso.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Altri articoli

Iscriviti alla nostra newsletter

Rimani aggiornato su tutte le novità