|
Getting your Trinity Audio player ready... |
A marzo avevamo commentato un articolo apparso su Nature Medicine a firma di un gruppo di ricerca nientemeno che del Mount Sinai School of Medicine di New York dal quale emergeva che ChatGPT Health non sa riconoscere un’emergenza medica.
Torniamo sul tema, anche del triage, oggi che su Science è stato pubblicato un altro lavoro che dice che il modello o1 di OpenAI, invece, sta imparando molto bene a ragionare come un clinico, anche, pare, quando si tratta di emergenza.
Il modello avrebbe superato il personale medico in alcuni dei compiti più cruciali del ragionamento clinico: le decisioni in pronto soccorso, l’identificazione delle diagnosi più probabili e la pianificazione dei passaggi successivi nella gestione del paziente. È quanto emerge da un nuovo studio condotto dal Beth Israel Deaconess Medical Center e dalla Harvard Medical School.
Lo studio: dati reali, non scenari controllati
La ricerca ha valutato in modo sistematico le capacità diagnostiche e di pianificazione terapeutica del modello OpenAI o1, un trasformatore generativo pre-addestrato, il primo della serie “o” di modelli di ragionamento di OpenAI, mettendole a confronto con quelle di centinaia di medici e di precedenti sistemi di intelligenza artificiale come GPT-4.
L’elemento distintivo, rispetto alla maggior parte degli studi precedenti, è l’uso di dati reali: oltre ai casi clinici standardizzati, lo studio ha incluso una componente su pazienti reali. Le prestazioni del sistema sono state infatti confrontate con quelle di centinaia di medici in una serie di compiti di ragionamento clinico che includevano sia casi clinici standardizzati sia uno studio reale che coinvolgeva pazienti selezionati casualmente presso un importante centro di emergenza medica del Massachusetts.
Meglio del personale medico in Pronto Soccorso
Gli autori hanno osservato che, in tutti e sei gli esperimenti, il modello LLM ha costantemente eguagliato o superato le prestazioni umane nel ragionamento diagnostico e gestionale. In particolare, il suo vantaggio è risultato più pronunciato nella fase iniziale del triage in pronto soccorso, dove i medici devono prendere decisioni rapide con informazioni minime.
I ricercatori hanno confrontato le capacità diagnostiche di o1, GPT-4o e due medici specialisti su 76 casi di pronto soccorso del Beth Israel Deaconess Medical Center. Il modello o1 ha dimostrato prestazioni superiori – rispetto sia all’altro modello di intelligenza artificiale che ai medici umani – nel formulare diagnosi differenziali, con differenze particolarmente marcate nelle fasi iniziali del triage, dove le informazioni disponibili sono minori e l’urgenza decisionale è massima. In questa fase, o1 ha identificato la diagnosi corretta o molto vicina nel 67,1% dei casi, superando i due medici (55,3% e 50,0%), e il vantaggio si è mantenuto nelle fasi successive fino al ricovero (81,6% contro 78,9% e 69,7%).
La valutazione è stata condotta in cieco da altri due medici, che non sono riusciti a distinguere le diagnosi umane da quelle dell’intelligenza artificiale nella grande maggioranza dei casi, conferendo solidità metodologica ai risultati.
Come funziona OpenAI o1
Nel settembre 2024 OpenAI ha annunciato o1, un modello in grado di affrontare molti problemi complessi “ragionando” in modo logico, significativamente più capace delle IA esistenti senza un grande aumento di scala.
La chiave è prendersi più tempo per pensare.
Sono modelli strutturati per dedicare più tempo a riflettere sui problemi prima di rispondere, proprio come farebbe una persona. Attraverso l’addestramento, imparano a perfezionare il loro processo di pensiero, a provare diverse strategie e a riconoscere i propri errori.
Navigando sul sito di OpenAI dedicato a o1 si capisce che il sistema “funziona” in diversi campi: genetica, matematica, ragionamento, puzzle logici, coding.
Accurato nell’incertezza?
Un aspetto particolarmente significativo riguarda la capacità del modello di operare efficacemente anche in condizioni di incertezza, utilizzando in modo proficuo anche dati sanitari incompleti e non strutturati. Sia i medici che il sistema di intelligenza artificiale miglioravano le proprie prestazioni man mano che diventavano disponibili più informazioni cliniche, ma il modello ha mostrato una robustezza distintiva proprio nelle fasi più critiche, quelle in cui i dati sono ancora pochi.
Che cosa non significa questo studio
Gli autori dell’articolo pubblicato su Science sono espliciti su un punto fondamentale: i risultati non significano che i sistemi di intelligenza artificiale siano pronti a praticare medicina in modo autonomo, né che i medici possano essere esclusi dal processo diagnostico. «I task che abbiamo studiato, ovvero fornire un secondo parere in punti predefiniti, è da intendersi principalmente come una prova di concetto». Lo studio riguarda esclusivamente le prestazioni basate sul testo, sia per gli esseri umani che per le macchine; la medicina clinica è multiforme e ricca di input non testuali, incluse informazioni uditive e visive che i clinici utilizzano di routine.
Inoltre, «l’accuratezza in un compito definito è solo una dimensione della prontezza all’implementazione. L’IA clinica deve anche fornire risultati equi, economicamente vantaggiosi e sicuri, supportati da responsabilità, trasparenza e monitoraggio continuo», scrivono Ashley Hopkins ed Erik Cornelisse, della Flinders University, in un articolo di approfondimento correlato. «Senza una solida dimostrazione di efficacia, equità e sicurezza, molti sistemi di intelligenza artificiale rimarranno inadeguati per l’uso clinico». L’IA – evidenziano – ha il potenziale per supportare una vasta gamma di applicazioni sanitarie (decisioni cliniche, formazione medica, ecc.) ma deve essere applicata in modo responsabile: la sfida è raggiungere un’implementazione clinica sicura.
Anche Arjum Manrai e Adam Rodman, tra i coautori dello studio che ha testato la performance di questo modello di intelligenza artificiale, sottolineano che stiamo assistendo a un cambiamento davvero significativo «nella tecnologia che rimodellerà la medicina», ed è necessario condurre rigorosamente studi clinici prospettici. «Ciò che i nostri risultati supportano è un programma di ricerca solido e ambizioso per cercare di capire come possiamo utilizzare queste tecnologie per migliorare la vita dei pazienti, per facilitare l’integrazione sicura degli strumenti di intelligenza artificiale nei flussi di lavoro di cura». Strumenti di supporto decisionale clinico e non macchine che sostituiranno il personale medico, ribadiscono.


