Referti medici e AI, come i Large Language Models (LLM) cercano segnali precoci di cancro

Referti medici e AI, come i Large Language Models (LLM) cercano segnali precoci di cancro

Picture of Maria Mezzetti

Maria Mezzetti

Perché ne stiamo parlando
L’Università di Cambridge ha iniziato a sperimentare gli LLM relativamente ai dati sul cancro al fegato, che oggi rappresenta la causa di mortalità oncologica con il tasso di crescita più rapido in Europa.

Nell’ambito della Conferenza sull’Intelligenza Artificiale in Oncologia, il cui scopo è capire come le tecnologie avanzate di intelligenza artificiale stiano trasformando la cura e la ricerca sul cancro, è stato presentato un progetto sviluppato da Hania Paverd dell’Università di Cambridge. Al centro della ricerca, il passaggio dai referti radiologici ai marcatori prognostici precoci per una valutazione comparativa degli LLM nella malattia epatica cronica.

Gli LLM, noti anche come modelli linguistici di grandi dimensioni, costituiscono una fra le innovazioni più importanti in materia di intelligenza artificiale, in quanto si tratta di veri strumenti cognitivi, in grado di simulare il ragionamento umano, rilasciare testi coerenti e offrire aiuto in diversi ambiti disciplinari.

Il percorso del paziente tra esami e referti

«Si comincia con la diagnosi di cirrosi, ma solo alcuni fra questi pazienti svilupperanno il cancro al fegato», spiega Paverd. «Possiamo identificare il cancro come lesioni LR nelle immagini radiologiche, classificate da LR1 a LR5 a seconda del rischio che siano cancerose. (Le lesioni epatiche vengono classificate con il codice LR che sta per Liver Imaging Reporting and Data System. Ogni numero rappresenta la gravità della lesione, ndr).

Possiamo offrire trattamenti locali per queste lesioni, ma spesso evolvono, e il trattamento definitivo è il trapianto di fegato. Durante questo percorso, i pazienti ricevono numerose scansioni: ogni sei mesi un’ecografia, una risonanza o una TAC. La domanda è: ci sono marcatori prognostici precoci nascosti in questi dati? Possiamo prevedere chi risponderà ai trattamenti? Chi sopravviverà? Come possiamo estrarre certi dati dai referti radiologici? Consideriamo che su 450 pazienti abbiamo quasi 10 mila scansioni. Impossibile farlo a mano».

Sì gli LLM ma…

«Gli ostacoli che si pongono sono molti. Per esempio, la variabilità dei referti, senza contare che escono nuovi modelli in continuazione. Qual è il migliore? Per impostare una fase iniziale di calibrazione, è stato sviluppato un dataset composto da 20 pazienti e 126 referti clinici. Sono state definite 31 domande standardizzate, mirate a estrarre informazioni su variabili cliniche rilevanti, tra cui lesioni epatiche, trattamenti ricevuti e presenza di cirrosi.

L’applicazione di queste domande ai referti ha prodotto oltre 3 mila coppie domanda-risposta, utilizzate per l’analisi e la valutazione del sistema. L’ideale sarebbe poter fare una domanda semplice come “quante lesioni epatiche ci sono?” e ricevere un numero come risposta. Tuttavia i modelli iniziano in qualche modo a ragionare, producono risposte discorsive e non restituiscono un dato preciso. Ciò è successo nel 13% dei casi. E quindi oltre 700 risposte sono risultate inutilizzabili. In alcune domande, addirittura, non ho ottenuto neanche una risposta valida».

La tecnica constraint decoding

«Ho perciò utilizzato una tecnica chiamata “decodifica vincolata” (constraint decoding) che consente di definire in anticipo il formato desiderato della risposta — ad esempio, accettare solo numeri. Il sistema scarta automaticamente tutto ciò che non è valido.

La tecnica funziona molto bene: l’ho testata con due implementazioni diverse (una basata su LlaMA -Large Language Model Meta AI, ndr – l’altra usando il pacchetto Guidance – uno strumento open-source messo a punto da Microsoft che permette di controllare in modo più preciso l’output dei modelli linguistici come GPT o LLaMA, ndr) – e ha funzionato correttamente nel 100% dei casi. Attenzione, ciò non significa che la risposta sia corretta. Il modello rispetta il formato, ma può sbagliare comunque il valore. Ho confrontato diversi modelli per valutare quale fosse il più accurato, ma non è emerso un vincitore assoluto: le prestazioni variano significativamente a seconda della domanda».

Modelli fine-tuned per la medicina

«Sono quindi ricorsa a un modello “addestrato” per la medicina. Ho quindi confrontato LLaMA 3.3 70B, un modello generale di ultima generazione, con OpenBioLLM, uno dei migliori modelli specializzati in ambito medico. Tuttavia, nel mio dataset, OpenBioLLM non ha mai ottenuto risultati migliori. In cinque domande, ha avuto esiti peggiori, forse per il fatto LLaMA era una versione più avanzata, oppure perché i miei prompt (testo di input, ndr) erano molto ben calibrati per il contesto medico.

Ho anche confrontato modelli di dimensioni diverse (70B contro 8B). Per molte domande non c’erano differenze significative, ma su cinque domande cruciali, come il riconoscimento delle lesioni, il modello più grande ha dato risultati nettamente migliori. Guardando il conteggio delle lesioni riportate nei referti, ho osservato che il modello piccolo ha mancato 22 lesioni, sovrastimandone 44, e il modello grande ha mancato solo 4 lesioni, sovrastimandone 33. Un errore molto più accettabile, soprattutto considerando la rilevanza clinica di quei casi».

Errore umano e LLM imperfetti

«Anche i medici radiologi commettono errori. Le lesioni, ad esempio, vengono spesso descritte come “numerose”. Ma quante sono, esattamente? Spesso i referti sono ambigui: si legge “lesione trattata o LR4?” (potrebbe essere una lesione già trattata oppure una nuova lesione sospetta, ndr), e non è chiaro se si parli di una sola lesione o di due ipotesi diverse. Se ignoro una delle due interpretazioni, rischio di perdere informazioni; se le conto entrambe, potrei duplicarle.

Anche io, da radiologa, mi trovo a commettere questi stessi errori. Ecco perché, pur non essendo perfetti, gli LLM offrono un’opportunità concreta: ci permettono di analizzare questi dati clinici in modo sistematico e longitudinale. Dati che già esistono nei sistemi ospedalieri, ma che finora erano difficili da esplorare su larga scala. Aggiungo che parlare solo di accuratezza può essere fuorviante. È fondamentale capire dove avvengono gli errori e quali informazioni sono davvero rilevanti da estrarre».

 

Foto: LinkedIn

Keypoints

  • Nell’ambito della Conferenza sull’Intelligenza Artificiale in Oncologia è stato presentato un progetto sviluppato da Hania Paverd dell’Università di Cambridge
  • Il progetto studia il passaggio dai referti radiologici ai marcatori prognostici precoci per una valutazione comparativa degli LLM nella malattia epatica cronica
  • Risponde alle domande: ci sono marcatori prognostici precoci nascosti in questi dati? Possiamo prevedere chi risponderà ai trattamenti? Chi sopravviverà?
  • Pur non essendo perfetti, gli LLM offrono un’opportunità concreta: ci permettono di analizzare questi dati clinici in modo sistematico e longitudinale

Altri articoli