Intelligenza artificiale: "no data (sintetici) no party" - dati - Aindo

Intelligenza artificiale: “no data (sintetici) no party”

Picture of Tiziana Tripepi

Tiziana Tripepi

Perché l’abbiamo scelta
Aindo, la nostra startup del mese, ha sviluppato una piattaforma tecnologica che permette la creazione di dati sintetici: dati artificiali creati a partire dai dati reali utilizzando modelli generativi di Ai.

L’Intelligenza artificiale sta rivoluzionando tutti i settori ma per funzionare bene ha bisogno di una grande mole di dati. Ci sono però delle industrie, e la sanità è una di queste, dove la maggior parte dei dati è privata, cioè soggetta a GDPR. Come fare in modo che i regolamenti sulla privacy non ostacolino l’utilizzo di una tecnologia che proprio in questo campo può apportare benefici non solo economici ma anche sociali?

Una strada è quella della creazione di dati sintetici, cioè dati artificiali creati a partire dai dati reali utilizzando modelli generativi di intelligenza artificiale. Daniele Panfilo, fondatore di Aindo insieme al fisico e Phd Sebastiano Saccani, è stato uno dei primi a percepirne l’importanza.

Laurea in ingegneria alla Sapienza, master in Intelligenza artificiale alla Maastricht University, dottorato in AI generativa all’Università di Trieste, ha sviluppato una piattaforma tecnologica che, messa a disposizione di grandi istituzioni (ospedali, aziende farmaceutiche, banche, centri di ricerca), permette la creazione di dati sintetici.

Aindo, nata nel 2018 all’interno della scuola di dottorato di SISSA (Scuola Internazionale Superiore di Studi Avanzati) di Trieste, impiega 30 persone nelle sue due sedi di Padriciano (Ts), presso l’Area Science Park, e Milano, all’interno di Le Village di Crédit Agricole.

Come fa la vostra piattaforma a creare i dati sintetici?

«La maggior parte dei dati di qualsiasi istituzione è contenuta in database, che sono strutture che contengono tabelle. Queste tabelle sono “linkate” le une alle altre: nel caso di un ospedale, per esempio, una tabella può contenere l’anagrafica e un’altra le diagnosi dei vari pazienti. Noi abbiamo sviluppato dei sistemi che si connettono a queste tabelle e allenano un modello di Ai sui dati in esse contenuti, generando così il dato artificiale, che “mima” il comportamento del dato reale a cui ci è agganciato».

Bisogna essere dei tecnici per utilizzarla?

«È molto intuitiva: abbiamo disegnato un’interfaccia grafica e delle funzionalità che permettono a tutti di utilizzarla, non necessariamente a personale tecnico. Vendiamo alle aziende una licenza annuale».

I dati sintetici sono in tutto e per tutto come i dati reali?

«Si approssimano con un’esattezza del 90-95% ai dati veri. Hanno due caratteristiche che li rendono straordinari: mantengono inalterate le proprietà statistico-matematiche del dato vero. E, essendo artificiali (generati attraverso un algoritmo), non sono più dati personali, quindi non sono soggetti a GDPR. Ma c’è un altro aspetto molto importante: il riutilizzo».

Ce lo spieghi?

«I dati sanitari sono raccolti sulla base del consenso, ma il riutilizzo di queste informazioni (cioè l’utilizzo secondario) è proibito. Se una società raccoglie dati per i quali ha il consenso per fare uno studio sul diabete e un domani li volesse riutilizzare per un altro tipo di investigazione, non lo potrebbe fare se in fase di raccolta non è stato firmato il consenso all’utilizzo dei dati per questo altro tipo di analisi. “Sloccare i dati” in ambito sanitario attraverso la creazione di dati sintetici vuole anche dire poterli riutilizzare in maniera sicura».

Una materia che tocca non solo la tecnologia ma anche la normativa…

«Assolutamente sì. Questa è una tecnologia di frontiera, e per trovare applicazione sul mercato deve essere utilizzata in maniera legittima. La vera sfida è proprio quella di mettere al tavolo diversi interlocutori, non solo ingegneri ma anche avvocati e politici, per far sì che si possa trovare una strada. E c’è una buona notizia: l’Italia in questo momento è pioniera nella regolamentazione dei dati sanitari».

Tu e Sebastiano lavoravate come data scientist in Allianz. Cosa vi ha spinto a creare qualcosa di vostro?

«Usavamo l’Ai per gli scopi della nostra organizzazione, io per esempio facevo le previsioni di incidenti o analisi delle frodi. Ma quello che subito abbiamo percepito è stata la natura generalista di questa tecnologia: è infatti una GPT, General Purpose Technology, una di quelle che può cambiare il corso dell’evoluzione umana. Al pari dell’elettricità, per intenderci. Prevedevamo che da lì a qualche anno sarebbe esplosa».

Quando avete fondato Aindo però non vi siete subito concentrati sui dati sintetici…

«Ci occupavamo di sviluppo di algoritmi, ma poi ci siamo resi conto che i modelli di Ai stavano diventando sempre più delle commodity, e che il vero asset era rappresentato dai dati. Se vuoi migliorare le capacità di ragionamento dei modelli di Ai devi dare loro più dati. Da qui l’idea: invece di porci dal lato di chi sviluppa il modello dovevamo, come nell’era del petrolio, “scavare i pozzi” per trovare i dati, il nuovo petrolio dell’era digitale».

Il settore sanitario rappresenta l’80% dei vostri ricavi. Quali istituzioni utilizzano i dati sintetici?

«Il caso più comune è rappresentato dalle istituzioni ospedaliere, che non possono fornire dati in chiaro tutte le volte che le aziende farmaceutiche conducono gli studi di Real World Evidence (studi basati sull’analisi dei dati che i pazienti generano durante la pratica clinica di ogni giorno, ndr). Se però sono in possesso della nostra tecnologia sono in grado, a partire dai dati clinici, di generare i dati sintetici. In altre parole, noi installiamo la tecnologia che l’ospedale utilizza per sintetizzare il dato e darlo alla farmaceutica, ottimizzando i tempi burocratici sottostanti l’adozione di tali processi di ricerca».

Come vi finanziate?

«A oggi abbiamo raccolto più di 8 milioni di euro dal venture capital. E recentemente ci siamo aggiudicati il finanziamento dell’European Innovation Council (EIC) Accelerator: 2,1 milioni di euro di grant e un impegno da parte dell’European Investment Bank a partecipare in coinvestimento a un prossimo round di vc per un massimo di 4 milioni di euro. Questo ci metterà in grado di fare il passo successivo: una volta “liberato il dato”, poterlo utilizzare per tanti scopi interessanti in ambito ricerca e sviluppo».

Keypoints

  • Aindo è una startup fondata nel 2018 dall’ingegnere Daniele Panfilo e il fisico Sebastiano Saccani all’interno della scuola di dottorato di SISSA. Ha sviluppato una piattaforma tecnologica che, messa a disposizione di grandi istituzioni, permette la creazione di dati sintetici
  • I dati sintetici sono dati artificiali creati a partire dai dati reali utilizzando modelli generativi di intelligenza artificiale. Sono molto importanti in campo sanitario, dove la maggior parte dei dati non può essere utilizzata perché è privata, cioè soggetta a GDPR
  • I dati sintetici hanno due caratteristiche che li rendono straordinari: mantengono inalterate le proprietà statistico-matematiche del dato vero. E, essendo artificiali, non sono più dati personali, quindi non sono soggetti a GDPR
  • All’inizio della loro avventura, i due founder si occupavano di sviluppo di algoritmi, ma poi si sono resi conto che i modelli di AI stavano diventando sempre più delle commodity, e il vero asset era rappresentato dai dati
  • Il caso più comune di utilizzo di dati sintetici è rappresentato dalle istituzioni ospedaliere, che non possono fornire dati in chiaro tutte le volte che le aziende farmaceutiche conducono gli studi di Real World Evidence.
  • Aindo, che impiega 30 persone nelle sue due sedi di Padriciano (Ts), e Milano, a oggi ha raccolto più di 8 milioni di euro dal venture capital. E recentemente si è aggiudicata il finanziamento dell’European Innovation Council (EIC) Accelerator: 2,1 milioni di euro di grant e un impegno da parte dell’European Investment Bank a partecipare in coinvestimento a un prossimo round di vc per un massimo di 4 milioni di euro

Altri articoli