Si chiamano Large Language Models (LLM), stanno rivoluzionando l’interazione uomo-macchina con un impatto notevole nelle applicazioni che usiamo tutti i giorni. Sono riusciti a ribaltare l’approccio dell’uomo con la tecnologia. Si tratta dell’intelligenza artificiale generativa, come ChatGPT. Sono multimodali, gestendo diversi formati di dati. Ma l’esplosione del fenomeno targato LLM pone una serie di dubbi e sfide che riguardano la prevedibilità e la conformità legale. Quali sono le implicazioni legali e normative dell’IA generativa e degli LLM nel contesto dell’Unione Europea sugli aspetti di responsabilità, privacy, proprietà intellettuale e sicurezza informatica? Claudio Novelli, Federico Casolari e Giorgio Spedicato, del Dipartimento di Scienze Giuridiche dell’Università di Bologna, Philipp Hacker, della Nuova Scuola Europea di Studi Digitali dell’Università Europea Viadrina e Luciano Floridi, del Dipartimento di Scienze Giuridiche dell’Università di Bologna e del Digital Ethics Center dell’Università di Yale, nel working paper “Generative AI in EU Law: Liability, Privacy, Intellectual Property, and Cybersecurity” hanno provato a identificare potenziali lacune e carenze nel quadro legislativo e cercato di proporre alcune raccomandazioni per garantire l’implementazione sicura e conforme dei modelli generativi, garantendo che si allineino al panorama digitale in evoluzione e agli standard legali europei.
Il linguaggio come output
Dal rilascio di ChatGPT alla fine del 2022, l’intelligenza artificiale generativa in generale, e i modelli linguistici di grandi dimensioni (LLM) in particolare, hanno preso d’assalto il mondo. A livello tecnico, possono essere distinti dai modelli di intelligenza artificiale più tradizionali in vari modi. Sono addestrati su grandi quantità di testo e generano il linguaggio come output, al contrario dei punteggi o delle etichette nella regressione o classificazione tradizionale. Spesso i LLM sono caratterizzati da un ambito più ampio e da una maggiore autonomia nell’estrazione di modelli all’interno di set di dati di grandi dimensioni. In particolare, la capacità degli LLM di garantire una scalabilità generale uniforme consente loro di generare contenuti elaborando una gamma variabile di input da diversi domini.
Il “nemico” degli LLM
Responsabilità civile per danni: è questo il principale ostacolo esterno all’adozione dell’intelligenza artificiale per un’azienda su tre. In particolare per i LLM, rivaleggiato solo dalla “necessità di nuove leggi”, espressa dal 29% delle aziende. Un fattore che spinge sempre più a un nuovo ed efficiente regime di responsabilità, garantendo un risarcimento alle vittime e minimizzando il costo delle misure preventive. In questo contesto, l’UE ha proposto due normative sulla responsabilità per l’IA che riguardano gli LLM. Una aggiorna l’attuale Direttiva sulla responsabilità per danno da prodotti difettosi (PLD) per i prodotti difettosi, con la quale si fornisce alle persone che hanno subito danni materiali a causa di un prodotto difettoso la base giuridica per citare in giudizio gli operatori economici interessati e chiedere un risarcimento. L’altra introduce procedure per la responsabilità per colpa per danni legati all’IA attraverso la Direttiva sulla responsabilità per l’intelligenza artificiale (AILD). Al momento, quest’ultima è parcheggiata nel processo legislativo.
Privacy e protezione dei dati sempre più “minacciati”
Da una parte si punta a implementare l’intelligenza artificiale generativa, dall’altra, però, bisogna fare i conti con privacy e protezione dei dati, che pongono ostacoli legali critici allo sviluppo dell’IA. Il caso più emblematico è il divieto temporaneo di ChatGPT da parte del Garante della Privacy del 2023. A livello astratto, un LLM preserva la privacy se divulga informazioni riservate in contesti appropriati e solo a persone autorizzate. La privacy e la protezione dei dati non sono variabili binarie e, pertanto, quale sia il giusto contesto o i giusti destinatari delle informazioni è oggetto di dibattito. Nel contesto dei LLM, questi dibattiti sono ulteriormente complicati a causa dei diversi scopi, applicazioni e ambienti in cui operano. Secondo gli autori del documento, tutto ciò porta a sette problemi principali all’intersezione tra protezione dei dati e LLM: la base giuridica adeguata per la formazione sull’IA; la base giuridica adeguata per il trattamento delle richieste; requisiti di informazione; inversione del modello, fuga di dati e diritto alla cancellazione; processo decisionale automatizzato; tutela dei minori; limitazione delle finalità e minimizzazione dei dati.
LLM e diritto di proprietà intellettuale: Europa impreparata
I contenuti generati da LLM sono il risultato dall’elaborazione di dati di testo come siti web, libri di testo, giornali, articoli scientifici e codici di programmazione. Di conseguenza, ci si pone una serie di questioni teoriche e pratiche sul diritto di proprietà intellettuale. Ad oggi, però, la legislazione europea non è attrezzata per affrontare questa spinosa tematica. Anche l’atto legislativo più avanzato attualmente in esame dalle istituzioni comunitarie – l’AIA – non contiene risposte qualificate. La posta in gioco è stata tuttavia aumentata in modo significativo da diverse cause legali di alto profilo avviate da creatori di contenuti (ad esempio, il New York Times; Getty Images) contro gli sviluppatori di intelligenza artificiale generativa, sia negli Stati Uniti che nell’UE (de la Durantaye 2023).
Rischio attacchi e disinformazione
Un’analisi a parte riguarda, invece, il tema degli attacchi avversari e la disinformazione. Per quanto riguarda i primi, la complessità e l’elevata dimensionalità degli LLM li rendono particolarmente suscettibili agli attacchi avversari. Ciò significa tentativi di ingannare il modello e indurre risultati errati, come una classificazione errata, attraverso l’alimentazione di dati contraddittori accuratamente elaborati. Sulla disinformazione, gli LLM possono ricoprire un ruolo importante nella diffusione di affermazioni false e fuorvianti, anche a un costo basso. Ciò è dovuto principalmente a dati di formazione raschiati sul web contenenti informazioni false o non reali (ad esempio, fittizie), che mancano di valore di verità se estrapolate dal contesto.
L’Europa non tiene il passo della tecnologia. I modelli di IA generativa mostrano prestazioni elevate ma i risultati sono imprevedibili e sollevano non poche preoccupazioni sulla liceità e accuratezza del contenuto generato. Il diritto europeo, ad oggi, è impreparato ad affrontare le nuove sfide tech.