L’AI Act e il diritto d’autore si incontrano in un punto preciso: l’addestramento dei modelli di IA generativa richiede enormi quantità di testi, immagini, video e altri contenuti, e una parte rilevante di questi dati è protetta da copyright. Il Regolamento (UE) 2024/1689 non è una legge sulla proprietà intellettuale, ma interviene comunque sul tema imponendo ai fornitori di modelli GPAI obblighi specifici: rispettare il diritto d’autore dell’Unione, riconoscere la riserva dei diritti sull’estrazione di testi e dati e pubblicare un riassunto dei contenuti usati per il training. Dal 2 agosto 2025 questi obblighi sono pienamente applicabili e ridisegnano il quadro di rischio e di opportunità per provider, content creator, editori, web agency e SaaS che integrano AI.

1. Perché l’AI Act parla di diritto d’autore

L’AI Act ha un obiettivo dichiarato: promuovere un’IA antropocentrica e affidabile, garantendo un livello elevato di protezione dei diritti fondamentali sanciti dalla Carta dei diritti fondamentali dell’Unione Europea. La proprietà intellettuale è uno di questi diritti.

I sistemi di IA generativa funzionano grazie al machine learning: vengono alimentati con grandi quantità di dati di input per produrre output testuali, visivi o sonori. Una delle tecniche più diffuse per raccogliere questi dati è il web scraping, ossia l’estrazione automatizzata di informazioni da siti web tramite crawler. Tra i contenuti raccolti finiscono spesso opere protette dal diritto d’autore, e da qui nasce il conflitto giuridico che l’AI Act prova a regolare.

Il Considerando 105 dell’AI Act è esplicito: lo sviluppo e l’addestramento di modelli e sistemi di IA generativa presentano opportunità di innovazione uniche, ma anche sfide per artisti, autori e altri creatori. Lo sviluppo di questi modelli richiede l’accesso a grandi quantità di testo, immagini, video e altri dati, e le tecniche di estrazione di testi e di dati possono essere ampiamente utilizzate per il reperimento e l’analisi di tali contenuti, che possono essere protetti da diritto d’autore e da diritti connessi.

C’è anche un secondo profilo, meno discusso ma altrettanto rilevante per le aziende: i dati di input possono includere conoscenze tecniche, informazioni commerciali e know-how aziendale. Inserire queste informazioni in sistemi di IA può configurare una divulgazione che ne compromette la riservatezza, facendo perdere la tutela come segreti industriali. L’AI Act contempla espressamente la protezione delle informazioni commerciali riservate e dei segreti industriali tra gli interessi da tutelare.

1.1 Il nodo storico: scraping, training e diritti esclusivi

Le norme in materia di copyright riconoscono agli autori diritti esclusivi di riproduzione, comunicazione e messa a disposizione al pubblico. Questi diritti non vengono meno per il solo fatto che un’opera sia pubblicata online.

Secondo l’impostazione del legislatore dell’Unione Europea, l’utilizzo di un’opera dell’ingegno per estrarre e utilizzare dati a fini computazionali, incluso l’addestramento di sistemi di IA, comporta una riproduzione dell’opera e quindi interferisce con l’esclusiva riconosciuta all’autore o a chi ne abbia acquisito i diritti economici.

Prima dell’avvento dell’IA, le attività computazionali su copie digitali presenti online erano giustificate sulla base di due argomenti: la licenza implicita concessa dal titolare dei diritti, usata in particolare per giustificare la liceità dell’indicizzazione operata dai motori di ricerca, e la natura temporanea e strumentale della riproduzione, coperta dall’eccezione di cui all’art. 5, n. 1, della Direttiva 2001/29/CE (Direttiva Infosoc). Questo quadro è risultato inadeguato a regolare il rapporto tra analisi automatizzata dell’opera nel training di sistemi di IA e diritti dei titolari, generando due posizioni contrapposte: gli sviluppatori, per i quali “the right to read is the right to mine”, e i titolari dei diritti, che non hanno mai acconsentito a tale utilizzo e in molti casi rivendicano una remunerazione tramite apposite licenze.

2. L’eccezione TDM e l’opt-out: la base che l’AI Act richiama

Per capire l’AI Act in materia di copyright bisogna partire dalla Direttiva (UE) 2019/790 (Direttiva DSM), che ha introdotto due eccezioni in materia di estrazione di testi e di dati (text and data mining, TDM):

  • Art. 3 Direttiva DSM: eccezione obbligatoria a favore di organismi di ricerca e istituti di tutela del patrimonio culturale, per scopi di ricerca scientifica, su opere cui hanno legalmente accesso.
  • Art. 4 Direttiva DSM: eccezione o limitazione obbligatoria, senza restrizioni di beneficiari o finalità, applicabile a chiunque effettui attività di TDM su contenuti legalmente accessibili.

La differenza decisiva è nell’art. 4, par. 3, Direttiva DSM: per i contenuti coperti dall’art. 4, i titolari dei diritti possono effettuare una riserva espressa dei propri diritti, “ad esempio attraverso strumenti che consentano lettura automatizzata in caso di contenuti resi pubblicamente disponibili online”. Tradotto: chi pubblica un contenuto online può vietarne l’uso ai fini di TDM, e questo divieto è opponibile a chi sviluppa modelli di IA.

Il Considerando 18 della Direttiva DSM chiarisce le modalità della riserva. Per i contenuti resi disponibili al pubblico online “dovrebbe essere ritenuto appropriato riservare tali diritti solo attraverso l’uso di strumenti che consentano una lettura automatizzata, inclusi i metadati e i termini e le condizioni di un sito web o di un servizio”. Per altri casi “può essere appropriato riservare i diritti con altri mezzi, quali accordi contrattuali o una dichiarazione unilaterale”.

In Italia la Direttiva DSM è stata trasposta con D.Lgs. 8 novembre 2021, n. 177. L’art. 70-quater LdA, nel disciplinare la riserva, si limita a stabilire che l’estrazione di testo e di dati è consentita quando l’utilizzo delle opere non è stato espressamente riservato dai titolari dei diritti, senza chiarire le modalità della riserva né i criteri di accettabilità. La potenziale discrasia tra testo UE e testo nazionale può generare criticità interpretative, soprattutto quando si tratta di applicare l’art. 53(1)(c) AI Act, che richiede una riserva fatta “in modo appropriato” (Considerando 105).

3. L’obbligo dei provider GPAI: art. 53(1)(c) AI Act

Qui l’AI Act fa il suo passaggio chiave. L’art. 53, par. 1, lett. c), Reg. UE 2024/1689 impone ai fornitori di modelli di IA per finalità generali (GPAI) l’obbligo di attuare “una politica volta ad adempiere al diritto dell’Unione in materia di diritto d’autore e diritti ad esso collegati e, in particolare, a individuare e rispettare, anche attraverso tecnologie all’avanguardia, una riserva di diritti espressa a norma dell’articolo 4, paragrafo 3, della direttiva (UE) 2019/790”.

Tre elementi vanno colti subito:

  • L’obbligo grava sul provider GPAI, non sul deployer o sull’utente finale.
  • Si tratta di adottare una politica, non solo di rispettare puntualmente la riserva: serve un assetto organizzativo e tecnico documentabile.
  • Lo standard tecnico richiesto è quello delle “tecnologie all’avanguardia“, quindi è destinato a evolvere con il progresso degli strumenti di machine-readable opt-out.

3.1 La portata extraterritoriale: oltre il “Brussels effect”

La ratio della norma è chiarita dal Considerando 106: imporre il rispetto della riserva ex art. 4(3) Direttiva DSM anche ai provider che hanno addestrato i modelli in Paesi terzi è necessario per garantire condizioni di parità, perché nessun provider deve poter ottenere un vantaggio competitivo nel mercato dell’Unione applicando norme sul copyright meno rigorose di quelle UE.

L’art. 53(1)(c) si applica quindi a chiunque immetta sul mercato dell’Unione un modello GPAI. A meno che un provider decida di rinunciare al mercato UE, l’effetto pratico è che l’approccio europeo al TDM, inclusa la possibilità di opt-out, tende a diventare uno standard di fatto globale. Non è un mero “Brussels effect” in senso politico: è un’estensione applicativa del diritto UE anche ad attività di TDM lecite altrove, in particolare in giurisdizioni più permissive come Giappone (art. 30-4 Copyright Act) e Singapore (sez. 244 Copyright Act 2021).

3.2 Le questioni interpretative aperte

L’art. 53(1)(c) AI Act lascia aperti due nodi che dovranno essere affrontati nella prassi e, presumibilmente, dalla giurisprudenza.

Il primo riguarda l’applicazione nel tempo. L’art. 2, par. 8, AI Act stabilisce che il Regolamento non si applica alle attività di sviluppo relative a sistemi o modelli di IA prima della loro immissione sul mercato o messa in servizio. Per i modelli addestrati legittimamente fuori dall’UE prima dell’entrata in vigore dell’AI Act, non vi è obbligo di conformarsi all’art. 4 Direttiva DSM finché tali modelli non vengano immessi sul mercato dell’UE. La questione è se, una volta immessi sul mercato UE, scattino gli obblighi dell’art. 53(1) AI Act anche per modelli già esistenti. Una lettura cauta suggerisce che l’estensione degli obblighi agli effetti futuri di situazioni sorte prima dell’entrata in vigore può non costituire violazione del principio di irretroattività.

Il secondo nodo è la portata territoriale. L’art. 53(1)(c) prescinde dal luogo in cui sono stati materialmente compiuti gli atti di estrazione e riproduzione, e dalla loro liceità secondo leggi straniere. Se il modello derivante è messo a disposizione nell’UE, tutte le fasi rilevanti ai fini del copyright devono essere conformi al diritto UE. Pur potendo sollevare rilievi di principio, questo approccio non è privo di precedenti nel diritto d’autore internazionale e dell’Unione (cfr. CGUE, Mircom, C-597/19, EU:C:2021:492). L’approccio funzionale della Corte di giustizia, che considera la finalità ultima per qualificare giuridicamente una situazione, può giustificare l’applicazione del diritto UE anche ad atti di TDM se questi sono strumentali all’addestramento di modelli poi resi disponibili nell’UE.

4. Gli obblighi di trasparenza: cosa devono pubblicare i provider

Il rispetto del copyright non si esaurisce nell’opt-out. L’art. 53 AI Act impone ai fornitori di modelli GPAI obblighi di trasparenza più ampi sui dati utilizzati nelle fasi di pre-addestramento e addestramento. In particolare il provider deve:

  • fornire informazioni complete sui set di dati utilizzati;
  • redigere una policy sul rispetto del diritto d’autore UE, con particolare riferimento all’eventuale riserva ex art. 4, par. 3, Direttiva DSM;
  • rendere pubblicamente disponibile un riassunto sufficientemente dettagliato dei contenuti utilizzati per addestrare il modello, in modo da consentire ai titolari dei diritti di esercitare efficacemente le proprie prerogative.

Il Considerando 107 dell’AI Act specifica le caratteristiche del riassunto: deve avere carattere generale anziché dettaglio tecnico, essere in forma descrittiva, agevolare l’enforcement dei titolari dei diritti, ad esempio elencando le principali raccolte o serie di dati inserite nell’addestramento (grandi banche dati, archivi privati o pubblici) e descrivendo le altre fonti utilizzate. Allo stesso tempo, il riassunto deve essere elaborato tenendo conto della necessità di proteggere i segreti commerciali e le informazioni aziendali riservate del provider.

4.1 Il template dell’AI Office

Il Considerando 108 prevede che un modello standardizzato di questo riassunto venga fornito dall’AI Office istituito dall’AI Act. L’AI Office è incaricato anche del monitoraggio del rispetto degli obblighi, senza tuttavia procedere a una valutazione individuale dei dati di addestramento in termini di conformità al diritto d’autore.

I parametri di riferimento operativi che si stanno consolidando includono l’identificazione specifica delle fonti, la dimensione totale dei dati, la presenza di procedure di revisione etica, le tecniche e il quadro temporale di acquisizione dei dati. Per i provider GPAI, allineare la propria documentazione interna a questi parametri è ormai un passaggio obbligato per gestire richieste, audit e contenziosi.

5. Lettura automatizzata e opt-out: come funziona in concreto

Il concetto di “lettura automatizzata” indicato dall’art. 4(3) Direttiva DSM si riferisce alla possibilità per una macchina di comprendere il linguaggio dell’opt-out e adeguarsi automaticamente all’istruzione. La norma menziona la lettura automatizzata in via esemplificativa, senza apparentemente disporne l’obbligatorietà, e non esistono standard ufficiali o protocolli imposti per la sua espressione.

Sul piano della prassi, alcuni dei principali fornitori di sistemi di IA generativa hanno messo a disposizione strumenti tecnici per consentire ai siti web di escludere i propri contenuti dal training:

  • istruzioni per il protocollo robots.txt che impediscono al web crawler del provider di accedere a determinati contenuti;
  • strumenti dedicati come Google-Extended, che permettono ai siti di continuare a essere scansionati e indicizzati dai crawler dei motori di ricerca, evitando però che i loro dati siano usati per l’addestramento dei modelli di IA.

Casi noti illustrano i confini della questione. Negli Stati Uniti una testata editoriale ha promosso un’azione contro un fornitore di IA generativa per asserito scraping di centinaia di migliaia di articoli, molti dei quali accessibili online solo a pagamento (paywall), ai fini dell’addestramento del sistema, e per asserita riproduzione di tali articoli negli output. In Europa, un fotografo tedesco ha contestato l’uso delle proprie fotografie per il training, in asserita violazione dell’opt-out espresso nelle condizioni generali del sito su cui erano state pubblicate. La società convenuta non ha negato l’utilizzo, ma si è difesa sostenendo che l’opt-out era espresso in linguaggio HTML che il crawler non sarebbe stato in grado di comprendere.

Il punto giuridico che emerge da questi casi è netto: la forma in cui viene espresso l’opt-out non è neutrale. Una riserva non “leggibile” dal crawler rischia di non essere considerata efficace, ed è qui che si gioca la partita pratica della tutela dei contenuti.

6. Cosa cambia in concreto per provider GPAI e titolari di diritti

L’impatto pratico dell’AI Act sul copyright si distribuisce su due fronti diversi, con profili di rischio specifici.

6.1 Per chi sviluppa e fornisce modelli GPAI

I provider GPAI che immettono modelli sul mercato UE, indipendentemente da dove sia avvenuto il training, devono:

  • adottare una policy interna di copyright compliance documentata, che descriva criteri e procedure di acquisizione e selezione dei dati di addestramento;
  • implementare soluzioni tecniche in grado di individuare e rispettare le riserve ex art. 4(3) Direttiva DSM espresse in forma machine-readable;
  • predisporre un riassunto dettagliato dei contenuti utilizzati per il training, conforme alle indicazioni del Considerando 107 e al modello dell’AI Office;
  • bilanciare trasparenza e tutela dei segreti commerciali, evitando sia divulgazioni eccessive sia opacità tali da pregiudicare l’enforcement dei titolari dei diritti;
  • valutare gli effetti retrospettivi e territoriali della norma sui modelli già addestrati ma immessi o ri-immessi sul mercato UE.

6.2 Per editori, content creator, web agency e aziende con contenuti originali

Sull’altro versante, i titolari di diritti hanno oggi a disposizione un quadro normativo che riconosce esplicitamente la facoltà di riservare i propri contenuti rispetto al training di IA. Le azioni concrete sono diverse:

  • inserire una riserva espressa ex art. 4(3) Direttiva DSM nei termini e condizioni del sito, in modo machine-readable;
  • implementare protocolli tecnici di opt-out (robots.txt, strumenti dedicati dei principali provider);
  • valutare strategie di licensing dei contenuti con i fornitori di IA, in alternativa o in aggiunta all’opt-out;
  • per chi gestisce contenuti dietro paywall, presidiare i meccanismi di accesso e documentare la natura “non legalmente accessibile” dei contenuti rispetto a scraping non autorizzato;
  • per le aziende che usano l’IA generativa internamente, evitare di inserire nei prompt know-how e informazioni riservate, per non comprometterne la tutela come segreti industriali.

Su come strutturare l’opt-out in modo efficace dal punto di vista tecnico-giuridico (formulazione delle clausole, protocolli machine-readable, valore probatorio della riserva) rinviamo all’approfondimento dedicato.

7. Lo scenario attuale: opt-out diffuso e accordi di licensing

Dall’applicabilità degli obblighi GPAI nell’agosto 2025 due fenomeni si stanno consolidando.

Il primo è la diffusione delle pratiche di opt-out: numerosi editori europei e statunitensi hanno esercitato la facoltà di riserva, e si registra un’adozione crescente di strumenti per comunicare in modo machine-readable le condizioni di disponibilità dei contenuti. Il presidio tecnico-giuridico dell’opt-out è oggi una prassi gestionale, non più un’opzione.

Il secondo è l’intensificazione dell’attività transazionale, con la negoziazione di accordi di licensing tra industria dei contenuti e piattaforme che li utilizzano. Gli editori hanno iniziato a stipulare accordi specifici per i contenuti destinati al training. Anche i settori audiovisivo e musicale si muovono su questo terreno, tra opportunità di sfruttamento delle opere e preoccupazioni per il rischio di riproduzione massiva non autorizzata.

Per le aziende digitali la lettura strategica è chiara: il copyright non è più un tema accessorio nell’adozione dell’IA generativa, ma un asse di gestione del rischio, della reputazione e, in molti casi, di valorizzazione economica dei propri contenuti.

Conclusione in sintesi

  • L’AI Act non è una legge sul copyright, ma impone ai provider GPAI obblighi specifici: rispetto del diritto d’autore UE, riconoscimento della riserva ex art. 4(3) Direttiva DSM, trasparenza sui dati di training.
  • L’art. 53(1)(c) AI Act ha portata extraterritoriale: chi immette un modello GPAI sul mercato UE deve adeguarsi, indipendentemente da dove sia avvenuto il training.
  • L’opt-out al TDM deve essere espresso in forma “appropriata” e, per i contenuti online, preferibilmente machine-readable: la sola riserva in linguaggio naturale può non bastare.
  • I titolari di diritti hanno oggi strumenti normativi e tecnici per controllare l’uso dei propri contenuti, dall’opt-out al licensing, e devono integrarli nei propri T&C e nelle policy editoriali.
  • Le aziende che usano l’IA generativa devono evitare di esporre know-how e informazioni riservate nei prompt, per non pregiudicare la tutela dei segreti industriali.
  • Il modello di sintesi dell’AI Office sui contenuti di training è uno snodo operativo centrale: policy interne e documentazione vanno allineate a quello standard.
Usi l’AI in azienda? Mettiti in regola

AI Act, GDPR e contratti su misura per chi sviluppa o utilizza intelligenza artificiale.

  • Indice dei Contenuti

Web3 | Blockchain | Intelligenza Artificiale  | Metaverso | NFT | Big Data | Nuove tecnologie | Contratti di impresa | Termini e Condizioni di vendita | E-Commerce |Adeguamento Privacy e GDPR | Proprietà Intellettuale | Gestione della Crisi | Tutela 360° |Web3 | Blockchain | Intelligenza Artificiale  | Metaverso | NFT | Big Data | Nuove tecnologie | Contratti di impresa | Termini e Condizioni di vendita | E-Commerce |Adeguamento Privacy e GDPR | Proprietà Intellettuale | Gestione della Crisi | Tutela 360° |

Richiedi una valutazione chiara del tuo caso.

Compila il form e ti risponderemo entro 48 ore