L’opt-out TDM è oggi lo strumento principale per impedire che i contenuti pubblicati online vengano utilizzati per addestrare modelli di intelligenza artificiale generativa. La possibilità è prevista dall’art. 4, par. 3, della Direttiva (UE) 2019/790 (Direttiva DSM) ed è espressamente richiamata dall’art. 53(1)(c) del Regolamento (UE) 2024/1689 (AI Act), che obbliga i fornitori di modelli di IA per finalità generali a individuare e rispettare la riserva dei diritti. Per editori, content creator, web agency, e-commerce e aziende che pubblicano contenuti originali online, la domanda non è più “se” esercitare l’opt-out, ma come farlo in modo giuridicamente efficace e tecnicamente leggibile dai crawler.
1. La base normativa: art. 4(3) Direttiva DSM e art. 53(1)(c) AI Act
L’art. 4 Direttiva DSM ha introdotto un’eccezione generale al diritto d’autore per le attività di estrazione di testi e di dati (text and data mining, TDM), senza restrizioni di beneficiari o finalità. L’eccezione si applica a contenuti legalmente accessibili e copre, di fatto, anche l’addestramento di sistemi di IA.
Il punto chiave per i titolari di diritti è il paragrafo 3: l’eccezione opera “a condizione che l’utilizzo delle opere e di altri materiali non sia stato espressamente riservato dai titolari dei diritti in modo appropriato, ad esempio attraverso strumenti che consentano lettura automatizzata in caso di contenuti resi pubblicamente disponibili online”. Tradotto: la legge concede la facoltà di TDM, ma riconosce a chi pubblica online il diritto di sottrarre i propri contenuti a quell’uso, a condizione di farlo nelle forme corrette.
L’art. 53(1)(c) AI Act chiude il cerchio: impone ai fornitori di modelli GPAI di “individuare e rispettare, anche attraverso tecnologie all’avanguardia” la riserva ex art. 4(3) Direttiva DSM. Significa che il provider non può limitarsi a recepire la riserva quando gli viene comunicata: deve attivamente cercarla, con strumenti adeguati allo stato della tecnica.
Il Considerando 105 dell’AI Act è esplicito: la riserva, per essere opponibile, deve essere fatta “in modo appropriato”.
1.1 La trasposizione italiana e i suoi limiti
In Italia la Direttiva DSM è stata trasposta con il D.Lgs. 8 novembre 2021, n. 177. L’art. 70-quater LdA si limita a stabilire che l’estrazione di testo e di dati è consentita quando l’utilizzo delle opere non è stato espressamente riservato dai titolari del diritto d’autore e dei diritti connessi, nonché dai titolari delle banche dati.
La norma nazionale non chiarisce le modalità della riserva né i criteri perché sia considerata accettabile. La potenziale distanza tra il testo italiano e quello europeo può generare incertezze interpretative, ma il riferimento operativo resta quello dell’art. 4(3) Direttiva DSM e dei suoi Considerando, soprattutto da quando l’AI Act ha consolidato il principio della riserva “appropriata”.
2. Le forme della riserva: machine-readable, contrattuale, mista
Il Considerando 18 della Direttiva DSM distingue due scenari per esprimere la riserva.
Per i contenuti resi disponibili al pubblico online “dovrebbe essere ritenuto appropriato riservare tali diritti solo attraverso l’uso di strumenti che consentano una lettura automatizzata, inclusi i metadati e i termini e le condizioni di un sito web o di un servizio”.
Per altri casi (contenuti non pubblicamente disponibili online o ambienti chiusi) “può essere appropriato riservare i diritti con altri mezzi, quali accordi contrattuali o una dichiarazione unilaterale”.
Da qui derivano tre forme operative di riserva, da combinare secondo il contesto.
2.1 Riserva machine-readable tramite strumenti tecnici
Per i contenuti pubblicati online la forma più affidabile è quella leggibile in modo automatizzato dai crawler. Gli strumenti più diffusi sono:
- protocollo robots.txt, configurato per escludere i crawler dei provider di IA generativa dall’accesso a determinati contenuti o a tutto il sito;
- strumenti dedicati messi a disposizione dai principali fornitori, come Google-Extended, che consente ai siti di continuare a essere scansionati e indicizzati dai crawler dei motori di ricerca evitando però che i dati siano usati per il training dei modelli di IA;
- metadati strutturati associati a singole risorse (immagini, video, documenti), in grado di trasmettere automaticamente la riserva.
Questi strumenti non hanno tutti la stessa portata: il robots.txt opera a livello di sito o directory, gli strumenti dedicati operano per singolo provider, i metadati possono colpire singole opere. Una strategia efficace combina più livelli.
2.2 Riserva nei termini e condizioni del sito
Il Considerando 18 della Direttiva DSM include espressamente “i termini e le condizioni di un sito web o di un servizio” tra gli strumenti idonei. La riserva inserita nei T&C ha valore se è:
- espressa, ossia formulata in modo inequivocabile come divieto di TDM e di utilizzo per training di sistemi di IA;
- visibile e accessibile, non nascosta in clausole generiche;
- machine-readable per quanto possibile, evitando formulazioni che solo un giurista possa interpretare e privilegiando linguaggio chiaro, prevedibile e codificato.
La sola clausola contrattuale, però, può non bastare di fronte a crawler che non leggono il linguaggio naturale. La buona prassi è far convergere clausola nei T&C e segnali tecnici machine-readable.
2.3 Riserva contrattuale o dichiarazione unilaterale
Per contenuti non pubblicamente disponibili (archivi privati, banche dati professionali, materiali distribuiti tramite accordi B2B) la riserva può prendere la forma di clausole contrattuali specifiche, accordi di licenza che escludono espressamente l’uso per training di IA, o dichiarazioni unilaterali allegate ai contenuti.
In questi contesti il presidio è meno tecnico e più giuridico: la tracciabilità documentale dell’opt-out diventa l’elemento centrale, anche in chiave probatoria.
3. Perché la “lettura automatizzata” è il vero terreno di gioco
Il concetto di “lettura automatizzata” si riferisce alla possibilità per una macchina di comprendere il linguaggio dell’opt-out e adeguarsi automaticamente all’istruzione. La norma menziona la lettura automatizzata in via esemplificativa, senza apparentemente imporne l’obbligatorietà. Non esistono, ad oggi, standard cogenti né protocolli ufficiali che impongano specifiche tecniche universali.
Questo apparente margine di flessibilità nasconde una trappola pratica: se la macchina del provider GPAI non comprende l’opt-out, l’opt-out può non produrre effetti, anche se è formalmente espresso. È il motivo per cui le forme tradizionali (clausola nei T&C in linguaggio naturale, dichiarazioni generiche) possono risultare giuridicamente esistenti ma tecnicamente inefficaci.
Un caso noto illustra il punto. Un fotografo tedesco ha contestato l’uso delle proprie fotografie per il training di un sistema di IA, in asserita violazione dell’opt-out espresso nelle condizioni generali del sito su cui erano state pubblicate. La società convenuta, una no-profit, non ha negato l’utilizzo: si è difesa sostenendo che l’opt-out era espresso in linguaggio HTML che il crawler non sarebbe stato in grado di comprendere, né conseguentemente di rispettare. La vicenda evidenzia che la sola riserva testuale, se non veicolata in forma effettivamente machine-readable, espone il titolare a contestazioni sul piano dell’efficacia, indipendentemente dalla sua correttezza formale.
L’AI Act sposta progressivamente il baricentro. Imporre ai provider GPAI di rispettare l’opt-out “anche attraverso tecnologie all’avanguardia” significa che lo standard tecnico evolverà, e che i provider sono tenuti ad aggiornare i propri sistemi di rilevazione. In parallelo, ai titolari di diritti conviene non affidarsi solo alla clausola scritta, ma combinare più strumenti per massimizzare la probabilità che la riserva sia effettivamente recepita.
4. Errori ricorrenti nell’impostazione dell’opt-out
Nella prassi si osservano alcuni errori che possono compromettere l’efficacia della riserva.
- Solo clausola nei T&C, senza protocollo tecnico: la sola formulazione in linguaggio naturale può non essere intercettata dai crawler.
- Robots.txt mal configurato: blocco generico dei bot che esclude anche crawler legittimi (motori di ricerca), oppure esclusione solo di crawler obsoleti senza coprire quelli effettivamente in uso dai principali provider di IA generativa.
- Mancata distinzione tra indicizzazione e training: alcuni siti finiscono per impedire qualsiasi accesso automatizzato, perdendo visibilità SEO senza ottenere un vantaggio reale sul controllo del training.
- Riserva nascosta in clausole generiche dei T&C: una dichiarazione di “tutti i diritti riservati” non è una riserva espressa ex art. 4(3) Direttiva DSM; serve un’indicazione specifica che vieti il TDM e l’uso per training di IA.
- Opt-out non aggiornato: nuovi crawler e nuovi provider compaiono con frequenza; configurazioni vecchie non li coprono.
- Assenza di tracciabilità: nessuna copia datata della riserva, nessun log della configurazione tecnica. In sede di contestazione la prova della riserva, della sua forma e del momento in cui era attiva diventa decisiva.
- Confusione tra opt-out e licensing: l’opt-out vieta l’uso per training; gli accordi di licenza, all’opposto, lo autorizzano a determinate condizioni. Sono strumenti complementari, non alternativi automatici.
5. Casi pratici applicativi
I vincoli operativi cambiano in base al modello di business. Tre esempi concreti, tutti coerenti con un quadro normativo che riconosce la facoltà di riserva ma chiede che sia espressa in modo “appropriato”.
5.1 Editore online con contenuti dietro paywall
Una testata online pubblica articoli accessibili in parte gratuitamente e in parte tramite abbonamento. L’obiettivo è duplice: presidiare il training non autorizzato e aprire una linea di possibile licensing.
Strategia tipica:
- riserva espressa nei T&C, con clausola specifica che vieta il TDM per training di IA, fatta salva la possibilità di accordi di licenza;
- robots.txt configurato per escludere i crawler dei principali provider di IA generativa;
- attivazione di strumenti dedicati lato provider, ove disponibili;
- documentazione tecnica del paywall, per qualificare i contenuti a pagamento come non legalmente accessibili rispetto a chi vi acceda eludendolo;
- valutazione di accordi di licensing per i contenuti che l’editore ritiene di voler rendere disponibili al training a determinate condizioni economiche.
5.2 Content creator con portfolio di immagini originali
Un fotografo o illustratore pubblica le proprie opere su un sito personale e su piattaforme terze. La protezione richiede attenzione alla doppia dimensione: il sito proprio e gli spazi sui quali non controlla la configurazione tecnica.
Strategia tipica:
- sul sito proprio, riserva espressa nei T&C più segnali tecnici machine-readable (robots.txt, metadati);
- sulle piattaforme terze, verifica delle impostazioni di opt-out offerte dalla piattaforma e attivazione di tutte le opzioni rilevanti;
- inserimento di metadati di opt-out direttamente nei file delle opere, dove tecnicamente possibile;
- conservazione di evidenze datate delle configurazioni adottate.
5.3 E-commerce e marketplace con cataloghi proprietari
Un e-commerce con schede prodotto, descrizioni, fotografie e contenuti editoriali originali ha interesse a impedire che il proprio catalogo venga assorbito da modelli generativi che potrebbero poi essere usati da concorrenti.
Strategia tipica:
- clausola di opt-out specifica nei T&C del sito e nei T&C dei venditori terzi del marketplace;
- robots.txt e strumenti tecnici dedicati, calibrati per non compromettere la SEO;
- gestione delle API e dei feed prodotto in modo da escludere o limitare l’uso per finalità di training;
- per le aziende che operano sia come venditori sia come gestori di marketplace, distinzione chiara tra contenuti propri e contenuti di terzi, con regole differenziate di riserva e di licenza.
Altre guide che potrebbero interessarti
Rimani informato su tutte le novità di questo affascinante mondo





