GEMA vs. OpenAI: accertata la violazione del diritto d’autore da parte di OpenAI

Con una decisione destinata a incidere profondamente sul dibattito europeo in materia di intelligenza artificiale e tutela del diritto d’autore, l’11 novembre 2025 la 42esima Sezione civile del Tribunale regionale di Monaco di Baviera (“Tribunale”) ha accolto in larga misura le domande della società tedesca di gestione collettiva GEMA nei confronti di OpenAI L.L.C. e OpenAI Ireland Ltd. (“OpenAI”). La pronuncia – non definitiva – riguarda l’uso non autorizzato di testi musicali (protetti dal diritto d’autore) come dati di addestramento del modello linguistico di ChatGPT e la loro riproduzione negli output generati dai prompt degli utenti.

Il Tribunale ha essenzialmente sposato l’impostazione di GEMA, che aveva allegato che i testi delle canzoni da questa amministrate erano stati “memorizzati” nei parametri del modello linguistico, al punto di poter essere riprodotti quasi alla lettera, configurando una riproduzione non autorizzata ai sensi della legge tedesca sul diritto d’autore (UrhG). OpenAI ha constato tale prospettazione, sostenendo che i modelli linguistici non conservano dati specifici ma solo correlazioni statistiche, e ha invocato le eccezioni text and data mining (TDM) previste dalla Direttiva UE 2019/790.

Il caso

La controversia trae origine dalla causa avviata da GEMA (la collecting society tedesca, omologa della SIAE, per intenderci) nel novembre 2024. GEMA, che rappresenta più di 100.000 autori tedeschi e più di due milioni di titolari di diritti nel mondo, ha contestato a OpenAI l’uso non autorizzato di testi di noti brani di musica pop tedesca all’interno dei dataset impiegati per addestrare il modello GPT 4 e 4o. Tra i titoli figurano celebri brani come “Atemlos” di Kristina Bach e “Wie schön, dass du geboren bist” di Rolf Zickowski, oltre a opere di Herbet Grönemeyer, Reinhard Mey, Inga Humpe e altri noti artisti.

Secondo GEMA, tali testi – protetti dal diritto di autore e mai concessi in licenza a Open AI – erano stati “appresi” dal modello in modo talmente fedele da essere riproducibili integralmente o in larga parte mediante semplici domande degli utenti, ad esempio: “quali sono le parole della canzone [titolo]?”. Questa capacità di generare versioni sostanzialmente identiche agli originali era stata addotta come prova della loro materiale incorporazione nel modello, in violazione dei diritti di riproduzione e di comunicazioni al pubblico in capo agli artisti e amministrati da GEMA.

OpenAI ha adottato una linea difensiva fondata su due pilastri principali:

assenza di memorizzazione: secondo OpenAI, i modelli linguistici non conservano copie dei dati (in questo caso copie testuali delle opere), ma recepiscono nei loro pattern dei parametri statistici appresi durante l’addestramento;
attribuzione della responsabilità agli utenti: gli output sarebbero generati solo sulla base dei prompt forniti dagli utilizzatori e il loro contenuto non deriverebbe dalla memorizzazione dell’opera all’interno del modello linguistico.

La decisione del Tribunale

La sezione specializzata in diritto d’autore del Tribunale ha respinto in larga parte le difese di OpenAI, adottando una decisione caratterizzata da tre passaggi fondamentali: (i) la permanenza della copia nei modelli, (ii) la rilevanza della memorizzazione ai fini della riproduzione, (iii) l’illiceità degli output e della comunicazione al pubblico.

Elemento centrale della decisione è il riconoscimento che i testi delle canzoni erano riproducibili attraverso richieste semplici e ripetute da parte degli utenti. Ha rilevato che semplici prompt come “Qual è il testo di [titolo canzone]?” portano ChatGPT a riprodurre parti sostanziali dei testi originali. Pur riconoscendo la presenza di variazioni o “allucinazioni” il Tribunale ha escluso che questo impedisse la riconoscibilità dei testi. Il Tribunale ha assunto una posizione netta (probabile bersaglio di critiche sul piano tecnico, prima che giuridico) accettando in primo luogo l’idea che il modello linguistico “memorizzi” dei dati suo interno e stabilendo poi che tale memorizzazione nei parametri del modello costituisce “fissazione” e quindi riproduzione ai sensi dell’Art. 2 della Direttiva InfoSoc. Il Tribunale ha respinto la prospettazione di OpenAI, affermando che non è necessario identificare un dataset specifico o una struttura interna che contenga la copia dell’opera: è sufficiente che il contenuto sia incorporato nei parametri del modello in una forma tale da consentirne la ricostruzione mediante un dispositivo tecnico. In tale prospettazione, il Tribunale ha proposto un’analogia con la codifica e compressione dei file MP3, che genera sequenze puramente numeriche la quali, tuttavia, sono leggibili come musica da parte di dispositivi digitali: il Tribunale ha concluso che era sufficiente che un modello potesse generare sequenze di token statisticamente probabili che riproducessero in modo riconoscibile i testi delle canzoni sulla base delle informazioni statistiche dedotte durante l’addestramento. Poiché il modello linguistico “memorizza” opere protette, la produzione di output coincidenti con queste a seguito di un prompt è stato ritenuto “riproduzione” non autorizzata.
Il Tribunale ha riconosciuto che, in astratto, l’addestramento dei modelli di IA rientra nell’ambito delle eccezioni per il text and data mining (TDM) previste dall’art. 4 della Direttiva Copyright (Direttiva 2019/790) e dal § 44b UrhG (Legge tedesca sul diritto d’autore). Tuttavia, il Tribunale ha ritenuto che la riproduzione dei testi delle canzoni contestate nei modelli non possa rientrare nell’eccezione TDM, che è funzionale allo studio e alla valutazione delle regole sintattiche e delle relazioni semantiche nel testo e non comprende invece la memorizzazione delle informazioni.
Il Tribunale, nello stabilire che gli output generati da ChatGPT costituiscono:
riproduzione illecita, poiché le parti originali delle opere sono riconoscibili e riproducibili su richiesta;
comunicazione al pubblico, ai sensi della normativa europea, poiché la riproduzione dei testi avviene a beneficio di una pluralità indeterminata (o successiva) di utenti.

ha imputato la responsabilità direttamente ed esclusivamente a ChatGPT, quale soggetto che ha selezionato i training data, sviluppato il sistema e disegnato la sua architettura. Il Tribunale ha escluso che l’utente sia in qualche modo responsabile per il solo fatto di avere scelto il prompt, poiché questo aziona solamente il sistema di ChatGPT senza costituire autonoma fonte di responsabilità per l’utente.

Conclusione

Il Tribunale ha adottato un approccio coraggioso nel concludere che il modello linguistico sia a tutti gli effetti un sistema di memorizzazione. Giunto a tale conclusione il passaggio puramente giuridico di ritenere questa una vera e propria fissazione dell’opera su supporto è stato pressocché inevitabile, così come considerare la generazione di un output come una riproduzione dell’opera. È probabile che la partita, nei successivi gradi di giudizio, si giochi proprio sul piano tecnico, con OpenAi che verosimilmente lotterà per affermare che i propri prodotti di punta non sono banche dati e supporti di memorizzazione ma, appunto, modelli di elaborazione del linguaggio naturale incapienti e incapaci di contenere informazioni corrispondenti a testi od opere identificabili, probabilmente attingendo ad altri giudizi attinenti al diritto di autore e l’intelligenza artificiale, come per esempio quello tra Getty Images e Stability AI nel Regno Unito.

GEMA vs. OpenAI: accertata la violazione del diritto d’autore da parte di OpenAI

You May Also Like

Pubblicata la Raccomandazione UE sulle misure di contrasto ai contenuti illegali online

Alert | L’Istituto di Autodisciplina Pubblicitaria adotta le prime linee guida sulla pubblicità di NFT, cripto-at...

Un sistema di intelligenza artificiale può essere inventore di brevetto?