- Bedrijven die toepassingen voor generatieve artificial intelligence ontwikkelen, voeden hun modellen met grote datasets. Daarbij wordt ook auteursrechtelijk beschermde informatie gebruikt.
- Artiesten en andere rechthebbenden zoals uitgevers hebben hierover meerdere rechtszaken aangespannen tegen AI-startups.
- De uitkomst van deze rechtszaken kan bepalend zijn voor het verdienmodel van AI-bedrijven.
- Lees ook: AI-industrie kan komend jaar wel eens een te maken krijgen met een forse terugslag, na het hypejaar 2023, aldus een analist
Het was niet de eerste keer dat er kunst werd gestolen van Eva Toorenent. Maar dat haar kunst werd gebruikt om een AI-model mee te trainen voelde als “een nieuwe vorm van misbruik.”
De kunstenaar en illustrator, die sinds 2019 als freelancer werkt, kwam er vorig jaar achter dat een andere kunstenaar haar werk gebruikte om met Midjourney (een AI-beeldgenerator) kunst in haar stijl te produceren. Het ging zelfs zover dat enkele van de door de AI-software ontworpen werken aan een kunstgalerie werden verkocht.
Generatieve artificial intelligence – ofwel software die antwoorden produceert op basis van ingevoerde vragen – is sterk in opkomst sinds de lancering van de bot ChatGPT. Daarbij gaat het dus niet alleen om software die tekst genereert, maar ook om beeldcreatie door AI-modellen.
Toorenent is zeker niet de enige die last heeft van AI-copy cats. Kunstenaars, schrijvers en wetenschappers moeten meer moeite doen om hun werk te beschermen. Dat heeft met name in de Verenigde Staten geleid tot een reeks van rechtszaken.
De klagende partijen stellen dat AI-startups hun werk zonder toestemming en zonder licentie gebruiken. Dit zou volgens hen als 'ongeautoriseerd afgeleid werk' gezien moeten worden. Iets wat in sommige gevallen een inbreuk op het auteursrecht kan zijn.
Ondertussen schermen de AI-startups met het Amerikaanse begrip 'Fair Use', wat stelt dat auteursrechtelijk materiaal in bepaalde omstandigheden gebruikt mag worden zonder dat er dan inbreuk op het recht plaatsvindt.
Het is in toenemende mate aan de rechter om te bepalen wie gelijk heeft. Deze maand sleepte Universal Music Group AI-startup Anthropic voor het gerecht omdat het auteursrechtelijk beschermde teksten van liedjes zou verspreiden.
In januari beweerde een groep kunstenaars dat zowel Midjourney als Stability AI, de startup achter de beeldgenerator Stable Diffusion, hun werk van het internet hadden verzameld, zonder dat daar toestemming voor was gegeven.
Ondertussen is Getty Images verwikkeld in een rechtszaak met Stability AI over het gebruik van de beeldbank van Getty voor de training van Stable Diffusion.
De uitkomsten van deze rechtszaken kunnen enorme gevolgen hebben voor alle startups die zich bezighouden met generatieve AI. Als rechters besluiten dat de kunstenaars en uitgevers gelijk hebben, moeten startups waarschijnlijk aanzienlijke boetes betalen voor de inbreuk op het auteursrecht. Dat heeft grote gevolgen voor de datamarkt
Gratis data verzamelen: is bronvermelding verplicht?
AI-modellen worden getraind met data die zonder enige vorm van toestemming van het web wordt gehaald. Iets wat 'data scraping' wordt genoemd. Hierbij wordt data van bijvoorbeeld websites gekopieerd met als doel om dit in te voeren in een ander systeem, in dit geval generatieve AI-software.
De vraag is nu of de originele bron van deze data vermeld moet worden, of dat de data zonder goedkeuring gebruikt kan worden. Het huidige model is een "Wild Westen met weinig licenties en minimale regulering", zegt Simon Menashy, een partner bij durfkapitalist MMC Ventures.
De wereld was niet klaar voor de komst van ChatGPT toen de bot in 2022 werd gelanceerd. Er zijn nog maar enkele systemen en processen ontwikkeld voor de eerlijke en ethische uitwisseling van data, zegt hij. "We zullen zien dat de deuren dichtgaan voor data scraping", stelt Menashy. Hij gelooft dat toekomstige wetgeving expliciet data scraping voor AI zal verbieden.
Partner Ekaterina Almasque van durfkapitalist OpenOcean zegt dat er in het slechtste geval helemaal geen nieuwe regels of wetgeving ontstaat uit de rechtszaken en dat we gewoon op dezelfde manier doorgaan. Ze stelt dat de meeste AI-modellen door grote multinationals worden gemaakt. "In veel regio's betalen ze geen belasting. De vraag is of iets vergelijkbaars het geval blijft met gebruik van waardevolle data.".
Almasque hoopt dat de rechtszaken leiden tot de ontwikkeling van een functionerende datamarkt, waar data wordt gekocht, verkocht en gelicenseerd op een eerlijke en billijke manier.

In de rechtszaak die Getty Images tegen Stability AI aanspande, claimt het bedrijf dat de startup 12 miljoen afbeeldingen zonder toestemming heeft gebruikt om het AI-model te trainen.
Als de rechter Stability AI gelijkt geeft, zou dat een "gevaarlijk precedent" neerzetten. Dan is eigenlijk "alles op het internet gratis te gebruiken om large language models [LLM's: de technologie achter generatieve AI-chatbots - Red.] te trainen", zegt Sunny Dhillon, een managing partner bij Kyber Knight Capital.
Getty, dat onlangs aankondigde een eigen generatieve AI-tool te maken in samenwerking met techbedrijf Nvidia, zegt dat "de explicite toestemming van rechthebbenden nodig is om gebruik te mogen maken van hun data voor het trainen van modellen."
"Generatieve AI-tools en -diensten zouden transparant moeten zijn als het aankomt op de data die ze hebben gebruikt voor het trainen van dit soort modellen", zegt een woordvoerder van Getty.
Toekomst van AI met gelicenseerde data
Startups die gespecialiseerde modellen maken met gelicenseerde data, kunnen profijt hebben van mogelijke restricties op data scraping. Bedrijven zoals Harvey en Hippocratic AI maakten modellen die de juridische en medische industrie bedienen.
Volgens Menashy zal er een verschil ontstaan tussen AI-bedrijven die gebruik maken van gelicenseerde data en de rest. "Dat is interessant voor startups - er ligt een kans voor hen om een ander product te hebben", zegt hij. "Ze kunnen hun modellen trainen op data die niet algemeen beschikbaar is voor hun klanten, en ze vertellen dat het gelicenseerd en in overeenstemming met regels en wetten is."
Climate Aligned is een startup die publiek beschikbare data gebruikt om een gespecialiseerde generatieve AI-tool maakt. Het bedrijf, dat onlangs nog 1,8 miljoen dollar aan investeringen ophaalde, gebruikt AI om inzichtelijk te maken wat financiële bedrijven aan milieu, maatschappij en goed bestuur (ESG) doen.
"We gebruiken openbare data, wat beschikbaar is op het internet. Daaronder vallen de websites van bedrijven, hun jaarverslagen en dergelijke", zegt Aleksi Tukiainen, medeoprichter en CEO van Climate Aligned. "We delen de informatie via ons platform en verwijzen daarbij naar de bronnen van de documentatie. We trainen onze modellen niet op willekeurige data die zomaar ergens vandaan komt."
Regulering van AI: Europa versus de VS
"Europa houdt ervan om dingen vooraf te reguleren en wettelijke grenzen te stellen. In de VS is het vaak andersom, regulering volgt als er aantoonbaar een groot probleem is", zegt Menashy.
In het geval van artificial intelligence zou dit cultuurverschil tussen Europa en de VS opnieuw een rol kunnen spelen. zegt Andre Retterath, een partner bij Earlybird Venture Capital. "Europa nam de eerste stappen met GDPR en de VS volgde met CCPA, twee losstaande regelgevingskaders die op detailniveau van elkaar verschillen, maar in grote lijnen hetzelfde doel hebben. Ik verwacht iets vergelijkbaars voor generatieve AI", zegt hij.
Volgens Menashy wacht de industrie op een "Taylor Swift-moment." De megaster eiste het zeggenschap over haar muziekcatalogus op, hoewel ze geen licentierechten had vastgelegd.
Swift schreef de liedjes voor haar eerste zes albums zelf, wat haar een 'synchronisatielicentie' gaf. Dat betekent dat ze haar albums opnieuw zou kunnen opnemen zonder inbreuk te maken op auteursrechten, waardoor ze de controle over haar eigen muziek terug kon krijgen. "Wie gaat de Taylor Swift van generatieve AI worden?", vraagt Menashy zich af.