Softwarebedrijf OpenAI gebruikt openbaar beschikbare data om zijn AI-bot ChatGPT te trainen. Daaronder vallen bijvoorbeeld boeken en artikelen die je op het internet kunt vinden. Maar de producenten hiervan willen daar nu geld voor zien.

Dit soort data, die doorgaans trainingsdata worden genoemd, is een essentieel onderdeel voor de ontwikkeling generatieve artificial intelligence, ofwel AI-software die antwoorden genereert op basis van vragen.

Het vinden van bruikbare data wordt echter steeds lastiger, waardoor AI-makers als Google, Meta, OpenAI, Anthropic en Microsoft op zoek zijn naar nieuwe bronnen. Het gaat zelfs zo ver dat Meta op het punt stond om een van de grootste uitgevers ter wereld, Simon & Schuster, te kopen.

Het probleem is dat een groeiend aantal uitgevers de AI-makers beschuldigt van het onrechtmatig gebruikmaken van auteursrechtelijk beschermde data. Uitgevers vinden dat ze hiervoor gecompenseerd moeten worden.

Meta en OpenAI pareren deze claim met de "fair use"-clausule in het Amerikaanse auteursrecht, die stelt dat auteursrechtelijk beschermde data gebruikt mogen worden voor trainingsdoeleinden. Maar het is de vraag of dit punt standhoudt voor de rechter.

OpenAI en Microsoft op de korrel

Het Amerikaanse Center for Investigative Reporting (CIR), een journalistieke uitgever zonder winstoogmerk, sleepte OpenAI en Microsoft afgelopen week voor de rechter. Het CIR beschuldigt de twee techbedrijven van onrechtmatig gebruik van "auteursrechtelijk beschermde werken die eigendom zijn makers over de hele wereld, waaronder ook CIR."

"OpenAI en Microsoft gebruiken onze verhalen om hun producten krachtiger te maken, maar daarvoor hebben ze nooit toestemming gevraagd of compensatie aangeboden. Iets wat andere organisaties die onze materialen gebruiken wel doen in de vorm van een licentie", zei CEO Monika Bauerlein van CIR bij de presentatie van de aanklacht. "Dit gedrag is niet alleen oneerlijk, het is een inbreuk op auteursrecht."

In een andere aanklacht van de Author's Guild, claimen twee auteurs dat OpenAI informatie uit hun boeken had gebruikt om ChatGPT te trainen. In december 2023 klaagde The New York Times OpenAI aan om eenzelfde reden.

Afgelopen mei werd duidelijk uit documenten uit de rechtszaak van de Author's Guild dat OpenAI twee gigantische datasets had verwijderd die waren gebruikt om GPT-3 te trainen. Volgens de advocaten van de Guild zouden hierin meer dan 100.000 boeken gestaan hebben. De twee werknemers die deze data verzameld hadden, werken niet meer voor het techbedrijf, blijkt uit dezelfde documenten.

OpenAI is al even bezig met het sluiten van deals met onder andere nieuwsorganisaties om die content legaal te kunnen gebruiken. De maker van ChatGPT heeft bijvoorbeeld overeenkomsten gesloten met The Associated Press, de uitgever van The Wall Street Journal, de New York Post, The Atlantic, Prisa Media, Le Monde, Financial Times en het moederbedrijf van Business Insider Axel Springer.

Maar daarmee lijkt het probleem van de behoefte aan trainingsdata niet opgelost. Om ervoor te zorgen dat generatieve AI blijft werken en beter gaat werken, moet het blijven leren. Een handjevol licentieovereenkomsten zijn dan een druppel op een gloeiende plaat.

Betrapt op onethisch gebruik van data

Ondertussen worden AI-makers ook betrapt op onethische manieren van dataverzameling. Perplexety AI, een generatieve AI-tool die webpagina's genereert op basis van een vraag van een gebruiker, is meerdere malen betrapt bij het omzeilen van betaalmuren van websites om zichzelf toegang verschaffen tot sites waar het volgens de robot.txt geen toegang tot zou moeten krijgen.

Robot.txt is een bestandje dat uitgevers aan hun websites kunnen toevoegen waarin ze vermelden dat zoek- en AI-robots geen toegang mogen hebben tot (bepaalde onderdelen van) hun websites. Dit is geen rechtsgeldig document, maar wordt algemeen gezien als een overeenkomst tussen een uitgever en dataverzamelaar.

Ook blijven AI-makers opvallend schimmig over waar ze hun data nu eigenlijk vandaan halen. Toen technologiedirecteur Mira Murati van OpenAI door zakenkrant Wall Street Journal werd gevraagd waar het bedrijf de data voor AI-videogenerator Sora vandaan haalde, bleef een duidelijk antwoord uit en kon er alleen gezegd worden dat het uit "openbaar beschikbare" data kwam. Een verklaring dat eigenlijk niets zegt.

Recent kwam de maker van muziekgenerator Suno, die nu voor het gerecht wordt gesleept door platenmaatschappijen voor onrechtmatig gebruik van verschillende nummers, met een soortgelijke holle uitspraak. CEO Mikey Shulman van Suno stelt dat de aangespannen rechtszaken nergens voor nodig zijn, omdat zijn AI zich richt op het maken van nieuwe muziek en het expliciet niet toelaat voor gebruikers om te refereren naar bestaande artiesten. Het moet nu blijken of die verdedigingslinie standhoudt voor de rechter.

LEES OOK: Het grootste probleem van AI, volgens Elon Musk: wat is de zin van het leven, als computers alles beter kunnen dan mensen?