AI kan niet zonder menselijke input

In maart 2021 ging een annotatiepilot van start van Media Perspectives, RTL, NPO en Beeld en Geluid om het gebruik van kunstmatige intelligentie (AI) in de media te stimuleren. Later sloten ook het video-AI-bedrijf Media Distillery en OptOut Advertising zich aan. Werkzoekenden labelen in deze annotatiepilot videomateriaal en geschreven artikelen zodat die content geschikt is voor het trainen van AI-modellen. Die trainingssets zijn cruciaal bij de ontwikkeling van AI en machine learning. Ze vormen de ruggengraat van deze technologie. Want hoe geavanceerd ook, AI kan niet zonder de menselijke maat.

AI en machine learning hebben de wereld stormenderhand veroverd. Ook mediabedrijven gebruiken ze op grote schaal. Denk maar aan de recommendation engines, die zorgen voor de aanbevelingen op Netflix, Spotify en Videoland. Maar AI wordt ook gebruikt voor het geautomatiseerd toevoegen van metadata. Zo kunnen mediabedrijven hun videoarchieven beter doorzoekbaar maken. Zulke toepassingen werken echter alleen wanneer algoritmen worden getraind en worden gevoed met data uit het verleden die betrekking hebben op hetgeen de AI moet gaan leren.

AI-algoritmes

Data zijn het sleutelelement dat AI-algoritmes gebruiken in krachtige voorspellende analyseprocessen. Trainingsgegevens zijn de enige manier waarop machines kunnen leren van menselijke input. Ze vormen eigenlijk de ruggengraat van AI. Daarom is gegevensinvoer van cruciaal belang en moeten alle vastgelegde gegevens goed worden geclassificeerd. Er is een rechtstreeks verband tussen trainingsgegevens voor AI en de prestaties van datamodellen. Hoe beter de trainingsgegevens, hoe beter het AI-model.

Bedrijven en organisaties genereren dagelijks veel ongestructureerde gegevens. Tekst, video, audio en bijvoorbeeld data die binnenkomen via sociale media zijn allemaal ongestructureerd. Als je die data wilt gebruiken voor AI en machine learning, moeten die gegevens worden gelabeld en geannoteerd. Georganiseerde datasets worden door AI-systemen gebruikt voor referentie en toekomstige voorspellingen. Dit is een belangrijke eerste stap waarin bedrijven investeren om hun producten en dienstverlening te verbeteren.

Gegevenssets

Een andere reden om data te labellen te trainen voor machine learning, is het classificeren van gegevenssets in verschillende categorieën. Als je bijvoorbeeld wilt dat je AI-systemen auto’s onderscheiden van vrachtwagens of bestelwagens, dan heb je beelden nodig die gelabeld zijn in de overeenkomstige categorie. Naarmate de algoritmen toegang krijgen tot meer van deze geclassificeerde beelden, zullen ze beter worden in het automatisch identificeren van objecten. Als een AI-systeem geen toegang heeft tot voldoende gelabelde beelden, zal het niet in staat zijn nauwkeurige resultaten te leveren en zal het systeem als geheel falen.

Volgens Muriël Serrurier Schepper, projectleider van de annotatiepilot, is menselijke input in dit proces dus onontbeerlijk. “Met het annoteren van data geef je als mens jouw oordeel over bepaalde data. Deze data worden vervolgens gebruikt om AI-modellen te trainen. Het kan gaan om redelijk objectieve oordelen: klopt de geschreven tekst met de tekst die je hoort? Of om meer subjectieve oordelen: welke van de twee plaatjes vind je het mooist? Welke emotie roept deze tekst bij je op? In feite stoppen we met het annoteren van data onze menselijk oordelen in de machine, dus ook onze eventuele bias. Doordat we meerdere mensen een oordeel laten geven over dezelfde data, kan je ook achterhalen of er veel of weinig verschil in het oordeel zit. Het is dan aan de datascientist om te bepalen hoe belangrijk overeenstemming is bij het gebruik van de dataset.”

Machine learning-modellen

Voor bedrijven als Media Distillery is dit proces heel belangrijk, zegt Bram Zijlstra, Senior Machine Learning Engineer bij Media Distillery. “Goede trainingsdata zijn essentieel voor het trainen van machine learning-modellen. Hoe meer kwalitatief goede data je ter beschikking hebt, hoe beter de modellen die je traint worden. Wanneer je data tot je beschikking hebt dat specifiek geannoteerd is voor het project dat jij in gedachten hebt, zul je met veel minder data al veel sneller tot goede resultaten komen.”

Jelmer Dekker, een van de deelnemers aan de pilot, bezig met het labelen van videomateriaal.

De annotatiepilot die vorig jaar van start ging, is een samenwerking met de Regio Gooi en Vechtstreek, UWV en Tomingroep en Werkgevers Servicepunt Gooi en Vechtstreek. Door de opzet als werkgelegenheidsproject biedt de pilot mogelijkheden voor werkzoekenden met een uitkering. Dat werkt, want van de 19 deelnemers die tot nu toe zijn gestart, hebben er 4 een baan gevonden. Muriël Serrurier Schepper: ” Wel hebben al sinds september een wat lagere bezetting qua mensen die het annoteerwerk doen. De arbeidsmarkt is momenteel te goed, waardoor mensen ‘gewoon’ aan het werk kunnen in plaats van een traject te doorlopen. We zien nu dat het aantal deelnemers weer wat aantrekt.”

De resultaten van de annotatiepilot zijn goed. RTL is zeer te spreken over de kwaliteit van de data die onder meer worden gebruikt om thumbnails te generen voor Videoland. Ook Media Distillery ziet veel voordelen. Bram Zijlstra: “Het eerste project heeft geleid tot de ontwikkeling van een product dat we net aan een eerste klant hebben verkocht. De toegang tot specifieke data heeft er voor gezorgd dat we makkelijker nieuwe ideeën konden testen.”

Tweede taak

Media Distillery is zelfs zo enthousiast over het project dat het bedrijf heeft besloten een tweede taak te laten uitvoeren, vertelt Bram Zijlstra. “Een van de grote uitdagingen bij het annoteren van data is je taak zo te vormgeven dat er geen ruimte is voor ambiguïteit. Neem bijvoorbeeld het annoteren van het onderwerp van een tv-fragment. Wat de ene sport noemt, noemt de ander voetbal. Om het trainen van een AI-model makkelijker te maken, is het belangrijk dat dit op dezelfde manier gebeurt. Wat ons erg aanspreekt aan de samenwerking met Media Perspectives is het nauwe contact. Elk project begint met een introductie op het kantoor van Media Perspectives en gedurende het project is er veel contact om het annoteren bij te sturen. Dit hielp ons ook om de taken te verduidelijken, wat het project erg ten goede kwam.”

Voor Media Distillery speelt ook het maatschappelijke aspect van het project een rol. “Dat spreekt ons erg aan”, zegt Zijlstra. “Tomingroep en Media Perspectives hebben een fijne omgeving gecreëerd waar mensen ervaring en zelfvertrouwen op kunnen doen om weer terug op de arbeidsmarkt te komen. Er wordt vaak gesproken over dat deze mensen een afstand tot de arbeidsmarkt hebben, maar een groot deel van deze afstand komt vanuit het bedrijfsleven in plaats van hen naar mijn mening.”