MERLINQ
MERLINQ
talent voor vernieuwen

Een vertrouwd gesprek met een computer in het Nederlands

09.12.20 13:32 Reactie(s) Door Bas Evers

Hoe kunnen we impact maken met de ontwikkeling van ethische taaltechnologie voor het Nederlands? Waarom dat van belang is en een oproep om samen te gaan samenwerken.


Het Rathenau Instituut publiceerde onlangs het lezenswaardige rapport “Hoor wie het zegt” over de impact die spraaktechnologie zal hebben op de maatschappij. Nu we echt met computers kunnen praten is het tijd voor een goed gesprek. Waarin aandacht is voor onbeantwoorde vragen over de (on)wenselijkheid van verschillende aspecten.


De studie roept onder andere op tot het ontwikkelen van ethische spraaktechnologie die inclusief is, ons privéleven respecteert en aangeboden wordt op een gezonde markt. In aanvulling op - of als alternatief voor - wat techreuzen als Apple en Google aan het bouwen zijn.


[Tekst gaat verder onder de afbeelding]

kind praat tegen telefoon


Ik werd weer herinnerd aan “Hoor wie het zegt” toen ik las over het vertrek van een vooraanstaande onderzoeker op het gebied van ‘natural language processing’ bij Google AI. Timnit Gebru wilde een paper publiceren dat kritische kanttekeningen plaatst bij de maatschappelijke implicaties van de spraaktechnologie waar Google aan werkt.


De wetenschapper waarschuwt dat Google’s spraaksynthese gehomogeniseerde normen en waarden teruggeeft van rijke landen en onvoldoende rekening houdt met veranderende normen ten aanzien van inclusieve taal. Kort gezegd ligt er onder het model dat Google traint een onbeheersbaar grote dataset van mensen die online het hardste schreeuwen in het Engels.


Gebru is bang dat Google’s taalmodellen geen rekening zullen houden met mensen met een kleinere “taalkundige voetafdruk” online. Waar zij lijkt te doelen op variatie binnen het Engelse taalgebied, vind ik het ook van toepassing op andere talen, zoals het Nederlands. Ten opzichte van Engels heeft het Nederlands sowieso een veel lagere taalkundige digitale voetafdruk. 


Voor zover de techreuzen al vinden dat de investering loont om Nederlandse spraaktechnologie te ontwikkelen, zal bijvoorbeeld Google deze bij de start baseren op alle Nederlandse webpagina’s die het in zijn index heeft kunnen opnemen. In hoeverre levert dat echt bruikbare en inclusieve Nederlandse taaltechnologie op?


De overige bezwaren die Gebru aanvoert tegen Google’s aanpak van NLP zijn overigens net zo belangrijk en boeiend. Bijvoorbeeld over de milieubelasting van het trainen van modellen en het gebrek aan focus op taaltechnologie die daadwerkelijk iets van taal begrijpt. Op MIT Technology Review vind je een goede duiding.


Ik ben benieuwd: welke partijen zijn bezig met inclusieve Nederlandse taaltechnologie? In de wetenschap, bij softwareleveranciers en elders. En hoe kunnen we zorgen dat dit een serieus - publiek beschikbaar - alternatief wordt voor techreuzen die ieder op zich, jou willen opsluiten in hun eigen ecosysteem? Ik wil me er hard voor maken, maar ik kan het niet alleen en ik wil weten waar ik moet beginnen.


Afbeelding: Leon Brocard (Flickr, CC).

Bas Evers

Deel -