Taalschrift | Discussie | Computers hoeven geen Nederlands te kunnen verstaan

Computers hoeven geen Nederlands te kunnen verstaan

Marc van Oostendorp, Meertens Instituut - 25/06/03

Al zo lang als de computer bestaat proberen optimisten het ding menselijke taal te leren. In de jaren vijftig trachtten Amerikaanse ingenieurs bijvoorbeeld uit alle macht om een machine te bouwen die Russische wetenschappelijke artikelen kon omzetten in begrijpelijk Engels. Alleen op die manier kon de Koude Oorlog gewonnen worden.

Vijftig jaar later is een groot deel van de artikelen die Russische natuurwetenschappers schrijven onmiddellijk begrijpelijk voor hun vakgenoten in het westen. Maar de enige reden daarvoor is dat die Russen Engels hebben geleerd, en niet dat computers inmiddels zulke goede vertalers zijn geworden. Er zijn alles bij elkaar in de afgelopen decennia miljarden euro's in de ontwikkeling van vertaalcomputers gestoken door overheid, universiteit en bedrijfsleven, maar de resultaten van alle inspanningen zijn nog altijd niet veel soeps.

Ook anderszins is het niet gelukt om de computer aan de praat te krijgen. Er is geprobeerd apparaten te bouwen die het gesproken woord kunnen omzetten in schrift of, omgekeerd, een geschreven tekst kunnen voorlezen, of een tekst kunnen samenvatten. Geen van deze pogingen heeft geresulteerd in een werkelijk bruikbaar, algemeen toegankelijk, product. Sterker nog, de huidige taalcomputers werken voornamelijk iets beter dan die van vijftig jaar geleden omdat de computers sneller geworden zijn en een groter geheugen hebben, niet omdat we inmiddels beter begrijpen hoe we dat rekentuig met menselijke taal moeten laten omgaan.

De werkelijkheid onder ogen

Na zo veel decennia, zo veel plannen en zo veel geld wordt het tijd om de werkelijkheid onder ogen te zien: ook in de komende vijftig jaar zullen de gedroomde vertaalcomputers, dicteer- en voorleesmachines er niet komen. We weten daarvoor nog veel te weinig over de manier waarop taal werkt: hoe mensen hun gedachten formuleren in taal, hoe ze met kleine, subtiele verschillen in uitspraak laten horen wie ze zijn en hoe ze denken over hun gesprekspartner, terwijl ze tegelijkertijd door al die verschillen in uitspraak heen toch steeds dezelfde woorden kunnen onderscheiden.

De Nederlandse en de Vlaamse overheid hebben, al dan niet in verband van de Nederlandse Taalunie, in de loop van de tijd ook heel veel geld gestoken in taalcomputers. Een belangrijk argument daarbij was dat het Nederlands niet benadeeld mocht worden. Als een computer wel makkelijk met het Engels en andere 'grote' talen kan omgaan, en niet met het Nederlands, verliest onze taal volgens deze redenering gaandeweg aan aantrekkingskracht. Mensen kiezen er dan vanzelf voor maar zo'n grote taal te gebruiken voor een kantoorklus, omdat dit nu eenmaal gemakkelijker is.

Dat argument heeft in de loop van de tijd zijn geldigheid verloren. Je hoeft je niet heel erg druk te maken over een wapenwedloop als zelfs de grote en machtige talen ondanks onnoemelijk veel inspanning niet beschikken over voor de gemiddelde gebruiker aanvaardbare taalinstrumenten. Op zo'n moment kun je beter besluiten je geld ergens anders in te steken.

Ontwikkeling van de Nederlandse taal

De universiteiten besteden ook geld aan de ontwikkeling van taalvaardige computers; voorzover ze verwachten dat dit bijdraagt aan onze wetenschappelijke kennis moeten ze dat blijven doen. Zij kunnen zich dan in sommige gevallen net zo goed richten op computers die het Engels goed begrijpen: op die manier kunnen de wetenschappers op een waardevolle manier bijdragen aan de internationale wetenschappelijke zoektocht naar de bouw van een taalcomputer. Managers in het bedrijfsleven mogen al hun geld over de balk smijten voor elke frivoliteit die hen goeddunkt, al moeten ze vervolgens niet klagen als ze aan hun onverstand ten onder gaan.

Voor de overheid geldt dit niet. Zij is van ons allemaal en zou dus verstandig met onze centen moeten omgaan. Daarom zou ze geen cent meer moeten uitgeven aan de heilloze commerciële ontwikkeling van computers die Nederlands zouden kunnen verstaan. Het vrijgekomen geld kan beter besteed worden aan het steunen van onderzoek naar de eigenaardigheden van onze taal, aan het uitloven van literaire prijzen, het steunen van waardevolle publicaties en aan andere manieren om het instrument van de taal verder te verbeteren en verfijnen.

Piet Verkruijsse - 27/06/03

Het wordt hoog tijd dat al het geld dat nu besteed wordt aan computervertaalactiviteiten omgebogen wordt naar de taalkundigen. Computers zijn natuurlijk niet dom; taalkundigen begrijpen taal nog niet. Tegen de tijd dat zij taal wel begrijpen, lijkt het me ook prima dat computers Nederlands kunnen omzetten in elke gewenste andere taal.

Dikee - 27/06/03

Waarom mag een bedrijfsleider het geld over de balk gooien en de overheid niet. De bedrijven zijn ook van ons!

Peter Dirix - 28/06/03

Ik ben het volledig oneens met uw stelling. Het is niet omdat je niet denkt dat een bepaalde ontwikkeling niet haalbaar is op korte termijn, dat er geen onderzoek naar gedaan mag worden. Dit soort onderzoek moet zeker met overheidsgeld gebeuren, vermits bedrijven net een kortetermijnstrategie voor winst hebben en dus niet geïnteresseerd/bereid zijn om fundamenteel onderzoek te bekostigen. Bovendien, waarom zou het financieren van literaire prijzen nuttiger zijn dat langetermijnonderzoek? Als de kriebel van het schrijven in je zit, zal je dit toch wel doen. Vind je geen uitgever, dan is het misschien ook niet de moeite waard om aan je werk overheidsgeld te besteden.

Matthijs Bakker - 28/06/03

De enige werkelijke kennis van taal is kennis die je kunt formuleren in een algoritme. De hele rest is verzamelen, ordenen en opslag in een geheugen - ook nuttig, ook belangrijk, maar iets anders dan wetenschappelijke kennis. Juist het pragmatische resultaatdenken van Van Oostendorp is funest voor werkelijke vooruitgang in computerlinguistiek en automatisch vertalen. Computerprogramma's moeten eerder gezien worden als een uiterste test van hypotheses over de werking van taal. En het lijkt me niet onwaarschijnlijk dat de ontwikkelaars van vertaalprogramma's nu op een doodlopende weg zitten doordat ze te veel vasthouden aan modellen van taal (met name uit de TGG-hoek) die 'oppervlakte'-verschijnselen en communicatieve factoren negeren, ten gunste van een al te formalistische en linguistisch-grammaticale benadering. Wie weet kunnen meer communicatieve modellen en onderzoek naar reële vertaalprocessen en empirische vertaalresultaten, leiden tot betere resultaten. Maar ook zulke andere benaderingen moeten de test van het algoritme kunnen doorstaan.

Het onderzoek naar computervertalen is volgens mij zelfs nog te veel uit op direct resultaat; en als er aan dat onderzoek geld wordt verspild, is de enige reden dat men teveel direct 'perfecte vertalingen' wil. Een voorbeeld van ander onderzoek dat mij bijzonder nuttig lijkt, en waarvan ik me afvraag of het al serieus wordt aangepakt: ontwikkel een programma dat in staat is om foutloos bestaande bronteksten met vertalingen te aligneren, en dat vervolgens op intersubjectief toetsbare wijze eenheden in de brontekst aan de corresponderende vertaaleenheden in de doeltekst weet te koppelen en als probleem met gekoppelde oplossing op te slaan in een database. Dus retrospectieve koppeling van vertaaleenheden en vertaaloplossingen in plaats van prospectieve vertaalmodules. Op het oog een stuk makkelijker te doen, maar op zich al moeilijk genoeg. Als vervolgens zeer grote corpora in vertaaleenheden met gekoppelde vertaaloplossingen zijn ontleed en opgeslagen, heb je een instrument van onschatbare waarde voor verder vertaalonderzoek en verbetering van vertaaltools.

Overigens lijkt het me nuttig te bedenken dat bv. in de vertaalomgeving van de Europese Unie nu al enorm veel tijd (en dus geld) wordt bespaard door automatische vertaling, waar nog geen twintig jaar terug de menselijke bewerking van computeroutput tijdrovender uitviel dan from scratch opnieuw vertalen door de menselijke vertaler.

Ik herinner me nog, van niet eens al te lang geleden, pessimistische geluiden over de mogelijkheid om ooit een foutloze routine voor woordafbreking te ontwikkelen. Nu hoor je daar niemand meer over.

De investeringen in TST (taal- en spraaktechnologie) voor het Nederlands lijken me te behoren tot de wijste uit de totale Taaluniebegroting.

Johan Van Hoorde - 1/07/03

Gewone mensen hebben het recht om over alles een mening te hebben, ook over dingen waar ze niets van afweten. Columnisten daarentegen, zeker degenen onder hen die zich op wetenschappelijke pretenties beroepen, zouden er goed aan doen om hun meningen te funderen. Een teken van bescheidenheid en van ernst! Over datgenen waarover men niet kan spreken, daarover moet men zwijgen, wist Wittgenstein al!

Bescheiden zwijgen is niet de grootste deugd van Van Oostendorp. Dat heeft hij levenslang en woord voor woord bewezen. Natuurlijk heeft hij gelijk als hij beweert dat vertaalcomputers nog lang niet in staat zullen zijn om menselijke vertalers te vervangen, laat staan om de taalintuïties van mensen te simuleren. Maar dat is het punt niet!

Op dit ogenblik zijn de vertaalmachines wel in staat om voor specifieke teksten (instructies, technische documentatie e.d.) tot aanvaardbare resultaten te komen, zeker als de bronteksten in 'controlled language' zijn gesteld, als dus invloed uitgeoefend kan worden op woordkeuze, grammatica en stijl. De resultaten zijn zo goed dat menselijke vertalers de machinevertalingen als basis kunnen gebruiken voor een definitieve vertaling. De besparingen die met deze methode, post-editing, zijn gemoeid kunnen voor bedrijven en informatiediensten aanzienlijk zijn.

De hoeveelheid (technische) tekst die ieder jaar wordt geproduceerd, is dermate groot dat menselijk vertalen steeds minder een optie is. Vaak gaat de keuze overigens niet tussen menselijk vertalen of met behulp van een vertaalmachine, maar tussen wel of niet vertalen!

De belangstelling van overheidsdiensten en bedrijven voor de resultaten van NL-Translex, het automatisch-vertaalproject van de Taalunie, zijn van die aard dat nu al kan worden gezegd dat het geld verantwoord is besteed. Overigens, wat is veel geld? De Vlaamse en Nederlandse overheid hebben samen 400.000 euro in het project geïnvesteerd.

Laat de Taalunie ophouden met belastinggeld te verspillen aan honoraria van arrogante halfweters zoals Van Oostendorp!

Johan Van Hoorde

Dafydd ap Fergus - 2/07/03

<<< De belangstelling van overheidsdiensten en bedrijven voor de resultaten van NL-Translex, het automatisch-vertaalproject van de Taalunie, zijn van die aard dat nu al kan worden gezegd dat het geld verantwoord is besteed. Overigens, wat is veel geld? De Vlaamse en Nederlandse overheid hebben samen 400.000 euro in het project geïnvesteerd. >>>

400 000 EUR is heel veel geld - tenminste hier in Brussel!

Neem nu de Stichting (Natuurlijk) Nederlands. Zij doen heel goed werk om mensen bewust te maken van de eigen taal (het Nederlands). 'k denk aan de acties tegen Engelstalige scholen in Nederland, de bordjes in het Engels aan Schiphol. Krijgt zo'n vereniging 400 000 EUR? Ook lokale organisaties die aan taalintegratie doen (lessen Nederlands) zouden sommige van die 400 000 euros goed kunnen gebruiken.

Taal is macht en macht is ook geld. Geen taalorganisaties, die niet over rijke politike connecties beschikken, zoals de Taalunie, hebben 400 000 euro's. Waarschijnlijk daarom zitten zoveel politici in jullie Raad van Bestuur.

<<< Laat de Taalunie ophouden met belastinggeld te verspillen aan honoraria van arrogante halfweters zoals Van Oostendorp! Johan Van Hoorde >>>

Vrije meningsuiting is heel belangrijk ook wat betreft taalpolitiek. Het niveau van automatische vertaling is tamelijk laag ondanks de miljarden euro's die Europa en de nationale regering daaran besteden.

Dafydd ap Fergus

Theo Vosse - 31/07/03

Het Meertens Instituut schijnt 48,3 FTE te hebben, dat is heel wat meer dan er voor onderzoek naar vertaalcomputers beschikbaar is.

En wat spreekt die Van Oostendorp zichzelf tegen. Eerst beweren dat je geen onderzoek hoeft te doen, omdat alles toch in het Engels kan, en daarna vrolijk geld vragen voor "onderzoek naar de eigenaardigheden van onze taal". Ha. Raad eens waar ze dat soort onderzoek doen. En hoeveel heeft dat opgeleverd in de laatste 50 jaar?

Nee, computerlinguistiek is een van de weinige manieren waarop we echt iets te weten komen over taal. Er zou alleen niet te veel geld gegeven moeten worden aan al die theoretici die maar niet van hun stokpaardje af kunnen...

Hector van Oevelen - 5/08/03

Tja, zouden wij, alvorens aan een twistgesprek over computertaal te beginnen niet eerst zelfs iets aan onze taal doen. Als ik lees dat ik mijn reaktie (aan die onzinnige nieuwe spelling weiger ik uit beginsel mee te doen) hieronder moet invullen en HEM moet opsturen in plaats van ZE, dan vraag ik mij af waar me mee bezig zijn. Wat de nogal verwaande stelling van de heer Van Oostendorp betreft, daar ben ik het helemaal niet mee eens. Als zo'n machine Engels kan verwerken, dan moet het om het even welke andere taal ook in een systeem kunnen gieten en behandelen. Of meent de heer Van Oostendorp dat het Engels eeuwen geleden is uitgevonden om in de computer van vandaag te kunnen passen? Trouwens, hoe lang zal Engels nog de wereldtaal blijven? Nu reeds wordt het geëvenaard door het Spaans en binnen nog eens vijftig jaar spreekt de overgrote meerderheid van onze aardkloot... Chinees. Het technisch apparaat dat computer wordt genoemd, moet ten dienste staan de mens en niet omgekeerd. De taal die deze mens spreekt, is daarbij van ondergeschikt belang en de techniek moet zich aan ieders taal aanpassen en niet omgekeerd. Hector van Oevelen, hoofdredakteur van Wrange Wapper - Omdat Nederlands belangrijk is.

Eric Hoekstra - 7/08/03

Inderdaad hoeven computers geen Nederlands te kunnen verstaan. Als ze maar Fries kunnen verstaan, want een bedreigde minderheidstaal willen we natuurlijk in stand houden.

Het is de afgelopen 50 jaar niet gelukt een 'sprekende' computer te maken, maar er is geen enkele reden te denken dat het een intrinsiek onmogelijke opgave is. Volhouden dus, net als de gebroeders Wright, Thomas Edison, en vele anderen die met een schijnbaar heilloze onderneming bezig waren.

Eric Hoekstra, medewerker Fryske Akademy.

Antal van den Bosch - 8/08/03

Met je welnemen hang ik naar aanleiding van dit stuk toch maar niet mijn werk als taaltechnoloog aan de wilgen. Geloof me dat er hele interessante vooruitgangen in het vakgebied geboekt worden. En vermeng alsjeblieft niet je ergernis over geld met je ergenis over vooruitgang.

Eén inhoudelijke opmerking. Een belangrijke leidraad in de taaltechnologie is taalonafhankelijkheid. Als je in je werk kunt laten zien dat je methode werkt voor het Duits, Tsjechisch en Roemeens, dan zullen je vakbroeders (ook de Anglosaxische) dat minstens zo waarderen als wanneer je had laten zien dat het voor Engels werkt. De Engels-versus-Nederlands discussie wordt dan: welke taal doen we eerst? Soms vindt de fondsverstrekker dat een belangrijke vraag, soms niet. Ik heb er geen mening over.

Bernard van Dijk - 21/09/03

Marc van Oostendorp van op een afstand inmiddels tamelijk goed kennend denk ik dat hij opzettelijk een provocerende column geschreven heeft. Hij gooit een balletje op en hoopt dat anderen er op hun eigen manier tegenaan zullen schoppen, wat sommigen dan ook doen, mij inbegrepen.

Ik heb er niets tegen dat taalkundigen en computeraars hun best doen het Nederlands in de computerwereld een rol te laten spelen. Wat is dat: de computerwereld? Dat is helemaal de wereld waarin we leven, onontkoombaar. In die wereld is het goed alles wat denkbaar is uit te proberen. Dat heeft de mensheid vanaf het begin van haar bestaan gedaan. Eigenlijk is er niet veel verschil tussen het werken met het zojuist uitgevonden wiel en het werken met de zojuist bedachte computer en wat daar allemaal aan vast zit.

De miljoenen en miljarden die het kost om taalwetenschap te combineren met elektronica zijn niet weggegooid, ook al wordt er momenteel niet veel mee bereikt. Dat geld wordt uitgegeven aan anderen die er ook weer iets mee doen. Met ons allen houden we zo de zaken in beweging. Dat is eigenlijk het enige wat we te doen hebben.

co - 16/08/04

Wie kan mij helpen om een programma te vinden dat Engels om kan zetten in het Nederlands, bijvoorbeeld een Engels woord aanklikken dat er een schermpje naar beneden komt met Nederlands.

ckbckb@zonnet.nl

Koos van der Wilt - 20/11/05

Computers die spreken bestaan niet? Vertel dat eens aan Stephen Hawking, de Britse natuurkundige die zijn inzichtelijke colleges geeft met behulp van een Kurzweilspraakgenerator. Dicteermachines bestaan niet? Vertel dat eens aan de kennis van een vriendin van mij die, gehandicapt en wel, haar spraakherkenner niet kan missen. Want tiepen is zo moeilijk met spierziekte.

In het Engels is er een prachtig woord voor het technopessimisme dat hier met zoveel tamtam wordt verkondigd door de psuedogeleerden: Luddieten.

Overigens profiteren biologen vandaag de dag van de door computerlinguisten ontwikkelde algoritmes. Mijn raad: lees eens hoe wetenschappelijk onderzoek werkt, met kruisbestuiving enzo, en kijk dan nog eens of het zin heeft om te kwaken over weggegooid onderzoeksgeld.

Drie keer raden wat mijn beroep is,

-Koos