Schrijf en u wordt ontmaskerd
Hoe ontmasker je in tien seconden een jonge vrouw, een beginnend Alzheimerpatiënt, een introverte zestienjarige en een pedofiel? Antwoord: door met het juiste computerprogramma te analyseren wat deze mensen schrijven. Onzin, zegt u? Nee dus.
“U schrijft een tekst en ik vertel u wie u bent”. De een vindt het science fiction, de ander kwakzalverij, maar voor taaltechnologen is het pure realiteit. Prof. Walter Daelemans leidt het Centrum voor Computerlinguïstiek en Psycholinguïstiek (CLiPS) van de Universiteit Antwerpen. Daar ontwikkelt hij met enkele leden van zijn twintigkoppig team software die analyseert hoe en wat mensen schrijven en vervolgens conclusies trekt over de auteur: zijn geslacht, zijn leeftijd, aspecten van zijn persoonlijkheid, ja, zelfs zijn leugens.
Als u dit artikel door uw computers laat analyseren, wat komt u dan allemaal over mij te weten?
Walter Daelemans: “We kunnen dan met grote zekerheid zeggen dat u ouder bent dan 25 en met 80% zekerheid dat u een man bent, hoogopgeleid ook. We kunnen uitspraken doen over uw persoonlijkheid: of u extravert of introvert bent en of u rationeel denkt of eerder intuïtief. Als u straks gaat chatten, en u doet dat niet in het Algemeen Nederlands, dan kunnen we ook uw dialect of regiolect bepalen. En mocht u zich om een of andere reden geroepen voelen om morgen een positieve recensie te schrijven over een hotel dat u nooit hebt bezocht, een praktijk die op booking sites wel eens voorkomt, dan heeft onze computer een kans om u snel ontmaskeren.”
Indrukwekkend, maar wat heeft u nodig om dergelijke ‘voorspellingen’ te kunnen doen?
Walter Daelemans: “Om alles te kunnen doen wat ik net heb opgesomd, hebben we minstens 5000 woorden tekst van u nodig. Daar begint taaltechnologie: we analyseren heel veel teksten, van allerlei aard. Daaruit halen we twee soorten informatie: objectieve informatie, zoals feiten, en subjectieve, zoals opinies. Vervolgens gaan we na hoe taal hiervoor wordt gebruikt: welke woorden gebruiken mensen, hoe bouwen ze hun zinnen ... Dat heet stilometrie – stijlanalyse.”
Schrijven vrouwen dan zo anders dan mannen?
gebruiken meer persoonlijke
voornaamwoorden, meer
werkwoorden, en meer relationele
woorden dan mannen.”
Walter Daelemans: “Absoluut. Vrouwen gebruiken meer persoonlijke voornaamwoorden, meer werkwoorden, meer relationele woorden. Mannen gebruiken meer lidwoorden en substantieven, meer voorzetsels, en meer woorden die een hoeveelheid beschrijven. Het maakt niet uit of ze fictie schrijven of non-fictie, de verschillen blijven dezelfde. Mannelijke schrijvers zullen bovendien meer in de non-fictionele, beschrijvende stijl schrijven. Vrouwen die wetenschappelijke teksten schrijven, zullen dat – in tegenstelling tot wat je zou verwachten – eerder in fictionele stijl doen.”
Tot tien jaar geleden was het blijkbaar erg moeilijk om dergelijke analyses te maken. Hoe komt dat?
Walter Daelemans: “De technologie is sterk verbeterd, maar er is ook het world wide web. Voor internet er was, kwam je bovendien heel moeilijk aan voorbeelden van informeel taalgebruik. Er waren geen blogs, chats of tweets. Nu staan de fora en chatkanalen er vol van. Daardoor maken we ook zulke vorderingen. Stilometrie is een relatief jonge wetenschap. De stijlverschillen tussen mannen en vrouwen werden pas tien jaar geleden in detail blootgelegd door onderzoekers in Israël. Sindsdien hebben taaltechnologen hun onderzoeksdomein fors uitgebreid.”
Kan een computerprogramma, gewoon op basis van teksten, meer specifieke kenmerken van de auteur te weten komen dan zijn leeftijd of geslacht?
Walter Daelemans: “Is de auteur extravert of introvert? Denkt hij intuïtief of rationeel? Houdt hij van een vaste structuur of van verandering? … Al die zaken liggen op de onderzoekstafel. HR-bureaus werken al met dergelijke software tijdens aanwervingsprocedures. En ook de commercie heeft onze toepassingen ontdekt. Zo wil Coca Cola via automatische analyse van fora en blogs weten wat verschillende types van consumenten van hun producten vinden. Marketingmensen zijn overigens al tevreden met ruwere analyses, die bijvoorbeeld maar voor 60 of 65% juist zijn. Dat is nog altijd meer dan 1 kans op 2, de gewone kansberekening. Een accuraatheid van 60% kan voor commerciële bedrijven al op een trend wijzen. Zelf verfijnen we onze analyses steeds meer. Zo screende een van onze onderzoekers screende de werken van Hugo Claus: schreef hij anders toen de ziekte van Alzheimer zich begon te profileren dan voordien?”
En?
Walter Daelemans: “De complexiteit van zijn zinnen bleek in zijn laatste werken af te nemen. Maar dat kan natuurlijk ook te maken hebben met eindredactie. Dat konden we uit de manuscripten niet afleiden.”
Op die manier lijkt taaltechnologie haast op politiespeurwerk.
veertig of ouder die zich op een
chatkanaal voordoet als een meisje
van dertien hebben we zo ontmaskerd.”
Walter Daelemans: “Met profiling komen we aardig in de buurt. Voor het het Amica-project (Automatic Monitoring for Cyberspace Applications - nvdr) werken we samen met forensische instituten en met de politie. We, dat zijn de universiteiten van Leuven, Gent en Antwerpen. We onderzoeken de link tussen teksten en beelden enerzijds en mogelijk bedreigende situaties op sociale netwerken anderzijds. Dat gaat dan over cyberpesten, seksueel grensoverschrijdend gedrag (‘grooming’), depressie en zelfmoordneiging en automutilatie. De bedoeling is dat een computerprogramma signalen van cyberpesten, grooming, depressie en zelfmoordneiging automatisch detecteert door voortdurend teksten te analyseren die op sociaalnetwerksites worden gepost. Zo hopen we crisissituaties voor te zijn. In het onderzoeksveld spreekt men van tekstcategorisatie. Die techniek werkt al heel goed voor spamfiltering en e-mail routering.”
Kun je ook mensen met minder goede bedoelingen identificeren via hun taalgebruik? Pedofielen die zich op chatkanalen voordoen als kinderen bijvoorbeeld?
Walter Daelemans: “Sociaalnetwerksites, zoals Facebook, Netlog enz. zijn in principe zelf verantwoordelijk voor alle rotzooi die erop verschijnt. Maar voor de beheerders is het onmogelijk om dagelijks miljoenen posts te screenen. Met profiling en automatische tekstanalyse kan dat wel. De computer zoekt naar zogenaamde mismatches: een man van veertig of ouder die zich voordoet als een meisje van dertien bijvoorbeeld. Die halen we er zo uit.”
Hoe dan wel?
Walter Daelemans: “Het taalgebruik per leeftijdsgroep is heel specifiek. Volwassenen zullen woordjes die kinderen vaak gebruiken, zoals als ‘vet’, ‘kei’ of ‘beire’, bijna zeker te veel of op de verkeerde plaats gebruiken. We kijken ook naar de leesbaarheidsscore van teksten: het aantal woorden per zin, letters per woord … Onze analyses teksten geschreven door 25-plusses die zich bij het chatten voordoen als 16-minners zijn voor ruim 90% accuraat. Zolang we maar genoeg tekst kunnen analyseren. Met één tweet komen we niet ver.”
En wat als iemand zich niét als een ander voordoet maar wel leugens verspreidt op het web?
Walter Daelemans: “Ook daar boeken we al vooruitgang mee. Een tijdje geleden was schonk een Nijmeegs restaurant een fles wijn aan elke student die op hun site een positieve commentaar wou schrijven. Daar deden studenten aan mee die zelfs nooit een voet in het restaurant hadden binnengezet. Welnu, een van de criteria om dergelijke ‘valsspelers’ er uit te halen, is narrativiteit. Daarmee wordt bedoeld dat iemand over een onderwerp overdreven veel vertelt dat niets met de zaak te maken heeft. Op een booking site lees je dan een commentaar als: ‘Mijn man en ik waren 25 jaar getrouwd en wilden graag op uitstap naar …’ Irrelevant, maar typisch voor valsspelers. De auteurs gebruiken ook meer ‘wij’ dan ‘ik’, ze hanteren andere werkwoorden, gaan anders om met persoonlijke voornaamwoorden enz. Toch moeten we opletten met voorbarige conclusies: zo heeft de taal van extraverte mensen veel gemeen met die van leugenaars. De computer kan signaleren, maar de mens moet de finale conclusies trekken.”
U had het al over chattaal. Hoe gaat uw computer bij inhoudelijke analyses om met ‘ff’, ‘cu’, emotionele uitroepen en dialectwoorden?
Walter Daelemans: “We beschikken daarvoor al over normalisatietechnieken. Daarmee bedoel ik software die afkortingen en samentrekkingen expandeert (kweet » ik weet) of gevallen van flooding omzet naar Algemeen Nederlands (ik ben zooooooooo blij » zo blij). Regionale chattaal een typisch Vlaams fenomeen, dat ons wel wat kopbrekens bezorgt: we chatten veel in dialect, ook dat moeten we dus modelleren. De technologie staat nog niet op punt, maar er wordt aan gewerkt.”
Wilt u meer weten over het taaltechnologisch onderzoek van prof. Daelemans en zijn team? Surf naar www.uantwerpen.be/en/rg/clips
Reacties
"Ontmaskerd"?
Misschien ben ik paranoïde, misschien goed gek, of ben ik heel taalgevoelig? Voor ik onderaan uw artikel las dat dit om een onderzoek van een Antwerpse professor ging, wist ik al dat het Belgisch en niet Hollands was.
Ik las deze pagina argeloos van begin tot einde. Er staat geen enkel Belgisch woord in de vragen, en de naam Jan T'Sas (met een hoofdletter "T") had ik helemaal over het hoofd gezien. Toch had ik zo'n gevoel dat de interviewer een Belg was. (Ik ben zelf een Belg, dus is dat niet abnormaal.)
Waaraan kon ik dat herkennen, als er totaal geen verkeerd woord in de vragen stond (heel ongebruikelijk voor Belgen: je leest of hoort hier twee woorden en er staan drie taalfouten in)?
Om te beginnen: de stijl. Ik noem het "Humo-stijl". Humo is het beste en het enige goede weekblad dat Vlaanderen rijk is, en zowat iedereen imiteert hun stijl. Het gaat zelfs zo ver dat een foutieve (voor de grap bedoelde) zinswending als "wegens te laat" of "wegens afgehaakt" door iedereen in het Vlaamse medialandschap overgenomen wordt, zodat "wegens" + een beknopte bijzin (of een bepaling van gesteldheid) als perfect Nederlands beschouwd wordt. Volgens mij is "wegens" een voorzetsel, maar wie ben ik? Ik heb Nederlands geleerd in de vorige eeuw, voor Engels en Newspeak bestonden.
"Onzin, zegt u? Nee dus." De ontbrekende komma daargelaten (Hollanders kunnen niet behoorlijk spellen) klinkt dit Belgisch. Is het het aanspreken van de lezer met "u", of die frase "Nee, dus" (correct gespeld)? Alweer moet ik zeggen dat het mijn buikgevoel is. Deze tekst is geschreven door een Belg, niet door een Hollander.
Dan lees je het artikel zelf, en merk je dat het een Belg is ("Daelemans", for chrissake!) die geïnterviewd wordt. Ik merkte meteen de "foutieve" spelling "science fiction" op - in twee woorden, duh! (maar hoera - ik schrijf dat woord zelf ook zo). Dat duidt op Hollands, maar toen ik de tekst begon te lezen, wist ik meteen dat dit Belgisch was. Het "klinkt" gewoon niet Hollands.
Op de VRT-Teletekst lees ik soms berichten over Nederlandse aangelegenheden. "Rutte heeft dit of dat gezegd, enz." Wat me daarin opvalt is dat er geen enkele taalfout in zo'n bericht staat, maar wel een spelfout: een komma na een beperkende betrekkelijke bijzin. "De mensen, die Rutte heeft toegesproken, vonden dat..." De mensen? Welke mensen? Toch die die Rutte heeft toegesproken? Waarom staat die komma achter "mensen"? Dit - is - Hollands. En Duits. Wij in België doen dat niet. Behalve als we een artikel klakkeloos uit een Nederlandse tekst overnemen.
De hele tekst hierboven is perfect Nederlands. Toch merk ik dat het door Vlamingen opgesteld is. Tien seconden? Ik wist meteen dat het Belgisch en geen Hollands was, zonder ook maar één woord te lezen na de eerste vraag. (Hopelijk is dit weer niet Lernaut & Hauspie.) Hoe, dan? Buikgevoel. Ik hoef die mensen zelfs niet te horen praten ("iek" voor "ik", "duus" voor "dus" - Antwerpenaars).
Dit is een ludieke bijdrage. Ik meen niet alles wat ik gezegd heb. Wel, toch niet waar iemand aanstoot aan zou nemen. Eigenlijk meen ik het wel. Belgen en Nederlanders zijn een volk apart - helaas (ik persoonlijk vind dat heel erg). So be it. Ik hoop dat ik u vermaakt heb. Meer wou ik niet doen. (Of misschien toch wel. Ik wou duidelijk maken dat zelfs Belgen die perfect Nederlands praten geen Nederlands praten, mijzelf incluis. Want ik ben ook maar een stomme Belg.)
Mvg
RM