Google Books och Google Ngram Viewer

En av graferna från Google

Av LARS LINDVALL & MÅRTEN RAMNÄS
I Svenska Dagbladet den 15 maj 2011 innehöll kulturdelen en stort uppslagen artikel av Adam Svanell om Googles nya sökverktyg Google Ngram Viewer. Sex hela sidor ägnades projektet Google Books vars digitaliserade textmassor är sökbara sedan förra året genom det nya verktyget. Historikern Peter Englund säger sig vara en entusiastisk brukare medan hans kollega Janken Myrdal förefaller likgiltig inför de nya redskapen.

Projektet Google Books syftar till digitalisering av världslitteraturen. En databas har skapats med böcker på engelska, franska, hebreiska, kinesiska, ryska, spanska och tyska. Mer än 15 miljoner böcker skall nu vara digitalt lagrade, varav en tredjedel gjorts sökbara. Dessa fem miljoner böcker lär motsvara fyra procent av allt som någonsin tryckts i världen.

Google Ngram Viewer kan snabbt upplysa om, och i grafer visa, ords bruklighet från år 1500 fram till våra dagar, med möjlighet till granskning av kortare tidsavsnitt och med uppgifter om i vilka texter orden belagts. Forskning i sådant datamaterial kallas redan ”culturomics” som ju kan påminna om ”economics” och annat. Men ”linguistics” – språkvetenskap – borde man också tänka på i sammanhanget. I SvDs artikel nämns bara en undersökning som visar hur verbformer utvecklats (i engelskan), genom att identifiera när exempelvis ”learned” blev vanligare än det ålderdomliga ”learnt”. Lättast sökbara är enskilda ord och former.

Eftersom vi som skriver detta båda ägnar oss åt franskstudier må det vara oss förlåtet om vi här väljer några franska exempel på verktygets användningsmöjligheter – och begränsningar. Den sökbara franska korpusen är den i särklass största som finns för detta språk. (Frekvenserna är inte desamma i de olika graferna.) Låt oss först söka data för det franska adjektivet fiable ’pålitlig’ som finns belagt i den äldre franskan men som i århundraden endast haft marginell bruklighet i språket. Här ser vi att det under 1900-talet plötsligt släpps in i det mera centrala ordförrådet någon gång kring år 1970 (klicka här för att se grafen på Google). Förklaringar till varför sådant sker kan vi emellertid inte räkna med att Google skall förse oss med.

Ett ord som flinguer ’skjuta’ har en annan historia. Det kommer ur modern fransk argot och om vi undersöker kortare tidsavsnitt finner vi ett omnämnande i en språktidskrift från 1950 och ett första litterärt belägg i en klassisk deckare från 1953, känd för sitt bruk av argot – Albert Simonins Touchez pas au grisbi ’Rör inte stålarna’ (som blev en mycket sevärd film noir med Jean Gabin i en av sina stora roller – klicka här för att se den på Youtube). Texter som görs beroende av slang löper alltid risken att åldras fort eftersom slangspråk är flyktigt. Kurvan för flinguer visar att just detta ord fick snabb spridning i språket och att det stannat kvar i mera allmänt bruk även om kurvans ojämna form låter ana att det trots allt ännu är genrebundet (klicka här för att se denna graf).

Ur Rolandssången

Franskstuderande får traggla formerna för imperfekt konjunktiv även om de inte får någon egentlig användning för dem – dessa former är i hög grad litterära och skriftspråkliga. En sökning på formen eussent, tredje person pluralis av verbet avoir ’ha’ i imperfekt konjunktiv, visar hur frekvenskurvan sakta men säkert sjunker under1900-talet (klicka här för att se grafen för eussent). Formen tycks kunna komma att försvinna helt någon gång under vårt århundrade, i likhet med övriga former för imperfekt konjunktiv. Men franskstuderande får fortsätta traggla eftersom dessa modusformer funnits så länge i skriftspråket.

Om en frekvenskurva är orolig och ryckig kan vi genast dra slutsatsen att ordet inte används i språket – det förekommer bara metaspråkligt i texter om språket, i ordböcker och språkvetenskapliga texter. Undersökt ord är här isnel (samma ord som svenskans snäll med den äldre betydelsen ’snabb’ och tyskans schnell) som var vanligt på medeltiden men som bara språkhistoriker intresserar sig för från omkring år 1600 och framåt (klicka här för grafen).

Vissa entusiaster talar redan om en kunskapsrevolution. Språkvetare och andra humanister bör nog tills vidare förhålla sig skeptiskt avvaktande. Ords betydelser och användningar är alltid på något sätt systembundna – de ingår i fraser, strukturer och konstruktioner, oftast i konkurrens med andra ord. Kartläggning av sådana mönster är (än så länge?) inte möjlig att åstadkomma med de nya verktygen. Men spännande är det förstås.

Skriv en kommentar, ställ en fråga, skicka en hälsning här