20-01-2018 13:47:45

Bliver sproget en flaskehals for kunstig intelligens i Danmark?

Kunstig intelligens: Dansk er blandt Europas mindste sprog. Så på rene markedsvilkår risikerer den danske sprog-infrastruktur, som er en grundpille i kunstig intelligens, at sakke efter lande, vi normalt sammenligner os med.
13. feb. 2017 Af Rene Pedersen - netværksredaktør
Center for Sprogteknologi vil gerne tage teten i udviklingen af sproglig infrastruktur for dansk f.eks i form af en egentlig dansk sprogbank. Men det kræver samarbejde og en offentlig satsning på højt politisk niveau.
Center for Sprogteknologi vil gerne tage teten i udviklingen af sproglig infrastruktur for dansk f.eks i form af en egentlig dansk sprogbank. Men det kræver samarbejde og en offentlig satsning på højt politisk niveau.

2016s helt store it-fænomen var kunstig intelligens, og intet tyder på, at hverken antallet af investeringer i teknologien eller nye landvindinger bliver færre i år. Google kalder kunstig intelligens “nøglen til firmaets fremtid”, og firmaer som Microsoft, Apple, Amazon og IBM har alle investeret milliarder af dollars på AI-startups de seneste år.

Men er der en risiko for, at dansk ikke kan være med helt fremme? Det mener de hos Center for Sprogteknologi på Københavns Universitet, som peger på, at dansk er så lille et sprogområde, at vi ikke kan forvente, at sprog-infrastrukturen bliver skabt på rene markedsvilkår. For Google og de andre private virksomheder, der driver udviklingen inden for kunstig intelligens, er der simpelthen for få penge i at skabe velfungerende systemer, der forstår dansk tale og tekst.

“Vi er ikke så mange mennesker, så derfor er der ikke så mange penge i det. Det er klart, at hvis der var 20 millioner, der talte dansk, ville vi være højere prioriteret,” siger Bolette Sandford Pedersen, der er professor og institutleder ved Nordisk Forskningsinstitut på Københavns Universitet.

Blandt de eksempler, de fleste kan forholde sig til allerede nu, er Google Translate. Oversætter du en dansk artikel til engelsk eller omvendt, får du i de fleste tilfælde en tekst tilbage, hvor konteksten og enkelte sætninger måske giver mening. Men det meste bliver forholdsvis dårligt dansk, og en del af det uforståeligt. Oversætter du i stedet fra engelsk til tysk, fransk eller spansk, begynder vi at nærme os noget, der er læseværdigt.

Center for Sprogteknologi

Center for Sprogteknologi ligger på Københavns Universitet og forsker og underviser inden for følgende hovedtemaer: sproglig forskningsinfrastruktur, sprogteknologiske anvendelser (maskinoversættelse, informationssøgning mv.), multimodal kommunikation og kognitive modeller, sprogprocessering og sprogressourcer (syntaks, semantik, diskurs) og maskinlæringsmetoder til sprogprocessering.

Centeret udbyder tilvalgsfaget "It og Sprog" og den internationale og engelsksprogede kandidatuddannelse "It and Cognition" (cand.it). Begge uddannelser er tværfaglige og henvender sig til studerende med interesse for, hvordan teknologi kan bruges i natursprogsbehandling og i kognitionsforskning.

Derudover bliver der forsket inden for en række sprogteknologiske områder. F.eks. Sproglig forskningsinfrastruktur, Sprogteknologiske anvendelser og Multimodal kommunikation og kognitive modeller.

Læs mere

I samme boldgade ligger oversættelser på Youtube. Lægger du en video, hvor der bliver talt engelsk på Googles videoplatform, bliver der automatisk oprettet undertekster. Er videoen på dansk, kommer du ikke uden om selv at transskribere dine undertekster. Forholdsvis uskyldige eksempler, der dog alligevel viser en tendens. Men i løbet af de kommende år er det forventet, at kunstig intelligens kommer til at overtage en række traditionelle “white collar jobs”. World Economic Forums skøn i 2016 var, at omkring 5 millioner jobs kan blive erstattet af robotter inden 2020. Og så er der ikke længere bare tale om forbruger-legetøj, hvor dansk giver udfordringer; så taler vi om noget, der griber dybt ind i vores arbejdsliv

F.eks. har lægesekretæren, bankrådgiveren, ansatte i tele-support og jurister været nævnt som jobbeskrivelser, hvor en art kunstig intelligens vil kunne løse en række opgaver på samme niveau eller bedre. Men forstår den kunstige intelligens ikke danske ord, syntaks og semantik, vil den heller ikke kunne skabe bots, der hjælper jurister med at finde præcedens i tidligere sager eller transskriberer lægens tale til tekst.

På niveau med bulgarsk, walisisk, rumænsk og slovakisk

Hvidbogen “Det danske sprog i den digitale tidsalder”, som blev finansieret af EU-Kommisionen for et par år siden viste, at det ikke er en fornemmelse, at vi halter bagefter, når det kommer til sprogteknologi i Danmark.

“I den samlede vurdering ligger vi næstdårligst sammen med baskisk, bulgarsk, walisisk, græsk, norsk, rumænsk, slovensk, slovakisk. Og det er normalt ikke de lande, vi sammenligner os med, men der er et eller andet med danskernes forhold til deres sprog,” siger hun og fortsætter.

“Der er en mangel for respekt for, hvorfor det er vigtigt. Også hvis du kigger på de øvrige nordiske sprog, hvor der er en helt anden respekt for sproget, og hvorfor det er vigtigt at investere penge i at skabe infrastruktur. Der oplever vi nogle gange en mur i Danmark”.

Undersøgelsen blev offentliggjort i 2012, men status og konklusionen er ifølge Bolette Sandford Pedersen stort set den samme. Hvis vi skal bruge det danske sprog i fremtidens teknologiske univers, så skal der gøres en indsats.

“Der er jo ikke mange penge i dansk. Så hvis vi ikke selv som samfund synes, det er vigtigt, så kan vi ikke regne med, at de store spillere, synes det er vigtigt,” siger hun.

Dansk bliver upraktisk i professionelle sammenhænge

Hun peger på tre “skrækscenarier”, hvis ikke den danske sprogteknologi bliver styrket. For det første kan dansk blive et “forarmet” sprog. Bruger vi kunstig intelligens, selv om det ikke er tilstrækkeligt understøttet, bliver det dårligt dansk. En negativ konsekvens kan også være, at vi halter bagefter som samfund og ikke gider bruge den nyeste teknologi, fordi den ikke fungerer ordentligt på dansk.

“Den teknologiske udvikling sker på engelsk, og der er flere og flere robotter, som vil tale engelsk og ikke dansk. Så vi vil ende med at bruge engelske ressourcer og ikke danske, fordi de ressourcer, som man kan bruge til f.eks. at oversætte direkte ikke virker på dansk,” siger Costanza Navarretta, der er Seniorforsker, ph.d. ved Center for Sprogteknologi, og peger på, at på sigt vil arbejdspladser forsvinde, hvis ikke vi bruger den nyeste teknologi.

Som eksempel nævner hun robotten ROSS, der bygger på IBMs computersystem, Watson, og kan hjælpe advokater og jurister med at finde tidligere domsafsigelser. I USA bliver robotten brugt flittigt, men fordi den ikke forstår danske forhold, bliver de danske studerende heller ikke uddannet inden for automatisering.

“Vi kunne godt sætte et stort program op og lære dem en masse, men teknologien er ikke færdigudviklet til det danske marked. En del af vores kurser beskæftiger sig med de juridiske udfordringer, digitaliseringen rejser, men ROSS er ikke bygget ind som et grundelement i uddannelsen,” sagde Henrik Palmer Olsen, der er prodekan for forskning ved Det Juridiske Fakultet på Københavns Universitet, til Weekendavisen i december.

Og endeligt er der scenarie nummer tre: At vi ikke gider bruge dansk, fordi det er for upraktisk, og derfor bruger vi engelsk i professionelle sammenhænge. Det vil jo give et sprogtab, mener de på Center for Sprogteknologi, og vil desuden skabe et a- og et b-hold.

“Man kan vælge at sige, at det er lige meget. Men det er vi nok mange, der ikke mener, at det er. Vi har brug for, at også vores modersmål kan bruges inden for de mere professionelle områder,” siger Bolette Sandford Pedersen.

Demokratisk problem?

Professionelt og økonomisk kan det altså få negative konsekvenser, hvis Danmark hele tiden halter efter udviklingen inden for kunstig intelligens. Men en yderligere konsekvens af manglende dansk sprogteknologi kan ifølge de ansatte på Center for Sprogteknologi være af mere demokratisk karakter. Kan man f.eks. forestille sig, at kommunal selvbetjening bliver indført som kunstig intelligens? Men på engelsk. Danmark er trods alt blandt de lande i verden, hvor vi er bedst til engelsk, og chatbots har teknisk nået et niveau, hvor de kan løse en række specifikke opgaver.

“Det er et demokratisk problem, hvis det kun findes på engelsk. Der er et helt hold, der ikke har teknisk viden, og som ikke er kvikke til engelsk. Og de bliver sat af. For sprogteknologi skal helst virke sådan, at man ikke er opmærksom på, at det er der,” siger Dorte Haltrup Hansen, der er videnskabelig medarbejder i Center for Sprogteknologi.

Hun fortæller, at de har lukket for området på CBS. Sprogteknologi er simpelthen røget ud af forsknings- og undervisningsporteføljen på CBS, og det betyder, at der reelt set kun er Københavns Universitet samt et lille modul på Syddansk Universitet tilbage. Og ikke engang her er der en egentlig uddannelse inden for sprogteknologi.

“Vi uddanner faktisk ikke nogen til dansk sprogteknologi, og det er katastrofalt,” siger hun og bliver suppleret af Costanza Navarretta.

”Det er nødvendigt at etablere en uddannelse i dansk sprogteknologi, og det arbejder vi på. Samtidig bør man lære at bruge sprogteknologi i gymnasier og i sprogfagene på universitetet. Jeg har super dygtige studerende, som tager en Ph.d. i udlandet, fordi vi ikke har kunnet udbyde Ph.d.-stipendier i sprogteknologi på grund af besparelser. Det er en katastrofe, når de store hjerner tager andre steder hen. Hvis vi ikke uddanner forskere i Danmark, mister vi unge talenter og deres viden.,” siger hun.

Hvad er sprogteknologi?

Er der ingen i Danmark, der påtager sig opgaven med at gøre den danske sprog-infrastruktur klar, bliver det fuldstændigt op til private virksomheder. Og hvis vi ikke udvikler dansk ekspertise på feltet, så er vi per automatik fuldt og helt i lommen på de store spillere, mener de hos Center for Sprogteknologi. Netop ved Center for Sprogteknologi vil man gerne tage teten i udviklingen af sproglig infrastruktur for dansk f.eks i form af en egentlig dansk sprogbank. Men det kræver samarbejde og en offentlig satsning på højt politisk niveau.

“Og man kan næsten spørge sig selv, om slaget er tabt. For de høster jo store tekstmængder hele tiden, som gør at deres systemer hele tiden bliver bedre. Men man kan så sige, at hvis det så bare virker godt nok på dansk, så er der ikke noget problem. Men det gør det bare ikke. For vi er meget langt nede på ranglisten i det store hele,” siger Bolette Sandford Pedersen.

Hun nævner Word som et eksempel. der ikke var indstillet ordentligt de første år i Danmark, og derfor lavede systemet røde bølgestreger, hver gang det så et sammensat ord. Og det har måske påvirket danske stavere til at skille sammensatte ord, for så fik man ikke røde bølgestreger, og den er svær at få udryddet igen. Selv om Word faktisk fungerer betydeligt bedre, end den gjorde i starten.

“Jeg tror, at det har haft en indflydelse på, at folk skiller ordene ad i dag. Vi har haft 10 år med tekstbehandlingssystemer, der ikke kunne håndtere sammensatte ord, fordi det bare er anderledes på engelsk, hvor man skiller det ad,” siger Bolette Sandford Pedersen.

Men hvad skal der så til? Ifølge Center for Sprogteknologi bliver det svært at følge med udviklingen, hvis der ikke følger offentlig støtte. For teknologi som Machine Learning og Deep Learning virker først rigtig godt, når der er store mængder tekst, som kan bruges til at træne systemerne. Men det findes ikke på dansk - med mindre vi selv producerer det. Det er dyrt og tager lang tid og bør derfor prioriteres hurtigst muligt.

Sproget er digitaliseringens sorte guld

Er du interesseret i sprogteknologi, er Center for Sprogteknologi medforfattere til en kronik i Politiken om, hvorfor vi bør satse på at udvikle en sprogteknologi, hvis dansk fortsat skal være et stærkt og levende sprog. 

Sproget er digitaliseringens sorte guld
(Kronikken ligger bag betalingsmur)

For at forstå problematikken, giver det mening at se på, hvad sprogteknologi er, og hvad der ligger bag, når det bliver brugt i forhold til f.eks. kunstig intelligens. Først og fremmest ligger der omfattende sprogspecifikke ressourcer. Det kan være ordbogslignende ressourcer, hvor man beskriver begreberne i et formelt sprog og stiller dem op i forhold til hinanden. Men det kræver også opmærkede korpora (samling af maskinelt læsbare tekster), som fx fortæller, om det er den ene eller den anden betydning af ordet, der er på spil, eller hvem der udfører handlingen i en sætning. Tager man et ord som skade, skal systemet vide, om der er tale om en skade på en bil eller en fugl. Et stykke arbejde der typisk bliver lavet i hånden, og som så kan bruges til at træne systemerne efterfølgende.

“Vi laver typisk det, vi kalder et balanceret korpus, hvor vi samler forskellige teksttyper, så vi både får noget avissprog og noget talesprog, der er transskriberet. Så vi har i dette korpus både folketingstaler transkriberet, avistekst, en smule roman og ugeblade, blogs og produktanmeldelser på nettet,” fortæller Bolette Sandford Pedersen.

Alt teksten skal opmærkes, så den kunstige intelligens får en forståelse for sproget. Det kræver, at man sidder med én sætning af gangen Til gengæld kan materialet bruges igen og igen og til forskellige applikationer.

“Og når man så har et lille opmærket korpus på fx 100.000 ord, så kan man træne nogle systemer på det, og så opmærke en million ord, og så bagefter sidde og rette de 1 million ord. Og så bootstrappe. Så har man en mio ord der er korrekte, og så kan man træne systemer på det,” siger Dorte Haltrup Hansen og fortsætter.

“Men hele det arbejde at få det annoteret, så man kan træne systemer på det. det er sådan noget man skal have støtte til, for det første arbejde er virkelig dyrt pioneerarbejde”.

TEKDEB
TEKDEB

TEKDEB er det korte navn for 'teknologiudviklingsdebatkonference', og her tager vi debatten om fremtiden til nye højder. TEKDEB blev afholdt d. 27. februar 2017 og vi glæder os til at gentage su ...

Læs mere
Machine Learning
Machine Learning

Få emner er så hypede i disse år som machine learning og kunstig intelligens. Potentialet er enormt, og derfor har giganter som Apple, Microsoft, Amazon, IBM og Intel heller ingen skrupler ved at ...

Læs mere

Deltag i debatten

luk
close