18-10-2018 20:57:13

IDA Future Talks giver dig opdateret viden og inspiration med et væld af fortællinger om mennesker og fremtidens teknologier. Kom med den 13. december.
Tilmeld dig nu.

Hvordan bliver et stykke stemme-software til et kulturelt fænomen?

Fremtidsteknologi: Den japanske vocaloid Hatsune Miku er på 10 år blevet et kæmpe fænomen i Asien og Nordamerika. Men hvorfor dyrker tusindvis af fans et stykke software med en heliumagtig, syntetisk stemme, og hvorfor smider verdens største it-virksomheder milliardbeløb efter at udvikle stemmesoftware?
20. feb. 2017 Af Rene Pedersen - netværksredaktør
Hvordan bliver et stykke stemme-software til et kulturelt fænomen?

Hun har musikvideoer, der er vist mere end 27 millioner gange på Youtube og endnu flere på den japanske pendant, Niconico. Hun har varmet op for Lady Gaga. Og når hun selv giver koncerter, kommer der tusindvis af fans, der synger med på hendes sange. Alligevel adskiller det japanske popfænomen Hatsune Miku sig betydeligt fra Justin Bieber, U2 og Beyonce.

For den 16 årige sensation eksisterer udelukkende virtuelt og er ikke ældet en dag, siden hun blev kodet for små 10 år siden. Hatsune Miku er en såkaldt vocaloid. Altså en syntetiske stemme og et stykke software skabt af firmaet Crypton Future Media i 2007 til brug for musikere. Men i takt med at der også er koblet en visuel identitet på, og der er kommet flere muligheder for at sætte sit eget præg på musikken, er hun vokset fra at være et stykke software til at være et kulturelt fænomen.

Ifølge Stina Marie Hasse Jørgensen, der skriver sit ph.d.-projekt på Institut for Kunst- og Kulturvidenskab på Københavns Universitet om Hatsune Miku og syntetiske stemmer, er det interessant, at det ikke er Crypton Future Media, som skaber Hatsune Mikus sange eller opdaterer hendes image.

“Det er fansene selv, der dyrker hende og bliver ved med at fylde deres fantasier og behov i den her næsten tomme beholder, som Hatsune Miku er. For det er et softwareprogram. Det er et framework, som sætter nogle rammer for, hvad man kan lave af sange. Men samtidig er det et meget åbent program ligesom Word, hvor du kan skrive, hvad du vil i programmet. Og du kan lave de sange, du har lyst til,” siger hun.

Har mere end 100.000 sange

At det er et åbent framework betyder også, at Hatsune Miku spænder bredere end de fleste musikere og har hits indenfor så forskellige genrer som heavy metal, ballader og J-pop. Crypton Future Media forsøger til gengæld at styre fænomenet i et vist omfang ved at lave en slags kanon for, hvad der er state of the art inden for Hatsune Miku-fænomenet. Det gør de blandt andet ved at lave expos mindst en gang om året, hvor der kommer tusindvis af fans, og Crypton Future Media kuraterer de sange, som har fået flest hits, og som de synes er mest interessante.
Og det går fans så amok over og synger med på.

I 2013 skabte folkene bag Hatsune Miku en engelsk stemmesyntese, så også fans fra resten af verden fik lettere ved at dyrke hende.

For selv om Hatsune Miku i dag blot er en blandt mange vocaloids i Asien, er hun efter 10 år stadig den største, og i dag findes der mere end 100.000 sange med Hatsune Mikus heliumagtige stemme. Det skyldes formentlig, at hun er delbar, mener Stina Marie Hasse Jørgensen

“Du har mulighed for selv at skabe uden at skulle betale copyright, og du kan kommentere og remixe andres sange. Hele den muliggørelse af cirkulation online har klart gjort det til et kæmpe fænomen,” siger hun og fortsætter.

“Og Crypton Future Media skal ikke have folk ude til hele tiden at opdatere det kulturelle image ikon for at følge med tiden. De lader fansene selv gøre arbejdet, og hun bliver til, hvad fans kommer i hende på mange måder. Det er deres fantasi, der sætter grænsen”.


Milliard-investeringer i syntetiske stemmer

Hatsune Miku er i høj grad et kulturelt fænomen. Men ifølge Stina Marie Hasse Jørgensen er de syntetiske stemmer langt fra kun interessante inden for showbusiness eller en gimmick. Firmaer som Amazon, Apple og Google investerer alle milliardbeløb i at udvikle talesoftware og syntetiske stemmer, fordi det meget vel kan blive fremtidens interface mellem mennesker og maskiner.

“Det er stadig i sin vorden, men man kan allerede høre meget grove talesynteser på stationer og i toge og busser. Men det er noget, der kommer mere og mere, for så behøver man ikke at bruge plads på en skærm for at skrive ting, men istedet bare sige dem. På den måde kan du minimere interfacet ved at bruge syntetiske stemmer,” siger Stina Marie Hasse Jørgensen.

I efteråret 2016 havde Googles AI-selskab, DeepMind et gennembrud i forhold til at skabe realistiske syntetiske stemmer. Og næsten simultant offentliggjorde Adobe, at de mere eller mindre er klar med en slags “photoshop for audio”. Ifølge Adobe skulle programmet VoCo gøre det lige så let at arbejde med tale som at skrive tekst. Pointen er, at VoCo ved at lytte til en eksisterende stemme kan lære så meget, at du ikke behøver speakeren i studiet, hver gang der skal indlæses en ny lydbog eller laves voiceover til en film. Du kan bare indtaste teksten, og så læser VoCo den højt med en næsten perfekt gengivelse af stemmen.
Det fik straks bekymrede eksperter til at advare mod misbrug af softwaren, og Adobe har da også selv meldt ud, at de arbejder på at skabe en art vandmærke, der skal forhindre misbrug.

Stina Marie Hasse Jørgensen har arbejdet med stemmer og stemmeteori i 10 år og stemmesynteser de seneste to år. Og i løbet af den tid er der sket meget.

“Det er rigtig spændende at være med nu og skrive om netop det her felt. For hver måned kommer der nye produkter ud, som ændrer hele den måde, man tænker, hvad der ellers var state of the art i forhold til syntetiske stemmer,” siger hun.

Også den modsatte vej sker der meget. Stemmestyrede robotter som Siri og Amazons Alexa gør det allerede i dag muligt at tale til computeren, som så kan skifte nummer på Spotify, tilføje ting til din kalender, bestille ting over nettet og meget mere. Men der er stadig et stykke, før man kan have meningsfulde samtaler med en robot.

“Lige nu er de fleste samtaler man har med maskiner meget som commando lines. Det er ikke en reel samtale. Men kan man bruge machine learning til at skabe mere flydende interfaces, og lære hvordan man egentlig samtaler. Det er blandt andet et område, man arbejder med i forhold til f.eks. sociale robotter, som jo også er et kæmpe stort marked,” siger hun.

Læs også:

Popstjerne af lys, lyd og software
The End - en teknisk operaoplevelse

Stina Marie Hasse Jørgensen og Katrine Wallevik holder oplæg om Hatsune Miku til Future Talks 24. marts. Kom og hør hvorfor næsten en million mennesker dyrker en japansk stemmesyntese

Future Talks
Future Talks

IDA Future Talks giver dig opdateret viden og inspiration med et væld af fortællinger om mennesker og fremtidens teknologier. Kom med den 13. december. Tilmeld dig nu .

Læs mere

Deltag i debatten

luk
close