GOOGLES NYA AI-TEXT-TILL-TAL-TEKNIK ÄR SÅ BRA ATT VI SLÅR VAD OM ATT DU INTE KAN BERÄTTA DET FRÅN EN RIKTIG MÄNNISKA

Kan du se skillnaden mellan AI-genererat datortal och en riktig, levande människa? Du kanske alltid har trott att du kunde. Du kanske är förtjust i Alexa och Siri men tror att du aldrig skulle förväxla någon av dem med en riktig kvinna.

Sakerna håller på att bli mycket mer intressanta. Googles ingenjörer har jobbat hårt med att skapa ett text-till-tal-system Tacotron 2 . Enligt en papper de publicerade den här månaden skapar systemet först ett spektrogram av texten, en visuell representation av hur talet ska låta. Den bilden sätts genom Googles befintliga WaveNet-algoritm, som använder bilden för att producera extremt naturligt klingande mänskligt tal.

väderkanal stephanie abrams lön

Med hjälp av denna metod rapporterar forskarna, 'Vår modell uppnår en genomsnittlig åsiktspoäng (MOS) på 4,53 jämförbar med en MOS på 4,58 för professionellt inspelat tal.' (En genomsnittlig åsiktspoäng är en telekommunikationsterm som mäter hur verklighetstroget något låter.)

Som Googles ljudprover visar kan Tacotron 2 ur kontext upptäcka skillnaden mellan substantivet 'öken' och verbet 'öken', liksom substantivet 'närvarande' och verbet 'närvarande' och ändra dess uttal därefter. Det kan lägga tonvikten på versaler och använda rätt böjning när man ställer en fråga snarare än att göra ett uttalande.

Och det kan generera text som låter så lik mänskligt tal att det är svårt eller omöjligt att känna till skillnaden. Om du vill se hur svårt det är, gå till Googles sidan för ljudprover och bläddra ner till den sista uppsättningen prover med titeln 'Tacotron 2 eller Human?' Där hittar du Tacotron 2 och en riktig person som vardera säger meningar som: 'Den flickan gjorde en video om Star Wars läppstift.'

SPOILER ALERT: För att testa dig själv, lyssna på proverna och gissa vilket är innan du läser resten av den här kolumnen.

Så vilka exempel är text-till-tal och vilka är en verklig mänsklig röst? Googles ingenjörer säger inte men de har lämnat en mycket stor ledtråd. Var och en av .wav-filproverna har ett filnamn som innehåller antingen termen 'gen' eller 'gt.' Baserat på tidningen är det mycket troligt att 'gen' indikerar tal genererat av Tacotron 2, och 'gt' är verkligt mänskligt tal. ('GT' står sannolikt för 'mark sanning', en maskininlärnings term som i grund och botten betyder 'den verkliga affären.')

Förutsatt att detta är korrekt, här är svaren på testet: