Neuraalvõrku õpetati Inimese Häält Peaaegu Suurepäraselt Kopeerima - Alternatiivne Vaade

Sisukord:

Neuraalvõrku õpetati Inimese Häält Peaaegu Suurepäraselt Kopeerima - Alternatiivne Vaade
Neuraalvõrku õpetati Inimese Häält Peaaegu Suurepäraselt Kopeerima - Alternatiivne Vaade

Video: Neuraalvõrku õpetati Inimese Häält Peaaegu Suurepäraselt Kopeerima - Alternatiivne Vaade

Video: Neuraalvõrku õpetati Inimese Häält Peaaegu Suurepäraselt Kopeerima - Alternatiivne Vaade
Video: Raha saamise kunst PT Barnumi poolt-TÄIESTI INGLISE AUDIOBOOK 2024, Aprill
Anonim

Möödunud aastal jagas tehisintellekti tehnoloogiaettevõte DeepMind üksikasju oma uue projekti WaveNet kohta, mis on sügava õppimisega närvivõrk, mida kasutatakse realistliku inimkõne sünteesimiseks. Hiljuti ilmus selle tehnoloogia täiustatud versioon, mida kasutatakse digitaalse mobiiliassistendi Google Assistant alusena.

Häälsünteesi süsteem (tuntud ka kui tekstist kõneks funktsioon, TTS) on tavaliselt üles ehitatud ühele kahest põhimeetodist. Konkatiivne (või kompileerimise) meetod hõlmab fraaside konstrueerimist, kogudes üksikuid salvestatud sõnu ja osi, mis on eelnevalt salvestatud häälnäitleja kaasamisel. Selle meetodi peamine puudus on vajadus heliraamatukogu pidevalt asendada, kui tehakse mingeid värskendusi või muudatusi.

Teist meetodit nimetatakse parameetriliseks TTS-ks ja selle eripära on parameetrikomplektide kasutamine, millega arvuti genereerib soovitud fraasi. Meetodi puuduseks on see, et enamasti avaldub tulemus ebareaalse või nn robotheli kujul.

WaveNet seevastu tekitab helilaineid nullist, kasutades konvolutsioonilist närvivõrgusüsteemi, kus heli genereeritakse mitmes kihis. Esiteks, selleks, et koolitada "elava" kõne sünteesimise platvormi, toidetakse sellele tohutul hulgal proove, märkides samal ajal, millised helisignaalid kõlavad realistlikult ja millised mitte. See annab häälsüntesaatorile võimaluse taasesitada naturalistlikku intonatsiooni ja isegi selliseid detaile nagu lämmatavad huuled. Sõltuvalt sellest, milliseid kõneproove süsteemi kaudu juhitakse, võimaldab see arendada unikaalse "aktsendi", mida saab pikas perspektiivis kasutada paljude erinevate häälte loomiseks.

Terav keelel

Võib-olla oli WaveNeti süsteemi suurim piirang see, et selle tööks oli vaja tohutult arvutusvõimsust ja isegi kui see tingimus oli täidetud, ei erinenud see kiirusest. Näiteks 0,02 sekundi pikkuse heli genereerimiseks kulus umbes üks sekund.

Pärast aastast tööd leidsid DeepMindi insenerid endiselt süsteemi täiustamise ja optimeerimise viisi, nii et see on nüüd võimeline tootma sekundi toorest heli vaid 50 millisekundi jooksul, mis on 1000 korda kiirem kui tema algsed võimalused. Pealegi suutsid spetsialistid suurendada heli proovivõtu sagedust 8-bitiselt 16-bitisele, mis mõjutas positiivselt kuulajaid kaasavaid teste. Need õnnestumised on sillutanud teed WaveNet'ile integreerumiseks tarbekaupadesse, näiteks Google Assistant.

Reklaamvideo:

Praegu saab WaveNetit kasutada inglis- ja jaapanikeelsete häälte genereerimiseks Google Assistiri ja kõigi seda digitaalset abilist kasutavate platvormide kaudu. Kuna süsteem suudab luua eritüübilisi hääli, olenevalt sellest, milline proovikomplekt talle koolituse jaoks pakuti, tutvustab Google lähitulevikus suure tõenäosusega tuge realistliku kõne sünteesimiseks WaveNetis teistes keeltes, sealhulgas võtab neid arvesse. kohalikud murded.

Kõneliidesed muutuvad üha sagedasemaks väga erinevatel platvormidel, kuid nende hääldatud hääldatav ebaloomulik olemus lülitab paljud potentsiaalsed kasutajad välja. DeepMindi jõupingutused selle tehnoloogia täiustamiseks aitavad kindlasti kaasa selliste kõnesüsteemide laiemale kasutuselevõtule ning parandavad nende kasutamisest saadavat kasutajakogemust.

Näiteid inglise ja jaapani sünteesitud kõnest, kasutades närvivõrku WaveNet, leiate selle lingi kaudu.

Nikolai Khizhnyak

Soovitatav: