Neuraaliverkko Opetettiin Kopioimaan Ihmisen ääni Melkein Täydellisesti - Vaihtoehtoinen Näkymä

Sisällysluettelo:

Neuraaliverkko Opetettiin Kopioimaan Ihmisen ääni Melkein Täydellisesti - Vaihtoehtoinen Näkymä
Neuraaliverkko Opetettiin Kopioimaan Ihmisen ääni Melkein Täydellisesti - Vaihtoehtoinen Näkymä

Video: Neuraaliverkko Opetettiin Kopioimaan Ihmisen ääni Melkein Täydellisesti - Vaihtoehtoinen Näkymä

Video: Neuraaliverkko Opetettiin Kopioimaan Ihmisen ääni Melkein Täydellisesti - Vaihtoehtoinen Näkymä
Video: Laura Räty - ihmisen ääni 2024, Huhtikuu
Anonim

Viime vuonna tekoälyyhtiö DeepMind jakoi yksityiskohdat uudesta projektistaan WaveNet, syvälle oppivaan hermoverkkoon, jota käytetään syntetisoimaan realistista ihmisen puhetta. Äskettäin julkaistiin parannettu versio tästä tekniikasta, jota käytetään digitaalisen mobiili-avustajan Google Assistentin perustaksi.

Äänisynteesijärjestelmä (joka tunnetaan myös nimellä tekstistä puheeksi -toiminto, TTS) rakennetaan yleensä yhden kahdesta perusmenetelmästä. Yhdistävä (tai kokoamismenetelmä) käsittää lauseiden rakentamisen keräämällä yksittäisiä tallennettujen sanojen kappaleita ja osia, jotka on aiemmin nauhoitettu äänitoimijan osallistumisella. Tämän menetelmän tärkein haittapuoli on tarve vaihtaa äänikirjasto jatkuvasti päivityksiä tai muutoksia tehtäessä.

Toista menetelmää kutsutaan parametriseksi TTS: ksi, ja sen ominaisuus on parametrijoukkojen käyttö, joiden avulla tietokone luo halutun lauseen. Menetelmän haittana on, että useimmiten tulos ilmenee epärealistisen tai ns. Robottiäänen muodossa.

WaveNet puolestaan tuottaa ääniaaltoja tyhjästä käyttämällä konvoluutiohermoverkkojärjestelmää, jossa ääni syntyy useissa kerroksissa. Ensinnäkin, jotta voidaan kouluttaa alusta "elävän" puheen syntetisoimiseksi, sille "syötetään" valtava määrä näytteitä huomioiden samalla, mitkä äänisignaalit kuulostavat realistisilta ja mitkä eivät. Tämä antaa äänisyntetisaattorille kyvyn toistaa naturalistinen intonaatio ja jopa yksityiskohdat, kuten nauravat huulet. Riippuen siitä, mitä puheenäytteitä järjestelmän läpi johdetaan, tämä antaa sille mahdollisuuden kehittää ainutlaatuinen "aksentti", jota voidaan pitkällä aikavälillä luoda monien erilaisten ääniä.

Terävä kielellä

Ehkä suurin rajoitus WaveNet-järjestelmälle oli se, että sen käyttäminen vaatii valtavan määrän laskentatehoa, ja edes silloin kun tämä ehto täytettiin, sen nopeus ei eronnut. Esimerkiksi 0,02 sekunnin äänen luominen kesti noin yhden sekunnin aikaa.

Yhden vuoden työn jälkeen DeepMind-insinöörit löysivät edelleen tavan parantaa ja optimoida järjestelmää siten, että se pystyy nyt tuottamaan yhden sekunnin raa'an äänen vain 50 millisekunnissa, mikä on 1000 kertaa nopeampi kuin sen alkuperäiset ominaisuudet. Lisäksi asiantuntijat onnistuivat lisäämään ääninäytteenottotaajuuden 8-bittisestä 16-bittiseksi, mikä vaikutti positiivisesti kokeisiin, joihin osallistui kuulijoita. Nämä menestykset ovat rakentaneet tietä WaveNetille integroitumiseen kuluttajatuotteisiin, kuten Google Assistant.

Mainosvideo:

Tällä hetkellä WaveNet-ohjelmaa voidaan käyttää englanninkielisten ja japanilaisten äänien luomiseen Google Assistantin ja kaikkien tätä digitaalista apua käyttävien alustojen kautta. Koska järjestelmä voi luoda erityyppisiä ääniä sen mukaan, mikä näytesarja sille annettiin koulutusta varten, Google ottaa lähitulevaisuudessa todennäköisesti käyttöön tuen realistisen puheen syntetisoimiseksi WaveNetissä muilla kielillä, ottaen huomioon myös ne paikalliset murteet.

Puherajapinnat ovat yhä yleisempiä monilla erilaisilla alustoilla, mutta niiden äänen voimakas epäluonnollinen luonne sulkee monet potentiaaliset käyttäjät pois käytöstä. DeepMindin pyrkimykset parantaa tätä tekniikkaa edistävät varmasti tällaisten äänijärjestelmien laajempaa käyttöönottoa ja parantavat käyttökokemusta niiden käytöstä.

Esimerkkejä englannin ja japanin syntetisoidusta puheesta, jossa käytetään WaveNet-hermoverkkoa, löytyy seuraamalla tätä linkkiä.

Nikolay Khizhnyak