Neuraaliverkko Opetettiin Kopioimaan Ihmisen ääni Melkein Täydellisesti - Vaihtoehtoinen Näkymä

Video: Neuraaliverkko Opetettiin Kopioimaan Ihmisen ääni Melkein Täydellisesti - Vaihtoehtoinen Näkymä

Video: Laura Räty - ihmisen ääni 2024, Huhtikuu

2024 Kirjoittaja: Keith Bush | [email protected]. Viimeksi muokattu: 2023-12-16 14:17

Viime vuonna tekoälyyhtiö DeepMind jakoi yksityiskohdat uudesta projektistaan WaveNet, syvälle oppivaan hermoverkkoon, jota käytetään syntetisoimaan realistista ihmisen puhetta. Äskettäin julkaistiin parannettu versio tästä tekniikasta, jota käytetään digitaalisen mobiili-avustajan Google Assistentin perustaksi.

Äänisynteesijärjestelmä (joka tunnetaan myös nimellä tekstistä puheeksi -toiminto, TTS) rakennetaan yleensä yhden kahdesta perusmenetelmästä. Yhdistävä (tai kokoamismenetelmä) käsittää lauseiden rakentamisen keräämällä yksittäisiä tallennettujen sanojen kappaleita ja osia, jotka on aiemmin nauhoitettu äänitoimijan osallistumisella. Tämän menetelmän tärkein haittapuoli on tarve vaihtaa äänikirjasto jatkuvasti päivityksiä tai muutoksia tehtäessä.

Toista menetelmää kutsutaan parametriseksi TTS: ksi, ja sen ominaisuus on parametrijoukkojen käyttö, joiden avulla tietokone luo halutun lauseen. Menetelmän haittana on, että useimmiten tulos ilmenee epärealistisen tai ns. Robottiäänen muodossa.

WaveNet puolestaan tuottaa ääniaaltoja tyhjästä käyttämällä konvoluutiohermoverkkojärjestelmää, jossa ääni syntyy useissa kerroksissa. Ensinnäkin, jotta voidaan kouluttaa alusta "elävän" puheen syntetisoimiseksi, sille "syötetään" valtava määrä näytteitä huomioiden samalla, mitkä äänisignaalit kuulostavat realistisilta ja mitkä eivät. Tämä antaa äänisyntetisaattorille kyvyn toistaa naturalistinen intonaatio ja jopa yksityiskohdat, kuten nauravat huulet. Riippuen siitä, mitä puheenäytteitä järjestelmän läpi johdetaan, tämä antaa sille mahdollisuuden kehittää ainutlaatuinen "aksentti", jota voidaan pitkällä aikavälillä luoda monien erilaisten ääniä.

Terävä kielellä

Ehkä suurin rajoitus WaveNet-järjestelmälle oli se, että sen käyttäminen vaatii valtavan määrän laskentatehoa, ja edes silloin kun tämä ehto täytettiin, sen nopeus ei eronnut. Esimerkiksi 0,02 sekunnin äänen luominen kesti noin yhden sekunnin aikaa.

Yhden vuoden työn jälkeen DeepMind-insinöörit löysivät edelleen tavan parantaa ja optimoida järjestelmää siten, että se pystyy nyt tuottamaan yhden sekunnin raa'an äänen vain 50 millisekunnissa, mikä on 1000 kertaa nopeampi kuin sen alkuperäiset ominaisuudet. Lisäksi asiantuntijat onnistuivat lisäämään ääninäytteenottotaajuuden 8-bittisestä 16-bittiseksi, mikä vaikutti positiivisesti kokeisiin, joihin osallistui kuulijoita. Nämä menestykset ovat rakentaneet tietä WaveNetille integroitumiseen kuluttajatuotteisiin, kuten Google Assistant.

Mainosvideo:

Tällä hetkellä WaveNet-ohjelmaa voidaan käyttää englanninkielisten ja japanilaisten äänien luomiseen Google Assistantin ja kaikkien tätä digitaalista apua käyttävien alustojen kautta. Koska järjestelmä voi luoda erityyppisiä ääniä sen mukaan, mikä näytesarja sille annettiin koulutusta varten, Google ottaa lähitulevaisuudessa todennäköisesti käyttöön tuen realistisen puheen syntetisoimiseksi WaveNetissä muilla kielillä, ottaen huomioon myös ne paikalliset murteet.

Puherajapinnat ovat yhä yleisempiä monilla erilaisilla alustoilla, mutta niiden äänen voimakas epäluonnollinen luonne sulkee monet potentiaaliset käyttäjät pois käytöstä. DeepMindin pyrkimykset parantaa tätä tekniikkaa edistävät varmasti tällaisten äänijärjestelmien laajempaa käyttöönottoa ja parantavat käyttökokemusta niiden käytöstä.

Esimerkkejä englannin ja japanin syntetisoidusta puheesta, jossa käytetään WaveNet-hermoverkkoa, löytyy seuraamalla tätä linkkiä.

Nikolay Khizhnyak

Neuraaliverkko Opetettiin Kopioimaan Ihmisen ääni Melkein Täydellisesti - Vaihtoehtoinen Näkymä

Sisällysluettelo:

Video: Neuraaliverkko Opetettiin Kopioimaan Ihmisen ääni Melkein Täydellisesti - Vaihtoehtoinen Näkymä

Terävä kielellä

Acambaron Dinosaurukset - Vaihtoehtoinen Näkymä

Räätälöitsijä On Ihmissusi Chalonista - Vaihtoehtoinen Näkymä

Muinainen Cuelapin Linnoitus Perussa - Vaihtoehtoinen Näkymä

Ovatko Kristallikallot Väärennettyjä Vai Eivät? - Vaihtoehtoinen Näkymä

Pine Cay Islandin Mysteeri: Palanen Atlantista - Vaihtoehtoinen Näkymä

Silminnäkijä Ilmoitti Ryhmästä UFO: Ta Taivaalla Pietarin Yläpuolella - Vaihtoehtoinen Näkymä

Useat UFO-ryhmät Matkustivat Taivaalla Las Vegasin Laakson Yli - Vaihtoehtoinen Näkymä

Selittämättömät Ympyrät Taivaalla Vladivostokin Yli - Vaihtoehtoinen Näkymä

Einsteinin Venäläinen Museo: Suuren Fyysikon Ja Neuvostoliiton Tiedustelupalvelijan Salainen Rakkaustarina - Vaihtoehtoinen Näkymä

Jopa Viisi Humanoidista Avaruusalusta Leijui Taivaalla Itä-Serbian Päälle - Vaihtoehtoinen Näkymä

Cheops-pyramidi, Pohjan Pituus - Vaihtoehtoinen Näkymä

Egyptiläisten Pyramidien Alla Maanalaiset Huoneet Voidaan Piilottaa? - Vaihtoehtoinen Näkymä

Onko Ulkomaalaisia olemassa? Kuka Hyötyy Totuuden Piilottamisesta? - Vaihtoehtoinen Näkymä

Cheops-pyramidi, Ikivanha Mysteeri Mysteereistä - Vaihtoehtoinen Näkymä

Egyptiläisten Pyramidien Tarkoituksen Salaisuudet - Vaihtoehtoinen Näkymä