Milloin Tekoäly Alkaa äänittää Sarjaa - Vaihtoehtoinen Näkymä

Sisällysluettelo:

Milloin Tekoäly Alkaa äänittää Sarjaa - Vaihtoehtoinen Näkymä
Milloin Tekoäly Alkaa äänittää Sarjaa - Vaihtoehtoinen Näkymä

Video: Milloin Tekoäly Alkaa äänittää Sarjaa - Vaihtoehtoinen Näkymä

Video: Milloin Tekoäly Alkaa äänittää Sarjaa - Vaihtoehtoinen Näkymä
Video: Black Friday 2024, Huhtikuu
Anonim

Venäläiset kustantajat kokeilevat jo äänikirjojen koneellista nauhoittamista, ja tulevaisuudessa keinoälylle voidaan uskoa sarjojen kääntämiseen ja kopiointiin suosikkinäyttelijöidensä äänillä. Tietoja tällaisen tekniikan ominaisuuksista ja kuinka kauan niiden luominen vie.

Suullinen puhe kirjoitetaan

YouTube näyttää videoiden automaattiset tekstitykset äänentunnistus- ja puhetekstin käännösohjelmiston avulla. Se perustuu itseoppiviin hermoverkkoihin. Tämä vaihtoehto on yli kymmenen vuotta vanha, mutta tulos on edelleen kaukana ihanteellisesta. Useimmiten voit vain saada kiinni sanotun yleisen merkityksen. Mikä on vaikeus?

Oletetaan, selittää ITMO-yliopiston koneoppimislaboratorion johtaja Andrey Filchenkov, että rakennamme algoritmia puheentunnistukseen. Tämä vaatii hermoverkon kouluttamista suurelle tietojoukolle.

Kestää satoja, tuhansia tunteja puheäänityksiä ja niiden oikeaa vertailua teksteihin, mukaan lukien lauseiden alun ja lopun merkitseminen, keskustelukumppaneiden vaihtaminen ja niin edelleen. Tätä kutsutaan koteloksi. Mitä suurempi se on, sitä parempi on hermoverkon koulutus. Englannin kielelle on luotu todella suuria korporaa, joten tunnistus on paljon parempi. Mutta venäjällä tai esimerkiksi Espanjan kielellä on paljon vähemmän tietoa, ja monilla muilla kielillä tietoja ei ole ollenkaan.

"Ja tulos on sopiva", tutkija toteaa lopuksi.

”Lisäksi arvioimme sanan, lauseen merkitystä elokuvassa paitsi äänen perusteella, myös näyttelijän intonaatio ja hänen ilmeensä ovat tärkeitä. Kuinka tulkitset tämän? - lisää Tomskin ammattikorkeakoulun tietotekniikan laitoksen apulaisprofessori Sergei Aksenov.

Mainosvideo:

”Kuinka hoitaa sujuvan puheen ominaisuudet? Sumuinen artikulaatio, luonnos, keskeytys, taukot? Loppujen lopuksi, tästä riippuen, merkitys muuttuu, kuten kohdassa "sinua ei voida armahtaa". Kuinka opettaa kone määrittämään, missä puhujan pilkku on? Ja runossa? " - luettelee NTI SPbPU -keskuksen laboratorion "Industrial streaming tietojenkäsittelyjärjestelmät" laboratorion päällikkö Marina Bolsunovskaya.

Asiantuntijan mukaan menestyneimmät projektit ovat kapeilla alueilla. Esimerkiksi RTC-yritysryhmän kehittämä järjestelmä lääkäreiden ammatillisen puheen tunnistamiseksi lääketieteellisillä termeillä auttaa lääkäreitä pitämään sairaushistoriaa.

”Täällä voit hahmottaa selkeästi aihealueen ja tuoda esiin puheen avainsanat. Lääkäri korostaa tiettyjä intonaation sisältäviä osioita: potilaan valitukset, diagnoosi”, Bolsunovskaya selventää.

Toiseen ongelmaan huomauttaa MIPT: n hermostojärjestelmän ja syvän oppimisen laboratorion päällikkö Mikhail Burtsev. Tosiasia, että toistaiseksi kone on onnistunut tunnistamaan tekstiä, kun yksi henkilö puhuu, kuin useita, kuten elokuvissa.

Käännös kontekstin kanssa

Otetaan esimerkiksi englanninkielinen video, katkelma tv-sarjasta "Game of Thrones", ja käynnistämme automaattiset venäläiset tekstitykset. Se mitä näemme saa meidät nauramaan.

Silti * Game of Thronesista *
Silti * Game of Thronesista *

Silti * Game of Thronesista *.

Konekäännösten alalla tekniikka on kuitenkin saavuttanut vaikuttavan menestyksen. Joten, Google Translate kääntää tekstit tavallisille kielille melko suvaitsevaisesti, usein vain minimaalinen muokkaus vaaditaan.

Tosiasia, että hermoverkkotulkki on koulutettu myös suurelle joukolle alkuperäistä, oikein merkittyä dataa - rinnakkaiskorpus, joka osoittaa, kuinka kunkin alkuperäisellä kielellä olevan lauseen tulisi näyttää venäjältä.

”Tällaisten rakennusten rakentaminen on erittäin työlästä, kallista ja aikaa vievää, se vie kuukausia ja vuosia. Neuraaliverkon kouluttamiseksi tarvitsemme Aleksandrian kirjaston kokoisia tekstejä. Mallit ovat yleismaailmallisia, mutta paljon riippuu kielestä. Jos annat paljon tietoa esimerkiksi Avarissa, käännös on korkealaatuista, mutta Avarille ei yksinkertaisesti ole niin paljon dataa”, Andrey Filchenkov sanoo.

"Kääntäminen on erillinen tuote, joka liittyy alkuperäiseen, mutta ei ole sitä vastaava", sanoo Kaukoidän liittovaltion yliopiston digitaalitalouden koulun johtaja Ilja Mirin. - Tyypillinen esimerkki on Dmitry Puchkovin (Goblinin) käännökset ulkomaisista elokuvista 90-luvulla. Vasta työnsä jälkeen tuli selväksi, mitä siellä tapahtui. VHS-versioista ei löytynyt mitään sopivaa. Yritä vaihtoehtoisesti yrittää kääntää kielelle, jonka osaat hyvin, jotain The Masterilta ja Margaritalta. Esimerkiksi”mustassa viitteessä, jolla on verinen vuori”. Kone ei voi tehdä sitä."

Neuraaliverkot oppivat hyvin monista tyypillisistä esimerkeistä, mutta elokuvat ovat täynnä monimutkaisia merkityksiä ja konnotaatioita, vitsejä, joihin kone ei pääse käsiksi - se ei voi erottaa niitä.

”Jokaisessa Futurama-animaatiosarjan jaksossa on viittaus klassiseen amerikkalaiseen elokuvaan - Casablanca, Rooman loma ja niin edelleen. Sellaisina hetkinä kääntäjän on löydettävä läheinen analogi venäläisestä tilanteesta saadakseen merkityksen ja pakkaamalla uudelleen merkitys niille, jotka eivät ole katsoneet näitä elokuvia. Väärä konekäännös voi olla katsojan mielestä erittäin varovainen”, Mirin jatkaa.

Hänen mukaan konekääntämisen laatu on lähellä 80 prosenttia, loput on spesifisyyttä, joka on lisättävä manuaalisesti asiantuntijoiden mukaan. "Ja jos 20-30 prosenttia lauseista vaatii manuaalisen korjauksen, mitä hyötyä on konekääntämisestä?" - sanoo tutkija.

”Käännös on ongelmallisin vaihe”, Sergei Aksenov myöntää. - Kaikki riippuu semantiikasta ja tilanteesta. Käytettävissä olevia työkaluja voidaan käyttää kääntämiseen ja koneäänitoimintoihin, esimerkiksi lasten sarjakuviin yksinkertaisella sanastolla. Mutta fraseologisten yksiköiden, oikeiden nimien, sanojen, jotka viittaavat katsojia tiettyihin kulttuuritodellisuuksiin, tulkintaan liittyy vaikeuksia."

Elokuvissa ja videoissa konteksti on aina visuaalinen, ja siihen liittyy usein musiikkia ja melua. Kuvittelemme kuvan perusteella, mistä sankari puhuu. Puheesta, josta on tullut teksti, puuttuu tämä tieto, joten kääntäminen on vaikeaa. Tämä on tilanne kääntäjille, jotka työskentelevät tekstitysten kanssa näkemättä elokuvaa. He ovat usein väärässä. Konekäännös on sama tarina.

AI puhuu

Venäjälle käännetyn sarjan kopioimiseksi tarvitaan algoritmi luonnollisen puheen luomiseksi tekstistä - syntetisaattori. Niitä ovat luoneet monet tietotekniikkayritykset, kuten Microsoft, Amazon, Yandex, ja heillä menee melko hyvin.

Andrey Filchenkovin mukaan muutama vuosi sitten minuutti puhesyntetisaattorin kopioinnista kesti useita tunteja, nyt käsittelynopeus on lisääntynyt huomattavasti. Puhesynteesitehtävä joillakin alueilla, joilla vaaditaan neutraaleja vuoropuheluita, on ratkaistu melko hyvin.

Monet pitävät jo itsestäänselvyytenä keskustelua puhelimen robotin kanssa, komentojen suorittamista autonavigaattorilta, vuoropuhelua Alice: n kanssa Yandex. Drive-autossa. Mutta nämä tekniikat eivät ole vielä sopivia televisiosarjojen kopiointiin.

”Ongelma on tunne ja toiminta. Olemme oppineet tekemään koneäänestä ihmisen, mutta niin, että se kuulostaa silti asiayhteydeltä ja herättää luottamusta, on kaukana. Huono ääninäyttely voi helposti tappaa elokuvan havaitsemisen”, Filchenkov sanoi.

Mihhail Burtsevin mukaan puhesynteesi on melko todellista. Tämä on kuitenkin laskennallisesti intensiivistä, eikä sitä voida tehdä reaaliajassa kohtuulliseen hintaan.

”On olemassa algoritmeja, jotka syntetisoivat puheen, joka on samanlainen kuin tietyn näyttelijän puhe. Tämä on ääni, puhetapa ja paljon muuta. Joten mikä tahansa ulkomainen näyttelijä puhuu todella venäjää”, Burtsev ennustaa. Hän odottaa huomattavaa edistystä tulevina vuosina.

Sergei Aksenov antaa viidestä kymmeneen vuotta työkalujen kehittämiseen monimutkaisten teosten kääntämiseksi ja kopioimiseksi yleisimmistä kielistä kuten englanti. Tutkija mainitsee Skypen esimerkin, joka osoitti useita vuosia sitten mahdollisuuden järjestää verkkotunteja eri kieliä puhuville koululaisille. Mutta silloinkin järjestelmä ei ole ihanteellinen, sen on jatkuvasti opittava: saatava sanasto, otettava huomioon kulttuurinen konteksti.