Tutkijat Ovat Luoneet Itseoppivan AI: N, Joka Pystyy Pelaamaan Kaikkia Pelejä - Vaihtoehtoinen Näkymä

Sisällysluettelo:

Tutkijat Ovat Luoneet Itseoppivan AI: N, Joka Pystyy Pelaamaan Kaikkia Pelejä - Vaihtoehtoinen Näkymä
Tutkijat Ovat Luoneet Itseoppivan AI: N, Joka Pystyy Pelaamaan Kaikkia Pelejä - Vaihtoehtoinen Näkymä

Video: Tutkijat Ovat Luoneet Itseoppivan AI: N, Joka Pystyy Pelaamaan Kaikkia Pelejä - Vaihtoehtoinen Näkymä

Video: Tutkijat Ovat Luoneet Itseoppivan AI: N, Joka Pystyy Pelaamaan Kaikkia Pelejä - Vaihtoehtoinen Näkymä
Video: Kaikki mukaan katsoja peli//fortnite suomi 2024, Saattaa
Anonim

Vallankumouksellisen itseoppivan tekoälyjärjestelmän AlphaGo Zero -kehittäjät ovat ilmoittaneet uuden koneen version luomisesta, joka voi itsenäisesti oppia pelaamaan mitä tahansa lautapelejä ja lyömään ihmistä. Sen kuvaus esitettiin Science-lehdessä.

Mielen syvyydet

David Silver ja hänen kollegansa kehittivät AI-järjestelmän AlphaGo loppuvuodesta 2014, ja sen työ "testattiin" Euroopan mestarille Fan Huille, joka hävisi kaikki viisi ottelua autolle. Maaliskuussa 2016 AlphaGo voitti Go-maailmanmestari Lee Sedolin viiden ottelun sarjassa, joista vain yksi päättyi ihmisen voittoon.

Silver ja hänen kollegansa pystyivät saavuttamaan nämä menestykset rakentamalla AI: nsä yhden eikä kahden hermostoverkon perusteella - erityiset algoritmit, jotka jäljittelevät ihmisen aivojen hermosolujen ketjujen työtä. Yksi niistä vastaa nykyisen aseman arvioinnista hallituksella, ja toinen käyttää ensimmäisen verkon laatimia analyysituloksia seuraavan vaiheen valitsemiseksi.

Seuraava looginen askel AlphaGon kehittämisessä oli kaikkien olemassa olevien hermoverkkojen ja tekoälyjärjestelmien päähaittojen poistaminen - tarve opettaa heille, mitä heidän tulisi tehdä käyttämällä valtavia tietoarkistoja, jotka henkilö on käsin käsitellyt, tai henkilön välittömässä osallistumisessa, kuten tapahtui ensimmäisissä vaiheissa. AlphaGon kehittäminen.

Silver ja hänen tiiminsä ratkaisivat tämän ongelman luomalla täysin uuden hermoverkon, joka perustuu ns. Vahvistusoppimisalgoritmeihin. Tämä hermoverkko, toisin kuin tähtien edeltäjä, joka oli alun perin koulutettu peleihin vapaaehtoisten kanssa ja jolla oli joitain sisäänrakennettuja alkeellisia pelistrategioita, aloitti toimintansa ehdottomana aloittelijana, jolla ei ole tietokantaa.

Toisin sanoen hän tunsi vain Go-pelin säännöt, alkuperäiset olosuhteet ja voitto-olosuhteet, ja sitten tietokone oppi itsenäisesti pelaamaan tätä muinaista kiinalaista strategiaa, pelaamaan itseään ja toimimaan kokeilemalla ja erehdyksellä. Ainoa rajoitus hänen työssään oli enimmäisaika harkita muuttoa - se oli noin 0,4 sekuntia.

Mainosvideo:

Jokaisen tällaisen pelin jälkeen AI-järjestelmä analysoi kaikki liikkeensä ja muisti ne, jotka toivat yhden sen "puolikkaista" lähemmäksi voittoa, ja kirjoitti eräänlaisen "mustan listan" ne vaiheet, jotka olivat suoraan sanottuna häviäviä. Tätä tietoa käyttämällä hermoverkko rakensi itsensä uudelleen ja saavutti vähitellen tason, jonka AlphaGo-versio saavutti ennen Lee Sedolin kanssa pelattua peliä.

Siirtyminen itseoppiviin algoritmeihin ei vain antanut AlphaGo Zero -sovelluksen ylittää edeltäjänsä ja ylittää sitä 100-0, vaan paransi myös monia muita työnsä näkökohtia. Erityisesti sen koulutusprosessi kesti vain kolme päivää ja noin viisi miljoonaa peliä, mikä oli suuruusluokkaa pienempi kuin AI: n ensimmäisen version pyynnöt.

Polku huippuosaamiseen

AlphaGo Zero -kokeiden onnistunut loppuunsaattaminen johti Silverin ja hänen joukkueensa pohtimaan, voitaisiinko samanlaista hermoverkkoa voittaa mestarin kruunu muun tyyppisissä strategia- ja lautapeleissä.

Tätä varten tutkijat rakensivat AlphaGo Zero -sovellukseen uuden uuden elementin - heuristiset algoritmit ratkaisujen satunnaista hakua varten sekä koodin, joka otti huomioon arvon olemassaolon joissakin peleissä. Lisäksi uutta alfaversiota parannettiin jatkuvasti sen rakennetta sen sijaan, että sitä päivitettäisiin edeltäjänsä kaltaisissa vaiheissa.

Nämä suhteellisen yksinkertaiset muutokset, kuten lisäkokeet osoittivat, kasvattivat huomattavasti tämän keinotekoisen älykkyysjärjestelmän itseoppimisnopeutta ja muuttivat siitä universaalin koneen, joka pystyy pelaamaan kaikenlaisia hallituksen strategioita.

Tutkijat ovat kokeilleet sen työtä kolmen tyyppisissä peleissä - go, tavallinen shakki ja niiden japanilainen lajike, shogi. Kaikissa kolmessa tapauksessa Hopean uusi aivoriihe saavutti isomestarin tason alle miljoonassa pelissä, saavuttaen melkein inhimillisen selektiivisyyden mahdollisten liikkeiden valinnassa vain 9–12 tunnin shakkiharjoittelua ja 13 päivää matkaa.

Aikaisemmin hän voitti hienoimpia tietokoneohjelmia, jotka pelaavat näitä pelejä - Stockfishin algoritmi luopui AlphaZero-harjoituksen neljännestä tunnista, kun taas nykyinen shogi-mestari Elmo kesti vain kaksi tuntia. Viimeinkin AlphaGon ensimmäinen versio alkoi antaa "pojanpojalleen" noin 30 tuntia harjoittelustaan.

Seuraavat AlphaZeron "uhrit", kuten tutkijat ovat todenneet, voivat olla "oikeita" tietokonepelejä, kuten Starcraft II ja Dota 2. Mestaruuskilpailun toteuttaminen sellaisissa urheilulajeissa, heidän mielestään, avaa tien itseoppivalle AI: lle tunkeutua vähemmän muodollisiin tieteen ja kulttuurin aloihin. ja tekniikka.