Kiertohyökkäykset: Miksi Hermoverkko On Helppo Huijata? - Vaihtoehtoinen Näkymä

Sisällysluettelo:

Kiertohyökkäykset: Miksi Hermoverkko On Helppo Huijata? - Vaihtoehtoinen Näkymä
Kiertohyökkäykset: Miksi Hermoverkko On Helppo Huijata? - Vaihtoehtoinen Näkymä

Video: Kiertohyökkäykset: Miksi Hermoverkko On Helppo Huijata? - Vaihtoehtoinen Näkymä

Video: Kiertohyökkäykset: Miksi Hermoverkko On Helppo Huijata? - Vaihtoehtoinen Näkymä
Video: Typerimmät huijarit joihin teininä törmäsin kun etsin työtä 2024, Saattaa
Anonim

Viime vuosina syvällisten oppimisjärjestelmien yleistyessä tiedemiehet ovat osoittaneet, kuinka vastakkainasettelut voivat vaikuttaa mihin tahansa yksinkertaisesta kuvanluokittelijasta syövän diagnostiikkajärjestelmiin - ja jopa luoda hengenvaarallisen tilanteen. Kaikista vaaroistaan huolimatta vastustavat esimerkit ymmärretään heikosti. Ja tutkijat olivat huolissaan: voidaanko tämä ongelma ratkaista?

Mikä on vastustajahyökkäys? Tämä on tapa huijata hermoverkko tuottamaan virheellinen tulos. Niitä käytetään pääasiassa tieteellisessä tutkimuksessa mallien kestävyyden testaamiseen epästandardien tietojen perusteella. Mutta tosielämässä voit esimerkiksi muuttaa muutama pikseli pandan kuvassa niin, että hermoverkko varmistaa, että kuvassa on gibbon. Vaikka tutkijat lisäävät kuvaan vain "melua".

Kiertohyökkäys: kuinka huijata hermoverkko?

Massachusetts Institute of Technologyn uusi työ osoittaa mahdollisen tavan tämän ongelman ratkaisemiseksi. Ratkaisemalla sen voimme luoda paljon luotettavampia syvän oppimisen malleja, joita on paljon vaikeampaa manipuloida haitallisilla tavoilla. Mutta tarkastellaan ensin kilpailevien kuvioiden perusteita.

Kuten tiedät, syvän oppimisen voima tulee sen ylivoimaisesta kyvystä tunnistaa kuviot (kuviot, kuviot, kaaviot, kuviot) tiedoissa. Syötä neuraaliverkko kymmeniä tuhansia merkittyjä eläinvalokuvia, ja se oppii, mitkä kuviot liittyvät pandaan ja mitkä apinaan. Hän voi sitten käyttää näitä kuvioita tunnistaakseen uusia kuvia eläimistä, joita hän ei ole koskaan ennen nähnyt.

Mutta syvän oppimisen mallit ovat myös erittäin hauraita. Koska kuvan tunnistusjärjestelmä luottaa vain pikselikuvioihin eikä käsitteellisempaan ymmärrykseen näkemästään, on helppo huijata sitä näkemään jotain täysin erilaista - vain hajottamalla kuviot tietyllä tavalla. Klassinen esimerkki: Lisää jonkin verran kohinaa panda-kuvaan ja järjestelmä luokittelee sen gibboniksi melkein 100-prosenttisen varmuudella. Tämä melu on kilpaileva hyökkäys.

Image
Image

Mainosvideo:

Useiden vuosien ajan tutkijat ovat tarkkailleet tätä ilmiötä, etenkin tietokonevisiojärjestelmissä, tietämättä oikein, kuinka päästä eroon tällaisista haavoittuvuuksista. Itse asiassa viime viikolla keinotekoisen älykkyyden tutkimusta käsittelevässä suuressa konferenssissa - ICLR - esitelty työ asettaa kyseenalaiseksi kilpailun vastaisten hyökkäysten väistämättömyyden. Vaikuttaa siltä, että riippumatta siitä, kuinka monta pandakuvaa syötät kuvanluokittelijaan, on aina jonkinlainen nöyrytys, jolla rikot järjestelmää.

Mutta MIT: n uusi työ osoittaa, että ajattelimme väärin hyökkääjiä. Sen sijaan, että keksimme tapoja kerätä enemmän järjestelmää syöttävää laatutietoa, meidän on harkittava perusteellisesti lähestymistapaamme sen kouluttamiseen.

Teos osoittaa tämän paljastamalla kilpailevien esimerkkien melko mielenkiintoisen ominaisuuden, joka auttaa meitä ymmärtämään, miksi ne ovat tehokkaita. Mikä temppu: näennäisesti satunnainen ääni tai tarrat, jotka hämmentävät hermoverkkoa, käyttävät todella erittäin pistemäisiä, hienovaraisia kuvioita, jotka visualisointijärjestelmä on oppinut liittämään vahvasti tiettyihin kohteisiin. Toisin sanoen kone ei kaatu, kun näemme gibbonin, jossa näemme pandan. Itse asiassa hän näkee ihmisille näkymättömän pikselien säännöllisen järjestelyn, joka esiintyi paljon useammin kuvissa, joissa on gibboneja kuin kuvissa, joissa on pandaa harjoittelun aikana.

Tutkijat ovat osoittaneet tämän kokeilun avulla: he loivat tietoaineiston koirien kuvista, joita kaikkia muutettiin siten, että vakiokuvaluokittelija tunnisti ne erehdyksessä kissoiksi. Sitten he merkitsi nämä kuvat "kissoilla" ja käyttivät niitä uuden hermoverkon kouluttamiseen tyhjästä. Harjoituksen jälkeen he näyttivät hermoverkon todellisia kuvia kissoista ja hän tunnisti ne kaikki oikein kissoiksi.

Tutkijat olettivat, että jokaisessa aineistossa on kahden tyyppisiä korrelaatioita: kuvioita, jotka tosiasiassa korreloivat tiedon merkityksen kanssa, kuten kissakuvien viikset tai pandakuvien turkisten värit ja mallit, joita esiintyy harjoitustiedoissa, mutta joita ei levitä. muihin yhteyksiin. Näitä viimeisiä "harhaanjohtavia" korrelaatioita, kutsutaan niitä niin, käytetään kilpailun vastaisissa hyökkäyksissä. Tunnistusjärjestelmä, joka on koulutettu tunnistamaan "harhaanjohtavat" mallit, löytää ne ja ajattelee näkevänsä apinan.

Tämä kertoo meille, että jos haluamme poistaa vastustavan hyökkäyksen riskin, meidän on muutettava tapaa, jolla koulutamme mallejamme. Sallimme hermoverkon valita tällä hetkellä korrelaatiot, joita se haluaa käyttää kuvan esineiden tunnistamiseen. Tämän seurauksena meillä ei ole hallintaa löydetyistä korrelaatioista, ovatko ne todellisia vai harhaanjohtavia. Jos sen sijaan kouluttaisimme malleja muistamaan vain todelliset kuviot - jotka on sidottu merkityksellisiin pikseliin -, teoriassa olisi mahdollista tuottaa syviä oppimisjärjestelmiä, joita ei voida sekoittaa.

Kun tutkijat kokeilivat tätä ajatusta käyttämällä mallinsa kouluttamiseen vain todellisia korrelaatioita, he todella vähensivät sen haavoittuvuutta: sitä manipuloitiin vain 50% ajasta, kun taas todellisia ja vääriä korrelaatioita varten koulutettu malli manipuloitiin 95% ajasta.

Lyhyesti sanottuna, voit puolustaa vastustavia hyökkäyksiä vastaan. Tarvitsemme kuitenkin lisätutkimuksia niiden poistamiseksi kokonaan.

Ilja Khel