Vastuvõtu Rünnakud: Miks On Närvivõrku Lihtne Trügida? - Alternatiivne Vaade

Sisukord:

2024 Autor: Keith Bush | [email protected]. Viimati modifitseeritud: 2023-12-16 14:15

Viimastel aastatel on süvaõppe süsteemide levimisel teadlased näidanud, kuidas võistlevad mustrid võivad mõjutada kõike alates lihtsast pildiklassifikaatorist kuni vähidiagnostikasüsteemideni - ja isegi luua eluohtliku olukorra. Vaatamata kogu nende ohule on vastandatud näited siiski halvasti mõistetavad. Ja teadlased olid mures: kas seda probleemi saab lahendada?

Mis on võistlev rünnak? See on viis, kuidas närvivõrku petta vale tulemuse saamiseks. Neid kasutatakse peamiselt teadusuuringutes, et testida mudelite vastupidavust mittestandardsete andmetega. Kuid reaalses elus saate näiteks muuta panda kujutises mõne piksli, nii et närvivõrk oleks kindel, et pildil on gibon. Kuigi teadlased lisavad kujutisele ainult "müra".

Vastuvõtu rünnak: kuidas närvivõrku trügida?

Massachusettsi tehnoloogiainstituudi uus töö osutab võimalikule võimalusele sellest probleemist üle saada. Selle lahendades saaksime luua palju usaldusväärsemaid sügava õppe mudeleid, mida pahatahtlikul viisil manipuleerida oleks palju raskem. Kuid vaatame kõigepealt võistlevate mustrite põhitõdesid.

Nagu teate, tuleneb sügava õppimise jõud ülemvõimest tuvastada mustreid (mustreid, mustreid, diagramme, mustreid) andmetes. Söötke neuraalvõrku kümneid tuhandeid sildistatud loomafotosid ja see saab teada, millised mustrid on seotud pandaga ja millised on ahvidega. Seejärel saab ta neid mustreid kasutada loomade uute piltide äratundmiseks, mida ta pole kunagi varem näinud.

Kuid sügava õppimise mudelid on ka väga habras. Kuna pildituvastussüsteem tugineb ainult pikslimustritele ja mitte kontseptuaalsemale arusaamisele sellest, mida ta näeb, on seda lihtne meelitada nägema midagi täiesti teistsugust - lihtsalt mudeleid mingil moel purustades. Klassikaline näide: lisage pandakujutisele natuke müra ja süsteem liigitab selle peaaegu 100-protsendilise kindlusega gibboniks. See müra on võistlev rünnak.

Reklaamvideo:

Teadlased on seda nähtust juba mitu aastat jälginud, eriti arvutinägemissüsteemides, teadmata tegelikult, kuidas sellistest haavatavustest lahti saada. Tegelikult seatakse eelmisel nädalal kunstliku intelligentsuse uurimise suurel konverentsil - ICLR - esitatud töö kahtluse alla vastandatud rünnakute vältimatus. Võib tunduda, et ükskõik kui palju pandakujutisi pildiklassifikaatorisse toidate, on alati mingi nördimus, millega süsteemi rikkuda.

Kuid MIT-i uus töö näitab, et me mõtlesime valesti konkureerivatele rünnakutele. Selle asemel, et tulla välja meetoditega, kuidas koguda rohkem süsteemi toitavaid kvaliteetseid andmeid, peame põhjalikult mõtlema oma lähenemisviisile selle koolitamisel.

Töö näitab seda, paljastades vastandlike näidete üsna huvitava omaduse, mis aitab meil mõista, miks need on tõhusad. Mis trikk: näiliselt juhuslik müra või närvivõrku segavad kleebised kasutavad tegelikult väga punktitaolisi peeneid mustreid, mida visualiseerimissüsteem on õppinud tugevalt seostama konkreetsete objektidega. Teisisõnu, masin ei põrka, kui näeme pandat nähes giboni. Tegelikult näeb ta inimesele nähtamatut pikslite korrapärast paigutust, mis ilmus treeningute ajal palju sagedamini giboonidega piltidel kui pandadega piltidel.

Teadlased on seda eksperimendi teel demonstreerinud: nad lõid koerte piltide andmestiku, mida kõiki muudeti nii, et standardne piltide klassifikaator tuvastas neid ekslikult kassideks. Seejärel sildistasid nad need pildid kassidega ja kasutasid neid uue närvivõrgu nullist koolitamiseks. Pärast väljaõpet näitasid nad närvide võrgustiku reaalseid pilte kassidest ja ta tuvastas need õigesti kassideks.

Teadlased püstitasid hüpoteesi, et igas andmekogumis on kahte tüüpi korrelatsioone: mustrid, mis tegelikult korreleeruvad andmete tähendusega, näiteks viskid kassipiltidel või karusnaha värvus pandakujutistel ja mustrid, mis esinevad treenimisandmetes, kuid mida ei levitata. teistesse kontekstidesse. Neid viimaseid "eksitavaid" seoseid, nimetagem neid siis, kasutatakse võistlevate rünnakute korral. Tunnustamissüsteem, mis on koolitatud ära tundma "eksitavaid" mustreid, leiab need üles ja arvab, et näeb ahvi.

See ütleb meile, et kui tahame vältida võistleva rünnaku riski, peame muutma oma mudelite koolitamise viisi. Praegu lubame närvivõrgul valida korrelatsioonid, mida see soovib kasutada pildil olevate objektide tuvastamiseks. Seetõttu ei saa meil kontrollida leitud korrelatsioonide üle, kas need on tõesed või eksitavad. Kui selle asemel koolitaksime oma mudeleid meeles pidama ainult tegelikke mustreid - mis on seotud tähenduslike pikslitega -, oleks teoreetiliselt võimalik luua sügavaid õppesüsteeme, mida ei saaks segi ajada.

Kui teadlased seda ideed katsetasid, kasutades mudeli koolitamiseks ainult tõelisi korrelatsioone, vähendasid nad tegelikult selle haavatavust: sellega manipuleeriti vaid 50% ajast, tegeliku ja vale korrelatsiooni järgi treenitud mudeliga aga 95% ajast.

Lühidalt öeldes, saate kaitsta võistlevate rünnakute eest. Kuid nende täielikuks kõrvaldamiseks vajame rohkem uuringuid.

Ilja Khel