Teadlased On Loonud Iseõppiva AI, Mis Võimaldab Mängida Kõiki Mänge - Alternatiivne Vaade

Sisukord:

Teadlased On Loonud Iseõppiva AI, Mis Võimaldab Mängida Kõiki Mänge - Alternatiivne Vaade
Teadlased On Loonud Iseõppiva AI, Mis Võimaldab Mängida Kõiki Mänge - Alternatiivne Vaade

Video: Teadlased On Loonud Iseõppiva AI, Mis Võimaldab Mängida Kõiki Mänge - Alternatiivne Vaade

Video: Teadlased On Loonud Iseõppiva AI, Mis Võimaldab Mängida Kõiki Mänge - Alternatiivne Vaade
Video: Погнали отвечать, выпуск 2: Кампус 2024, Aprill
Anonim

Revolutsioonilise iseõppiva tehisintellekti süsteemi AlphaGo Zero arendajad teatasid selle masina uue versiooni loomisest, millega saab iseseisvalt õppida mängima ükskõik millist lauamängu ja peksma inimest. Selle kirjeldus esitati ajakirjas Science.

Meele sügavus

AI-süsteemi AlphaGo töötasid välja David Silver ja tema kolleegid 2014. aasta lõpus ning selle tööd katsetati Euroopa meistri Fan Hui peal, kes kaotas autole kõik viis matši. 2016. aasta märtsis alistas AlphaGo Go maailmameistri Lee Sedoli viiest matšis, millest ainult üks lõppes inimliku võiduga.

Silver ja tema kolleegid suutsid neid õnnestumisi saavutada, ehitades oma AI üles mitte ühe, vaid kahe närvivõrgu alusel - spetsiaalsed algoritmid, mis jäljendavad inimese aju neuronite ahelate tööd. Üks neist vastutab tahvli praeguse positsiooni hindamise eest ja teine kasutab järgmise sammu valimiseks esimese võrgu koostatud analüüsitulemusi.

Järgmine loogiline samm AlphaGo väljatöötamisel oli kõigi olemasolevate närvivõrkude ja tehisintellekti süsteemide peamise puuduse kõrvaldamine - vajadus õpetada neile, mida nad peaksid tegema, kasutades tohutult andmearhiive, mida inimene käsitsi töötleb, või inimese otsese osalusega, nagu see juhtus esimestes etappides AlphaGo arendamine.

Silver ja tema meeskond lahendasid selle probleemi, luues põhimõtteliselt uue närvivõrgu, mis põhineb nn tugevdusõppe algoritmidel. See närvivõrk, erinevalt oma täht-eelkäijast, mida algselt koolitati mängudeks vabatahtlikega ja millel oli mõned sisseehitatud primitiivsed mängustrateegiad, alustas oma tööd absoluutse algajana, kellel pole nullist teadmiste baasi.

Teisisõnu, ta teadis ainult Go mängu mängureegleid, algtingimusi ja võidutingimusi ning seejärel õppis arvuti iseseisvalt seda iidset Hiina strateegiat mängima, iseendaga mängides ja katse-eksituse meetodil tegutsedes. Ainus piirang tema töös oli maksimaalne aeg käigu läbimõtlemiseks - see oli umbes 0,4 sekundit.

Reklaamvideo:

Pärast iga sellist mängu analüüsis AI-süsteem kõiki oma käike ja mäletas neid, mis viis ühe oma "poole" võidule lähemale, ning sisenes omamoodi "musta nimekirja" - need sammud, mis ausalt öeldes olid kaotamas. Neid andmeid kasutades ehitas närvivõrk end uuesti üles, jõudes järk-järgult tasemeni, mille AlphaGo esimene versioon jõudis enne Lee Sedoliga peetud mängude sarja.

Iseõppimisalgoritmidele üleminek ei võimaldanud AlphaGo Zerol mitte ainult ületada oma eelkäija taset ja ületada tulemust tulemusega 100-0, vaid parandas ka oma töö paljusid muid aspekte. Täpsemalt, selle koolitus kestis vaid kolm päeva ja umbes viis miljonit mängu, mis oli suurusjärku võrra väiksem kui AI esimese versiooni taotlused.

Tee tipptasemeni

AlphaGo Zero'ga tehtud katsete edukas lõpuleviimine pani Silveri ja tema meeskonna kaaluma, kas sarnast närvivõrku saaks kasutada ka teist tüüpi strateegia- ja lauamängude meistri krooni võitmiseks.

Selleks ehitasid teadlased AlphaGo Zero sisse veel ühe uue elemendi - heuristlikud algoritmid juhuslikuks lahenduste otsimiseks, aga ka koodi, mis võttis mõne mängu puhul arvesse viigi olemasolu. Lisaks parandas uus alfaversioon oma struktuuri pidevalt, selle asemel et seda uuendada järk-järgult nagu eelkäijat.

Need suhteliselt lihtsad muudatused, nagu näitasid edasised katsed, suurendasid selle tehisintellekti süsteemi iseõppimise kiirust märkimisväärselt ja muutsid selle universaalseks masinaks, mis on võimeline mängima igat tüüpi lauastrateegiaid.

Teadlased on selle tööd testinud kolme tüüpi mängudel - go, tavaline male ja nende Jaapani sort, shogi. Kõigil kolmel juhul jõudis Silveri uus vaimusünnitus vanameistri tasemeni vähem kui miljoni mänguga, saavutades peaaegu 9–12 tunni kestnud maletreeningu ja 13 päeva jooksul treenimise ajal peaaegu inimese selektiivsuse võimalike käikude valimisel.

Kui varem peksis ta kõige keerukamaid arvutiprogramme, mis neid mänge mängivad - Stockfishi algoritm loobus AlphaZero treeningu neljandal tunnil, siis praegune shogi meister Elmo kestis vaid kaks tundi. Lõpuks hakkas AlphaGo esimene versioon oma "lapselapsele" järele andma umbes 30 tunni pikkuse koolituse järel.

Järgmised AlphaZero "ohvrid", nagu teadlased märkisid, võivad olla "tõelised" arvutimängud, näiteks Starcraft II ja Dota 2. Meistrivõistluste võtmine sellistes spordi distsipliinides avab nende arvates tee iseõppinud AI-le tungimiseks vähem formaalseteks teaduse ja kultuuri valdkondadeks. ja tehnoloogia.

Soovitatav: