Vene spetsialistid Samsung AI keskusest - Moskva tehisintellekti keskusest on koostöös Skolkovo teaduse ja tehnoloogia instituudi inseneridega välja töötanud süsteemi, mis suudab luua vaid mõne staatilise inimese kaadri põhjal realistlikke animeeritud pilte inimeste nägudest. Tavaliselt on sel juhul vaja kasutada suurte piltide andmebaaside kasutamist, kuid arendajate esitatud näites õpetati süsteemi looma inimese näo animeeritud pilt vaid kaheksast staatilisest kaadrist ja mõnel juhul piisas ühest. Arenduse kohta lisateabe saamiseks lugege artiklit, mis on avaldatud ArXiv.org veebirepositooriumis.
Inimese pea fotorealistliku isikupärase mooduli reprodutseerimine on inimese pea reprodutseerimise kõrge fotomeetrilise, geomeetrilise ja kinemaatilise keerukuse tõttu reeglina üsna keeruline. Seda ei saa seletada mitte ainult näo tervikuna modelleerimise keerukusega (selleks on modelleerimiseks palju lähenemisviise), vaid ka teatud tunnuste modelleerimise keerukusega: suuõõne, juuste jne. Teiseks komplitseerivaks teguriks on meie kalduvus avastada inimpeade valmis mudelis isegi väiksemaid vigu. Madal tolerants modelleerimisvigade suhtes seletab telekonverentsides kasutatavate mittefotorealistlike avataride praegust levimust.
Autorite sõnul on Fewshot-õppimiseks dubleeritud süsteem võimeline looma väga realistlikke mudeleid rääkima inimeste peadest ja isegi portreemaalingutest. Algoritmid sünteesivad sama inimese pea kujutise näoviite joontega, mis on võetud video teisest fragmendist, või kasutades teise inimese näo orientiire. Süsteemi väljaõppe materjalide allikana kasutasid arendajad kuulsate videopiltide ulatuslikku andmebaasi. Võimalikult täpse rääkimispea saamiseks peab süsteem kasutama rohkem kui 32 pilti.
Realistlikumate animeeritud näopiltide loomiseks kasutasid arendajad generatiivse konkureeriva modelleerimise varasemaid arenguid (GAN, kus närvivõrk mõtleb välja pildi üksikasjad, tegelikult saab kunstnikuks), samuti masinmetoodilise õppimise lähenemisviisi, kus süsteemi iga element on koolitatud ja mõeldud mõne lahenduse leidmiseks. konkreetne ülesanne.
Metaõppe skeem.
Reklaamvideo:
Inimeste peade staatiliste piltide töötlemiseks ja animeeritudks muutmiseks kasutati kolme närvivõrku: Embedder (rakendusvõrk), Generaator (genereerimisvõrk) ja Diskrimineerija (diskrimineeriv võrk). Esimene osa jagab peapildid (ligikaudsete näo orientiiridega) manustamisvektoriteks, mis sisaldavad poseerimisest sõltumatut teavet, teine võrk kasutab manustamisvõrgust saadud näo orientiire ja genereerib nende põhjal uusi andmeid konvolutsiooniliste kihtide komplekti kaudu, mis pakuvad vastupanu skaala muutustele, nihetele, pöördeid, nurga muutumist ja muid algse näo moonutusi. Ülejäänud kahe võrgu kvaliteedi ja autentsuse hindamiseks kasutatakse võrgus diskrimineerijat. Selle tulemusel muudab süsteem inimese näo orientiirid realistliku välimusega isikupärastatud fotodeks.
Arendajad rõhutavad, et nende süsteem suudab nii pildil oleva inimese jaoks nii generaatorivõrgu kui ka diskrimineeriva võrgu parameetrid lähtestada, nii et õppeprotsess võib põhineda vaid mõnel pildil, mis suurendab selle kiirust, hoolimata vajadusest valida kümneid miljoneid parameetreid.
Nikolai Khizhnyak