Millal Tehisintellekt Hakkab Sarja Kuulutama - Alternatiivne Vaade

Sisukord:

Millal Tehisintellekt Hakkab Sarja Kuulutama - Alternatiivne Vaade
Millal Tehisintellekt Hakkab Sarja Kuulutama - Alternatiivne Vaade

Video: Millal Tehisintellekt Hakkab Sarja Kuulutama - Alternatiivne Vaade

Video: Millal Tehisintellekt Hakkab Sarja Kuulutama - Alternatiivne Vaade
Video: Hardo Pajula intervjuu Rebel Wisdomi eestvedaja David Fulleriga 2024, Aprill
Anonim

Vene kirjastajad katsetavad juba heliraamatute masinasalvestust, tulevikus võib tehisintellekti usaldada seriaalide tõlkimise ja nende lemmiknäitlejate häältega dubleerimise. Selliste tehnoloogiate omaduste kohta ja kui kaua nende loomine võtab.

Suuline kõne muutub kirjalikuks

YouTube'is luuakse videote automaatsed subtiitrid hääletuvastuse ja tekstist kõneks tõlkimise tarkvara abil. See põhineb iseõppivatel närvivõrkudel. See valik on rohkem kui kümme aastat vana, kuid tulemus on ideaalist siiski kaugel. Enamasti võite tabada ainult öeldu üldise tähenduse. Mis raskustes on?

Ütleme, selgitab ITMO ülikooli masinõppe labori juhataja Andrei Filchenkov, et me ehitame kõnetuvastuse algoritmi. See eeldab neuraalvõrgu koolitamist suurel andmemassiivil.

See võtab sadu, tuhandeid tunde kõnesalvestusi ja nende korrektset võrdlust tekstidega, sealhulgas fraaside alguse ja lõpu märkimine, vestluspartnerite vahetamine jne. Seda nimetatakse korpuseks. Mida suurem see on, seda parem on närvivõrgu koolitus. Inglise keele jaoks on loodud tõesti suured korporatsioonid, seega on äratundmine palju parem. Kuid vene või näiteks hispaania keele kohta on andmeid palju vähem ja paljude teiste keelte kohta andmed puuduvad.

“Ja tulemus on sobiv,” võtab teadlane kokku.

„Lisaks hindame filmis sõna, fraasi tähendust mitte ainult heli järgi, olulised on ka näitleja intonatsioon ja tema näoilmed. Kuidas te seda tõlgendate? - lisab Tomski polütehnilise ülikooli infotehnoloogia osakonna dotsent Sergei Aksenov.

Reklaamvideo:

„Kuidas sujuva kõne omadusi käsitleda? Hägune liigendamine, visandlikkus, vahelesegamised, pausid? Lõppude lõpuks, sõltuvalt sellest, muutub tähendus, nagu "te ei saa armu anda". Kuidas õpetada masinat tuvastama, kus esinejal on koma? Ja luules? " - loetleb NTI SPbPU keskuse labori "Tööstuslike voogedastustöötlussüsteemide" labori juhataja Marina Bolsunovskaja.

Kõige edukamad projektid asuvad eksperdi sõnul kitsastes piirkondades. Näiteks aitab RTC ettevõtete grupi poolt välja töötatud arstide kutselise kõne tunnustamise süsteem meditsiinitermineid kasutades arste haiguslugu hoida.

„Siin saate teemavaldkonna selgelt välja tuua ja kõne võtmesõnad esile tõsta. Arst rõhutab eriti intonatsiooniga teatud sektsioone: patsiendi kaebused, diagnoosimine, “täpsustab Bolsunovskaja.

Veel ühele probleemile osutab MIPTi närvisüsteemide ja süvaõppe laboratooriumi juhataja Mihhail Burtsev. Fakt on see, et siiani on masin teksti tuvastamisel edukam, kui räägib üks inimene, kui mitu, nagu filmides.

Tõlge koos kontekstiga

Võtame näiteks ingliskeelse video, lõigu teleseriaalist "Troonide mäng" ja lülitame sisse automaatsed venekeelsed subtiitrid. See, mida näeme, ajab meid tõenäoliselt naerma.

Ikka filmist * Troonide mäng *
Ikka filmist * Troonide mäng *

Ikka filmist * Troonide mäng *.

Masintõlkes on tehnoloogia saavutanud aga muljetavaldava edu. Niisiis tõlgib Google Translate tavalistesse keeltesse tekste üsna talutavalt, sageli on vaja ainult minimaalset redigeerimist.

Fakt on see, et närvivõrk-tõlkijat koolitatakse ka suure hulga algsete, õigesti märgistatud andmetega - paralleelkorpusega, mis näitab, kuidas iga algkeelne fraas peaks vene keeles välja nägema.

“Selliste hoonete ehitamine on väga töömahukas, kallis ja aeganõudev, selleks kulub kuid ja aastaid. Neuraalvõrgu koolitamiseks vajame Aleksandria raamatukogu suurusega tekste. Mudelid on universaalsed, kuid palju sõltub keelest. Kui esitate palju andmeid, näiteks Avaris, on tõlge kvaliteetne, kuid Avari jaoks pole lihtsalt nii palju andmeid,”ütleb Andrei Filchenkov.

„Tõlge on eraldi toode, mis on seotud originaaliga, kuid pole sellega võrdne,“ütleb Kaug-Ida föderaalse ülikooli digitaalmajanduse kooli direktor Ilja Mirin. - Tüüpiline näide on Dmitri Pučkovi (Goblini) tõlked välismaistest filmidest 90ndatel. Alles pärast tema tööd sai selgeks, mis seal toimus. VHS-i versioonidest ei leidnud me midagi sobivat. Teise võimalusena võite proovida tõlkida mõnda keelde, mida te hästi tunnete, midagi The Masterilt ja Margaritalt. Näiteks “verises voodriga mustas küüsis”. Masin ei saa seda teha."

Neuraalvõrgud õpivad hästi paljudest tüüpilistest näidetest, kuid filmid on täis keerulisi tähendusi ja varjundit, nalju, mis pole masinale juurdepääsetavad - see ei suuda neid eristada.

“Animeeritud sarja Futurama igas episoodis on viide klassikalisele Ameerika kinole - Casablanca, Rooma puhkus ja nii edasi. Sellistel hetkedel, et tabada ja ümber sõnastada tähendus neile, kes pole neid filme vaadanud, peab tõlkija pakkuma välja lähedase analoogi Vene kontekstist. Vale masintõlge võib vaatajat väga heidutada,”jätkab Mirin.

Tema arvates on masintõlke kvaliteet ligilähedane 80 protsendile, ülejäänud on spetsiifilisus, mis tuleb lisada käsitsi, kaasates eksperte. "Ja kui 20-30 protsenti fraasidest nõuab käsitsi parandamist, siis mida tähendab masintõlge?" - ütleb teadlane.

„Tõlkimine on kõige problemaatilisem etapp,” nõustub Sergei Aksenov. - Kõik sõltub semantikast ja kontekstist. Kättesaadavaid tööriistu saab kasutada tõlkimiseks ja masinhäälteks kasutamiseks, näiteks lihtsa sõnavaraga laste koomiksid. Kuid fraseoloogiliste ühikute, õigete nimede, sõnade abil, mis suunavad vaatajaid mingile kultuurilisele reaalsusele, tõlgendamisega tekivad raskused."

Filmides ja videotes on kontekst alati visuaalne ning sageli kaasnevad sellega muusika ja müra. Spekuleerime pildi põhjal, mida kangelane räägib. Tekstiks muudetud kõnes puudub see teave, nii et tõlkimine on keeruline. See on olukord tõlkijate jaoks, kes töötavad teksti subtiitritega ilma filmi nägemata. Nad on sageli valed. Masintõlge on sama lugu.

AI hääl kõnes

Vene keelde tõlgitud sarja dubleerimiseks on vaja algteksti loomuliku kõne genereerimiseks tekstist - süntesaatorit. Neid loovad paljud IT-ettevõtted, sealhulgas Microsoft, Amazon, Yandex, ja neil läheb üsna hästi.

Andrey Filchenkovi sõnul võttis paar aastat tagasi kõnesüntesaatori dubleerimise minut mitu tundi, nüüd on töötlemise kiirus kõvasti kasvanud. Mõnes valdkonnas, kus nõutakse neutraalseid dialooge, kõnesünteesi ülesanne on üsna hästi lahendatud.

Paljud peavad juba iseenesestmõistetavaks telefonivestlust robotiga, autonavigaatori käskude täitmist, dialoogi Alice'iga Yandex. Drive autos. Kuid teleseriaalide dubleerimiseks pole need tehnoloogiad veel sobivad.

“Probleem on emotsioonides ja tegutsemises. Oleme õppinud masina häält inimlikuks tegema, kuid see on kaugel sellest, et see ikkagi konteksti kohaselt kõlaks ja usaldust õhutaks. Halb hääletegemine võib filmi tajumise hõlpsalt tappa, “sõnas Filchenkov.

Mihhail Burtsevi sõnul on kõnesüntees üsna reaalne. See on aga arvutuslikult intensiivne ja seda ei saa mõistliku hinnaga reaalajas teha.

“On olemas algoritmid, mis sünteesivad kõnet, mis sarnaneb konkreetse näitleja omaga. See on täht, kõneviis ja palju muud. Nii et iga välismaine näitleja räägib tegelikult vene keelt,”ennustab Burtsev. Ta loodab järgmistel aastatel märgatavat edu saavutada.

Sergei Aksenov annab viis kuni kümme aastat, et töötada välja tööriistad keerukate teoste tõlkimiseks ja dubleerimiseks enamlevinud keeltest, näiteks inglise keel. Teadlane tsiteerib Skype'i näidet, mis näitas juba mitu aastat tagasi võimalust korraldada veebitunde eri keeli rääkivatele koolilastele. Kuid ka sel juhul pole süsteem ideaalne, tuleb pidevalt õppida: omandada sõnavara, arvestada kultuurikonteksti.

Soovitatav: