Mārcis Pinnis vada mākslīgā intelekta attīstību, lai konkurētu ar "Google" un "Amazon"
Ir jomas, kurās Latvijas zinātnieki spēj mēroties spēkiem pat ar tādiem milzīgiem uzņēmumiem kā "Google" un "Amazon". Viena no šīm jomām ir mašīntulkošana, kurā Latvijas uzņēmums "Tilde" sasniedzis vērā ņemamus rezultātus. Tāpēc tikai likumsakarīgi, ka "Deviņvīru" izcilību sarakstā ir nonācis "Tildes" mākslīgā intelekta attīstības vadītājs Mārcis Pinnis.
Saprast svešvalodā rakstītu tekstu mūsdienās ir vienkāršāk nekā jebkad agrāk – pietiek to iekopēt kādā mašīntulkošanas vietnē, un jau pēc mirkļa tulkojums būs gatavs. Visticamāk, tas nebūs perfekts, taču teksta pamatdomu uztvert palīdzēs. Pazīstamākais šāds mašīntulkošanas piemērs droši vien ir "Google Translate" – pateicoties tam, esam sākuši savos e-pastos saņemt vēstījumus, kuros Nigērijas un citu tālu zemju prinči un miljonāri lauzītā latviešu valodā piedāvā mūs aplaimot ar pāris čemodāniem dolāru. Taču palīdzību tekstu tulkošanā iespējams meklēt arī tuvāk, jo tepat Latvijā uzņēmums Tilde ir radījis sistēmu, kas Baltijas valodu tulkojumos pārspēj "Google Translate"; par to vismaz liecina mūsējo uzvaras starptautiskos mašīntulkošanas konkursos.
Miljards vārdu gadā
Mašīntulkošanas pirmsākumi Latvijā meklējami pirms vairāk nekā 15 gadiem, kad "Tilde" izstrādāja pirmo mašīntulkošanas sistēmu, kas prata tulkot atsevišķus vārdus un frāzes no angļu valodas latviešu valodā. “Tolaik tehnoloģija bija ļoti vienkārša – ja attiecīgais vārds vai frāze bija iekļauts sistēmas vārdnīcā, tad to arī varēja atrast. Bet skaidrs, ka plūstošus tulkojumus un teikumus tā veidot nevarēja,” atceras Mārcis Pinnis. Nākamais solis bija statistiskā mašīntulkošana, kurā mašīna pati mācās, izmantojot datus, kas tajā ievadīti. Protams, datu apjoms ir milzīgs – miljoniem teikumu dažādās valodās, kurus sistēma analizē un veido modeļus, vadoties pēc izplatītākajiem vārdu salikumiem. Šāda sistēma jau ļauj veidot teikumus, taču, visticamāk, lasot tulkojumu, varēs nojaust, ka tas ir tapis mašīntulkošanas ceļā. Jo garāks teikums, jo neveiklāks būs tulkojums. 2010. gadā tika radīta pasaulē pirmā mašīntulkošanas platforma, kuru ikviens varēja papildināt, ielādējot savus datus; to radīja Tilde kopā ar vairākām universitātēm, tostarp Edinburgas Universitāti.
2015. gadā "Tilde" sāka strādāt pie neironu mašīntulkošanas tehnoloģijām, kas ir būtiski labākas par statistisko mašīntulkošanu. “Tas bija laiks, kad parādījās pirmie paraugi, kas uzskatāmi parādīja neironu mašīntulkošanas pārākumu par statistisko mašīntulkošanu. Kopš tā brīža gan mēs, gan mūsu lielākie konkurenti sāka strādāt šajā virzienā. Statistiskajā mašīntulkošanas sistēmā ir vairāki modeļi, katrs dara savu darbu, un pēc tam rezultāts tiek salikts kopā, taču neironu sistēmā ir tikai viens modelis, kas analizē visu teikumu uzreiz. Iznākumā šāda sistēma rada plūstošu teikumu – skatoties uz tādu, mēs pat varbūt nebūsim droši, vai to ir tulkojusi mašīna vai cilvēks. Mīnuss ir tas, ka šī sistēma ir ļoti pārliecināta par sava tulkojuma pareizību, tāpēc automātiskajā režīmā ir grūtāk atrast kļūdas,” skaidro Pinnis.
Kā šādu efektivitāti panākt? Ja skaidrojam ļoti vienkāršoti, tad “iebarojot” sistēmai milzīgu tekstu apjomu, ko apstrādājot tā pati mācās un attīstās, kombinējot pareizu vārdu salikumu. Protams, aizķeršanās rodas brīžos, kad sistēma sastop personu vārdu vai kādu terminu, ko tā pirms tam nekad nav redzējusi; tad tā piedāvās variantu, kas tai liksies pareizākais, taču cilvēkam, to redzot, izraisīs smaidu. Varētu domāt, ka tāda apjoma datu ievade ir titānisks darbs, kurā iesaistīti simtiem cilvēku, taču patiesībā komanda, kura "Tildē" nodarbojas ar mašīntulkošanu, nav liela – tieši ar pētniecību strādā tikai četri cilvēki, bet visā projektā darbojas apmēram divdesmit. Lielajos uzņēmumos – "Google" vai "Amazon" – šajā virzienā strādā daudz lielāki kolektīvi.
Toties datortehnika gan ir nepieciešama jaudīga: “Būtiska problēma ir tehniskie resursi. Statistiskajai mašīntulkošanai pietika ar standarta serveriem, un es pat uz sava portatīvā datora varēju apmācīt sistēmu, taču neironu sistēmai jau vajag daudz dārgāku tehniku ar jaudīgām videokartēm. Bet tas nozīmē lielākas investīcijas tehnikā.”
2016. gadā Mārča un viņa kolēģu darba augļus tā pa īstam varējām sākt baudīt mēs visi, jo tad "Tildes" mājaslapā publiski kļuva pieejama pirmā mašīntulkošanas sistēma Baltijas valstu valodās. Turklāt – bez maksas. Kā "Tilde" to panāca, jo tas tomēr nav labdarības iestādījums? Izrādās, finansējums lielā mērā nāk no Eiropas finansētiem pētniecības projektiem, un, tieši pateicoties tam, ir iespējams lietotājiem piedāvāt bezmaksas mašīntulkošanu. Covid pandēmijas laikā "Tildes" mašīntulkošanas platformai slodze esot būtiski pieaugusi, un pēdējā gada laikā tā kopumā tulkojusi vairāk nekā miljardu vārdu. Īpaši pieaudzis pielietojums latviešu – krievu un latviešu – angļu platformā, kas varētu būt saistīts ar to, ka attālināto mācību laikā mašīntulkošanas sistēmu vairāk izmanto skolēni.
Kaut gan latviešu valoda locījumu dēļ ir diezgan sarežģīta, kas arī mašīntulkošanai nav diez ko parocīgi, tomēr Mārcis apgalvo, ka nemaz tik traki nav – grūtāk ar latviešu valodu gājis statistiskās tulkošanas sistēmām, savukārt neironu sistēmas ar to vieglāk tiek galā: “Tās spēj iemācīties tulkojumā radīt locījumus, ko nekad nav redzējušas, ja vien šie vārdi citos locījumos ir atrodami datubāzē. Tas tāpēc, ka sistēma netulko visu vārdu, bet sadala to sastāvdaļās.”
Uzvarēt "Google"
Kopš 2016. gada "Tilde" piedalās mašīntulkošanas sacensībās, kurā kā līdzīgs ar līdzīgu spēkojas ar tādiem grandiem kā "Google". Turklāt ne tikai spēkojas, bet arī regulāri uzvar latviešu un lietuviešu valodas grupā. Sacensību princips ir diezgan vienkāršs: katram dalībniekam izsniedz tekstu kopu, ar kuru mašīntulkošanas sistēmai noteiktā laikā jātiek galā. Pēc tam komisija, kurā iesaistīti profesionāli tulkotāji, novērtē tulkojuma kvalitāti, nezinot, kuru dalībnieku kurš vērtē.
“Lai piedalītos šādā pasākumā, ir jābūt lietas kursā par to, kas pasaulē šajā jomā notiek. Diezgan droši var paredzēt, ka nākamajā gadā visi izmantos tos risinājumus, kas ir bijuši veiksmīgi iepriekšējā gada sacensībās, plus vēl pieliks no sevis kaut ko klāt. Tāpēc katru gadu izmantojam mazliet citādu pieeju. Piemēram, 2018. gadā mums uzvarai pietika ar to, ka apmācījām sistēmu, izmantojot to pašu metodi, ko klientu sistēmu apmācībai. Nākamajā gadā ar to jau bija par maz. 2019. gadā daudz laika veltījām datiem, īpaši piestrādājot pie to kvalitātes, jo nav tā, ka var ievadīt jebkādus tekstus un gaidīt labu rezultātu. Viens gan mūs atšķir no pārējiem dalībniekiem – mēs sacensībās piedalāmies ar sistēmām, ko pēc tam izmantojam darbā ar klientiem. Jo konkurentiem mēdz būt sistēmas, kas domātas tikai sacensībām un ir pārāk nepraktiskas ikdienas lietošanā,” stāsta Pinnis.
Uzmanības vērts ir fakts, ka "Tilde" sacensībās startē ne tikai ar Baltijas valodās strādājošām sistēmām, bet pērn izmēģināja spēkus arī jaunā jomā – mašīntulkošanā no poļu uz angļu valodu un otrādi. Spēcīgā konkurencē Tilde ieguva otro vietu. 2018. gadā Latvijā Tilde par mašīntulkošanas sasniegumiem ieguva arī Gada balvu zinātnē.
Eiropā mūsu mašīntulkošanas sistēmas ir itin labi zināmas, jo Tilde sadarbojas ar Eiropas Savienības prezidējošām valstīm, nodrošinot tekstu un dokumentu mašīntulkošanu. Patlaban prezidējošā valsts ir Vācija, un tās prezidentūras mājaslapā darbojas tieši Tildes sistēma. Pirms tam šo sistēmu izmantojušas jau astoņas agrāk prezidējošās valstis un interesējas arī nākamās – Portugāle un Slovēnija.
Vai var pārtulkot romānu?
Cik liela apjoma tekstus mašīntulkošanas sistēma ļauj tulkot? Vai, piemēram, Ļeva Tolstoja "Karu un mieru" mēs varētu ielādēt sistēmā un pēc minūtes saņemt gatavu tulkojumu? “Pēc minūtes gluži ne, tik ātri sistēma nestrādā,” saka Pinnis. “Ja ielādēsi tik liela apjoma dokumentu, sistēma to tulkos pa daļām, un tas prasa laiku. Tīri teorētiski mēs varētu izveidot sistēmu, lai tā strādātu ļoti ātri, taču nebūtu pareizi, ja visa jauda tiktu novirzīta tikai viena lietotāja apkalpošanai, tulkojot viņam liela apjoma tekstu. Vienkāršoti sakot, katru reizi, kad sistēma saņem jaunu pieteikumu, tā iesniedzējs iestājas rindas galā. Nezinu, cik vārdu ir "Karā un mierā", taču vidējā Harija Potera sērijas romānā ir 155 000 vārdu jeb apmēram 7750 teikumu. Vienu teikumu sistēma pārtulko ātrāk par sekundi, tātad pieņemu, ka visu tekstu iztulkos noteikti ātrāk nekā 129 minūtēs. Domāju, ka tas prasītu 10–30 minūtes. Taču tas ir netipisks scenārijs, jo parasti tulkotāji tekstu tulko pa segmentiem.” Tulkotājs var sadarboties ar sistēmu, nosūtot tai atpakaļ paša pielaboto tekstu, un mašīna nākamajā tulkošanas reizē jau ņems vērā pareizo tulkojumu.
Vēl viens teorētiskas dabas jautājums – vai mašīntulkošanas sistēmu var iemācīt atdzejot dzeju? Mārcis saka, ka teorētiski var, taču uz tēlainu un māksliniecisku atdzejojumu cerēt tik un tā būtu grūti. “Ja mēs sistēmā ievadītu lielu daudzumu dzejoļu un to atdzejojumus, tad varētu to apmācīt arī šim darbam. Taču iznākumā mēs tik un tā iegūtu miksli no dažādu autoru dzejoļiem, jo sistēma jau tikai izmantotu tos datus, kas apmācības procesā iebaroti tās atmiņā. Tā nespēj uzburt tādu teikuma konstrukciju, ar kādu tā nekad nav saskārusies, un patiesībā tas arī nav šīs sistēmas uzdevums. Tāpēc diezgan droši varu apgalvot, ka tuvākajos desmit gados noteikti mēs neredzēsim tehniskus risinājumus, kas atdzejo labāk, nekā to dara radošs cilvēks.”
Parunāties ar datoru
Pasaulē arvien populārāka kļūst ne vien mašīntulkošana, bet arī balss atpazīšanas sistēmas, kas ļauj runātu tekstu pārveidot rakstītā vai arī ar balsi komandēt dažādas ierīces. Viens no populārākajiem piemēriem ir "iPhone" virtuālais asistents "Siri". Arī "Tilde" strādā pie runas tehnoloģijas attīstības, un Pinnis saka, ka tuvākajos piecos gados noteikti arī latviešu valodā būs pieejami šādi risinājumi, kas līdz šim bija pasaulē izplatītāko valodu privilēģija.
“Pagaidām lielākā problēma ir datu trūkums, ko varētu izmantot sistēmas apmācībai, taču mēs kopā ar Latvijas Universitāti un aģentūru LETA strādājam pie šāda projekta. Septiņu gadu laikā jau esam no nekā radījuši tehnoloģiju, kas strādā. Domāju, ka tuvāko piecu gadu laikā būsim apkopojuši datus citās valodās, kas mums ļaus tālāk attīstīt sistēmu.” Tiesa, ar "Siri" latviski diez vai kādreiz varēs sarunāties, jo "Apple" tradicionāli veido ļoti noslēgtu tehnoloģisko vidi un paši strādā pie risinājumiem, bet mazā latviešu valoda un niecīgais Latvijas tirgus šo milzīgo uzņēmumu īpaši neinteresē. Taču "Android" risinājumos un citos atvērtos virtuālajos asistentos balss vadība latviešu valodā ar laiku varētu būt pieejama.
Ja ļaujamies sapņiem par nākotni, tad nebūtu slikti sagaidīt laikus, kad ikvienam būs pieejama sinhronā tulkošanas sistēma dažādās valodās. Teiksim, apsēdies Madrides restorānā pie galda, ieslēdz telefonā uzstādīto tulkošanas sistēmu, un austiņā tev atskan tulkojums spāņu oficianta teiktajam. Bet viņš ar tādas pašas sistēmas palīdzību saprot tavas vēlmes, ko esi izteicis skaidrā latviešu valodā. Vai teorētiski tas vispār ir iespējams?
“Mēs patlaban strādājam pie tehnoloģijas, ko varētu izmantot sanāksmēs, kur cilvēki runā dažādās valodās, bet pa vidu stāv iekārta, kas automātiski nodrošina tulkojumu. Domāju, ka divu gadu laikā mēs līdz tādam risinājumam nonāksim. Tiesa, pagaidām tas ir pētniecisks projekts, tāpēc nav garantijas, ka galā iznāks visiem lietojams produkts, jo parasti tas ceļš ir garš. Zinu, ka pasaulē kaut kādi risinājumi austiņām, kas tulko, ir, taču man nav informācijas, cik efektīvi tie ir. Neesmu drošs, vai pati austiņa varētu kalpot kā tulkošanas ierīce, jo tas prasa skaitļošanas jaudu, taču tas, ka austiņa ieraksta informāciju un nosūta uz serveri, kas to apstrādā un atpakaļ nosūta tulkojumu, gan ir pavisam reāls risinājums,” saka Pinnis. Kas zina, varbūt tehnoloģiski skaistā nākotne ir tuvāk, nekā mēs varam to iztēloties...