Finansuojami mokslo projektai

2020-10-21

Profesorė dr. Sigita Rackevičienė: filologija ir kibernetinis saugumas – misija įmanoma

img20181115162111iskirpta Šiuolaikinės technologijos mus supa praktiškai visur – nuo gertuvės, kuri pati primena kada laikas išgerti vandens, iki mobilios programėlės, padedančios surasti reikiamą informaciją vos kelių mygtukų paspaudimu. Tačiau ar susimąstome, kur keliauja duomenys apie mūsų įpročius, sveikatą, kasdieninius veiksmus, kuriuos fiksuoja išmanūs įrenginiai? Ar pagalvojame apie tai, ar jie yra saugūs ir ateityje nebus panaudojami tam, kad mumis būtų galima manipuliuoti ir sąmoningai valdyti mūsų sprendimus? Ar jie nėra prieinami piktavaliams, kurie galėtų mums pridaryti materialinių ir moralinių nuostolių? Nepaisant didelio aktualumo, daugelio neatsakytų klausimų ir įvairių rizikų, kibernetinio saugumo sritis Lietuvoje vis dar per mažai tyrinėjama. O šiai jaunai ir labai dinamiškai sričiai reikalingi jos sąvokas pavadinantys terminai, kurie yra būtina komunikacijos tarp specialistų bei specialistų ir plačiosios visuomenės priemonė. Lietuvoje šiuo metu yra kuriamas unikalus kibernetinio saugumo terminų dvikalbis (anglų-lietuvių kalbų) žodynas, kurio rengimui pasitelkiamos moderniausios neuroninių tinklų technologijos. Viena iš šios idėjos autorių – Mykolo Romerio universiteto Žmogaus ir visuomenės studijų fakulteto Humanitarinių mokslų instituto profesorė Sigita Rackevičienė, pasidalino savo patirtimi, kaip sekasi filologams įveikti kibernetinio saugumo terminų sisteminimo ir neuroninių tinklų įvaldymo iššūkius. 


Jei nepavyksta dukart – bandyk dar! 
Kibernetinio saugumo terminų duomenų bazė (kuri funkcionuos kaip žodynas) kuriama, vykdant Lietuvos mokslo tarybos finansuojamą projektą „Dvikalbis automatinis terminų atpažinimas“ (DVITAS). Jį vykdo dviejų universitetų – Mykolo Romerio universiteto ir Vytauto Didžiojo universiteto mokslininkų grupė. Tačiau ne viskas ėjosi sklandžiai rengiant šį projektą. Net du kartus buvo atmesta projekto paraiška, prie kurios Sigita Rackevičienė (MRU) ir Andrius Utka (VDU) praleido daugybę vakarų ir savaitgalių, ir tik trečią kartą, dar labiau išgryninus idėją, pavyko įtikinti ekspertus, kad projektas vertas finansavimo. „Tiek po pirmo, tiek po antro atmetimo buvo labai nusivirusios rankos, bet niekaip negalėjome pasiduoti, nes per daug buvome įdėję darbo ir atidavę širdies projekto koncepcijos kūrimui. Ir pagaliau mums pasisekė!“ – pasakoja Sigita Rackevičienė. Šiuo metu projekte dirba trys MRU mokslininkai (Sigita Rackevičienė, Liudmila Mockienė ir Marius Laurinaitis) ir trys VDU mokslininkai (Andrius Utka, Agnė Bielinskienė ir Aivaras Rokas). Kodėl būtent DVITAS? „Terminologija padeda suvokti, kaip žmonės pažįsta tam tikrą dalykinę sritį, kaip kuriamos to srities sąvokos ir kokiais ryšiais jos susijungia bendroje tos srities sąvokinėje sistemoje. Taigi terminijos tyrimai įgalina suvokti mūsų mąstymą, žinių įgijimo bei struktūrinimo procesus. 
Kita svarbi terminologijos tyrimų dalis – išsiaiškinti, kaip tos pačios sąvokos pavadinamos skirtingomis kalbomis, kaip sudaromi ir vartojami terminai skirtingose kalbose. Pagaliau terminologijoje labai svarbi ir taikomoji veikla – terminų tvarkyba, žodynų / duomenų bazių kūrimas,“ – terminologijos užduotis vardija Sigita Rackevičienė. „Šiuolaikinė terminologija jau nebeatskiriama nuo technologijų. Terminai ir jų apibrėžtys renkami iš tekstų automatiniu būdu, pasitelkus kompiuterines programas, kurios suteikia galimybę dirbti su dideliais tekstų kiekiais, nuolat atnaujinti terminų išteklius, tirti terminais nusakomų sąvokų ryšius, terminų vartosenos tendencijas, ieškoti jų atitikmenų kitomis kalbomis ir kt. Lietuvių kalbai tokių kompiuterinių įrankių dar labai stinga, todėl didžioji dalis lietuvių kalbos terminų tyrimų ir tvarkybos darbų vis dar atliekama rankiniu būdu. Taigi atėjo suvokimas, kad norint nuveikti terminologijoje kažką naujo ir reikšmingo būtina apsijungti su programuotojais ir kompiuterinės lingvistikos specialistais. Taip prasidėjo partnerių paieškos, žvilgsnis krypo į VDU mokslininkus, kurie jau turėjo patirties šioje srityje – 2009–2012 m. įvykdė terminologijos projektus, skirtus automatiniam švietimo ir mokslo terminų atpažinimui bei apibrėžimui ir parengė jų žodyną. Labai džiaugiuosi, kad su VDU Kompiuterinės lingvistikos centro vadovu doc. dr. Andriumi Utka labai greitai radome bendrą kalbą, VDU mokslininkams pasirodė svarbu ir įdomu tęsti jų pradėtą darbą ir išbandyti naujausias technologijas terminų rinkimui ir duomenų bazės kūrimui,“ – pasakoja Sigita Rackevičienė. „Kibernetinio saugumo sritį pasirinkome dėl kelių priežasčių: ši sritis ypatingai aktuali šiandien, jos lietuviška terminija dar labai „jauna“, besiformuojanti, šių terminų duomenų bazės poreikį išsakė tiek ES ir Lietuvos vertėjai, tiek kibernetinio saugumo specialistai.“ 

Bendradarbiaudami turtėjame 
Bendradarbiavimas su VDU Kompiuterinės lingvistikos centru prasiplėtė ir kitomis kryptimis. Sigita Rackevičienė ir Andrius Utka yra aktyvūs Lietuvių terminologijos forumo dalyviai. Šis forumas apjungia ES ir Lietuvos institucijų terminologus bendroms diskusijoms ir darbui. 2018 m. ES Tarybos Lietuvių kalbos vertimo raštu skyriaus kvietimu Sigita Rackevičienė ir Andrius Utka lankėsi ES Taryboje Briuselyje, kur pravedė mokymus ES institucijų vertėjams ir terminologams „Tesktynais pagrįsta angliškų ir lietuviškų kibernetinio saugumo terminų analizė“. Vizito metu taip pat aptartas rengiamas MRU ir VDU projektas, bendradarbiavimo galimybės. 2019 m. Andrius Utka ir Sigita Rackevičienė tapo nacionaliniais atstovais COST veiklos „European network for Web-centred linguistic data science“ (Europos tinklas internetinių lingvistinių duomenų tyrimams) valdymo komitete. Šia veikla siekiama susieti įvairių kalbų lingvistinius duomenis į bendrą sistemą, kuri įgalintų juos lengvai pasiekti internete ir panaudoti tiek mokslinėms, tiek praktinėms reikmėms. Dalyvavimas šioje veikloje svarbus ir DVITO projekto vykdymui. Jis atveria galimybę susipažinti su terminologinių duomenų siejimo technologijomis, kurios įgalins projekto metu sukurtą kibernetinio saugumo terminų bazę susieti su kitais internetiniais terminų ištekliais, žymiai padidins jos matomumą ir pasiekiamumą. 2019 m. VDU taip pat pakvietė MRU į CLARIN LT konsorciumą (Common Language Resources and Technology Infrastructure), kurį sudaro 5-ios Lietuvos institucijos (VDU, KTU, VU, MRU ir Baltijos pažangių technologijų institutas). CLARIN saugyklose kaupiami skaitmeniniai kalbų pagrindu sukurti teksto, garso, vaizdo ir multimodalūs ištekliai ir jų analizei būtini įrankiai. Šioje saugykloje planuojama patalpinti ir DVITO projekto metu sukurtus lietuvių ir anglų kalbų kibernetinio saugumo išteklius. „Taigi susitelkus ir ėmus bendradarbiauti galima labai daug ką nuveikti,“ – teigia Sigita Rackevičienė. MRU absolventas prisijungė prie projekto ir kuria neuroninius tinklus „Mane labai džiugina, kad prie DVITO projekto įgyvendinimo prisijungė MRU Humanitarinių mokslų instituto bakalauro studijų programos „Vertimas ir redagavimas“ absolventas Aivaras Rokas, kuris studijavo anglų ir norvegų kalbas. Jis buvo pasirinkęs mane savo baigiamojo bakalauro darbo vadove, tačiau jaučiau, kad darbo tema nėra jam įdomi. Pasikalbėjus, išsiaiškinau, kad jam patiktų programavimas. Tada jam pasiūliau daryti terminų automatinio atpažinimo tyrimą. Aivaras labai entuziastingai ėmėsi šio darbo, programavo ir testato įvairius statistinius ir lingvistinius metodus automatiškai atpažinti teisės terminus lietuviškuose tekstuose. Sėkmingai apgynęs baigiamąjį bakalauro darbą iš kompiuterinės lingvistikos srities, Aivaras įstojo į VDU „Moderniosios lingvistikos“ magistratūros studijų programą, kur toliau tobulino savo programavimo įgūdžius ir ėmė dirbti su neuroniniais tinklais, įgalinančiais pasiekti itin aukštų automatinės terminų paieškos rezultatų. Burdami DVITO komandą net nesvarstėme, kokį programuotoją pasikviesti – juo turėjo būti Aivaras, kuris nuolat gilinasi į programavimo naujoves ir įvaldo inovatyviausias technologijas. Aivaras projekte atsakingas už visus programavimo darbus, kurių svarbiausias – neuroninių tinklų kūrimas automatiniam terminų atpažinimui. Labai džiaugiuosi, kad Aivaras išdrįso pasirinkti jam įdomų kelią, nors jis ir buvo daug sudėtingesnis, ir didelio darbo dėka pasiekia tokių puikių rezultatų. Manau, kad jo laukia labai didelės galimybės ateityje. Dabar, kai dėstau „Kompiuterinių terminų tyrimų ir tvarkybos“ dalyką, visuomet galiu su Aivaru pasitarti“, – savo studento sėkme džiaugiasi profesorė. 

Pirmieji DVITO darbai 
„Pagrindinis darbas dabartiniame DVITO projekto etape yra kibernetinio saugumo tekstynų kūrimas, t. y. kibernetinio saugumo tekstų rinkimas ir sisteminimas pagal apsibrėžtus kriterijus. Kuriami dviejų tipų tekstynai – lygiagretusis, kurį sudarys angliški kibernetinio saugumo tekstai ir jų vertimai į lietuvių kalbą (daugiausia ES dokumentai), ir palyginamasis, kurį sudarys angliški ir lietuviški originalūs tekstai (teisėkūros ir administraciniai dokumentai, akademinė literatūra, žiniasklaidos straipsniai ir kt.). Būtent iš šių tekstynų neuroniniai tinklai rinks angliškus ir lietuviškus terminus. Tekstus surinkti bei atrinkti tolimesniam tyrimui padeda MRU kibernetinio saugumo specialistas doc. dr. Marius Laurinaitis.“ „Kitas labai svarbus pirmojo projekto etapo darbas – auksinio standarto anotuotų tekstynų kūrimas. Neuroniniai tinklai apmokymui būtini kokybiškai rankiniu būdu anotuoti (sužymėti) duomenys. Anotuojame mūsų programuotojo Aivaro specialiai projekto reikmėms sukurtu ir nuolat tobulinamu įrankiu QuickTag. Šis darbas labai atsakingas, todėl nuolat diskutuojame, tariamės dėl to kokius terminus priskirti kibernetinio saugumo sričiai, o kokius laikyti tik susijusiais su šia sritimi, kaip žymėti kelių terminų junginius ar terminus, į kuriuos įsiterpia kiti žodžiai, kaip anotuoti lietuviškuose tekstuose vartojamas angliškas santrumpas bei hibridus (angliškų santrumpų ir lietuviškų žodžių junginius) ir kt. Kuo kokybiškiau suanotuosime terminus, tuo tikslesnių ir išsamesnių rezultatų galime tikėtis iš neuroninių tinklų, kurie atpažins ir trauks terminus iš didelių tekstynų automatiniu būdu.“ „Antrajame projekto etape mūsų projekto kibernetinio saugumo specialistas Marius Laurinaitis padės atrinkti 300 svarbiausių angliškų terminų ir jų lietuviškų atitikmenų, iš kurių ir bus kuriama terminų duomenų bazė. Atliksime kibernetinio saugumo srities sąvokų sistemos analizę, kuri padės nustatyti sąvokų kategorijas ir jų tarpusavio ryšius. Šios žinios būtinos norint tiksliai ir sistemiškai suformuluoti terminų apibrėžtis. Terminų aprašus duomenų bazėje taip pat papildysime terminų vartosenos pavyzdžiais bei statistiniais duomenimis. Taigi terminų bazė ne tik padės išsiversti terminą ir suprasti jo reikšmę, bet ir suteiks vartotojui informacijos, kurie terminai dažniausi (tai ypač svarbu sinonimijos atvejais) ir kaip jie vartojami sakiniuose“, – DVITO tikslus įvardijo MRU profesorė S. Rackevičienė. „Vykdant terminologijos projektą, labai svarbu kuo daugiau bendradarbiauti su srities, kurios terminai tiriami, specialistais. Tikimės užmegzti bendradarbiavimą su Nacionaliniu kibernetinio saugumo centro atstovais. Jų konsultacijos būtų labai svarbios pirmajame etape renkant tekstui kuriamiems tekstynams bei antrajame etape – atrenkant terminus duomenų bazei be formuluojant jų apibrėžtis,“ – priduria pašnekovė.  
Daugiau apie MRU ir VDU vykdomą kibernetinio saugumo terminų projektą, kurį finansuoja Lietuvos mokslų taryba, galite sužinoti paspaudę nuorodą