MRU konferencijoje „LLODREAM 2022“ dalyvavę pranešėjai papasakojo apie kalbos barjerų minimalizavimo ypatumus - MRU
Naujienos

28 spalio, 2022
MRU konferencijoje „LLODREAM 2022“ dalyvavę pranešėjai papasakojo apie kalbos barjerų minimalizavimo ypatumus
Mokslas
Žmogaus ir visuomenės studijų fakultetas
Įvykis
Universitetas
Studijos
Bendruomenė

Mykolo Romerio universiteto Žmogaus ir visuomenės studijų fakulteto Humanitarinių mokslų institutas rugsėjo 21–22 dienomis organizavo konferenciją LLOD Approaches for Language Data Research and Management (LLODREAM 2022). Renginio metu plenarinius pranešimus skaitė dr. Dagmara Gromann, Vienos universiteto (Austrija) Vertimo studijų centro docentė, bei dr. Jorge’ė Gracia, Saragosos universiteto (Ispanija) Kompiuterių mokslo ir sistemų inžinerijos katedros vyriausiasis mokslo darbuotojas.

Pagrindinės mokslininkų dr. Dagmaros Gromann bei dr. Jorge’ės Gracia’os tyrimų kryptys apima lingvistinių susietųjų atvirų duomenų kūrimą ir šiais duomenimis pagrįstų technologijų taikymą įvairiose srityse. Pagrindinių LLODREAM 2022 konferencijos pranešėjų buvo klausiama apie lingvistinių susietųjų atvirų duomenų konceptą bei svarbą.

– Sakykite, kodėl pasirinkote būtent tokį tyrimo objektą? Kuo jis svarbus ir naudingas?

Dr. Dagmara Gromann: Tokį tyrimo objektą pasirinkau, nes norėjau sujungti šias dvi iš pirmo žvilgsnio labai skirtingas sritis – lingvistiką ir informatiką. Norint turimus kalbos išteklius pateikti taip, kad juos galėtų skaityti ir žmogus, ir mašina, labai pravartu pasitelkti lingvistinius susietuosius duomenis.

Dr. Jorge’ė Gracia: Artimai bendraudamas su kalbininkais supratau, kad ši sritis yra ne tik be galo įdomi, bet ir sietina su žiniatinklio technologijomis. Tačiau viena pagrindinių priežasčių, dėl kurių pasirinkau šį tyrimo objektą, yra siekis mažinti kalbos barjerą Europoje ir apskritai visame pasaulyje.

– Koks yra lingvistinių susietųjų duomenų konceptas?

Dr. D. Gromann: Lingvistinių susietųjų duomenų konceptą apibūdinti vos keliais žodžiais be galo sunku, tačiau pati idėja yra orientuota į kalbos duomenų pateikimą tokiu formatu, kurį suprastų mašinos. Kalbos duomenis pateikiant tinkamu būdu atsiranda galimybė juos tirti naujais būdais, gaunamos naujos žinios. Kitaip tariant, internete ir visur kitur (failuose, saugyklose, tinklalapiuose ir pan.) mes turime begalę kalbos duomenų, tačiau jie nėra susieti tarpusavyje. Siekiant prasmingų rezultatų, labai svarbu tuos duomenis atvaizduoti tam tikru bendru formatu. Jungiant tokio formato duomenis, per trumpesnį laiko tarpą, nei, pavyzdžiui, naudojant „Google“ paieškos variklį, įmanoma išgauti daug naudingos informacijos.

Dr. J. Gracia: Norėdami suprasti šį konceptą, turėtume į viską žiūrėti kiek paprasčiau. Įsivaizduokime takus, sujungtus linijomis. Surinkdami ir skirstydami duomenis, galite išgauti kelių rūšių informaciją, tačiau, pasitelkiant lingvistinius susietuosius duomenis, visa surinkta informacija tampa susieta.

Konferencijos pranešėjai pateikia ir praktinį pavyzdį. Ieškodami informacijos apie mums aktualų objektą, pavyzdžiui, lietuvių dailininką ir kompozitorių M. K. Čiurlionį, paprastai pasitelkiame „Google“ arba kitą internetinį paieškos variklį. Tuomet gauname krūvą puslapių, kuriuose apstu informacijos apie jo gyvenimą, kūrybą ir pan. Tai nėra patogus būdas, nes turime paspausti ant kiekvienos nuorodos ir tik tuomet pamatome, ar informacija mums yra tinkama. Tačiau jei visi mums reikalingi duomenys būtų susieti tiesiogiai, visą šią informaciją būtų galima rasti pasižiūrėjus į vieną grafinę žinių schemą. Tai yra didelis pranašumas, bet, deja, žiniatinklis kol kas veikia kitu principu.

– Kokią įtaką švietimo ar kitiems sektoriams turi lingvistiniai susietieji duomenys?

Dr. D. Gromann: Švietimo sektoriui lingvistinių susietųjų duomenų technologijos naudingos tuo, kad gali susisteminti ir pateikti labai aiškią informaciją apie konkretų objektą. Tarkime, studijuoju psichologiją ir noriu sužinoti, kokius pagrindinius laukus šis mokslas apima. Aš galiu tiesiog žvilgtelti į grafinę žinių schemą, sukurtą pasitelkus lingvistinius susietuosius duomenis, ir žinosiu atsakymą. Kaip minėjau anksčiau, tai padeda įgyti naujų žinių. Net imant domėtis visiškai nauja sritimi, plėsti žinias tampa kur kas paprasčiau.

Dr. J. Gracia: Aš, kaip visuomet, kolegės atsakymą norėčiau papildyti pavyzdžiais. Italijoje vykdomo projekto „LiLa“ (Linking Latin) mokslininkai, tyrinėjantys bei studijuojantys lotynų kalbą, susiduria su turimos informacijos skirtumais: dalis informacijos pateikiama žodynuose, gramatikos taisyklės minimos knygose, o nemažai vertimų – užrašuose. Projekto mokslininkai turimą informaciją sistemina ir konvertuoja į elektroninį formatą. Visa tai daroma tam, kad lotynų kalbos besimokantys žmonės turėtų galimybę visą reikiamą informaciją gauti tuo pačiu formatu per minimalų laiko tarpą. Kiti sektoriai taip pat gali taikyti lingvistinius susietuosius duomenis. Darbo teisė, farmacija, prekyba ir kt. taip pat siekia pateikti sistemingą informaciją.

– Kaip lingvistiniai susietieji duomenys nulemia mūsų sprendimus, tarkime, atostogų kryptį, mokymosi įstaigą ir t.t.?

Dr. D. Gromann ir dr. J. Gracia: Lingvistinių susietųjų duomenų technologijos daro įtaką mūsų sprendimams, tam tikru būdu pateikdamos informaciją. Kadangi pateikiami duomenys yra aiškiai susisteminti, juos lyginti tarpusavyje yra kur kas paprasčiau ir tai neužima daug laiko.

– Kokių savybių reikia šiuolaikiniam jaunuoliui, ketinančiam studijuoti ir dirbti kalbos technologijų (įskaitant lingvistinius susietuosius duomenis) srityje?

Dr. D. Gromann: Mano manymu, jis turėtų domėtis ne tik kalbomis, bet ir jų veikimo principais. Šiuolaikiniam jaunuoliui, ketinančiam studijuoti ir dirbti kalbos technologijų srityje, svarbu domėtis ir technologijomis, nes tai yra neatsiejama dalis.

Dr. J. Gracia: Drįsčiau teigti, kad toks jaunuolis turėtų norėti dirbti su tokiais ištekliais bei būti atviras naujai informacijai. Dirbant šioje srityje tenka prisiliesti tiek prie technologinių, tiek prie lingvistinių aspektų, todėl labai svarbu suvokti, kad naujos informacijos šioje srityje yra itin daug.

– Į ką reikėtų atkreipti dėmesį kuriant savo įvaizdį ar reklamuojant veiklą? Gal turite patarimų, kaip šiame kontekste panaudoti lingvistinius susietuosius duomenis?

Dr. D. Gromann: Kiekvienai organizacijai svarbu sisteminti savo viešai pateikiamą informaciją. Tarkime, esu Ikea darbuotoja, o, kaip žinome, ten kiekvienas produktas turi specifinį pavadinimą. Jei aš neturėsiu aiškiai susistemintos informacijos, dirbti bus be galo sudėtinga. Lygiai tas pats pasakytina ir žvelgiant iš vartotojo pusės. Jei organizacijos pateikiama informacija yra padrika, tikėtina, jog vartotojas pasirinks kitą organizaciją, kurioje informacija pateikiama aiškiau.

Dr. J. Gracia: Jei kalbėtume apie lingvistinių susietųjų duomenų technologijų taikymą kuriant savo įvaizdį ar reklamuojant veiklą, sakyčiau, tokio pobūdžio duomenys šioms sferoms yra pernelyg specifiniai. Būtina suprasti, jog lingvistiniai susietieji duomenys yra žodinės išraiškos, ko verslams paprastai nepakanka. Tokie duomenys reklamuojant savo veiklą ar įvaizdį gali padėti, tačiau nevalia pamiršti, kad čia labai svarbu turėti ir vaizdinius duomenis, ypač jei kalbame apie verslą, siūlantį atitinkamas prekes. Kad būtų lengviau suprasti, pateiksiu pavyzdį. Įsivaizduokime bet kokios įmonės tinklalapį. Ten galime rasti semantinės informacijos, nuorodų į kitas svetaines ir t. t. Paieškos varikliai atpažįsta kai kuriuos semantiškai anotuotus duomenis svetainėje ir gali praturtinti užklausos rezultatą. Taigi, kai viešėsite svetur ir apsistosite viešbutyje, atsiminkite, jog naršyklėje kambario kainą radote todėl, kad ši informacija buvo semantiškai anotuota viešbučio svetainėje. Tai yra pridėtinės vertės pavyzdys. Kaip sakiau, tai ne lingvistinių susietųjų duomenų, o platesnių susietųjų duomenų technologijos, tačiau tai nereiškia, kad mes negalime tam tikrų dalykų pritaikyti sau ar savo verslui“.

Galiausiai mokslininkai pabrėžia, kad ši sritis, kaip ir bet kuri kita, turi tam tikras tendencijas. Lingvistinių susietųjų duomenų technologijų taikymas įvairiose srityse yra itin aktualus kalboms, kurios neturi pakankamai skaitmeninių išteklių. Viena iš tokių yra ir lietuvių kalba. Abu konferencijos pranešėjai sutaria, jog bene svarbiausias šio proceso tikslas – mažinti kalbos barjerus tarp pasaulio gyventojų. Lingvistinių susietųjų duomenų taikymas sparčiai tobulėja, todėl galime nė nepastebėti, kai išmanusis asistentas Alexa prabils lietuviškai.