2023 | ruduo

Funkcinių duomenų analizė: nuo muzikos iki medicinos

Prof. Jurgita Markevičiūtė, prof. Alfredas Račkauskas, Vilniaus universiteto Matematikos ir informatikos fakultetas

Sukurta: 16 lapkričio 2023

Funkcinių duomenų analizė: nuo muzikos iki medicinos

Prof. Jurgita Markevičiūtė, prof. Alfredas Račkauskas, Vilniaus universiteto Matematikos ir informatikos fakultetas

Pastarojo dešimtmečio technologijų, interneto ir išmaniųjų įrenginių plėtra lėmė skaitmeninių duomenų kiekio ir įvairovės augimą. Tobulėjant technologijoms vis lengviau išmatuoti žmonių ar gyvūnų smegenyse vykstančius procesus. Žmogaus smegenys dirba be menkiausios pertraukos, tačiau net pačios naujausios technologijos smegenų darbą matuoja diskrečiais laiko tarpais. O kaip gauti nenutrūkstamus duomenis? Ar žinome, kaip jais pasinaudoti, kaip iš jų išgauti informaciją, kaip kurti naujas žinias ir geriau suprasti mus supantį pasaulį?

Kiekvienas iš mūsų – duomenų kūrėjas

Duomenys šiais laikais yra mūsų gyvenimo dalis, nesvarbu, kur dirbame, kiek ir kokių technologijų naudojame ir kaip gauname informaciją apie tai, kas dedasi mus supančiame pasaulyje. Paėmę išmanųjį įrenginį į rankas ir įkėlę nuotrauką ar vaizdo įrašą į socialinius tinklus, tampame duomenų kūrėjais. Nors dar 2005 m. apie tai nė nebūtume pagalvoję, kadangi neturėjome taip kokybiškai fotografuojančių ir filmuojančių mobiliųjų telefonų.

Iki 2003 m. vien „Google“ sugeneravo 5 eksabaitus (daugiau kaip 5 milijardus gigabaitų) duomenų. Iki 2010 m. toks duomenų kiekis buvo sukuriamas kas dvi dienas, o iki 2021 m. – kas 40 minučių. Remiantis naujausiais, 2023 m. paskelbtais vertinimais, kasdien sukuriama 328,77 mln. terabaitų duomenų.

a close up of a computer keyboard with a lot of red and yellow lights. generative ai.

Kito ne tik sukuriamų duomenų kiekis, bet ir jų įvairovė. Greta kategorinių ir kiekybinių duomenų, apibūdinančių atitinkamai kokybines ir kiekybines tiriamųjų objektų savybes, skaitmeninį pavidalą įgavo ir laike ar erdvėje kintantys duomenys: tekstai, garsai, vaizdai, socialinių tinklų įrašai ir t. t.

Pasaulyje išpopuliarėjo terminas „didieji duomenys“, kuris vartojamas petabaitų ar didesniems duomenų, kurie, be to, pasižymi tiek įvairove, tiek kitimo greičiu, kiekiams apibūdinti. Duomenys virto turtu, „šiuolaikine nafta“. Be abejo, kaip ir su bet kuriuo turtu, su duomenimis reikia elgtis atsakingai. Neužtenka juos vien kaupti, turime juos įdarbinti, kad gautume naudą. Taigi ką daryti su tokia duomenų gausa? Ar mes teisingai juos suprantame? Ar mokame išgauti informaciją ir sukurti naujas žinias?

Kas yra funkciniai duomenys?

Spartus informacinių technologijų tobulėjimas atvėrė plačias galimybes duomenų analizei. Pradėjo kurtis nauji metodai. Tarp jų yra ir funkcinių duomenų analizė (FDA).

Funkciniai duomenys daugiamačius objektus pakeičia begalinės dimensijos objektais. Šių duomenų šaltiniai yra patys įvairiausi: nuo rinkodaros, kai analizuojami vartotojų įpročiai, į internetą keliami jau minėti duomenys, iki medicinos, kai sekamas vaisiaus širdies susitraukimų dažnis, fiksuojamas mirtingumas nuo krūties vėžio pagal amžių ar inkstų anemija sergančių asmenų hemoglobino koncentracija. Lingvistinė duomenų analizė vyksta, kai analizuojami vaikų ir suaugusiųjų priebalsių tarties ypatumai, stebimi lūpų judesiai kalbant. Apibendrinant galima sakyti, kad visa mus supanti informacija – tai funkciniai duomenys.

FDA yra statistikos kryptis, skirta darbui su funkciniais duomenimis. Ji remiasi paradigma, kad kreivė, paviršius ar kitas begalinės dimensijos elementas yra nagrinėjami kaip vienetinis stebėjimas, o jų rinkinys sudaro funkcinę imtį, kuri ir yra FDA tyrimų objektas (1 pav.).

PSL 86

Kadangi funkciniai objektai neišreiškiami matematinėmis formulėmis, labai svarbiais jų analizės įrankiais tapo kompiuteriai. Išaugus jų pajėgumui, atsirado ir programinė įranga, skirta funkciniams duomenims vizualizuoti, pirminei analizei ir įvairiems sudėtingesniems metodams panaudoti.

Galimybė tyrinėti žmogaus augimo procesus

Pirmieji FDA privalumais galėjo pasidžiaugti auksologai – mokslininkai, kurie tiria žmogaus augimo procesą. Kruopštus žmogaus augimo dokumentavimas yra būtinas norint apibrėžti tai, ką vadiname normaliu augimu, kad galėtume kuo anksčiau pastebėti, kada augimo procese atsitinka kas nors negero. Felso institutas Ohajo valstijoje renka augimo duomenis nuo 1929 m. ir dabar matuoja kai kuriuos pradinius trečiosios kartos duomenis. Įrašai apie vyresnius vaikus rodo ypatybes, kurias duomenų analitikui sunku modeliuoti klasikinės statistikos metodais. Geriausi modeliai turi aštuonis ar daugiau parametrų ir vis dar manoma, kad jiems trūksta kai kurių faktinio augimo aspektų. FDA padėjo atsakyti į daugelį rūpimų klausimų (2 pav.).

PSL 87

Pritaikius monotoninio suglodinimo metodus, duomenys konvertuojami į tolydžias du kartus diferencijuojamas kreives. Tai leidžia pažvelgti į vaikų augimo greitį bei pagreitį ir gauti naudingos informacijos, pavyzdžiui, apie tai, kada vaikai auga greičiausiai. Galimybė analizuoti funkcijų išvestines yra išskirtinis FDA privalumas.

Analizuojant augimo greičio bei pagreičio kreives galima pastebėti, kaip keičiasi vaiko augimas brendimo laikotarpiu – fiksuojamas didelis teigiamas greičio šuolis brendimo laikotarpio pradžioje ir neigiamas greičio pokytis paskutinėje brendimo fazėje. Dar svarbesnis šio ankstyvojo tyrimo atradimas yra tas, kad kelioms mergaitėms buvo būdingas vienas ar daugiau mažesnių pagreičio svyravimų prieš lytinio brendimo spurtą.

Kitas FDA privalumas – galimybė atskirti duomenų amplitudės ir fazės kintamumus. Tai vadinama kreivių registravimu. Fazės kintamumą galima sureguliuoti pagal įvairius požymius – ekstremines reikšmes, nulius ir pan. arba pagal kurį nors pasirinktą scenarijų (3 pav.).

PSL 88

Funkcinių duomenų analizė leidžia įvertinti COVID-19 poveikį

Nemažai mokslinių publikacijų skirta COVID-19 duomenų analizei FDA metodais, kurie pasirodė efektyvūs nustatant įvairias pandemijos plitimo ir poveikio tendencijas. Tarp tirtų parametrų, kurie domino epidemiologus, yra pasveikimų, mirčių, užsikrėtimų procesai ir jų intensyvumas užsikrėtimų skaičiaus atžvilgiu. FDA metodai leidžia analizuoti įvairius statistinius klausimus. Kokie yra tipiški Europos ar Baltijos regiono šalių epidemiologinių parametrų profiliai? Koks yra tipiškas šalių mirtingumo arba išgydymo lygio profilis? Kokios šalys yra panašiausios į Lietuvą pagal skirtingus rodiklius, pvz., mirtingumo ir išgydymo? Kuriose šalyse skirtingais laikotarpiais epidemiologiniai parametrai yra ekstreminiai? Kaip ilgai trunka ekstremalieji laikotarpiai?

Jurgita funkciniai duomenys

FDA metodai buvo taikyti analizuojant dirbančių asmenų pajamų nelygybės pokyčius COVID-19 pandemijos metu. Dėl įvestų karantino ribojimų visame pasaulyje buvo baiminamasi, kad labiausiai nukentės pažeidžiamiausi gyventojų sluoksniai. Iš „Sodros“ pateikiamų mėnesinių duomenų buvo nustatytas darbo pajamų nelygybės indeksas ir, atsižvelgiant į amžių bei lytį, sudarytos metinės kreivės. FDA leido lanksčiau įvertinti, ar 2020-ieji išsiskyrė iš kitų metų pajamų nelygybės požiūriu. Buvo nustatyta, kad 2020 m. kreivės forma išsiskyrė tarp 18–35 metų moterų ir 24–35 metų vyrų, kitose amžiaus grupėse reikšmingų skirtumų nenustatyta.

FDA – į pagalbą medicinos diagnostikoje

Vilniaus universiteto Matematikos ir informatikos fakulteto mokslininkai kartu su Nacionalinio vėžio instituto mokslininkais analizavo prostatos funkcinio magnetinio rezonanso (fMRI) vaizdus, skirtus prostatos vėžio diagnostikai. Paprastai prostatos vertinimas atliekamas naudojant įvairias magnetinio rezonanso vaizdavimo sekas, o dinaminis kontrastas leidžia pastebėti didesnį kraujagyslių pralaidumą ir tankį, kurį sukelia piktybinis audinys. Preliminarūs tyrimai rodo, kad FDA gali būti taikoma atskiriant vėžines ir sveikas prostatos zonas.

Mokslininkams atliekant tyrimą prostatos vaizdai suskirstomi į regionus ir pagal juos apskaičiuojamos laiko ir signalo intensyvumo kreivės, kurios suglodinamos į funkcines kreives (4 pav.). Vėžio paveiktos zonos greičiau užsipildo kontrastu nei sveikos zonos. Kadangi greitis yra svarbus, tai skaičiuojamos funkcinių kreivių išvestinės. Tada funkciniams duomenims taikomas mašininio mokymosi klasifikavimo algoritmas, vadinamas k-artimiausių kaimynų metodu.

PSL 89

Taigi FDA taikymai apima itin platų tiek mokslinių, tiek praktinių sričių spektrą. Netgi daugelis svarbių muzikos atlikimo ir suvokimo aspektų gali būti suprasti ir kiekybiškai įvertinti kaip dinaminiai procesai, besivystantys kaip laiko funkcijos. Todėl FDA yra statistinis metodas, puikiai tinkamas taikyti net ir tokioje srityje kaip muzikos atlikimo kiekybinė analizė.