Znanost si veliko obeta od velikih podatkov
Marjan Kodelja 3. aprila 2018 ob 07:42

Velike količine podatkov niso povezane le s poslovanji podjetij in vohunjenjem, morda še bolj z veliko znanostjo. Dejali bi, da podatkov nikoli ni preveč. Več jih je, boljši je rezultat analize, posledično pa tudi znanstvena odkritja. Človeški genom, delovanje možganov, veliki trkalnik delcev so primeri raziskav, v katerih je podatkov veliko, hkrati pa so ti med seboj še zapleteno povezani.

Z veliko količino podatkov ni preprosto delati, saj procesiranje podatkov hkrati poteka na nekaj sto ali celo nekaj tisoč strežnikih. S projektom dekodiranja človeškega genoma se je skupina znanstvenikov intenzivno trudila deset let. Delo, ki so ga opravili, bi tehnologija velikih podatkov opravila v enem tednu. Zaradi nje lahko zvezdoslovci kartografirajo nebo z veliko bolj zmogljivimi teleskopi in v kratkem času zajamejo terabajte podatkov.

Javnosti je najbolj znano iskanje »božjega delca« (Higgsov bozon), ki teče v velikem hadronskem trkalniku (LHC). Fiziki osnovnih delcev so lahko »zajeli« vedenje delcev, manjših od atoma, ki se gibljejo z veliko hitrostjo. 150 milijonov tipal pošilja podatke 40-milijonkrat na sekundo. To je skoraj 600 milijonov zaznanih trkov delcev na sekundo. Po filtriranju in izmetu 99,999 odstotka meritev še vedno ostane 100 trkov na sekundo, ki so zanimivi za podrobnejšo analizo. Kljub tolikšnemu izmetu meritev (uporabnih je 0,001 odstotka) to predstavlja 25 peta bajtov podatkov letno, če pa bi shranili prav vse, bi jih bilo 150 milijonov peta bajtov.

Veliki podatki je zbirka podatkov, podatkovna baza, tako velika po obsegu in zapletenosti, da jo je težko obdelati z orodji za upravljanje baz podatkov ali običajnimi aplikacijami za procesiranje podatkov. Izzivi vključujejo zajem podatkov, hranjenje, skladiščenje, iskanje po podatkih, delitev med več uporabniki, prenos, analizo in vizualizacijo podatkov.

Napredek v hitrosti zajema podatkov in v njihovem procesiranju je prišel do izraza tudi pri projektu »BRAIN« (Brain Research through Advancing Innovative Nanotechnologies). Cilj projekta je kartiranje aktivnosti v človeških možganih z uporabo opreme, ki hkrati spremlja, shrani in analizira podatke milijarde nevronov. Prek programa želijo najti način zdravljenja stanj, kot so alzheimerjeva bolezen, kap in avtizem.

Poleg temeljnih raziskav so predlogi o bolj praktični izrabi tehnologije velikih podatkov. Zbiranje in analiziranje podatkov, ki bi jih zagotovilo veliko poceni mobilnih telefonov, bi lahko uporabili pri preučevanju, kako se ljudje premikamo, kako se obnašamo, pomagalo pa bi tudi pri razumevanju izbruhov bolezni. Epidemiologinja Caroline Buckee je analizirala podatke baznih postaj v Keniji, izkazalo pa se je, da so zanjo ti podatki še kako uporabni. Našla je vzorec, ki kaže večjo verjetnost, da bodo osebe, ki so opravile klic ali poslale SMS prek ene konkretne bazne postaje, potovale na sever države, kjer je verjetnost okužbe z malarijo višja. Na svetu je šest milijard mobilnih telefonov, od tega pet milijard v deželah v razvoju. Ti telefoni so preprosti, omogočajo le klicanje in pošiljanje sporočil, ne razkrivajo osebnih podatkov, vendar podatki, ki se zapišejo na baznih postajah pri vsaki opravljeni storitvi, njihova analiza, lahko izdajo vzorec gibanja ljudi. Vprašanje ni, ali so ti podatki na voljo, temveč kako jih bomo uporabili.

Ko je leta 2000 astronomski projekt SDSS (Sloan Digital Sky Survey) začel zbirati podatke, je v prvih nekaj tednih zbral več podatkov kot vsa astronomija do takrat oziroma 200 GB na noč, vse skupaj 140 TB.

So kritiki, ki opozarjajo, da »narava« velikih podatkov omogoča odkritje nečesa brez poznavanja vzroka oziroma motiva problema. Vedeli bomo, da se je nekaj zgodilo, ne pa nujno tudi, zakaj. Kot ljudje smo naučeni iskati vzroke, kar pa je lahko težko in nas lahko spelje na napačno pot. Veliki podatki pa nas ne silijo k osredotočenosti na vzrok, kar pomeni, da lahko najdemo vzorce in povezave v podatkih, kar nam daje nov in tudi neprecenljiv pogled na problem. Povezave med podatki nam sicer natančno ne povedo, zakaj je do nečesa prišlo, nas pa opozorijo, da se dogaja. V veliko situacijah pa je tudi to dovolj dobro. Tako imenovana družba, ki jo bodo gnali podatki, ima prednosti in slabosti. Največje vprašanje, na katerega ni odgovora, je, kdo bo lastnik vseh teh podatkov in kdo jih bo nadziral. Bodo veliki podatki izboljšali kakovost življenja ali nas potisnili v mehko diktaturo, v kateri bomo odvisni od številk?

Naroči se na redna vsakotedenska e-poštna obvestila o novih prispevkih na naši strani.


 

Avtor Marjan Kodelja
mm
Marjan se s tehnološkim novinarstvom ukvarja od leta 1997 in v tem času je videl že mnogo stvari, ki se nikoli niso uveljavile ali pa so imele kratek čas trajanja. Začel je pri računalniški reviji Moj mikro in ter 2000 postal njen urednik. Veliko kasneje je bil urednik naprej tednika Stop in nato še tednika Vklop, trenutno pa kruh služi s pisanjem tehnoloških člankov.
Marjan Kodelja - prispevki
Brez komentarjev

Dodaj odgovor

Vaš e-naslov ne bo objavljen. * označuje zahtevana polja