Neseniai rašiau apie tai, kad astronominiai atradimai slypi dideliuose duomenyse, kuriuos surenka vis didesnės apžvalginių stebėjimų programos, tačiau jų analizė užtrunka gerokai ilgiau, nei surinkimas. Šią situaciją vertina ir sprendimo būdų ieško ne tik astronomai, bet ir valstybių vadovai ir verslininkai. Štai rugsėjo pradžioje paaiškėjo, kad Amazon korporacija ketina užsiimti astronominių duomenų, renkamų Čilėje, saugojimu ir kasinėjimu.
Čilė astronomijos pasaulyje yra išskirtinė valstybė. Atakamos dykuma yra bene sausiausia vieta Žemėje, virš jūros lygio ji pakilusi 3-5 km, todėl ten labai patogu statyti observatorijas. Taigi Čilei tenka didžioji dalis – apie 70% – visų pasaulinių investicijų į astronomijos infrastruktūrą. Vien šiuo metu Čilėje statomi net trys didžiuliai teleskopai, kurių kiekvieno vertė siekia milijardą eurų ir daugiau – Didysis Magelano teleskopas, Europos išskirtinai didelis teleskopas ir Didysis apžvalginių stebėjimų teleskopas (LSST). Pridėjus įvairius mažesnius projektus suma susidaro panaši į Čilės metines biudžeto išlaidas, kurios siekia apie 7 milijardus eurų. Todėl nekeista, kad astronomija Čilei svarbi ir nacionaliniu lygiu.
Rugpjūčio pabaigoje Čilės prezidentas paskelbė, kad visi šioje šalyje surenkami astronominiai duomenys bus apjungti į vieną „virtualią observatoriją“. Kol kas neaišku, per kiek laiko tai bus daroma, ir kaip detaliai veiks ši iniciatyva. Bet aišku tai, kad jai reikės didžiulių duomenų saugojimo ir apdorojimo pajėgumų. Pavyzdžiui, ALMA teleskopų masyvas surenka apie 200 terabaitų duomenų per metus, o naujieji teleskopai šį skaičių gerokai padidins – vien LSST kasdien surinks 15 terabaitų. Petabaitiniai duomenų kiekiai yra tikrai ne už kalnų.
„Amazon“ akivaizdžiai mano, kad su tokiais duomenimis yra pajėgi susitvarkyti. Čilės astronomų teigimu, derybos tarp korporacijos Tinklo paslaugų (Amazon Web Services) padalinio, Čilės vyriausybės ir astronomų bendruomenės vyksta bent pusmetį. Kol kas jokio oficialaus susitarimo nepasiekta ir oficialių pareiškimų nepadaryta, bet tai greičiausiai yra tik laiko klausimas. Amazonė yra vieni iš duomenų debesijos paslaugų lyderių visame pasaulyje, taigi tikrai galėtų apsiimti tokio darbo. Tuo labiau, kad šis projektas būtų naudingas ir pačiai Amazonei, dėl dviejų priežasčių.
Pirmoji priežastis – Amazonės tinklo paslaugos kol kas nėra plačiai naudojamos Pietų Amerikoje. Taigi Čilės virtualios observatorijos kuravimas didintų korporacijos žinomumą žemyne ir padėtų jiems įsitvirtinti šioje rinkoje. Savaime suprantama, tai pagerintų ir finansinę Amazonės padėtį.
Antroji priežastis – kur kas įdomesnė. Astronominiai duomenys daugeliu atžvilgių gerokai skiriasi nuo kasdien sutinkamų didelių duomenų kiekių, todėl jų analizei reikėtų naujų įrankių. Šie įrankiai – duomenų apdorojimo, mašininio mokymosi priemonės – ateityje galėtų būti pritaikomi įvairiems „žemiškiems“ duomenims analizuoti. Pavyzdžiui, astronomijoje dažnai svarbios anomalijos – įvairūs nukrypimai nuo vidurkių. Tokie duomenys leidžia patikrinti teorinius modelius, tačiau jų, pagal apibrėžimą, yra nedaug. Gali tekti perkratyti milijardą žvaigždžių, kol atrasime tas dvi ar tris, ypatingai besiskiriančias nuo visų kitų. Panašių iššūkių pateikia ir medicininiai ar finansiniai duomenys. Ieškant ligų protrūkių ar retų simptomų, finansinių machinacijų ar rinkos krachų pėdsakų, tenka perrinkti daugybę duomenų. Taip pat reikia lyginti įvairius, nebūtinai vienodai formatuotus, duomenų rinkinius. Įrankiai, sukurti astronominių duomenų, ateinančių iš daugybės teleskopų, analizei, puikiai pasitarnautų šiose srityse. O astronominių duomenų nesaugo įvairūs etikos apribojimai, todėl juos žymiai paprasčiau naudoti analizės įrankių kūrimui ir tobulinimui.
Duomenų perkėlimas į Amazonės (ar kurios kitos korporacijos) valdomą debesį duotų daug naudos ir astronomams. Jiems nebereikėtų rūpintis skaitmeninių duomenų saugojimu ir priežiūra, tad daugiau laiko būtų skiriama stebėjimams ir duomenų analizei. Saugant duomenis apjungtoje sistemoje, atsivertų daugiau galimybių lyginti skirtingų teleskopų duomenis ir taip gauti naujų įžvalgų apie Visatą. Saugojimas debesyje yra saugesnis už saugojimą atskirose institucijose – mažėja pavojus, kad duomenys bus sugadinti ar kitaip prarasti.
Dar vienas galimas, nors daug labiau hipotetinis, privalumas – duomenų pateikimas. Amazonė jau seniai moka pateikti prekes klientams taip, kad jie rastų tai, kas juos domina. Būtent Amazonė buvo vieni iš pritaikytų reklamų pradininkų. Jei jie pritaikytų šią patirtį astronominių duomenų vartotojams – nuo piliečių mokslo entuziastų iki mokslininkų, kurie nedirba tiesiogiai su duomenimis, – pačių duomenų panaudojimo mastai gali labai išaugti. Dar prieš dešimtmetį buvo šnekama, kad mokslinių straipsnių duombazė arXiv pagerėtų, pritaikiusi Amazonės pasiūlymų modelį. Tas pats galioja ir duomenims: „jūs žiūrite į šios galaktikos rentgeno nuotrauką? Jums gali patikti jos infraraudonoji ir radijo nuotraukos, bei šių penkių panašių galaktikų rentgeno vaizdai. Kiti vartotojai, žiūrėję į šią nuotrauką, dar žiūrėjo į šitas tris – gal ir jūs ten pamatysite ką nors įdomaus?“ Toks duomenų pateikimas galėtų palengvinti ir paspartinti mokslinių atradimų procesą.
Kol kas jokių konkrečių žinių apie Amazonės atėjimą į astronominių duomenų rinką nėra. Bet, jei ir ne dabar ir ne Čilėje, jei ir ne Amazonė, kas nors panašaus artimiausiu metu greičiausiai įvyks. Duomenų kiekis vis auga, tad auga ir poreikis kurti radikaliai kitokias jų apdorojimo paradigmas. O tai turėtų būti tik į gerą.
Parengta pagal Futurism ir Reuters straipsnius.
Laiqualasse
O kaip yra su Antarktido patrauklumu astronomijai? Na, nepaisant infrastruktūros trūkumo — ten juk irgi dykuma?
Taip, Antarktida irgi puiki vieta, už Čilę prasčiau iš esmės tik dėl susisiekimo.
Aš asmeniškai laikausi kitos nuomonės – Amazon’as galėtų daug ko išmokyti astronomus su duomenų apdorojimu, o ne astronomai Amazon’ą. Naujus būdus apdoroti duomenis šiais laikais Gūglai ir kitos privačios kompanijos pritaiko (išrastus matematikų), nes ‘big data’ labiau asocijuojasi su dideliais dideliais pinigais nei su dideliais atradimais :)
Pavyzdžiui, machine learning aprašytas buvo jau prieš ~60 metų, verslas (Google) jau rimtai naudoja turbūt daugiau nei 10 metų, o astronomijoj jokios rimtesnės revoliucijos dar neteko matyti šioje srityje. Daug straipsnių, daug metodų, bet astronomai vis dar lieka prie savo įprastų $$\chi^2$$ ar netgi p-value. Tokie dalykai neveiks ateity, jau ir dabar neveikia, kaip rašei praeitame straipsnyje, nes duomenų tiesiog per daug.
Aišku, situacija gerėja, pvz. LSST kviečiasi programuotojų pagalbos: https://www.kaggle.com/c/PLAsTiCC-2018. Pamažu mokslininkai (ir juos finansuojančios tarybos) supranta, kad kartais efektyviau leisti programuoti programuotojams, o ne fizikams. Asmeninis pavyzdys: gravitacinių bangų grupė vieneriems metams pasamdė programuotoją aptvarkyti kodą, naudojamą numerical relativity. Per keletą mėnesių kodą pagreitino apie 10%, kas pasauliniu mastu išėjo turbūt apie 0.3mln $/metus sutaupytų skaičiavimo pajėgumų.
Grįžtant prie machine learning, tai yra ir blogoji pusė: algoritmas dažnai pasidaro per sudėtingas suprasti, todėl veikia tiesiog kaip „juodoji dėžė“: duodi duomenis dėžei, o ji tau išspjauna atsakymą be jokio paaiškinimo. Tokie algoritmai labai efektyvūs apdoroti duomenis ir atrasti milijonus galaktikų, bet gali būti sunku atrasti kažką visiškai naujo (va kaip tik nesenas Amazon’o pavyzdys: https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G)
Visiškai tau pritariu, tik nesuprantu, kodėl tai vadini „kita” nuomone. Aš nerašiau, kad Amazonė gali kažko apie duomenų analizę pasimokyti iš astronomų. Rašiau, kad Amazonei gali būti naudingi *astronominiai duomenys*, ant kurių būtų galima mokyti ir bandyti duomenų analizės įrankius.