1 Andmed ja andmeteadus
1.1 Andmed on abstraktsioon
Andmed on teave mingi nähtuse kohta enamasti lihtsustatud kujul. Andmed on tegelikkuse lihtsustus (abstraktsioon), mille aluseks on andmete koguja poolt tehtud otsused ja valikud. Seetõttu ei ole andmed kunagi objektiivsed, vaid alati kallutatud ja erapoolikud (Kelleher & Tierney, 2018). See erapoolikus sõltub sellest, mille alusel ja kuidas mingit nähtust on mõõdetud (operatsionaliseeritud). Andmete kallutatust saab esitada täpsuse ja usaldusväärsuse alusel.
Täpsus (validity) kirjeldab andmete õigsust või kehtivust. Täpselt mõõdetud andmed näitavad täpselt seda, mida soovime, ega ole kallutatud1. Nii sõltub andmete täpsus eelkõige sellest, mis üldist nähtust mõõdetakse.
1 Nt korruptsiooni mõõdetakse selle alusel, mil määral inimesed seda tajuvad. See ei ole täpne, sest ei näita tegelikku korruptsiooni.
Usaldusväärsus (reliability) kirjeldab andmete hajuvust. Usaldusväärselt mõõdetud andmed annavad igal kordusmõõtmisel sama tulemuse. Kui füüsikaliste mõõtmiste korral sõltub usaldusväärsus ka mõõtmisvahendist, siis sotsiaalteadustes on see seotud eelkõige mõõdetavate nähtuste ja mõõtmise ajaga2. Usaldusväärsus oleneb mõõtmise viisist ja sellest, keda või mida konkreetselt mõõdetakse.
2 Nt mõõtes suhtumist toidu ohutusse, siis ei saa me teha usaldusväärseid üldistusi, kui uurime uudistega rohkem kursis olevaid isikuid ja küsitleme ajal, kui meedias kajastatakse palju mõnda toidumürgituse juhtumit.
Andmete täpsust ja usaldusväärsust on oluline silmas pidada andmeanalüüsi tulemuste tõlgendamisel.
Mingi konkreetse andmekogumi iseloomustamiseks on kaks peamist viisi. Andmeteaduses eristatakse andmeid enamasti praktilises mõttes andmete vormi alusel. Nii võib andmik olla kas
- korrastatud (structured) korrektselt vormistatud andmetabel,
- korrastamata (unstructured) piltide, dokumentide, videote vms kujul või
- poolkorrastatud (semistructured), kui andmeväljad ei ole esitatud tabelina, aga neid saab üksteisega seostada.
Selleks et andmeid analüüsida on enamasti siiski vajalik need korrastatud andmetabeliks vormistada.
Teoreetilisemas mõttes eristatakse andmike nende päritolu alusel:
- primaarandmed on kogutud konkreetse analüüsi jaoks,
- sekundaarandmed aga mingil muul eesmärgil.
Kui andmed on kogutud konkreetse analüüsi jaoks, siis on need suurema tõenäosusega täpsed ja usaldusväärsed.
Andmetega seotud toimingud saab kokku võtta nelja A abil (Saltz & Stanton, 2017):
- arhitektuur (architecture),
- ammutamine (acquisition),
- analüüs (analysis),
- arhiveerimine (archiving).
1.2 Andmeteadus ei ole teadus
Mõistet “andmeteadus” hakati kasutama 1990. aastatel (Kelleher & Tierney, 2018). Väga suurte korrastamata andmike ilmumine ja arvutitehnika areng tähendas, et andmete analüüsimiseks arvutitel tuli kuidagi tuua sisse statistilistele meetoditele omane rangus. Suurte andmike uurimisel arvutitel ei piisanud enam ainult programmeerimise oskusest, vaid vaja oli ka teadmisi andmete ja statistika kohta.
Seega võibki andmeteaduseks pidada statistiliste ja arvutitel põhinevate tehnikate rakendamist selleks, et saada parem arusaam mingist konkreetsest andmikust. Sealjuures ei pruugi need andmikud olla tavapärased andmetabelid, vaid on sageli korrastamata andmed. Kuna igasuguses vormis andmeid on võimalik teisendada numbriteks, saavad andmeteadustes kasutatavad protseduurid hakkama ka mahukate korrastamata andmikega 3. Otsitav arusaam nende andmete kohta võib seisneda nt mustrite, klastrite või erindite tuvastamises. Kuna andmeteaduses ühendatakse matemaatilised tehnikad ja klassikalised statistilised meetodid nende rakendamisega arvutitel, siis võib andmeteadustes kasutatavaid protseduure nimetada algoritmideks.
3 Korrastamata suurandmed on nt veebilehtede külastatavus, sotsiaalmeedia postitused, erinevate sensorite poolt kogutud teave.
Need algoritmid käsitlevad osa andmetest sisenditena ja teist osa väljunditena. Nende kahe vaheliste seoste alusel tuvastavad algoritmid (varjatud) mustreid, mida sageli klassikaliste statistiliste meetoditega ei ole võimalik leida. Praktilistes andmeteaduse rakendustes on nende algoritmide lõppeesmärk siiski prognoosida sisendite alusel kõige sobivam väljund selliste andmeväljade kohta, mille puhul see väljund teada ei ole 4.
4 Algoritmide abil saame prognoosida nt laenusaajate tõenäosuse laen tagasi maksta (väljund) teades nende sotsiaal-majanduslikke näitajaid (sisendid).
Andmeteadus on statistiliste ja arvutitel põhinevate tehnikate rakendamine andmikest mustrite tuvastamiseks ja nende alusel prognooside tegemiseks.
Enamus katseid andmeteadust mõtestada teevad seda mitme nähtuse kaudu (Kelleher & Tierney, 2018; Pinheiro et al., 2021; Spiegelhalter, 2019; Taddy, 2019): klassikaline statistika, algoritmid, suurandmed, masinõpe, andmekaeve, andmehaldus ja andmebaasid, erialateadmised, andmete kasutamise eetika. Väga laias mõttes võibki andmeteaduseks pidada kõike, mis on mingilgi viisil andmetega seotud. Nii on kirjeldatud andmeteadust ka tegevuste kaudu, hõlmates andmekogumist, andmete haldamist ja korrastamist, analüüsimist ja tõlgendamist (Çetinkaya-Rundel & Ellison, 2021; Kelleher & Tierney, 2018). Selline väga lai lähenemine võib olla ka põhjuseks, miks arvatakse, et andmeteadus on ületähtsustatud (Taddy, 2019): mõistet on kasutatud viitamaks ka tegevustele, mis tegelikult ei hõlma andmeteadust. On tavapärane, et ennast andmeteadlaseks nimetavatel inimestel puudub vastav hariduslik ettevalmistus ja teadustöö kogemus.
Nii võib väita, et suur osa sellest, mida nimetatatakse andmeteaduseks on pigem andmeanalüüs ja sellega tegelevad inimesed mitte teadlased, vaid analüütikud. Ka mõiste “andmeteadus” kasutusele võtmisel ei olnud rõhuasetus teadustööl5. Seega kui peame teaduseks uue teadmise loomist tavapärase teadustöö mõistes, siis ei ole andmeteaduse rakendamine iseenesest teadus ega teaduslik, vaid pigem praktiline andmeanalüüs arvutitel.
5 Mõiste esimesi kasutusi põhjendati nii: “Data Science is likely the remaining good name reserved for us” (Wu, 1997).
1.3 Andmeteadus või statistika?
Andmete analüüsimisel võivad olla väga erinevad eesmärgid, sageli isegi mitu korraga. Selleks võib olla mõne nähtuse kirjeldamine, üldistamine, prognoosimine või juhtimine (description, inference, prediction, prescription). Traditsiooniliselt on klassikalise statistika arenguloos olnud peamine tähelepanu sellel, kuidas kõige täpsemini teha mingi valimi alusel üldistusi kogumi kohta. Arengud andmeteaduses ja eelkõige masinõppes on olnud samas aga suunatud sellele, kuidas kõige täpsemini mingit tulemust prognoosida, jättes kõrvale üldistamise ja kõik muud kaalutlused.
Nii on andmeteaduses sageli rakendava masinõppe korral mudel enamasti nö must kast, mille alusel ei ole võimalik tuvastada, kuidas mingi konkreetse prognoosini jõuti. Enamuse statistika meetodite puhul on selle mudeli tõlgendamine aga just peamine eesmärk. Seega, kui andmeteadustes on rõhuasetus suurima võimaliku prognoosi täpsuse saavutamisel, siis statistikas on oluline koostada täpne ja püsiv mudel, mis rahuldaks kõik teoreetilised eeldused ja pakuks seeläbi kõige mõistlikuma selgituse tunnuste vahelistele seostele. Nii põhineb suur enamus teadustööst statistika meetoditel, samas kui praktilisemates rakendustes (nt tehnoloogias ja ärinduses) vajatakse pigem andmeteaduse poolt pakutavaid prognoose.
Statistilisi meetodeid kasutatakse enamasti tunnuste vaheliste seoste selgitamiseks ja selle käigus ka valimi alusel kogumi kohta üldistuste tegemiseks. Andmeteadustes rakendatava masinõppe eesmärk on aga eelkõige võimalikult täpsete prognooside tegemine.
Kui statistilisi meetodeid kasutades on enamasti oluline teha valimi alusel järeldusi kogumi kohta, siis andmeteadustes ei pöörata kogumile tähelepanu ja sageli eeldatakse vaikimisi, et olemas olev valim on kogumi suhtes esinduslik. Seetõttu keskendub statistika andmete kirjeldamisele teoreetilistele jaotuste kaudu, samas kui andmeteadustes kasutatakse üldistuste tegemiseks taasvalikut (resampling). See on siiski pigem üldistus ja tegelikkuses kasutatakse mõlemas lähenemises parameetrilisi ja mitteparameetrilisi meetodeid.
Kuna aga statistikas oletatakse, et andmed järgivad mingisugust teoreetilist jaotust, siis igasuguste punkthinnangute leidmise käigus arvutatakse ka selle oodatav hajuvus, vähemalt üldistamise korral. Kuigi andmeteadustes kasutatava masinõppe rakendamisel on prognoosi täpsus oluline, siis selle prognoosi hajuvus nt usaldusvahemike kontekstis enamasti mitte6. Erinevale lähenemisele ebakindlusele tulemuse suhtes viitab ka see, kuidas arvutuste tulemust nimetatakse: statistikas räägitakse võimalikest hinnangutest (estimate), andmeteadustes aga lihtsalt mõõtmise tulemusest (metric). Ehk statistikas keskendutakse palju tulemuse ebakindluse hindamisele, samas kui andmeteadustes ainult tulemusele endale.
6 Nt kogumisse kuuluvate ettevõtete keskmise käibe hindamisel valimi alusel on statistikas oluline esitada, millisesse vahemikku see jääb, samas kui masinõppes oleks oluline ainult keskmine ise
Praktilisemas mõttes rakendatakse nende kahe lähenemise puhul ka erinevaid meetodeid erinevatel andmetel. Isegi suur osa kaasajal kasutatavast statistikast kujunes ajal, kui andmikud olid väikesed ja arvutusi tehti enamasti käsitsi paberil. Seega statistilised arvutused pidid olema käsitsi lahendamiseks piisavalt lihtsad, mistõttu vastavad meetodid põhinesid suurel määral matemaatikateoorial ja paljudel eeldustel andmete jaotuse kohta. Andmeteadus seevastu on arenenud aga koos suurandmete leviku ja arvutite võimsuse kasvuga. Nii hõlmavad paljud andmeteaduste rakendused suurandmeid (sh reaalajas tekkivaid andmeid), mis vajavad suurt arvutusvõimsust ja vähem teoreetilisi eeldusi. Kui lihtsustada, siis võib öelda, et statistika põhineb matemaatikal, andmeteadus aga arvutamisel.
Statistika | Andmeteadus (masinõpe) | |
---|---|---|
Eesmärk | Üldistamine | Prognoosimine |
Ebakindluse hindamine | Teoreetilised jaotused | Taasvalik |
Ebakindlus | Hinnangu osa | Ebaoluline |
Andmed | Korrastatud väikese või keskmise suurusega | Korrastamata suurandmed |
Meetodid | Matemaatikal põhinevad ja traditsioonilised | Arvutamisel põhinevad ja hiljutised |