2 Masinõpe ja suurandmed
Andmeteaduse levikuga on kaasas käinud veel mitmed sellega lähedalt seotud mõisted, sh masinõpe, tehisintellekt ja suurandmed.
2.1 Masinõpe ei ole veel päris tehisintellekt
Masinõpe on andmeteadustes kasutatav üldine tehnika, mida rakendatakse konkreetsetel algoritmidel või mudelitel selleks, et saavutada nende võimalikult suur täpsus prognoosimisel. Selleks üritatakse masinõppe käigus leida sobivaimad parameetrid. Nii põhineb masinõpe algoritmi või mudeli arendamisel: masinõppe käigus võetakse aluseks olemasolevad sisendite ja väljundite paarid, et arendada algoritmide võimekust leida sobiv väljund sellistele juhtudele, kus teada on ainult sisendi väärtus1. Mudelite ja algoritmide arendamisel võrreldakse nende erinevaid võimalikke parameetreid erinevate andmike kontekstis, seega seisneb masinõppe tööpõhimõte erinevate parameetrite ja andmete kombinatsioonide võrdlemises.
1 Nt kui mudeli sisendiks on pildid võimalike vähkkasvajatega ja väljundiks vähkkasvaja tegelik tuvastamine, siis masinõppe käigus saab arendada mudeli, mis määrab pildi järgi võimalikult täpselt vähkkasvaja olemasolu ka juhul, kui see veel teada ei ole
Masinõpe põhineb mudeli või algoritmi rakendamisel erinevate parameetritega ja andmiku erinevatel osadel selleks, et leida selline mudel või algoritm, mis võimalikult täpselt prognoosiks.
Sageli arvatakse, et masinõpe on üks tehisintellekti (artificial intelligence) rakendusi, sest see on võimeline lahendama ülesandeid ilma inimese sekkumiseta (Pinheiro et al., 2021). Selline arusaam on mõneti mõistetav, kui mõtestame tehisintellekti nii, et see hõlmab arvutusi selliste ülesannete lahendamiseks, millega tavapäraselt saavad hakkama ainult inimesed (Spiegelhalter, 2019). Õppimine masinõppes viitab justkui selle oskusele leida andmetest iseseisvalt mustreid ja nende alusel otsuseid (prognoose) teha. Samas on masinõpe piiratud mustrite leidmisega ainult olemasolevatest andmetest ega suuda arvesse võtta väljaspool neid olevaid tegureid ega “mängureegleid” (Taddy, 2019). Selleks on vajalik abstraktne teoreetiline mõtlemine ja arusaam sellest, kuidas maailm üldiselt toimib. Nii ei ole tehisintellekt otsuste tegemisel võimeline arvesse võtma ka eetikat ega ühiskondlikke norme. Ehk masinõppe abil saab lahendada ainult üksikuid väga konkreetseid ülesandeid, aga see ei asenda veel inimesi.
2.2 Andmeteadus võimaldab rakendada suurandmeid
Suurandmed on sellised andmed, mis on suured. Tegelikult on suurandmetel veel palju eripärasid, mis tulenevalt eelkõige nende automatiseeritud loomisest. Tavapäraselt selgitatakse suurandmete olemust nn kolme V alusel:
- andmete suur maht (volume),
- andmete loomise suur kiirus (velocity) ja
- andmete suur mitmekesisus (variety).
Suurandmeid iseloomustab nende suur maht, loomise kiirus ja mitmekesisus.
Lisaks nendele kolmele on kirjanduses suurandmetele veel mitmeid omadusi omistatud (Kitchin & McArdle, 2016):
- kõikehõlmavus ja esinduslikkus,
- peenekoelisus ja eripärasus,
- ühendatavus teiste andmikega,
- võimalus kiiresti andmevälju lisada,
- korrastamatus ja müra,
- suur (rahaline) väärtus,
- mitmetähenduslikkus.
Siiski on leitud, et isegi kolme V-d esindavad omadused ei iseloomusta sugugi kõiki suurandmeid ja üldiselt saab suurandmeid kirjeldada pigem erinevate kombinatsioonide kaudu eelpool nimetatud omadustest (Kitchin & McArdle, 2016). Need omadused võimaldavad aga eristada suurandmeid nö tavapärastest korrastatud tabelitena esitatud andmetest.
Klassikalised statistilised meetodid ei ole enamasti sobilikud suurandmete analüüsimiseks. Kuna suur osa statistikast seisneb valimi alusel üldistuste tegemises, siis vastavad meetodid ei ole lihtsalt asjakohased, kui andmed esindavad tervet kogumit ja eesmärk on prognoosimine. Sealjuures ilmnevad ka tehnilised puudujäägid. Statistikas laialt levinud statistiline hüpoteeside testimine on tundlik suurte valimite suhtes ja viitab sellistel juhtudel alati statistiliselt olulisele erinevusele. Samuti hõlmavad paljud meetodid vabadusastmete arvu, mida ei saa kasutada, kui tunnuseid on rohkem kui vaatlusi. Andmeteaduses levinud meetoditel selliseid piiranguid enamasti ei ole.
Suurandmed ilmusid seoses teabe digitaliseerimisega, mis võimaldas andmeid lihtsamini koguda ja odavamalt hoiustada, ning suurandmete analüüsimise võimaluste tekkimisega, mille aluseks oli arvutite riistvaralise võimekuse ja vastavate tarkvaraliste võimaluste areng. Need arengud võimaldasid samal ajal ka andmeteaduste kui eriala ilmumist, mida toetas lisaks ka ühisosa leidmine teadustöös arvutiteaduse, statistika ning sotsiaalteaduste vahel (Taddy, 2019). Ühest küljest tekitas suurandmete olemasolu vajaduse andmeteaduse meetodite järgi, teisalt pakkusid suurandmed võimaluse rakendada meetodeid, mis klassikalise statistika alla ei kuulunud.