graph subgraph Kvalitatiivne Binaarskaala-->Nimiskaala Nimiskaala-->Järjestusskaala end subgraph Kvantitatiivne Järjestusskaala-->Arvskaala end subgraph "Väärtuse 0 tähendus" Arvskaala-->|0 ei ole puudumine|Intervallskaala Arvskaala-->|0 on puudumine|Suhteskaala end subgraph "Intervallide vahed" Arvskaala-->|Täisarvud|Diskreetne Arvskaala-->|Kõik arvud|Pidev end
8 Tunnuste liigid
8.1 Mõõtmistasemed
Kahte nähtust saab võrrelda mitmel viisl: kas üks on teisest suurem, kumb on teisest suurem, kui palju on üks teistest suurem. Vastavalt sellele saab nähtusi ka mitmel viisil mõõta. Kõige üldisemalt saame eristada nelja mõõtmistaset1, millele vastavad mõõtmisskaalad alates kõige üldistavamast:
1 Eesti keeles on mõõtmistasemete olemust ilmekalt selgitanud Sauga (2020).
- binaarskaala (kuni kaks järjestamata väärtust),
- nimiskaala (järjestamata väärtused),
- järjestusskala (järjestatud väärtused),
- arvskaala (väärtused, mille erinevusi saame arvutada).
Sealjuures tuleb nähtuste mõõtmisel võtta arvesse, et mida üldistatum on mõõtmistase, seda vähem teavet see sisaldab. Seega saame väärtusi teisendada alati üldisemale mõõtmistasemele, aga mitte vähem üldisele.
Mõõtmistasemete eristamiseks on veel mitu viisi.
- Kvantitatiivse ja kvalitatiivse mõõtmistaseme eristamine seisneb selles, kas mõõtmise tulemuseks on arvud. Kvantitatiivse mõõtmise korral on väärtused esitatavad tähenduslikult arvudena, kvalitatiivne mõõtmistase hõlmab enamasti aga arve mitte sisaldavaid väärtusi ehk sõnu või lauseid.
- Diskreetne ja pidev (discrete, continuous) mõõtmine kehtivad ainult arvskaalal ja nende erisus seisneb intervallide vahedes. Diskreetsel mõõtmisel on tulemuseks ainult täisarvud, mis saadakse enamasti millegi loendamisel. Pideval mõõtmisel võib tulemuseks olla mistahes arv.
- Intervall- ja suhteskaala (interval, ratio) on mõlemad arvskaala alaliigid, mille erinevus tuleneb väärtuse 0 tähendusest. Suhteskaalal tähendab väärtus 0 mõõdetava nähtuse puudumist, intervallskaalal aga mitte. Seetõttu võib intervallskaalal mõõdetud väärtusi ainult liita ja lahutada, suhteskaalal aga ka korrutada ja jagada (Stevens, 1946)2.
2 Nt 20 eurot on kaks korda rohkem kui 10 eurot, aga 20 kraadi ei ole kaks korda soojem kui 10 kraadi.
Eelnevalt selgitatud mõõtmise tasemed saab kokku võtta alloleva joonisega
8.2 Tunnuste liigid
Statistikarakendused ja R keel määravad andmete sisestamisel igale andmetabeli veerule tunnuse liigi. See tunnuse liik on otseselt seotud mõõtmistasemega. Kasutades andmetöötluseks tarkvara, mis ei ole tabelarvutus, on oluline eristada käesoleva peatüki alguses esitatud nelja üldist mõõtmistaset. Diskreetsete ja pideva skaala eristamine ei ole üldjuhul tähtis ja intervall- ja suhteskaalat tarkvara ei erista.
Kui salvestada R töölaua objekti kas või üksik väärtus, siis määratakse selle liigiks kas numeric
või character
, vastavalt sellele, kas tegemist on arvuga või mitte. Kui väärtus pärineb tõeväärtusest (Peatükk 5), siis määratakse selle liigiks logical
.
Eelistus | Mõõtmistase | Tunnuse liik R keeles | Selgitus |
---|---|---|---|
1. | Binaarskaala | Logical | Ainult väärtused FALSE või TRUE |
2. | Arvskaala | Numeric | Ainult arvud |
3. | Järjestusskaala | Factor | Ükskõik mis väärtused järjestatakse |
4. | Nimiskaala | Character | Ükskõik mis väärtused |
Väärtustele tunnuse liigi määramisel tuleks eelistada kõige lihtsamat tunnuse liiki. Sel juhul saab enamasti vastava tunnusega kõige enam erinevaid tehteid teha.
Tunnuste liike on tarkvaral tähtis eristada seetõttu, et sel juhul
- ilmnevad lihtsamini puudulikud väärtused veergudes3;
- tarkvara määrab ise tunnuse jaoks vaikimisi sobiva funktsiooni rakendamise või andmete kuvamise viisi;
- tarkvara saab optimeerida arvutuskäiku nii, et see toimuks võimalikult kiiresti.
3 Nt kui arvude veergu on sattunud mõni täht, siis saab vea tuvastada varakult tunnuse tüübi alusel ja ei ole vaja hiljem ilmneva vea põhjust mõnikod mitu tundi otsida.