8  Tunnuste liigid

8.1 Mõõtmistasemed

Kahte nähtust saab võrrelda mitmel viisl: kas üks on teisest suurem, kumb on teisest suurem, kui palju on üks teistest suurem. Vastavalt sellele saab nähtusi ka mitmel viisil mõõta. Kõige üldisemalt saame eristada nelja mõõtmistaset1, millele vastavad mõõtmisskaalad alates kõige üldistavamast:

  • 1 Eesti keeles on mõõtmistasemete olemust ilmekalt selgitanud Sauga (2020).

    1. binaarskaala (kuni kaks järjestamata väärtust),
    2. nimiskaala (järjestamata väärtused),
    3. järjestusskala (järjestatud väärtused),
    4. arvskaala (väärtused, mille erinevusi saame arvutada).

    Sealjuures tuleb nähtuste mõõtmisel võtta arvesse, et mida üldistatum on mõõtmistase, seda vähem teavet see sisaldab. Seega saame väärtusi teisendada alati üldisemale mõõtmistasemele, aga mitte vähem üldisele.

    Mõõtmistasemete eristamiseks on veel mitu viisi.

    • Kvantitatiivse ja kvalitatiivse mõõtmistaseme eristamine seisneb selles, kas mõõtmise tulemuseks on arvud. Kvantitatiivse mõõtmise korral on väärtused esitatavad tähenduslikult arvudena, kvalitatiivne mõõtmistase hõlmab enamasti aga arve mitte sisaldavaid väärtusi ehk sõnu või lauseid.
    • Diskreetne ja pidev (discrete, continuous) mõõtmine kehtivad ainult arvskaalal ja nende erisus seisneb intervallide vahedes. Diskreetsel mõõtmisel on tulemuseks ainult täisarvud, mis saadakse enamasti millegi loendamisel. Pideval mõõtmisel võib tulemuseks olla mistahes arv.
    • Intervall- ja suhteskaala (interval, ratio) on mõlemad arvskaala alaliigid, mille erinevus tuleneb väärtuse 0 tähendusest. Suhteskaalal tähendab väärtus 0 mõõdetava nähtuse puudumist, intervallskaalal aga mitte. Seetõttu võib intervallskaalal mõõdetud väärtusi ainult liita ja lahutada, suhteskaalal aga ka korrutada ja jagada (Stevens, 1946)2.
  • 2 Nt 20 eurot on kaks korda rohkem kui 10 eurot, aga 20 kraadi ei ole kaks korda soojem kui 10 kraadi.

  • Eelnevalt selgitatud mõõtmise tasemed saab kokku võtta alloleva joonisega

    graph
        subgraph Kvalitatiivne
            Binaarskaala-->Nimiskaala
            Nimiskaala-->Järjestusskaala
        end
        subgraph Kvantitatiivne
            Järjestusskaala-->Arvskaala
        end
            subgraph "Väärtuse 0 tähendus"
                Arvskaala-->|0 ei ole puudumine|Intervallskaala
                Arvskaala-->|0 on puudumine|Suhteskaala
            end
            subgraph "Intervallide vahed"
                Arvskaala-->|Täisarvud|Diskreetne
                Arvskaala-->|Kõik arvud|Pidev
            end
    

    8.2 Tunnuste liigid

    Statistikarakendused ja R keel määravad andmete sisestamisel igale andmetabeli veerule tunnuse liigi. See tunnuse liik on otseselt seotud mõõtmistasemega. Kasutades andmetöötluseks tarkvara, mis ei ole tabelarvutus, on oluline eristada käesoleva peatüki alguses esitatud nelja üldist mõõtmistaset. Diskreetsete ja pideva skaala eristamine ei ole üldjuhul tähtis ja intervall- ja suhteskaalat tarkvara ei erista.

    Kui salvestada R töölaua objekti kas või üksik väärtus, siis määratakse selle liigiks kas numeric või character, vastavalt sellele, kas tegemist on arvuga või mitte. Kui väärtus pärineb tõeväärtusest (Peatükk 5), siis määratakse selle liigiks logical.

    Eelistus Mõõtmistase Tunnuse liik R keeles Selgitus
    1. Binaarskaala Logical Ainult väärtused FALSE või TRUE
    2. Arvskaala Numeric Ainult arvud
    3. Järjestusskaala Factor Ükskõik mis väärtused järjestatakse
    4. Nimiskaala Character Ükskõik mis väärtused
    Tip

    Väärtustele tunnuse liigi määramisel tuleks eelistada kõige lihtsamat tunnuse liiki. Sel juhul saab enamasti vastava tunnusega kõige enam erinevaid tehteid teha.

    Tunnuste liike on tarkvaral tähtis eristada seetõttu, et sel juhul

    • ilmnevad lihtsamini puudulikud väärtused veergudes3;
    • tarkvara määrab ise tunnuse jaoks vaikimisi sobiva funktsiooni rakendamise või andmete kuvamise viisi;
    • tarkvara saab optimeerida arvutuskäiku nii, et see toimuks võimalikult kiiresti.
  • 3 Nt kui arvude veergu on sattunud mõni täht, siis saab vea tuvastada varakult tunnuse tüübi alusel ja ei ole vaja hiljem ilmneva vea põhjust mõnikod mitu tundi otsida.