www.matematikk.org

Data

Hva mener vi med data? Finnes det forskjellige typer data?

Med data mener vi en samling av tall eller annen informasjon som vi ønsker å arbeide med ved hjelp av statistikk. Dataene stammer ofte fra en populasjon, en samling individer eller objekter som det hentes data fra.

Det finnes forskjellige typer data. For det første kan vi skille mellom numeriske og ikke-numeriske data. Som navnet antyder består numeriske data av tall. De kalles også kvantitative data. Ikke-numeriske data kalles også kvalitative eller kategoriske data. Disse angir andre egenskaper enn antall, størrelse eller mengde. I en statistisk bearbeiding av et datasett er det mange ganger aktuelt å kvantifisere ikke-numeriske data. Det betyr å tillegge eller erstatte kategoriene med tallverdier.

Vi skiller også mellom diskrete data og kontinuerlige data. Diskrete data kan omfatte antall og rekkefølge, slik som poeng på en prøve og avkryssing på et spørreskjema. Kontinuerlige data omfatter måleresultater av for eksempel temperatur, høyde, vekt, tid, konsentrasjon av stoff, kort sagt data som i prinsippet kan anta alle verdier fra et sammenhengende tallområde på tallinja.

I en samling statistiske data kan det ofte være mange forskjellige verdier, noen ganger med små forskjeller på verdiene. Vi får behov for å klassifisere dataene, dele dem i passende grupper. En inndeling i klasser gir bedre oversikt, men fører til noe tap av detaljer og nøyaktighet.

Vi henter ofte inn data som samsvarende par fra en populasjon, slik som høyde og vekt av ulike individer – eller en elevgruppes karakter i et fag og holdning til faget. Slike par kan gi interessant statistisk materiale og kanskje avdekke eller belyse eventuelle sammenhenger.

Eksempel – eksamenskarakterer


Ved en eksamen på en høyskole oppnådde de 43 kandidatene følgende karakterer:

 

D E B B B D D B E F
E A E F C B B C B C
C C C A F B C B C C
B E B C C F D E D F
C D F              



A er beste og E dårligste ståkarakter, F er ikke bestått.

Dataene er her denne oversikten over karakterer, og populasjonen er de eksamenskandidatene det gjelder.

Aktuelle spørsmål kan nå være:
•    Hvordan kan vi bearbeide og presentere disse dataene?
•    Hvilke beregninger kan vi foreta?
•    Hva er interessant å få fram her?

 

Klassedeling av data


Ved målinger kan vi få kontinuerlige data, som kan anta alle mulige verdier innenfor et tallområde. I praksis blir alltid dette tallområdet stykket opp. Det kan for eksempel ha sammenheng med hvor nøyaktig vi kan eller vil foreta målingene. Og vi deler også opp datamaterialet i klasser av hensyn til hvordan vi vil presentere det i et diagram. Det å samle dataene innefor definerte grupper, ofte intervaller på tallinja, kalles å klassedele dataene.

Eksempel


Vi tar for oss et utsnitt av høydemålinger av 30 rekrutter på en sesjon. Alle høydene er målt i centimeter.

 

177 181 172 185 179 180 181 182 173 174
189 170 173 176 182 182 187 177 189 181
180 172 180 188 182 184 182 171 179 189



Høydene er her allerede klassedelt, siden det er rundet av til nærmeste centimeter. Vi prøver å lage en frekvenstabell:

 

 

Høyde (cm) Frekvens
170 1
171 1
172 2
173 2
174 1
176 1
177 2
179 2
180 3
181 3
182 5
184 1
185 1
187 1
188 1
189 3




Vi ser at dersom vi skal tegne et stolpediagram blir det 16 stolper, og de fleste av stolpene har høyde 1.

Vi velger derfor å klassedele dataene på nytt: Vi grupperer datamaterialet for eksempel i 5 centimeters intervaller, ved å samle alle høydene i intervallet [170, 175) i ei gruppe, i intervallet [175, 180) i neste gruppe, og så videre. I hver enkelt klasse blir det dermed flere tilfeller, og vi kan tegne et diagram som er mindre detaljert, men likevel gir bedre informasjon om hvordan høydene på rekruttene fordeler seg.

Her har vi tatt med høydene, 175, 180 og 185 osv., som ligger akkurat på skillene mellom to klasser, i den høyeste klassen. Hver klasse leses ”fra og med ..., til ...”. I den første klassen i frekvenstabellen blir det: ”Fra og med 170 til 175”. Det er dette vi mener når vi over har skrevet [170, 175).

Etter den nye klassedelingen får vi denne frekvenstabellen:

 

Høyde (cm) Frekvens
170 - 175 7
175 - 180 5
180 - 185 12
185 - 190 6



Nå har vi en frekvenstabell som er mer oversiktlig og informativ, med kun fire klasser, som hver dekker et område på 5 cm. Vi sier at klassebredden er 5 cm.

Publisert: 31.03.2008

Skrevet av

Knut Vedeld
Rolf Venheim

Institusjon

Universitetet i Agder
Universitetet i Oslo

Begrep

  • Data

    Opplysninger som vi samler inn kalles data.

  • Høyde

    Lengden av et linjestykke som står normalt på en flate eller en linje.

  • Intervall

    Et intervall er det samme som et tallområde. Tallene 4, 5, 6 og 7 ligger i intervallet 4 - 7 (fire til sju).
    Dersom vi ikke har sagt noe annet, lar vi øvre og nedre grense høre med til intervallet.

  • Populasjon

    En samling individer kalles en populasjon. Populasjonen kan være liten, som en klasse eller en skole, en forening eller stor som en nasjonal folketelling.

  • Søylediagram

    Søylediagrammet viser dataene fra f.eks. en spørreundersøkelse. Ved å tegne en søyle for hver type data (hvert svaralternativ), viser høyden på søylen svarfrekvensen.

  • Statistikk

    Statistikk dreier seg om innsamling og bearbeiding av data eller informasjon.

  • Tallinja

    Tallinja

    En linje der hvert punkt korresponderer til et tall og ethvert tall svarer til et punkt på linjen.

  • Vekt

    Vekt er et daglig uttrykk for det vitenskapen kaller masse.
    Ofte brukes også ordet "stoffmengde" for masse.
    Massen måler vi med en vekt. Grunnleggende enhet er kilogram (kg).