www.matematikk.org

Data, populasjon og utvalg

Vi begynner med å gjennomgå noen grunnleggende begrep innen statistikk.

Data

I statistikken brukes ordet data som betegnelse på den samlingen av informasjon vi er interessert i å behandle.

Når man snakker om data, tenker man kanskje først og fremst på en mengde av tall, men det finnes også andre typer data som ikke er numeriske, for eksempel bokstaver og gjenstander.

Nå skal vi se på et eksempel på ikke-numeriske data.

Kjører du snowboard?

Peder var nysgjerrig på hvor stor andel av vennene som kjørte snowboard. Siden det var litt vanskelig å spørre alle vennene hans, valgte han ut ti tilfeldige og stilte spørsmålet. Svarene var:

 Ja  Ja   Ja   Nei   Ja   Nei   Nei   Ja   Ja   Nei 

Peders data er denne listen av besvarelser fra sine ti venner.

Populasjon

Ofte vil vi finne ut interessante fenomener i en populasjon. Med populasjon mener vi en samling av individer eller objekter som har noen felles egenskaper. I eksempelet over er populasjonen alle Peders venner.

Utvalg

Som oftest er det ikke så praktisk å samle inn data fra alle individene i hele populasjonen, derfor nøyer vi oss bare med noen (tilfeldig!) utvalgte. Et eksempel er ved valgmålinger: Å spørre alle i Norge tar for mye tid, så man spør bare noen, og bruker dem som et anslag på hva hele landet ville stemt. De som har deltatt i undersøkelsen kalles for et utvalg. De er en mindre gruppe fra populasjonen og representerer populasjonen. Forholdet mellom utvalg og populasjon vises i figuren nedenfor.

I den store sirkelen står det Populasjon. 
I den lille sirkelen som ligger inn i den store står Utvalg.

Utvalget i eksemplet over er de ti vennene Peder stilte spørsmålet til.

Gruppering av data

Vi pleier å ordne eller gruppere observasjoner etter sine naturlige egenskaper for å få en bedre oversikt over informasjonen dataene bærer. Datamaterialet kan også deles opp i grupper/klasser avhengig av hvordan de presenteres i et diagram. Gruppering eller klasseinndeling av data betyr å samle data i definerte grupper, som oftest intervaller på tallinjen.

Sortert tabell over høyder i en skoleklasse


 165   165   168   169   170   172   172   173   175   175 
 176  178  179  180  180  180  181  182  184  (cm)

 

Noen ganger kan det være ønskelig å gruppere høydene i for eksempel intervaller på 5 centimeter. Det betyr å samle alle høydene i intervallet [165,170 i en gruppe, i intervallet [170,175 i neste gruppe, og så videre. På denne måten kan vi lage følgende tabell for våre data:

 Gruppe              
 Høyde (cm)                                              
 165169  165165168169
 170174  170172172173
 175179  175175176178179
 180184  180180180181182184

 

Merk at når vi skriver intervallet [a,b mener vi fra og med a og til, men ikke med, b, altså at a er med i intervallet mens b ikke er det. Synes du ikke at denne grupperingen gir et mer lettfattelig bilde av hvordan høydene er fordelt mellom elevene?

Vår gruppering består av fire klasser der hver klasse omfatter et område på 5 centimeter. Vi sier dermed at klassebredden er 5 cm. Man kan fritt velge en annen klassebredde enn 5 cm, men da vil selvsagt antallet observasjoner i hver klasse forandre seg.

Publisert: 27.07.2013 Endret: 06.01.2014

Begrep

  • Data

    Opplysninger som vi samler inn kalles data.

  • Ikke-numeriske data

    Data som ikke er tall (f.eks. bokstaver og gjenstander) kalles ikke-numeriske data.  

  • Numeriske data

    Numeriske data består av tall.

  • Populasjon

    En samling individer kalles en populasjon. Populasjonen kan være liten, som en klasse eller en skole, en forening eller stor som en nasjonal folketelling.

  • Tallinja

    Tallinja

    En linje der hvert punkt korresponderer til et tall og ethvert tall svarer til et punkt på linjen.

  • Utvalg

    Utvalget er en selektert samling av individer vi henter data fra. Det er en representativ gruppe for populasjonen.