Hopp til hovedinnholdet
www.matematikk.org

Regresjon 2: hva betyr det at en kurve «passer til dataene»?

Det er forskjellige måter å måle hvor godt en kurve passer til dataene. Vi skal her presentere en som heter kvadratsum.

Vi har et sett med observasjoner og en lineær funksjon som skal passe til dataene, slik figuren under viser.

På figuren har vi tegnet inn vertikale linjer fra punktene og opp eller ned til funksjonen. Vi har også markert lengden på disse linjene. Disse lengdene sier vi er avstanden fra et punkt til funksjonen. For et bestemt punkt x,y vil avstanden til funksjonen være y-fx.

Vi vil summere opp disse avstandene, feilen, for å få et mål på hvor godt funksjonen passer. Men, legg merke til at avstanden kan være både positiv og negativ. Det blir feil hvis vi trekker fra en avstand bare fordi feilen er «på nedsiden». Løsningen er å opphøye alle avstandene i andre, da blir alt positivt. Dette kaller vi kvadratsummen:

0,92+-0,982+-0,792+-0,392+1.172=3,86

Generelt er kvadratsummen for data a1,b1,a2,b2,,an,bn og en funksjon fx

b1-fa12+b2-fa22++bn-fan2

Vi kan bruke kvadratsummen for å sammenlikne hvor godt forskjellige funksjoner passer til et datasett. Jo nærmere null, jo bedre er det. Legg merke til at definisjonen av kvadratsummen fungerer like godt for andre funksjoner som ikke er lineære.

Kommentar: Hvis du bruker kalkulator, får du ofte opp et tall «r=». Dette er en annen måte å måle hvor godt kurven passer til observasjonene. Den kalles korrelasjonskoeffisienten. Hvis korrelasjonskoeffisienten er nær 1 eller -1 har vi en godt tilpasset kurve.