Regression

Formålet med siden er at du her kan få en større forståelse for hvad det faktisk er din computer laver, når fx klikker på en tendenslinie i et xy-plot.
Som udgangspunkt ser vi lige på en regressionsopgave løst i excel.
Og vi har en fin tendenslinie med en $R^2=0,94$ så kun 6% af vores observationer kan ikke forklares med modellen.
Så samlet set en god approksimation.
Nu vil vi nu se på den matematik som ligger bag regressionslinien, og vær lige opmærksom på at alle de antagelser man faktisk skal gøre sig, inden man beregner en regressionslinie ikke er medtaget her. Som vi kan se på tendenslinien har vi en ret linie, i regression har den dog en lille krølle, den lille fidus efter den rette linie vender vi tilbage til.
$\hat y=ax + b + \epsilon$ det græske bogstav epsilon er et udtryk for den "fejl" vores linie har. Error eller residualleddet som vi siger i statistik, og det er når vi kvadrere residualleddet vi har $R^2$.
Nu til matematikken:
Måden det løses på kaldes OLS "Ordinary least square" og matematikken ser på aftstanden fra vores x- og y- værdier til gennemsnittet, næsten det samme som når man finder spredningen. SS betyder "Sum of Squares"
$\begin{align} SS_x &= \sum_{i=1}^{n} (x_i-\bar x)^2\\ SS_y &= \sum_{i=1}^{n} (y_i-\bar y)^2\\ SS_{xy} &= \sum_{i=1}^{n} (y_1-\bar y)(x_i-\bar x) \end{align}$
Nu har vi formlerne til mellemregningerne så vi kan nu finde a og b:
$a= \frac{SS_{xy}}{SS_x}$ og $b=\bar y - a\bar x$
Så nu regner vi ved indsættelse:
$SS_x=(12-18,5)^2+(14-18,5)^2+(14-18,5)^2+(16-18,5)^2+(17-18,5)^2+(19-18,5)^2+(20-18,5)^2+(22-18,5)^2+(24-18,5)^2+(27-18,5)^2=208,8$ $SS_y=(4-9,6)^2+(4-9,6)^2+(5-9,6)^2+(7-9,6)^2+(9-9,6)^2+(10-9,6)^2+(13-9,6)^2+(14-9,6)^2+(14-9,6)^2+(16-9,6)^2=182,4$ $SS_y $ skal dog ikke lige benyttes nu.
$SS_{xy}=(4-9,6)(12-18,5)+(4-9,6)(14-18,5)+(5-9,6)(14-18,5)+(7-9,6)(16-18,5)+(9-9,6)(17-18,5)+(10-9,6)(19-18,5)+(13-9,6)(20-18,5)+(14-9,6)(22-18,5)+(14-9,6)(24-18,5)+(16-9,6)(27-18,5)=189$ Nu kan vi finde a og b
$a=\frac{189}{208,5}=0,9065$ og $b=9,6-0,9065\cdot 18,5=-7,1698$
Så samlet er vores tendeslinie $\hat y = 0,9065x-7,1698$
Nu skal vi se på hvor godt vores data hænger sammen, det kalder vi regressionen r:
$r=\frac{SS_{xy}}{\sqrt{SS_xSS_y}}$
$r=\frac{189}{\sqrt{208,5 \cdot 182,4}}=0,9692$ jo tættere på -1 eller +1 jo bedre, tæt på nul, ingen sammenhæng.
Nu kvadrere vi r $R^2=r^2 \; dvs \; R^2=0,9692^2=0,9393$ og nu har vi et udtryk for hvor præcis vores model er.
Det er MEGET vigtigt at forstå, at bare fordi der er en matematisk regression mellem to datasæt behøver der ikke være en sammenhæng (kausalitet).
fx er der en fin regression mellem storkepar og børnefødsler i DK.
Nu kan den snedig nok gennemskue at finde tendenslinien via håndkraft er lidt kedeligt med 1000 observationer, men nu ved du hvad det faktisk er excel eller lign laver for dig.