miércoles, 7 de septiembre de 2016

Ejercicio de correlación lineal

ENUNCIADO. Se han realizado cinco observaciones de dos variables estadísticas $X$ e $Y$, obteniendo los siguientes datos:$$X:1,2,3,4,5$$ $$Y:20,32,39,55,58$$
Se pide:
a) La recta de regresión de $Y$ sobre $X$
b) El valor estimado de $Y$, $\hat{y}$, para $x=3,4$
c) La recta de regresión de $X$ sobre $Y$
d) El valor estimado de $X$, $\hat{x}$, para $y=37$
e) El valor del coeficiente de correlación lineal $r$
f) El valor del coeficiente de determinación $R^2$

SOLUCIÓN.
a)
La recta de regresión de $Y$ sobre $X$, en la forma punto-pendiente, viene dada por $$y-\bar{y}=\dfrac{s_{xy}}{s_{x}^{2}}\,(x-\bar{x}) \quad \quad (1)$$
Introduciendo los datos en la calculadora científica ( empleando las utilidades estadísticas de regresión ) obtenemos:
$\bar{x}=3$ ( media de $X$ )
$\bar{y}=40,8$ ( media de $Y$ )
$\sum\,xy=711$ ( suma de los productos $xy$ )
$s_x=1,4142$ ( desviación estándar de $X$ )
$x_y=14,2183$ ( desviación estándar de $Y$ )
$N=5$ ( número de pares $(x,y)$ )
Con estos resultados podemos calcular:
$s_{xy}=\dfrac{\sum\,xy}{N}-\bar{x}\cdot \bar{y}=19,8$ ( covarianza )

Entonces, de (1) obtenemos la recta de regresión de $Y$ sobre $X$ pedida $$y-40,8=9,9\cdot(x-3)\quad \quad (2)$$

b)
Sustituyendo en (2) el valor dado de $X$ ( $x=3,4$ ) calculamos el valor estimado $\hat{y}$ de $Y$ que le corresponde: $$\hat{y}=44,8$$

c)
La recta de regresión de $X$ sobre $Y$, en la forma punto-pendiente, viene dada por $$x-\bar{x}=\dfrac{s_{xy}}{s_{y}^{2}}\,(y-\bar{y}) \quad \quad (3)$$ que, con los datos obtenidos con ayuda de la calculadora, queda $$x-3=0,0979\cdot (y-\bar{y}) \quad \quad (4)$$

d)
Sustituyendo en (4) el valor dado de $Y$ ( $y=37$ ) calculamos el valor estimado $\hat{x}$ de $X$ que le corresponde: $$\hat{x}=2,6$$

e)
El coeficiente de correlación lineal ( expresa la bondad del ajuste lineal ) viene dado por $$r=\dfrac{s_{xy}}{s_{x} \cdot s_{y}}$$ y poniendo los datos tiene el siguiente valor $$r=\dfrac{19,8}{1,4142\cdot 14,2183}=0,9847$$ que podemos considerar aceptable. Nota: recordemos que $-1 \le r \le 1 $ y que nos damos por satisfechos con la aproximación por regresión lineal si $\left| r \right|$ es razonablemente próximo a $1$.

f)
El coeficiente de determinación $R^2$ se define como $R^2=(r)^2$ y expresa la fuerza del ajuste. En nuestro caso, toma el siguiente valor $R^2=(0,9847)^2=97\,\%$, que no es bastante buena.
$\square$