ENUNCIADO. Se han realizado cinco observaciones de dos variables estadísticas $X$ e $Y$, obteniendo los siguientes datos:
Se pide:\par
a) La recta de regresión de $Y$ sobre $X$
b) El valor estimado $\hat{y}$, para $x=11$
c) La recta de regresión de $X$ sobre $Y$ \par
d) El valor estimado $\hat{x}$, para $y=7$ \par
e) El coeficiente de correlación lineal
f) El coeficiente de determinación
SOLUCIÓN.
Si representamos los puntos dados en un diagrama cartesiano, resulta muy razonable buscar una aproximación por mínimos cuadrados ( recta de regresión lineal). Podemos avanzar que la covarianza es positiva, así como el coeficiente de correlación lineal, pues las rectas de regresión lineal de $Y$ sobre $X$ así como la r. de r.l. de $X$ sobre $Y$ tienen pendiente positiva, dada la disposición de los puntos en la nube.
En la realización de este ejercicio, dada su carácter práctico, se emplearan las utilidades de la calculadora científica Casio fx-82MS, en modo de "regresión lineal":
MODE 3 1
a)
Para obtener la recta de regresión de $Y$ sobre $X$, introducimos primero las parejas de datos $(x,y)$, entrando primero el valor $x$, pulsando la tecla ",", y luego el valor $y$, validando finalmente la entrada de la pareja de datos con la pulsación de la tecla M+:
5,2 M+
7,3 M+
10,4 M+
13,5 M+
15,6 M+
A continuación, podemos consultar en la calculadora los resultados mediante las teclas S-SUM ( valores de los sumatorios que aparecerían en las celdas de suma de una tabla ) y S-VAR ( valores de los parámetros de cada una de las dos variables, así como el del coeficiente de regresión, los coeficientes de la recta de regresión, e incluso el valor estimado $\hat{y}$ ( para $x=11$) que se pide ). Veamos estos resultados:
Ecuación de la recta de regresión lineal ( de $Y$ sobre $X$ ) en la forma punto-pendiente viene dada por $$y-\bar{y}=\dfrac{s_{xy}}{s_{x}^2}\,(x-\bar{x})$$ que en forma explícita es $y=m\,x+k$. Con ayuda de la calculadora, los coeficientes obtenidos ( con cuatro dígitos significativos ) son: $k=0{,}1765$ ( S-VAR A ) y $m=0{,}3824$ ( S-VAR B ). Por tanto, la recta pedida es $y=0{,}3824\,x+0{,}1765$
Nota: Recordemos que $m=\dfrac{s_{xy}}{s_{x}^2}$, donde la covarianza, $s_{xy}$, se calcula mediante $\displaystyle \dfrac{1}{N}(\sum_{1=1}^{N}\,x_{i}\,y_{i})-\bar{x}\cdot \bar{y}$ y resulta ser $5{,}2$. Los valores de las medias y de las desviaciones estándar ( de $X$ y de $Y$ ) pueden consultarse mediante las utilidades S-VAR. El valor de la suma puede consultarse mediante las utilidades S-SUM.
b)
Sustituyendo $x$ ( en la ecuación de la recta de $Y$ sobre $X$ ) por $11$, encontramos: $\hat{y}=4{,}3823\approx 4,4$. Nota, esto podemos consultarlo directamente en la calculadora, mediante las pulsaciones de teclas: $11$ S-VAR $\hat{y}$.
c)
La recta de regresión lineal de $X$ sobre $Y$ en forma punto-pendiente es $$x-\bar{x}=\dfrac{s_{xy}}{s_{y}^2}\,(y-\bar{y})$$ Con los datos y, expresándola en forma explícita, nos queda $$y=0{,}3846\,x+0{,}15$$
Observación: Las rectas de regresión lineal obtenidas ( de $Y$ sobre $X$, y de $X$ sobre $Y$ ) son casi paralelas, lo cual indica que el coeficiente de correlación lineal es muy alto ( muy próximo a $1$ )
d)
Consultando directamente en la calculadora, mediante las pulsaciones de teclas: $7$ S-VAR $\hat{x}$, obtenemos $\bar{x} \approx 17{,}8$. Nota: también podemos obtener este resultado sustituyendo los valores de los parámetros ( ya calculados ) así como el valor de $y$ dado ( que es $7$ ) en la ecuación de arriba.
e)
El coeficiente de correlación incorpora el signo de la covarianza y nos informa sobre la bondad del ajuste: $r\overset{\text{def}}{=}\dfrac{s_{xy}}{s_x\cdot s_y}=\dfrac{5{,}2}{3{,}6878 \cdot 1{,}4142}=0{,}9971$; al ser muy próximo a $1$, podemos afirmar que el ajuste realizado por regresión lineal es muy bueno.
f)
El coeficiente de determinación, $R^2 \overset{\text{def}}{=}r^2$, mide la fuerza del ajuste; su valor es igual a $R^2= (0{,}9971)^2=0{,}9942 \approx 99\,\%$, que es muy alto.
$\square$