miércoles, 27 de abril de 2016

Correlación entre dos variables estadísticas

ENUNCIADO. Se ha solicitado a un grupo de 50 personas información sobre el número de horas que dedican diariamente a dormir ( variable $X$ ), y a ver la televisión ( variable $Y$), obteniéndose:
a) Representar gráficamente la nube de puntos en un diagrama cartesiano
b) Escribir las fórmulas de los parámetros y medidas que permitan realizar la aproximación de regresión lineal: medias, varianzas y desviaciones ( estándar ) marginales, y covarianza
c) Preparar una tabla de simple entrada, con todas las columnas necesarias para indicar y ordenar los cálculos de los parámetros y medidas necesarias
d) Calcular el coeficiente de correlación lineal de Pearson, e interpretarlo en los términos del enunciado. Valorar la fuerza del ajuste por regresión lineal, calculando el coeficiente de determinación
e) Determinar la recta de regresión lineal de $Y$ sobre $X$, expresándola en la forma punto-pendiente
f) Si una persona duerme $8,5$ horas, ¿ cuántas horas cabe esperar que vea la televisión ?
g) Determinar la recta de regresión lineal de $X$ sobre $Y$, expresándola en la forma punto-pendiente
h) Si una persona ve la televisión $2$ horas, ¿ cuánto tiempo cabe esperar que duerma ?
i) Representar las rectas de regresión ( de $Y$ sobre $X$, y de $X$ sobre $Y$ ) en el diagrama de la nube de puntos

SOLUCIÓN.
a)

b)
número de datos:
$N=\displaystyle \sum_{\ell=1}^{n}\,f_\ell$

En el caso que nos ocupa, $n=5$ y $N=50$

medias:
$\bar{x}=\dfrac{1}{N}\,\displaystyle \sum_{\ell=1}^{n}\,x_\ell\,f_\ell$
$\bar{y}=\dfrac{1}{N}\,\displaystyle \sum_{\ell=1}^{n}\,y_\ell\,f_\ell$

varianzas:
$s_{x}^2=\dfrac{1}{N}\,\displaystyle \sum_{\ell=1}^{n}\,x_{\ell}^2\,f_\ell-(\bar{x})^2$
$s_{y}^2=\dfrac{1}{N}\,\displaystyle \sum_{\ell=1}^{n}\,y_{\ell}^2\,f_\ell-(\bar{y})^2$

desviaciones estándar:
$s_x=\sqrt{s_{x}^2}$
$s_x=\sqrt{s_{y}^2}$

covarianza:
$s_{xy}=\dfrac{1}{N}\,\displaystyle \sum_{\ell=1}^{n}\,x_\ell\,y_\ell\,f_\ell-\bar{x}\cdot\bar{y}$

c)

Nota: En la celdas de suma, sólo aparecen los resultados que no proporciona directamente la calculadora científica ( tras haber introducido los puntos y sus frecuencias )

d)
Tras preparar la calculadora científica ( en modo de cálculo de regresión lineal ), introducimos los puntos y sus frecuencias para, después, consultar el valor de los parámetros y medidas necesarias; en particular, el coeficiente de correlación lineal de Pearson:
MODE REG (3)
  LIN (1)
    6,4;3 M+
          "n=3"
    7,3;16 M+
          "n=19"
    8,3;20 M+
          "n=39"
    9,2;10 M+
          "n=49"
    10,1;1 M+
          "n=50"

Consultando, ahora el coeficiente de correlación lineal de Pearson, $r$:
  S VAR (1)
    -> -> (3)
          $r=-0'8789 \prec 0$, lo cual indica que las funciones de regresión lineal ( tanto la recta de regresión lineal de $Y$ sobre $X$, como la recta de regresión lineal de $X$ sobre $Y$ son decrecientes

Valoremos, ahora, la fuerza del ajuste mediante el valor del coeficiente de determinación:
$R^2\overset{\text{def}}{=}(r)^2=(-0'879)^2 \approx 0'77 = 77\,\%$, que consideramos como aceptable.

e)
Recta de regresión de $Y$ sobre $X$:
$$y-\bar{y}=\dfrac{s_{xy}}{s_{x}^{2}}\,(x-\bar{x})$$

Consultando, ahora, los valores de las medias y de la desviación estándar de $X$:
  S VAR (1)
    (1)
          $\bar{x}=7'8$
    (2)
          $s_x=0'8944 \Rightarrow s_{x}^2\overset{\text{def}}{=}(s_x)^2=0'8944^2 \approx 0'8000$
    -> (1)
          $\bar{y}=2'82$

Poniendo estos valores en la ecuación de la recta en forma punto-pendiente, obtenemos
$$y-2'82=\dfrac{-0'436}{0'8000}\,(x-7'8)$$
y despejando $y$, la podemos escribir en forma explícita:
$$y=-0'545\,x+7'071$$

Nota: También podemos consultar, directamente, el valor de los coeficientes $m$ ( pendiente de la recta ) y $k$ ( ordenada en el origen ) haciendo:
  S VAR (1)
    -> -> -> (A) ( que corresponde a $k$ )
    -> -> -> (B) ( que corresponde a $m$ )

f)
Si $x=8'5$, entonces de la recta de regresión lineal de $Y$ sobre $X$, el valor aproximado que nos da el número de horas viendo la televisión es $$\hat{y}=-0'541\cdot 8'5+7'071 \approx 2'4\; \text{horas}$$

g)
Recta de regresión de $Y$ sobre $X$:
$$x-\bar{x}=\dfrac{s_{xy}}{s_{y}^{2}}\,(y-\bar{y})$$

Consultando, ahora, los valores de las medias y de la desviación estándar de $X$:
  S VAR (1)
    -> (2)
          $s_y=0'5546 \Rightarrow s_{y}^2\overset{\text{def}}{=}(s_y)^2=0'5546^2 \approx 0'3076$

por tanto,
$$x-7'8=\dfrac{0'436}{0'3076}\,(y-2'82)$$

ecuación que podemos expresar en forma explícita ( despejando $y$ ):
$$y=-0'7055\,x+8'3231$$

h)
Para $y=2$ deberíamos obtener un valor aproximado de $x$ muy próximo a $9$ horas ( de sueño ), pues viene como dato en las tablas; en efecto de la recta de regresión lineal de $X$ sobre $Y$ en forma punto-pendiente vemos que $$\hat{x}=7'8+\dfrac{(-0'436)}{0'3076}\cdot ( 2-2'82)=8'96 \approx 2\; \text{horas}$$

i)
Las rectas de regresión lineal, de $Y$ sobre $X$ y de $X$ sobre $Y$, pasan por el "centro de masas" $\bar{x}\,,\,\bar{y})$, cuyas coordenadas ya conocemos. Para representar las dos rectas, basta pues calcular un punto más para cada una de ellas, que, por comodidad, los escogeremos como los puntos de corte con el eje $Oy$; así, calculando las ordenadas en el origen de ambas rectas, obtenemos: $(0\,,\,8'3)$ para la recta de r.l. de $X$ sobre $Y$, y $(0\,,\,0'7071)$ para la recta de r.l. de $Y$ sobre $X$


$\square$