Un blog con cuestiones, ejercicios, problemas, aplicaciones y comentarios relacionados con los contenidos de Matemáticas del primer curso de Bachillerato en la modalidad de Ciencias Sociales
martes, 14 de junio de 2016
Recta de regresión lineal
Se han realizado cinco Sobservaciones de dos variables estadísticas $X$ e $Y$, obteniendo los siguientes datos:
Se pide:
a) La recta de regresión de $Y$ sobre $X$
b) El valor estimado $\hat{y}$, para $x=2{,}3$
c) El coeficiente de correlación lineal
d) El coeficiente de determinación
SOLUCIÓN.
A continuación damos una reseña de las fórmulas que se utilizan en el cálculo de la recta de regresión lineal de $Y$ sobre $X$, si bien este ejercicio es de carácter práctico y, por tanto, puede realizarse con la ayuda de la calculadora científica básica, empleando las utilidades estadísticas.
La recta de regresión lineal de $Y$ sobre $X$ en la forma punto-pendiente es $$y-\bar{y}=\dfrac{s_{xy}}{s_{x}^2}\,(x-\bar{x})$$ siendo la covarianza $s_{xy}=\displaystyle \dfrac{1}{5}\sum_{i=1}^{5}{x_{i}^2}-\bar{x}\cdot \bar{y}$, las varianzas se calculan mediante las fórmulas $s_{x}^2=\dfrac{1}{5}\,\displaystyle \sum_{i=1}^{5}\,x_{i}^2-(\bar{x})^2$ y $s_{y}^2=\dfrac{1}{5}\,\displaystyle \sum_{i=1}^{5}\,y_{i}^2-(\bar{y})^2$; y, las medias se calculan así: $\bar{x}=\displaystyle \dfrac{1}{5}\,\sum_{i=1}^{5}\,x_i$ y $\bar{y}=\displaystyle \dfrac{1}{5}\,\sum_{i=1}^{5}\,y_i$
La ecuación de la recta de regresión lineal podemos expresarla también en forma explícita $$y=m\,x+k$$ donde $m=\dfrac{s_{xy}}{s_{x}^2}$ y $k=\bar{y}-m\,\bar{x}$
Pasemos ya sin más preámbulos a los cálculos. Entrando los datos en la calculadora científica básica ( tipo Casio fx82MS ) , en modo de regresión lineal ( MODE 3 1 ):
1,20 M+
2,32 M+
3,39 M+
4,55 M+
5,58 M+
y consultando los resultados mediante S VAR:
encontramos:
$m=9{,}9$ ( pulsando la tecla B de la penúltima pantalla, en S-VAR ) y $k=11{,}1$ ( pulsando la tecla A de la penúltima pantalla, en S-VAR )
luego la recta de regresión lineal de $Y$ sobre $X$ es $$y=9{,}9\,x+11{,}1$$
b)
Sustituyendo $x$ por $2{,}3$ en la ecuación de la recta de regresión lineal de $Y$ sobre $X$, obtenemos $\hat{y}=33{,}87$.
También podemos emplear las utilidades de la calculadora, tecleando directamente ( en la última pantalla de S-VAR ):  $2{,}3$$\hat{y}$, obteniendo como respuesta $33{,}87$
c)
El coeficiente de correlación lineal podemos consultarlo también directamente en la penúltima pantalla de S-VAR, pulsando la tecla correspondiente a $r$, y obtenemos $r=0{,}9847$.
Recordemos que $-1 \le r \le 1$, por lo que el valor ( alto ) que hemos obtenido indica un buen ajuste; el signo positivo, indica que la función de regresión lineal de $Y$ sobre $X$ ( y también la de $X$ sobre $Y$ ) tiene pendiente positiva, como ya hemos visto antes.
d)
La fuerza del ajuste viene dada por el coeficiente de determinación $R^2=(r)^2=0{,}9696$, que es un valor muy alto, pues hay que recordar que $0 \le R^2 \le 1 $ y, en este caso, está muy próximo a $1$.
$\square$
miércoles, 27 de abril de 2016
Correlación entre dos variables estadísticas
a) Representar gráficamente la nube de puntos en un diagrama cartesiano
b) Escribir las fórmulas de los parámetros y medidas que permitan realizar la aproximación de regresión lineal: medias, varianzas y desviaciones ( estándar ) marginales, y covarianza
c) Preparar una tabla de simple entrada, con todas las columnas necesarias para indicar y ordenar los cálculos de los parámetros y medidas necesarias
d) Calcular el coeficiente de correlación lineal de Pearson, e interpretarlo en los términos del enunciado. Valorar la fuerza del ajuste por regresión lineal, calculando el coeficiente de determinación
e) Determinar la recta de regresión lineal de $Y$ sobre $X$, expresándola en la forma punto-pendiente
f) Si una persona duerme $8,5$ horas, ¿ cuántas horas cabe esperar que vea la televisión ?
g) Determinar la recta de regresión lineal de $X$ sobre $Y$, expresándola en la forma punto-pendiente
h) Si una persona ve la televisión $2$ horas, ¿ cuánto tiempo cabe esperar que duerma ?
i) Representar las rectas de regresión ( de $Y$ sobre $X$, y de $X$ sobre $Y$ ) en el diagrama de la nube de puntos
SOLUCIÓN.
a)
b)
número de datos:
$N=\displaystyle \sum_{\ell=1}^{n}\,f_\ell$
En el caso que nos ocupa, $n=5$ y $N=50$
medias:
$\bar{x}=\dfrac{1}{N}\,\displaystyle \sum_{\ell=1}^{n}\,x_\ell\,f_\ell$
$\bar{y}=\dfrac{1}{N}\,\displaystyle \sum_{\ell=1}^{n}\,y_\ell\,f_\ell$
varianzas:
$s_{x}^2=\dfrac{1}{N}\,\displaystyle \sum_{\ell=1}^{n}\,x_{\ell}^2\,f_\ell-(\bar{x})^2$
$s_{y}^2=\dfrac{1}{N}\,\displaystyle \sum_{\ell=1}^{n}\,y_{\ell}^2\,f_\ell-(\bar{y})^2$
desviaciones estándar:
$s_x=\sqrt{s_{x}^2}$
$s_x=\sqrt{s_{y}^2}$
covarianza:
$s_{xy}=\dfrac{1}{N}\,\displaystyle \sum_{\ell=1}^{n}\,x_\ell\,y_\ell\,f_\ell-\bar{x}\cdot\bar{y}$
c)
Nota: En la celdas de suma, sólo aparecen los resultados que no proporciona directamente la calculadora científica ( tras haber introducido los puntos y sus frecuencias )
d)
Tras preparar la calculadora científica ( en modo de cálculo de regresión lineal ), introducimos los puntos y sus frecuencias para, después, consultar el valor de los parámetros y medidas necesarias; en particular, el coeficiente de correlación lineal de Pearson:
MODE REG (3)
  LIN (1)
    6,4;3 M+
          "n=3"
    7,3;16 M+
          "n=19"
    8,3;20 M+
          "n=39"
    9,2;10 M+
          "n=49"
    10,1;1 M+
          "n=50"
Consultando, ahora el coeficiente de correlación lineal de Pearson, $r$:
  S VAR (1)
    -> -> (3)
          $r=-0'8789 \prec 0$, lo cual indica que las funciones de regresión lineal ( tanto la recta de regresión lineal de $Y$ sobre $X$, como la recta de regresión lineal de $X$ sobre $Y$ son decrecientes
Valoremos, ahora, la fuerza del ajuste mediante el valor del coeficiente de determinación:
$R^2\overset{\text{def}}{=}(r)^2=(-0'879)^2 \approx 0'77 = 77\,\%$, que consideramos como aceptable.
e)
Recta de regresión de $Y$ sobre $X$:
$$y-\bar{y}=\dfrac{s_{xy}}{s_{x}^{2}}\,(x-\bar{x})$$
Consultando, ahora, los valores de las medias y de la desviación estándar de $X$:
  S VAR (1)
    (1)
          $\bar{x}=7'8$
    (2)
          $s_x=0'8944 \Rightarrow s_{x}^2\overset{\text{def}}{=}(s_x)^2=0'8944^2 \approx 0'8000$
    -> (1)
          $\bar{y}=2'82$
Poniendo estos valores en la ecuación de la recta en forma punto-pendiente, obtenemos
$$y-2'82=\dfrac{-0'436}{0'8000}\,(x-7'8)$$
y despejando $y$, la podemos escribir en forma explícita:
$$y=-0'545\,x+7'071$$
Nota: También podemos consultar, directamente, el valor de los coeficientes $m$ ( pendiente de la recta ) y $k$ ( ordenada en el origen ) haciendo:
  S VAR (1)
    -> -> -> (A) ( que corresponde a $k$ )
    -> -> -> (B) ( que corresponde a $m$ )
f)
Si $x=8'5$, entonces de la recta de regresión lineal de $Y$ sobre $X$, el valor aproximado que nos da el número de horas viendo la televisión es $$\hat{y}=-0'541\cdot 8'5+7'071 \approx 2'4\; \text{horas}$$
g)
Recta de regresión de $Y$ sobre $X$:
$$x-\bar{x}=\dfrac{s_{xy}}{s_{y}^{2}}\,(y-\bar{y})$$
Consultando, ahora, los valores de las medias y de la desviación estándar de $X$:
  S VAR (1)
    -> (2)
          $s_y=0'5546 \Rightarrow s_{y}^2\overset{\text{def}}{=}(s_y)^2=0'5546^2 \approx 0'3076$
por tanto,
$$x-7'8=\dfrac{0'436}{0'3076}\,(y-2'82)$$
ecuación que podemos expresar en forma explícita ( despejando $y$ ):
$$y=-0'7055\,x+8'3231$$
h)
Para $y=2$ deberíamos obtener un valor aproximado de $x$ muy próximo a $9$ horas ( de sueño ), pues viene como dato en las tablas; en efecto de la recta de regresión lineal de $X$ sobre $Y$ en forma punto-pendiente vemos que $$\hat{x}=7'8+\dfrac{(-0'436)}{0'3076}\cdot ( 2-2'82)=8'96 \approx 2\; \text{horas}$$
i)
Las rectas de regresión lineal, de $Y$ sobre $X$ y de $X$ sobre $Y$, pasan por el "centro de masas" $\bar{x}\,,\,\bar{y})$, cuyas coordenadas ya conocemos. Para representar las dos rectas, basta pues calcular un punto más para cada una de ellas, que, por comodidad, los escogeremos como los puntos de corte con el eje $Oy$; así, calculando las ordenadas en el origen de ambas rectas, obtenemos: $(0\,,\,8'3)$ para la recta de r.l. de $X$ sobre $Y$, y $(0\,,\,0'7071)$ para la recta de r.l. de $Y$ sobre $X$
$\square$
domingo, 10 de mayo de 2015
Ejercicio de correlación lineal ... (Artículo escrito en catalán)
Enunciat: [ lectura preliminar ]
  A la taula de sota, es mostren les qualificacions d'un grup de $20$ alumnes en dues assignatures afins (Matemàtiques i Física, per exemple), on $x$ i $y$ representen els valors de les corresponents v.e., i $f$ el nombre d'alumnes que han obtingut cada un dels parells de notes referits:
| X | Y | f |
| $2$ | $3$ | $2$ |
| $4$ | $5$ | $3$ |
| $5$ | $4$ | $6$ |
| $6$ | $6$ | $2$ |
| $6$ | $5$ | $2$ |
| $7$ | $6$ | $2$ |
| $7$ | $7$ | $1$ |
| $8$ | $9$ | $1$ |
| $10$ | $10$ | $1$ |
Us demanem:
  a) el gràfic del núvol de punts
  b) el valor de la covariància $\sigma_{xy}$, i de les desviacions estàndard $\sigma_{x}$ i $\sigma_{y}$
  c) el valor del coeficient de correlació lineal (o de Pearson) $r$
  d) el grau de fiabilitat de la regressió lineal: $r^2$ (expressat en tant per cent)
  e.1) l'equació de la recta de regressió lineal de $Y$ sobre $X$
  e.2) si un alumne no ha pogut assistir a l'examen de l'assignatura $Y$, i té un $4$ a l'assignatura $X$, quant val la nota estimada $\hat{y}$ de $Y$ ?
  g.1) l'equació de la recta de regressió lineal de $X$ sobre $Y$
  g.2) si un alumne no ha pogut assistir a l'examen de l'assignatura $X$, i té un $5$ a l'assignatura $Y$, quant val la nota estimada $\hat{x}$ de $X$ ?
      [Resolució (no mireu la resolució abans d'intentar fer l'exercici)]
Lectura preliminar:
Donat un conjunt de $N$ punts experimentals $\displaystyle \{P(x_i,y_i)\}_{i=1,\ldots,n}$, amb freqüències $\{f_i\}_{i=1,\dots\,n}$ i de tal manera que $N=\sum_{i=1}^{n}\,f_i$,
recordem que per fer l'estimació d'un valor $\hat{y}$ de $Y$, a partir d'un valor donat $x$ de $X$, fem ús del la recta de regressió de $Y$ sobre $X$ que, en forma explícita, s'escriu
$y=a+b\,x$
on
$b = \dfrac{\sigma_{xy}}{\sigma_{x}^2}$
i
$a=\bar{y}-b\,\bar{x}$
També se solt escriure la recta de regressió lineal de $Y$ sobre $X$ en la forma punt-pendent
$y-\bar{y}=\dfrac{\sigma_{xy}}{\sigma_{x}^2}\,\big(x-\bar{x}\big)$
on la covariància de $X$ i $Y$ es defineix de la forma
$\displaystyle \sigma_{xy}=\dfrac{1}{N}\,\sum_{i=1}^{n} \,(x-\bar{x})\,(y-\bar{y})\,f_{i}$
i es demostra fàcilment que es pot calcular també de la forma
$\displaystyle \sigma_{xy}=\dfrac{1}{N}\,\sum_{i=1}^{n} x_{i}\,y_{i}\,f_{i}-\bar{x}\,\bar{y}$
amb
$N=\sum_{i=1}^{n}\,f_{i}$   (   $N$ és el nombre de punts experimentals)

Semblantment, per fer l'estimació d'un valor $\hat{x}$ de $X$, a partir d'un valor donat $y$ de $Y$, fem ús del la recta de regressió de $X$ sobre $Y$ que, en forma explícita, s'escriu
$x=a^{'}+b^{'}\,y$
on
$b^{'} = \dfrac{\sigma_{xy}}{\sigma_{y}^2}$
i
$a^{'}=\bar{x}-b^{'}\,\bar{y}$
recta que també se solt escriure en la forma punt-pendent
$x-\bar{x}=\dfrac{\sigma_{xy}}{\sigma_{y}^2}\,\big(y-\bar{y}\big)$
El coeficient de correlació lineal (o de Pearson)
$r=\dfrac{\sigma_{xy}}{\sigma_{x}\,\sigma_{y}}$
és tal que $-1 \le r \le 1$
informa del grau de validesa de la regressió lineal ( el model de regressió és òptim quan $\left|r\right|$ s'apropa a $1$ ) i, en els casos extrems:
si $\left|r\right|=1$, la dependència entre les variables $X$ i $Y$ és funcional
si $\left|r\right|=0$, les variables $X$ i $Y$ són independents
Propietats:
-
La intersecció de les rectes de regressió (de $Y$ sobre $X$, i de $X$ sobre $Y$   ) és el punt de coordenades $G(\bar{x},\bar{y})$
-
Es demostra que, si $r=0$, la recta de regressió de $Y$ sobre $X$ és igual a $y=\bar{y}$, i que la recta de regressió de $X$ sobre $Y$ és igual a $x=\bar{x}$. Per tant, ambdues rectes són perpendiculars.





