domingo, 10 de mayo de 2015

Ejercicio de correlación lineal ... (Artículo escrito en catalán)

Enunciat: [ lectura preliminar ]
  A la taula de sota, es mostren les qualificacions d'un grup de $20$ alumnes en dues assignatures afins (Matemàtiques i Física, per exemple), on $x$ i $y$ representen els valors de les corresponents v.e., i $f$ el nombre d'alumnes que han obtingut cada un dels parells de notes referits:

X

Y

f

$2$

$3$

$2$

$4$

$5$

$3$

$5$

$4$

$6$

$6$

$6$

$2$

$6$

$5$

$2$

$7$

$6$

$2$

$7$

$7$

$1$

$8$

$9$

$1$

$10$

$10$

$1$

Us demanem:

  a) el gràfic del núvol de punts

  b) el valor de la covariància $\sigma_{xy}$, i de les desviacions estàndard $\sigma_{x}$ i $\sigma_{y}$

  c) el valor del coeficient de correlació lineal (o de Pearson) $r$

  d) el grau de fiabilitat de la regressió lineal: $r^2$ (expressat en tant per cent)

  e.1) l'equació de la recta de regressió lineal de $Y$ sobre $X$

  e.2) si un alumne no ha pogut assistir a l'examen de l'assignatura $Y$, i té un $4$ a l'assignatura $X$, quant val la nota estimada $\hat{y}$ de $Y$ ?

  g.1) l'equació de la recta de regressió lineal de $X$ sobre $Y$

  g.2) si un alumne no ha pogut assistir a l'examen de l'assignatura $X$, i té un $5$ a l'assignatura $Y$, quant val la nota estimada $\hat{x}$ de $X$ ?

      [Resolució (no mireu la resolució abans d'intentar fer l'exercici)]



Lectura preliminar:
Donat un conjunt de $N$ punts experimentals $\displaystyle \{P(x_i,y_i)\}_{i=1,\ldots,n}$, amb freqüències $\{f_i\}_{i=1,\dots\,n}$ i de tal manera que $N=\sum_{i=1}^{n}\,f_i$,
recordem que per fer l'estimació d'un valor $\hat{y}$ de $Y$, a partir d'un valor donat $x$ de $X$, fem ús del la recta de regressió de $Y$ sobre $X$ que, en forma explícita, s'escriu
$y=a+b\,x$
on
$b = \dfrac{\sigma_{xy}}{\sigma_{x}^2}$
i
$a=\bar{y}-b\,\bar{x}$

També se solt escriure la recta de regressió lineal de $Y$ sobre $X$ en la forma punt-pendent

$y-\bar{y}=\dfrac{\sigma_{xy}}{\sigma_{x}^2}\,\big(x-\bar{x}\big)$

on la covariància de $X$ i $Y$ es defineix de la forma

$\displaystyle \sigma_{xy}=\dfrac{1}{N}\,\sum_{i=1}^{n} \,(x-\bar{x})\,(y-\bar{y})\,f_{i}$

i es demostra fàcilment que es pot calcular també de la forma

$\displaystyle \sigma_{xy}=\dfrac{1}{N}\,\sum_{i=1}^{n} x_{i}\,y_{i}\,f_{i}-\bar{x}\,\bar{y}$

amb

$N=\sum_{i=1}^{n}\,f_{i}$   (   $N$ és el nombre de punts experimentals)




Semblantment, per fer l'estimació d'un valor $\hat{x}$ de $X$, a partir d'un valor donat $y$ de $Y$, fem ús del la recta de regressió de $X$ sobre $Y$ que, en forma explícita, s'escriu
$x=a^{'}+b^{'}\,y$
on
$b^{'} = \dfrac{\sigma_{xy}}{\sigma_{y}^2}$
i
$a^{'}=\bar{x}-b^{'}\,\bar{y}$

recta que també se solt escriure en la forma punt-pendent

$x-\bar{x}=\dfrac{\sigma_{xy}}{\sigma_{y}^2}\,\big(y-\bar{y}\big)$


El coeficient de correlació lineal (o de Pearson)

$r=\dfrac{\sigma_{xy}}{\sigma_{x}\,\sigma_{y}}$

és tal que $-1 \le r \le 1$

informa del grau de validesa de la regressió lineal ( el model de regressió és òptim quan $\left|r\right|$ s'apropa a $1$ ) i, en els casos extrems:

  • si $\left|r\right|=1$, la dependència entre les variables $X$ i $Y$ és funcional

  • si $\left|r\right|=0$, les variables $X$ i $Y$ són independents

Propietats:

  • La intersecció de les rectes de regressió (de $Y$ sobre $X$, i de $X$ sobre $Y$   ) és el punt de coordenades $G(\bar{x},\bar{y})$

  • Es demostra que, si $r=0$, la recta de regressió de $Y$ sobre $X$ és igual a $y=\bar{y}$, i que la recta de regressió de $X$ sobre $Y$ és igual a $x=\bar{x}$. Per tant, ambdues rectes són perpendiculars.

[nota del autor]