Enunciat: [ lectura preliminar ]
  A la taula de sota, es mostren les qualificacions d'un grup de $20$ alumnes en dues assignatures afins (Matemàtiques i Física, per exemple), on $x$ i $y$ representen els valors de les corresponents v.e., i $f$ el nombre d'alumnes que han obtingut cada un dels parells de notes referits:
X | Y | f |
$2$ | $3$ | $2$ |
$4$ | $5$ | $3$ |
$5$ | $4$ | $6$ |
$6$ | $6$ | $2$ |
$6$ | $5$ | $2$ |
$7$ | $6$ | $2$ |
$7$ | $7$ | $1$ |
$8$ | $9$ | $1$ |
$10$ | $10$ | $1$ |
Us demanem:
  a) el gràfic del núvol de punts
  b) el valor de la covariància $\sigma_{xy}$, i de les desviacions estàndard $\sigma_{x}$ i $\sigma_{y}$
  c) el valor del coeficient de correlació lineal (o de Pearson) $r$
  d) el grau de fiabilitat de la regressió lineal: $r^2$ (expressat en tant per cent)
  e.1) l'equació de la recta de regressió lineal de $Y$ sobre $X$
  e.2) si un alumne no ha pogut assistir a l'examen de l'assignatura $Y$, i té un $4$ a l'assignatura $X$, quant val la nota estimada $\hat{y}$ de $Y$ ?
  g.1) l'equació de la recta de regressió lineal de $X$ sobre $Y$
  g.2) si un alumne no ha pogut assistir a l'examen de l'assignatura $X$, i té un $5$ a l'assignatura $Y$, quant val la nota estimada $\hat{x}$ de $X$ ?
      [Resolució (no mireu la resolució abans d'intentar fer l'exercici)]
Lectura preliminar:
Donat un conjunt de $N$ punts experimentals $\displaystyle \{P(x_i,y_i)\}_{i=1,\ldots,n}$, amb freqüències $\{f_i\}_{i=1,\dots\,n}$ i de tal manera que $N=\sum_{i=1}^{n}\,f_i$,
recordem que per fer l'estimació d'un valor $\hat{y}$ de $Y$, a partir d'un valor donat $x$ de $X$, fem ús del la recta de regressió de $Y$ sobre $X$ que, en forma explícita, s'escriu
$y=a+b\,x$
on
$b = \dfrac{\sigma_{xy}}{\sigma_{x}^2}$
i
$a=\bar{y}-b\,\bar{x}$
També se solt escriure la recta de regressió lineal de $Y$ sobre $X$ en la forma punt-pendent
$y-\bar{y}=\dfrac{\sigma_{xy}}{\sigma_{x}^2}\,\big(x-\bar{x}\big)$
on la covariància de $X$ i $Y$ es defineix de la forma
$\displaystyle \sigma_{xy}=\dfrac{1}{N}\,\sum_{i=1}^{n} \,(x-\bar{x})\,(y-\bar{y})\,f_{i}$
i es demostra fàcilment que es pot calcular també de la forma
$\displaystyle \sigma_{xy}=\dfrac{1}{N}\,\sum_{i=1}^{n} x_{i}\,y_{i}\,f_{i}-\bar{x}\,\bar{y}$
amb
$N=\sum_{i=1}^{n}\,f_{i}$   (   $N$ és el nombre de punts experimentals)
Semblantment, per fer l'estimació d'un valor $\hat{x}$ de $X$, a partir d'un valor donat $y$ de $Y$, fem ús del la recta de regressió de $X$ sobre $Y$ que, en forma explícita, s'escriu
$x=a^{'}+b^{'}\,y$
on
$b^{'} = \dfrac{\sigma_{xy}}{\sigma_{y}^2}$
i
$a^{'}=\bar{x}-b^{'}\,\bar{y}$
recta que també se solt escriure en la forma punt-pendent
$x-\bar{x}=\dfrac{\sigma_{xy}}{\sigma_{y}^2}\,\big(y-\bar{y}\big)$
El coeficient de correlació lineal (o de Pearson)
$r=\dfrac{\sigma_{xy}}{\sigma_{x}\,\sigma_{y}}$
és tal que $-1 \le r \le 1$
informa del grau de validesa de la regressió lineal ( el model de regressió és òptim quan $\left|r\right|$ s'apropa a $1$ ) i, en els casos extrems:
si $\left|r\right|=1$, la dependència entre les variables $X$ i $Y$ és funcional
si $\left|r\right|=0$, les variables $X$ i $Y$ són independents
Propietats:
-
La intersecció de les rectes de regressió (de $Y$ sobre $X$, i de $X$ sobre $Y$   ) és el punt de coordenades $G(\bar{x},\bar{y})$
-
Es demostra que, si $r=0$, la recta de regressió de $Y$ sobre $X$ és igual a $y=\bar{y}$, i que la recta de regressió de $X$ sobre $Y$ és igual a $x=\bar{x}$. Per tant, ambdues rectes són perpendiculars.