Mostrando entradas con la etiqueta estadística con dos variables. Mostrar todas las entradas
Mostrando entradas con la etiqueta estadística con dos variables. Mostrar todas las entradas

domingo, 10 de mayo de 2015

Ejercicio de correlación lineal ... (Artículo escrito en catalán)

Enunciat: [ lectura preliminar ]
  A la taula de sota, es mostren les qualificacions d'un grup de $20$ alumnes en dues assignatures afins (Matemàtiques i Física, per exemple), on $x$ i $y$ representen els valors de les corresponents v.e., i $f$ el nombre d'alumnes que han obtingut cada un dels parells de notes referits:

X

Y

f

$2$

$3$

$2$

$4$

$5$

$3$

$5$

$4$

$6$

$6$

$6$

$2$

$6$

$5$

$2$

$7$

$6$

$2$

$7$

$7$

$1$

$8$

$9$

$1$

$10$

$10$

$1$

Us demanem:

  a) el gràfic del núvol de punts

  b) el valor de la covariància $\sigma_{xy}$, i de les desviacions estàndard $\sigma_{x}$ i $\sigma_{y}$

  c) el valor del coeficient de correlació lineal (o de Pearson) $r$

  d) el grau de fiabilitat de la regressió lineal: $r^2$ (expressat en tant per cent)

  e.1) l'equació de la recta de regressió lineal de $Y$ sobre $X$

  e.2) si un alumne no ha pogut assistir a l'examen de l'assignatura $Y$, i té un $4$ a l'assignatura $X$, quant val la nota estimada $\hat{y}$ de $Y$ ?

  g.1) l'equació de la recta de regressió lineal de $X$ sobre $Y$

  g.2) si un alumne no ha pogut assistir a l'examen de l'assignatura $X$, i té un $5$ a l'assignatura $Y$, quant val la nota estimada $\hat{x}$ de $X$ ?

      [Resolució (no mireu la resolució abans d'intentar fer l'exercici)]



Lectura preliminar:
Donat un conjunt de $N$ punts experimentals $\displaystyle \{P(x_i,y_i)\}_{i=1,\ldots,n}$, amb freqüències $\{f_i\}_{i=1,\dots\,n}$ i de tal manera que $N=\sum_{i=1}^{n}\,f_i$,
recordem que per fer l'estimació d'un valor $\hat{y}$ de $Y$, a partir d'un valor donat $x$ de $X$, fem ús del la recta de regressió de $Y$ sobre $X$ que, en forma explícita, s'escriu
$y=a+b\,x$
on
$b = \dfrac{\sigma_{xy}}{\sigma_{x}^2}$
i
$a=\bar{y}-b\,\bar{x}$

També se solt escriure la recta de regressió lineal de $Y$ sobre $X$ en la forma punt-pendent

$y-\bar{y}=\dfrac{\sigma_{xy}}{\sigma_{x}^2}\,\big(x-\bar{x}\big)$

on la covariància de $X$ i $Y$ es defineix de la forma

$\displaystyle \sigma_{xy}=\dfrac{1}{N}\,\sum_{i=1}^{n} \,(x-\bar{x})\,(y-\bar{y})\,f_{i}$

i es demostra fàcilment que es pot calcular també de la forma

$\displaystyle \sigma_{xy}=\dfrac{1}{N}\,\sum_{i=1}^{n} x_{i}\,y_{i}\,f_{i}-\bar{x}\,\bar{y}$

amb

$N=\sum_{i=1}^{n}\,f_{i}$   (   $N$ és el nombre de punts experimentals)




Semblantment, per fer l'estimació d'un valor $\hat{x}$ de $X$, a partir d'un valor donat $y$ de $Y$, fem ús del la recta de regressió de $X$ sobre $Y$ que, en forma explícita, s'escriu
$x=a^{'}+b^{'}\,y$
on
$b^{'} = \dfrac{\sigma_{xy}}{\sigma_{y}^2}$
i
$a^{'}=\bar{x}-b^{'}\,\bar{y}$

recta que també se solt escriure en la forma punt-pendent

$x-\bar{x}=\dfrac{\sigma_{xy}}{\sigma_{y}^2}\,\big(y-\bar{y}\big)$


El coeficient de correlació lineal (o de Pearson)

$r=\dfrac{\sigma_{xy}}{\sigma_{x}\,\sigma_{y}}$

és tal que $-1 \le r \le 1$

informa del grau de validesa de la regressió lineal ( el model de regressió és òptim quan $\left|r\right|$ s'apropa a $1$ ) i, en els casos extrems:

  • si $\left|r\right|=1$, la dependència entre les variables $X$ i $Y$ és funcional

  • si $\left|r\right|=0$, les variables $X$ i $Y$ són independents

Propietats:

  • La intersecció de les rectes de regressió (de $Y$ sobre $X$, i de $X$ sobre $Y$   ) és el punt de coordenades $G(\bar{x},\bar{y})$

  • Es demostra que, si $r=0$, la recta de regressió de $Y$ sobre $X$ és igual a $y=\bar{y}$, i que la recta de regressió de $X$ sobre $Y$ és igual a $x=\bar{x}$. Per tant, ambdues rectes són perpendiculars.

[nota del autor]