domingo, 10 de mayo de 2015

Ejercicio de correlación lineal ... (Artículo escrito en catalán)

Enunciat: [ lectura preliminar ]
  A la taula de sota, es mostren les qualificacions d'un grup de $20$ alumnes en dues assignatures afins (Matemàtiques i Física, per exemple), on $x$ i $y$ representen els valors de les corresponents v.e., i $f$ el nombre d'alumnes que han obtingut cada un dels parells de notes referits:

X

Y

f

$2$

$3$

$2$

$4$

$5$

$3$

$5$

$4$

$6$

$6$

$6$

$2$

$6$

$5$

$2$

$7$

$6$

$2$

$7$

$7$

$1$

$8$

$9$

$1$

$10$

$10$

$1$

Us demanem:

  a) el gràfic del núvol de punts

  b) el valor de la covariància $\sigma_{xy}$, i de les desviacions estàndard $\sigma_{x}$ i $\sigma_{y}$

  c) el valor del coeficient de correlació lineal (o de Pearson) $r$

  d) el grau de fiabilitat de la regressió lineal: $r^2$ (expressat en tant per cent)

  e.1) l'equació de la recta de regressió lineal de $Y$ sobre $X$

  e.2) si un alumne no ha pogut assistir a l'examen de l'assignatura $Y$, i té un $4$ a l'assignatura $X$, quant val la nota estimada $\hat{y}$ de $Y$ ?

  g.1) l'equació de la recta de regressió lineal de $X$ sobre $Y$

  g.2) si un alumne no ha pogut assistir a l'examen de l'assignatura $X$, i té un $5$ a l'assignatura $Y$, quant val la nota estimada $\hat{x}$ de $X$ ?

      [Resolució (no mireu la resolució abans d'intentar fer l'exercici)]



Lectura preliminar:
Donat un conjunt de $N$ punts experimentals $\displaystyle \{P(x_i,y_i)\}_{i=1,\ldots,n}$, amb freqüències $\{f_i\}_{i=1,\dots\,n}$ i de tal manera que $N=\sum_{i=1}^{n}\,f_i$,
recordem que per fer l'estimació d'un valor $\hat{y}$ de $Y$, a partir d'un valor donat $x$ de $X$, fem ús del la recta de regressió de $Y$ sobre $X$ que, en forma explícita, s'escriu
$y=a+b\,x$
on
$b = \dfrac{\sigma_{xy}}{\sigma_{x}^2}$
i
$a=\bar{y}-b\,\bar{x}$

També se solt escriure la recta de regressió lineal de $Y$ sobre $X$ en la forma punt-pendent

$y-\bar{y}=\dfrac{\sigma_{xy}}{\sigma_{x}^2}\,\big(x-\bar{x}\big)$

on la covariància de $X$ i $Y$ es defineix de la forma

$\displaystyle \sigma_{xy}=\dfrac{1}{N}\,\sum_{i=1}^{n} \,(x-\bar{x})\,(y-\bar{y})\,f_{i}$

i es demostra fàcilment que es pot calcular també de la forma

$\displaystyle \sigma_{xy}=\dfrac{1}{N}\,\sum_{i=1}^{n} x_{i}\,y_{i}\,f_{i}-\bar{x}\,\bar{y}$

amb

$N=\sum_{i=1}^{n}\,f_{i}$   (   $N$ és el nombre de punts experimentals)




Semblantment, per fer l'estimació d'un valor $\hat{x}$ de $X$, a partir d'un valor donat $y$ de $Y$, fem ús del la recta de regressió de $X$ sobre $Y$ que, en forma explícita, s'escriu
$x=a^{'}+b^{'}\,y$
on
$b^{'} = \dfrac{\sigma_{xy}}{\sigma_{y}^2}$
i
$a^{'}=\bar{x}-b^{'}\,\bar{y}$

recta que també se solt escriure en la forma punt-pendent

$x-\bar{x}=\dfrac{\sigma_{xy}}{\sigma_{y}^2}\,\big(y-\bar{y}\big)$


El coeficient de correlació lineal (o de Pearson)

$r=\dfrac{\sigma_{xy}}{\sigma_{x}\,\sigma_{y}}$

és tal que $-1 \le r \le 1$

informa del grau de validesa de la regressió lineal ( el model de regressió és òptim quan $\left|r\right|$ s'apropa a $1$ ) i, en els casos extrems:

  • si $\left|r\right|=1$, la dependència entre les variables $X$ i $Y$ és funcional

  • si $\left|r\right|=0$, les variables $X$ i $Y$ són independents

Propietats:

  • La intersecció de les rectes de regressió (de $Y$ sobre $X$, i de $X$ sobre $Y$   ) és el punt de coordenades $G(\bar{x},\bar{y})$

  • Es demostra que, si $r=0$, la recta de regressió de $Y$ sobre $X$ és igual a $y=\bar{y}$, i que la recta de regressió de $X$ sobre $Y$ és igual a $x=\bar{x}$. Per tant, ambdues rectes són perpendiculars.

[nota del autor]

sábado, 9 de mayo de 2015

La media aritmética de ... ( Artículo escrito en catalán )

Exercici 1:
Considereu que la mitjana aritmètica d'un conjunt de $n$ valors d'una v.a. $X$ val $m$, i que la variància val $v$. Si a cada un dels valors $\{x_i\} \quad (i=1,\ldots,n)$ li sumem una constant $k$ (coneguda), calculeu el valor de la nova mitjana aritmètica i el valor de la nova variància.

      [Resolució (no mireu la resolució abans d'intentar fer l'exercici)]

Exercici 2:
Tres grups d'alumnes (A, B i C) han obtingut els següents resultats en una mateixa prova:
$\text{grup A}:\,\{2\;,\;3\;,\;5\;,\;6\;,\;7\;,\;8\}$
$\text{grup B}:\,\{1\;,\;2\;,\;7\;,\;8\;,\;6\;,\;9\}$
$\text{grup C}:\,\{4\;,\;2\;,\;6\;,\;5\;,\;5\;,\;7\}$
Des del punt de vista estadístic, quin dels tres grups podem afirmar que és més eficient en el seu procés d'aprenentatge ?

      [Resolució (no mireu la resolució abans d'intentar fer l'exercici)]


Solució de l'exercici 1:
La nova mitjana aritmètica és igual a $m+k$, i la variància pren el mateix valor, $v$.
$\square$


Solució de l'exercici 2:
Calculant els paràmetres estadístics corresponents als tres grups, trobem:


grup

$\bar{x}$


$\sigma$


$\dfrac{\sigma}{\bar{x}}$


$A$


$5,2$


$2,1$


$0,40$


$B$


$5,3$


$2,9$


$0,55$


$C$


$4,8$


$1,6$


$0,33$

Observem que la mitjana aritmètica és similar en tots tres grups: $5$, aproximant a les unitats. Llavors, per determinar quin dels tres grups obté millors resultats, ens fixarem amb el valor del coeficient de variació; el més petit correspon al grup $C$, i amb una diferència significativa de deu punts percentuals en relació al grup $A$, i de vint en relació al grup $B$. Per tant, segons aquest raonament estadístic, el millor grup de treball és el grup $C$.
$\square$

[nota del autor]

Una urna contiene ... ( Artículo escrita en catalán )

Enunciat:
Una urna A conté 3 boles vermelles i 1 bola blanca; una altra urna B conté 5 boles vermelles i 2 boles blanques, i una tercera urna c conté 1 bola vermella i 2 boles blanques. Escollim a l'atzar una de les tres urnes i, a continuació, fem l'extracció (a l'atzar) d'una de les boles que conté. Calculeu la probabilitat que:
  a) la bola sigui blanca
  b) sigui una bola de la urna A, sabent que la bola és blanca


Resolució:
apartat a)
Anomenem:
  A al succés a l'atzar "escollir la urna A"; B, al succés a l'atzar "escollir la urna B"; i C, al succés "escollir a l'atzar la urna C".

Per altra banda, designem amb la lletra W el succés "extraure una bola blanca" (d'una de les tres urnes, escollida aleatòriament).



D'acord amb el teorema de la probabilitat total podem escriure
$P(W)=P(W|A)\cdot P(A)+P(W|B)\cdot P(B)+P(W|C)\cdot P(C) \quad \quad (1)$

Tenint en compte el contingut de cada urna, assignem les probabilitats condicionades corresponents d'acord amb el principi de Laplace
$P(W|A)=\dfrac{1}{4}$
$P(W|B)=\dfrac{2}{7}$
$P(W|A)=\dfrac{2}{3}$

Pel que fa a l'elecció de la urna, cal suposar que els successos A, B i C, són equiprobables i, d'acord amb el principi de Laplace
$P(A)=P(B)=P(C)=\dfrac{1}{3}$

Substituint aquests coeficients de probabilitat a l'expressió (1) trobem la probabilitat demanada
$P(W)=\dfrac{1}{4} \cdot \dfrac{1}{3}+ \dfrac{2}{7} \cdot \dfrac{1}{3}+\dfrac{2}{3} \cdot \dfrac{1}{3}$
    $=\dfrac{101}{252}\approx 40 \text{\%}$

apartat b)
Del teorema de Bayes tenim que
$P(A|W)=\dfrac{P(W|A)\cdot P(A)}{P(W)}$

            $=\dfrac{\dfrac{1}{4} \cdot \dfrac{1}{3}}{\dfrac{101}{252}}$

            $=\dfrac{21}{101}$

            $\approx 21 \,\%$

$\square$

[nota del autor]

En un examen, la puntuación media ha sido de ... ( Artículo escrito en catalán )

Enunciat:
En un examen, la puntuació mitjana ha estat de 4,5 punts, i la desviació estàndard d'1,5. Suposant que les puntuacions es distribueixen normalment, quin percentatge d'alumnes han obtingut més d'un $5$ ?


Resolució:
Designem amb $X$ la variable ateatòria "puntuació", els valors de la qual pertanyen a l'interval
$\left[ 0, 10 \right] \in \mathbb{R}$
D'acord amb l'enunciat,
$X \sim N(4,5 \; , \; 1,5)$
Llavors,
$P(X > 5) = 1-P(X \le 5) \quad \quad (1)$
I, per calcular $P(X\le 5)$, farem el canvi de variable
$Z=\dfrac{X-\mu}{\sigma}$
amb la qual cosa
$P(X\le 5)=P(Z \le k)$
on
$k=\dfrac{5-4,5}{1,5}=\dfrac{1}{3}$
Tenint en compte que
$P(Z \le \frac{1}{3})=F(\frac{1}{3}) \approx 0,333$
    - on $F(z)$ és la funció de distribució de probabilitat de $Z$ -
farem, ara, ús de les taules de $Z$ que és una $N(0,1)$
i trobem que
$F(0,33) = 0,6293$
i
$F(0,34) = 0,6331$
Interpolant linealment,
$\dfrac{F(0,34)-F(\frac{1}{3})}{0,34-0,333}=\dfrac{F(0,34)-F(0,33)}{0,34-0,33}$
d'on
$F(0,333)\approx 0,6304$
Per tant
$P(X \le 5) \approx 0,6304$
i (1) queda
$P(X>5) \approx 0,3696$
de la qual cosa interpretem (estadísticament) que el tant per cent demanat és, aproximadament, del $37 \,\%$
$\square$

[nota del autor]

viernes, 8 de mayo de 2015

Demostrar que una forma de calcular la covarianza ... ( Artículo escrito en catalán )

Enunciat:
Donat el conjunt de $N$ valors emparellats $\{x_i,y_i\}\,\,(i=1,2,\ldots,N)$ de les variables estadístiques $X$ i $Y$, demostreu que la covariància definida de la forma
$\displaystyle \text{Cov}(X,Y)=\dfrac{1}{N}\sum_{i=1}^{N}\,\big(x_i-\bar{x}\big)\big(y_i-\bar{y}\big)$
es pot cal calcular també fent ús de l'expressió
$\displaystyle \dfrac{1}{N}\sum_{i=1}^{N}\,x_i\,y_i-\bar{x}\,\bar{y}$


Resolució:
De la definició
$\displaystyle \text{Cov}(X,Y)=\dfrac{1}{N}\sum_{i=1}^{N}\,\big(x_i-\bar{x}\big)\big(y_i-\bar{y}\big)$
i a partir de la propietat commutativa (de la multiplicació i de la suma) i de la p. distributiva de la multiplicació respecte de la suma podem escriure:
$\text{Cov}(X,Y)=$
    $\displaystyle=\dfrac{1}{N} \,\sum_{i=1}^{N}\,x_i\,y_i - \dfrac{\bar{x}}{N}\,\sum_{i=1}^{N}\,x_i-\dfrac{\bar{y}}{N}\,\sum_{i=1}^{N}\,y_i+\bar{x}\,\bar{y} \quad \quad (1)$
            [ Observació: l'últim sumand resulta de
            $\displaystyle \dfrac{1}{N}\,\sum_{i=1}^{N}\,\bar{x}\,\bar{y}=N\,\dfrac{1}{N}\,\bar{x}\,\bar{y}=\bar{x}\,\bar{y}$]
i tenint en compte que
        $\displaystyle \bar{x}=\dfrac{1}{N}\,\sum_{i=1}^{N}\,x_i$
        $\displaystyle \bar{y}=\dfrac{1}{N}\,\sum_{i=1}^{N}\,y_i$
podem posar l'expressió (1) de la forma
    $\displaystyle \dfrac{1}{N} \,\sum_{i=1}^{N}\,x_i\,y_i - \bar{x}\,\bar{y} - \bar{y}\,\bar{x} + \bar{x}\,\bar{y}$
amb la qual cosa ens queda
    $\displaystyle \text{Cov}(X,Y)=\dfrac{1}{N} \,\sum_{i=1}^{N}\,x_i\,y_i - \bar{x}\,\bar{y}$
$\square$

[nota del autor]

Calcular la probabilidad de que entre los cuatro hijos de ... ( Artículo escrito en catalán )

Enunciat:
Calculeu la probabilitat que entre els quatre fills d'una parella hi hagi com a màxim 3 nois.


Resolució:
Anomenem $X$ a la variable aleatòria discreta "nombre de nois entre els quatre fills". Naturalment, els valors de $X$ són $\{0,1,2,3,4\}$, i el model matemàtic amb què es distribueixen aquests valors correspon a una distribució binomial, amb $p=\frac{1}{2}$ (probabilitat que un fill escollit a l'atzar sigui un noi) i $n=4$ (nombre de proves repetides); és a dir, $X \sim B(4,\frac{1}{2})$


La probabilitat demanada la podem expressar de la forma
$P(X \le 3)$
i tenint en compte que
$\displaystyle \sum_{i=0}^{4}\,P(X=i)=1$
és clar que
$P(X \le 3)=1-P(X=4)$
    $=1-\big(\frac{1}{2}\big)^4$
    $=\dfrac{15}{16}$
    $\approx 94,75 \, \%$
$\square$

[nota del autor]

miércoles, 6 de mayo de 2015

Calcular el límite de la sucesión ... ( Artículo escrito en catalán )

Enunciat:
Calculeu el límit de la successió de nombres reals de terme general
    $a_{n}=\sqrt{n}-\sqrt{n+1}$


Solució:
En passar al límit

    $\displaystyle \lim_{n \rightarrow \infty}\,\sqrt{n^3}-\sqrt{n+1}$

ens trobem amb una indeterminació del tipus $\infty - \infty$
que mirarem de desfer multiplicant i dividint per l'expressió conjugada

    $\sqrt{n^3}+\sqrt{n+1}$

llavors,
    $\displaystyle \lim_{n \rightarrow \infty}\,\sqrt{n^3}-\sqrt{n+1}$

      $\displaystyle=\lim_{n \rightarrow \infty}\,\dfrac{\big(\sqrt{n^3}-\sqrt{n+1}\big)\big(\sqrt{n^3}+\sqrt{n+1}\big)}{\sqrt{n^3}+\sqrt{n+1}}$

        $\displaystyle=\lim_{n \rightarrow \infty}\,\dfrac{\big(\sqrt{n^3}\big)^2-(n+1)}{\sqrt{n^3}+\sqrt{n+1}}=\lim_{n \rightarrow \infty}\,\dfrac{n^{\frac{3}{2}}-(n+1)}{n^{\frac{3}{2}}+(n+1)^{\frac{1}{2}}}$

i dividint el numerador i el denominador per $n^{\frac{3}{3}}$,

        $\displaystyle=\lim_{n \rightarrow \infty}\,\dfrac{1-n^{-\frac{1}{2}}-n^{-\frac{3}{2}}}{1+\big(\frac{n+1}{n^3}\big)^{\frac{1}{2}}}$

        $\displaystyle=\lim_{n \rightarrow \infty}\,\dfrac{1-\frac{1}{\sqrt{n}}-\frac{1}{\sqrt{n^3}}}{1+\sqrt{\frac{n+1}{n^3}}}$

i tornant, ara, a passar al límit,

        $=\dfrac{1-0-0}{1+0}$

        $=1$

$\square$


[nota del autor]