jueves, 14 de abril de 2016

Correlación lineal con algunos puntos ( de la nube ) que muestran discrepancias fuertes con el resto. Recta "robusta" de Tukey

En algunos casos, algunos valores ( aunque pocos ) pueden alejarse mucho de la mayor parte de puntos de la nube, la recta de regresión se ajusta entonces muy mal al conjunto de todos los puntos, aún apreciándose indicios claros de correlación lineal si descartamos dichos puntos. En tal caso, podemos considerar como anómalos ( o espúreos ) dichos puntos, atribuyendo ello a supuestos errores en la medida de los mismos, realizando la regresión lineal ( apartado anterior ) sin esos puntos.

Ahora bien, podría suceder que las medidas ( de esos puntos que se alejan del resto ) sí estuviesen bien hechas, en cuyo caso ya no sería procedente el simple descarte de los mismos. Cuando eso sucede, utilizamos una recta teórica que es "robusta" frente a valores ( digamos ) que discrepan de la mayoría; es la llamada recta que propuso el matemático John W. Tukey, que se calcula basándose en el cálculo de medianas de tres cúmulos de puntos de la nube. Se procede del siguiente modo y en el orden que se indica:

1) Se ordenan los puntos de la nube $C$ según las abscisas de los mismos, de menores a mayores
2) Se divide el conjunto de puntos en tres subconjuntos: $C_1$, $C_2$ y $C_3$. En el caso de que el número total de puntos, $N$, no sea un múltiplo de $3$ se procede de la siguiente forma:

  2.i) Si $N-1$ es múltiplo de $3$, entonces se establece en $C_2$ un dato más que en $C_1$ y $C_3$
  2.ii) Si $N-2$ es múltiplo de $3$, entonces se establece en $C_2$ un dato menos que en $C_1$ y $C_3$

3) Se calculan las medianas de las abscisas de los puntos de cada uno de dichos subconjuntos: $M_1$, $M_2$ y $M_3$
4) Se calcula el baricentro, $G$, del triángulo cuyos vértices son $M_1$, $M_2$ y $M_3$

Hecho esto, la recta de Tukey pasa por el baricentro $G$ y tiene la pendiente de la recta que pasa por $M_1$ y $M_3$
$\square$