Tarea 3: Regresión lineal (parte teórica)

Sea Y la altura de una poblacion y X una matriz de datos como peso, ancho de huesos, etc. con P variables observadas N veces:

  • Plantea el problema de regresión como un problema de mínimos cuadrados, donde $ \widehat{ \beta^{*} } = argmin_{ \beta \in \mathbb{R}^{p}} = \left \| Y -X^{T} \overrightarrow{ \beta } \right \|^{2} $ donde $ \widehat{ \beta^{*} } = \widehat{ \beta^{*} }_{1} , \widehat{ \beta^{*} }_{2} ,..., \widehat{ \beta^{*} }_{p} $ $$ \mathbf min_{ \overrightarrow{\beta }} ( Y - X^{T} \overrightarrow{\beta } )^{2} = \mathbf min_{ \overrightarrow{\beta }} ( Y - \widehat{Y} )^{2} = min_{\overrightarrow{\beta }} ( U)^{2} $$
  • La solución consiste en resolver las condiciones de primer orden de este problema de minimización </p>

    Donde de las C.P.O se tiene que:

    $$ XY - X X^{T} \overrightarrow{ \beta} = 0 $$ $$ \Rightarrow \beta^{*} = [X X^{T}]^{-1}XY $$
  • La razon por la cual este método da como solución un ajuste lineal a los datos es las siguiente:

    Recordemos que el modelo bajo el cual estamos asumiendo la relación de $ \mathbf Y $ con $\mathbf X $ es tal que se puede se puede escribir de la siguiente forma (en un modelo centrado)

    $$ \mathbf Y = \beta_{1}X_{i}^{1}+\beta_{2}X_{i}^{2}+...\beta_{P}X_{i}^{P} $$ con $$ i \in \left \{ 1,...,N \right \} $$

    Sí, podríamos usar este método para ajustar polinomios de la forma: $ \mathbf y = x^{2} $, ya que el modelo es lineal en los parametros. Por lo que bastaría con definir $ \mathbf x_{i}^{2} = u_{i}; \forall i \in \left \{ 1,...N \right \} $ y encontrar el resultado de las ecuaciones que resultan del problema del apartado anterior para encontrar el vector que minimiza la distancia entre $ \mathbf Y $ y $ \widehat{Y} $

  • La relación entre la solucion encontrada y un problema de proyeccion en subespacios vectoriales es que $ \overrightarrow{\beta^{*}} $ es la proyección de $ \mathbf Y $ en el espacio generado por las columnas de $ \mathbf X X^{T} $, dicha proyección es tal que siempre es ortogonal </p>
  • La relación con el teorema de pitágoras es que en términos geometricos la recta generada por $ \overrightarrow{ Y} $ junto con la recta que genera la proyección $ \widehat{Y} $ y el error de proyección $ \overrightarrow{U} $ con $ \mathbf P = 2 $ describen un triángulo en el cual su Cateto Adyacente (C.A) es igual $ \widehat{Y} $, su Cateto Opuesto (C.O) es igual $ \overrightarrow{U} $ y su Hipotenusa (H) es igual a $ \widehat{Y} $. Por lo que si nombramos $ \theta $ al angulo formado por C.A y H, su coseno sería igual al cociente definido por la magintud de H y la magnitud de C.A
  • Agregar una columna de unos a la matriz de datos favorece la estimación de la proyección al permitir que la proyección $ \widehat{Y} $ no forzosamente pase por el orígen
  • El problema de regresión desde la estadística generalmente usa una función de pérdida de la forma: $ \mathcal{L} \mathbf (Y |1,X) = (Y-b_{0}-X^{T} \overrightarrow{b})^2 $ (modelo lineal). Y, busca modelar $ \mathbf E(Y|X) $, para esto asume una distribución estadística del error del modelo $ \varepsilon $. Con base en esta distribución los modelos más conocidos:

    Primero, el modelo lineal consiste en suponer una relación parametrica entre la variable dependiente $ \mathbf Y $ y $ \mathbf X $ de la forma:

$$ \mathbf Y_{i} = \beta_{0} + \beta_{1}X_{i}^{1} + \beta_{2}X_{i}^{2} +...+ \beta_{P}X_{i}^{P} + \epsilon_{i} $$

En el modelo lineal:

1) Si $ \mathbf E( \varepsilon |X) = 0 $, se le conoce como el Modelo de Regresión Lineal. Es de los menos restrictivos, pues no asume alguna distribución en particular para los erores y tampoco pide que el valor esperado de los erroes sea cero (es decir no pide que $ \varepsilon $ sea forzosamente ruido blanco), en su lugar pide que las $ \mathbf X $ variables explicativas no aporten información a $ \varepsilon $

2) Si $ \mathbf U $ es independiente a $ \mathbf X $, se le conoce como Modelo Clásico de Regresión Lineal (independencia implica $ \mathbf E( \varepsilon X) = E( \varepsilon )E(X) $)

3) Si la distribución condicional de $ \mathbf Y $ dado $ \mathbf X $ es Gaussiana con varianza constante, al modelo se le conoce como Modelo de Regresión Lineal Normal (donde $ \varepsilon \thicksim N( 0, \sigma^{2})$)

4) Si $ \mathbf E( \varepsilon X) = 0 $, se le conoce como Modelo de Correlación

  • En el Modelo de Regresión Lineal Normal la función de verosimilitud se construye:

    Sea

$$ \mathbf Y_{i} = \beta_{0} + \beta_{1}X_{i}^{1} + \beta_{2}X_{i}^{2} +...+ \beta_{P}X_{i}^{P} + \epsilon_{i} $$

en forma vectorial:

$$ \Rightarrow \mathbf Y = X^{T} \beta + \varepsilon $$

con

$$ \varepsilon \thicksim N(0, \sigma^{2} I_{n}) $$ $$ \Rightarrow \mathbf Y \thicksim N(X^{T} \beta, \sigma^{2} I_{n}) $$

Por lo que la función de verosimilitud en este caso es

$$ \Rightarrow \mathscr{L}( \beta, \sigma^2;X) = \prod \frac{1} { \sqrt{2 \pi \sigma^{2}}} e^{- \frac{(Y-X^{T}\beta)^{2}}{2\sigma^{2}}} $$ + Para mostrar que la solución al problema de maximizar la función de verosimilitud es igual al probelma de mínimos cuadrados del Modelo de Regresión Lineal Normal, es más sencillo si se le aplica el logaritmo a la función de verosimilitud (el logaritmo es una transformación monónotona, por lo que preserva el órden)

$$ \Rightarrow \mathbf log( \mathscr{L}( \beta, \sigma^2;X)) = - \frac{1}{ \sqrt{2 \pi \sigma^{2}}}- \frac{(Y-X^{T} \beta)^{2}}{2 \sigma^{2}} $$

Y la C.P.O

[$ \mathbf \beta $] $$ \Rightarrow \mathbf X(Y-X^{T} \beta) = 0 $$ $$ \Rightarrow \mathbf XY -XX^{T} \beta ) = 0$$ $$ \Rightarrow \mathbf \beta = [XX^{T}]^{-1}XY $$

  • Teorema de Gauss Markov (de Wikipedia.org)

    Dice que bajo el Modelo de Regresión Lineal, el estimador que resulta del método mínimos cuadrados (OLS) es el mejor estimador insesgado (BLUE) de los coeficientes. Es el mejor en el sentido de que tienen la menor varianza cuando se compara con otros estimadores lineales insesgados


In [ ]: