Catedra 08

Modelamiento de datos

Tenemos N puntos $(x_i, y_i)_{i=1\ldots n}$ que tienen un error de medicion asociado (experimento)

Objetivo: Encontrar una forma funcional que modele la dependencia entre $x$ e $y$.

$$ y(x) = y(x; a_1, a_2,\ldots, a_n) $$

Donde $a_j$ son parametros del modelo.

Ademas de encontrar $\vec{a}_{\text{optimo}}$, queremos:

  • Estimacion de la incertidumbre en $\vec{a}_{\text{opt}}$.
  • Medida cuantitativa de la calidad del ajuste.

Estimador de maxima verosimilitud (MLE)

Idea: Dado un set de parametros $\vec{a}^*$ cual es la probabilidad de observar lo observado? Cual es el set de $\vec{a}_{\text{optimo}}$ que maximiza esa probabilidad?

No se puede en general. Asumiremos:

  1. La relacion es: $$y = y(x) + \epsilon$$ La relacion admite ruido $$\epsilon \leadsto N(0, \sigma^2)$$ Entonces podemos calcular la probabilidad de observar $[y_i, y_i + dy]$ $$P(y_i) \propto exp\left[-\frac{(y_i-y(x_i;\vec{a}))^2}{2\sigma^2}\right]$$
  2. Las observaciones son independientes $$P\left(\left\{x_i, y_i\right\}_{i=1,\ldots ,N}\right) \propto \prod_{i=1}^N exp\left[-\frac{y_i-y(x_i; \vec{a}))^2}{2\sigma^2}\right]dy$$ Maximizar $P \Leftrightarrow \text{minimizar} -\log(P)$ $$-\text{ln}\left(P\left(\left\{x_i, y_i\right\}_{i=1,\ldots,N}\right)\right) \propto \sum_{i=1}^N \frac{\left[y_i - y(x_i; \vec{a})\right]^2}{2\sigma^2}$$ $\implies$ equivale a minimizar $\chi^2$

Cuando $\sigma = $ const $\rightarrow$ homocedasticidad, si $\sigma \neq$ const $\rightarrow$ heterocedasticidad $$\chi^2 = \sum_{i=1}^N \frac{\left[y_i - y(x_i; \vec{a})\right]^2}{2\sigma_i^2} $$ $$\left(\frac{y_i-y(x_i; \vec{a})}{2\sigma_i}\right) \leadsto N(0,1)$$

Para cada $i$, el argumento de la sumatoria es $r\leadsto N(0,1)$

Por definicion la suma de $N$ variables aleatorias $r \leadsto N(0,1)$ se distribuye como $\chi^2_N$

Cuando hayamos fijado $a_{1,\ldots, N}$, los terminos en la sumatoria ya no son todos independientes, quedan atados por las M ecuacinoes de la minimizacion de $\chi^2$

$\implies$ Nos quedan $N-M$ grados de libertad.

Para evaluar la calidad del ajuste $$Q = P(> \chi^2)$$

Que pasa si los errores $\epsilon$, no son gaussianos?

  1. Opcion: Si sabemos algo sobre los errores $\implies$ Monte Carlo

    • Parametros del mejor ajuste $\vec{a}_0$ ($\neq \vec{a}_{\text{verdadero}}$)

    Podemos generar un set de datos sintetico: $$y'_i = y(x_i; \vec{a}_0) + r$$ En donde $r$ es una variable aleatoria que entendemos

    • A partir del set sintetico, repito minimizacion de $\chi^2$, obtengo $\vec{a}_j$
    • Repetir $L$ veces $\implies \vec{a}_{1,\ldots,L}$ $\implies$ La distribucion de $\left\{\vec{a}_0 - \vec{a}_j\right\}_{j=1,\ldots,L}$ nos dice cual es la distribucion de $\vec{a} \implies$ intervalo de confianza
  2. Opcion: No sabemos nada sobre los errores de medicion. La muestra en si misma contiene info sobre el ruido. La idea es explotarla $\implies$ BOOTSTRAP
    • BOOTSRAP: Dada una muestra con $N$ mediciones, generamos $L$ sets sinteticos seleccionando aleatoriamente y con peso uniforme, $N$ valores de la muestra (se pueden repetir) Luego sigue igual que MC (Monte Carlo). Los teoremas de bootsrap demuestran que $\left\{\vec{a}_0 - a_j\right\}_{j=1,\ldots,L} \rightarrow$ se distribuye como la distancia real.

Dificultad: Para $N$ valores en la muestra $\implies 10^N$ sets sinteticos posibles.

Teoria Asimptotica muestra que $L = N(\text{ln}N)^2$ genera una "buena" aproximacion.