Model Selection Techniques & Sparse Markov Chains - Nicolás Fraiman (2008)

Este trabajo trata sobre problemas de seleccion de modelo. El capitulo 0 plantea un estudio general de estos problemas estadisticos. Dados un proceso estocastico y una familia de clases de modelos, con cada clase determinada por un parametro de estructura y cada modelo dentro de una clase descrito por un vector de parametros en un espacio cuya dimension depende de la estructura. Supongamos que dada una realizacion del proceso podemos estimar el vector de parametros si la estructura es conocida. La tarea es estimar esta ultima. \( \\ \\ \\ \) Trabajamos usando el concepto de criterio de informacion, el parametro de estructura es estimado mediante minimizar un valor asignado a cada clase de modelos. Los criterios mas utilizados son el Criterio de Informacion Bayesiano (BIC) y el principio del minimo largo de descripcion (MDL). El BIC consiste de dos terminos: menos el logaritmo de la maxima verosimilitud, esto mide la bondad de ajuste; y la mitad del numero de parametros libres por el logaritmo del tamaño muestral, esto penaliza modelos muy complejos. \( \\ \\ \\ \) En el capitulo 2, incluimos algunos resultados recientes en estimacion de cadenas de Markov de alcance variable (VLMC), los cuales nos ayudaran a entender mas en profundidad el problema planteado. Basados en Csiszar y Talata (2006) extendemos el concepto de arbol de contextos para procesos ergodicos arbitrarios y demostramos que los principios BIC y MDL dan estimadores fuertemente consistentes del arbol de contextos. \( \\ \\ \\ \) En el capitulo 3 presentamos una nueva e ingeniosa representacion de los modelos Markovianos: los modelos de arbol de contexto disperso (stms), una generalizacion de las cadenas de alcance variable, donde permitimos juntar conjuntos mas generales de estados con distribuciones similares, y preservamos la util estructura combinatoria de los arboles de contextos. El tema principal del trabajo es estudiar un metodo para estimar la estructura en esta clase de modelos parsimoniosos. Mostraremos resultados de consistencia para estimadores basados en el principio MDL, el objetivo es encontrar el menor arbol que determina las probabilidades de transicion. \( \\ \\ \\ \) Finalmente, en el capitulo 4 describimos brevemente algunas aplicaciones en Biologia y Teoria de la Informacion. Ilustramos como estas tecnicas pueden ser utilizadas para clasicar familias de proteinas. Ademas mostramos como se pueden utilizar para comprimir imagenes bitonales, dando lugar a un metodo de compresion sin perdida que mejora la performance de los metodos basados en arboles de contexto, y de varios algoritmos populares de compresion.