Seminario de Probabilidad y Estadística (formato antiguo)

Spacing test for the Lasso

Recent advances in Post-Selection Inference have shown that conditional testing is relevant and tractable in high-dimensions. In the Gaussian linear model, further works have derived unconditional test statistics such as the Kac-Rice Pivot for general penalized problems. In order to test the global null, a prominent offspring of this breakthrough is the spacing test that accounts the relative separation between the first two knots of the celebrated least-angle regression (LARS) algorithm. However, no results have been shown regarding the distribution of these test statistics under the alternative. For the first time, this paper addresses this important issue for the spacing test and shows that it is unconditionally unbiased. Furthermore, we provide the first extension of the spacing test to the frame of unknown noise variance. More precisely, we investigate the power of the spacing test for LARS and prove that it is unbiased: its power is always greater or equal to the significance level α. In particular, we describe the power of this test under various scenarii: we prove that its rejection region is optimal when the predictors are orthogonal; as the level α goes to zero, we show that the probability of getting a true positive is much greater than α; and we give a detailed description of its power in the case of two predictors. Moreover, we numerically investigate a comparison between the spacing test for LARS and the Pearson’s chi-squared test (goodness of fit). Generalisation to infinite dimensional Lasso is performed. Joint work with Yohann de Castro and Stéphane Mourareau

Sequential Aggregation of Heterogeneous Experts for PM10 Forecasting

Within the framework of air quality monitoring in Normandy, we experiment the methods of sequential aggregation for forecasting concentrations of PM10 of the next day. Besides the field of application and the adaptation to the special context of the work of the forecaster, the main originality of this work is that the set of experts contains at the same time statistical models built by means of various methods and groups of predictors, as well as experts which are deterministic chemical models of prediction modeling pollution, weather and atmosphere. Numerical results on recent data from April 2013 until March 2015, on three monitoring stations, illustrate and compare various methods of aggregation. The obtained results show that such a strategy improves clearly the performances of the best expert both in errors and in alerts and reaches the “unbiasedness” of observed-forecasted scatterplot, which is especially difficult to obtain by usual methods. Joint work with Benjamin Auder (Univ. Paris-Sud Orsay, France), Michel Bobbia (Atmo Normandie, Rouen, France) and Bruno Portier (LMI., INSA Rouen, France). More details can be found in B. Auder, M. Bobbia, J-M. Poggi, B. Portier Sequential Aggregation of Heterogeneous Experts for PM10 Forecasting Atmospheric Pollution Research, 7, 1101-1109, 2016

Efectos genéticos de los procesos de expansión espacial

Numerosas especies biológicas han colonizado nuevas áreas geográficas en tiempos relativamente recientes. La expansión de la especie humana moderna a partir de África y la colonización por parte de múltiples especies de regiones cubiertas por hielo durante la última glaciación se encuentran entre los casos de interés. En general, es posible encontrar evidencia genética de la expansión demográfica. Sin embargo, es mucho más difícil establecer direccionalidad y, más en general, caracterizar el proceso de expansión geográfica. En esta charla, voy a presentar dos modelos sencillos de expansión geográfica en una dimensión, conocidos como el modelo "instantáneo" y el de "fundación en serie" y examinar sus consecuencias genéticas. Algunas de las cualidades más usadas para caracterizar la variación genética son indistinguibles entre estos modelos, mientras que otras permiten discriminarlos con relativa facilidad. Algunos de estos contrastes son por el momento intuitivos o basados en simulaciones, y no están bien caracterizados en términos generales.

Sobre la estimación de la interpolación “en ley” de un proceso ARMA estacionario

Cuando se programó la sesión de la fecha se pensó en incorporar problemas abiertos. Desde entonces, mi intención ha sido describir problemas que no sé resolver vinculados a la estimación de los parámetros de la interpolación “en ley” de un proceso ARMA estacionario causal. En primer lugar describiremos el proceso de inmersión de un ARMA con parámetro en Z en un proceso estacionario de parámetro continuo cuyos valores en Z coinciden en ley con los del ARMA, e identificaremos los parámetros a ser estimados. Dado que es razonable utilizar la función característica empírica de las observaciones, describiremos un procedimiento sencillo basado en la transformada rápida de Fourier para pasar de la función característica a la densidad y viceversa. Finalmente analizaremos un ejemplo de estimación para el que las dificultades superan ampliamente a los logros.

Procesos de Ornstein--Uhlenbeck fraccionarios iterados.

En esta charla, mostraremos que componiendo operadores del tipo Ornstein Uhlenbeck (definidos en un trabajo recientemente publicado por Arratia, Cabaña y Cabaña) aplicados a un movimiento browniano fraccional, queda una combinación lineal de procesos de Ornstein--Uhlenbeck fraccionarios. Le llamaremos a estos procesos FOU(p) (FOU de orden p, siendo p el número de iteraciones realizadas). A través de la obtención de una fórmula para la densidad espectral de un FOU(p), mostraremos que siendo cada sumando un proceso de memoria larga, la combinación lineal termina siendo un proceso de memoria corta. También se verá que el exponente de Hurst del browniano fraccional, termina siendo el exponente Hölder de las trayectorias del proceso FOU(p), y por lo tanto puede ser interpretado como un parámetro que mide en algún sentido la regularidad de las trayectorias. Se mostrará que los procesos FOU(p) pueden ser utilizados para modelar tanto procesos de memoria corta como de memoria larga. Se aplicarán estos modelos a tres series de datos reales, a las cuales se les ajustarán modelos FOU(p) para distintos valores de p, y se comparará su performance a nivel predictivo con respecto a los modelos ARMA(p,q), mediante el cálculo de diversas medidas de calidad de predicciones como el índice de Willmott. Finalmente, se planteará también un procedimiento para estimar sus parámetros, que resulta ser consistente y convenientemente normalizado tiene una distribución límite gaussiana, cuya aplicación práctica aún no está estudiada.

Profundidad estadística en variedades.

El concepto de profundidad es una significativa herramienta en la estadística moderna con diversas aplicaciones en diferentes contextos, por ejemplo en métodos de clasificación, pruebas de hipótesis y detección de outliers. Esta noción estadística permite ordenar un conjunto de datos multivariados respecto a un centro lo que proporciona una idea de mediana en un contexto multivariado. Tukey en 1975 introduce una primera noción de profundidad para datos bivariados. En trabajos posteriores se definen otras medidas de profundidad en R^d y en espacios vectoriales de dimensión infinita (datos funcionales). La idea de la presentación es enunciar algunas ideas de profundidad en el contexto multivariado y dar una posible extensión cuando los datos se encuentran sobre un variedad Riemanniana, por tanto no tenemos estructura de espacio vectorial. Probaremos la convergencia del estimador propuesto y su distribución asintótica.

Test Adaptativos Informatizados.

En muchas situaciones en educación y psicología es necesario estimar un rasgo latente de un sujeto lo cual en general suele realizarse mediante test fijos. Una alternativa a estos son los test adaptativos informatizados (TAI). Un test adaptativo es una prueba donde los ítems se responden en una computadora y la característica principal es que la prueba se adapta el nivel de rasgo que va obteniendo el sujeto en cada respuesta. Partiendo de un banco de ítems calibrado según un modelo de rasgo latente paramétrico o no paramétrico se presentarán los algoritmos necesarios para desarrollar un TAI. Especificamente; presentaremos los procedimientos de arranque, procedimientos para la estimación de la habilidad en cada etapa (máxima verosimilitud y bayesianos), los procedimientos para la selección de ítems (máxima información y basados en otras medidas) y métodos para el control de restricciones.

Estimación por máxima verosimilitud aproximada en un modelo de oscilador armónico no lineal perturbado con un ruido blanco.

La ecuación diferencial de segundo orden asociada a un oscilador armónico, sujeto a roce y a la acción de un potencial polinomial, que se perturba por un ruido blanco gaussiano da origen a un proceso de Markov en el espacio de fases (posición y velocidad). Estos modelos son conocidos como difusiones hipoelípticas: el ruido sólo actúa sobre la velocidad. Bajo ciertas condiciones, sobre la función de roce y el potencial, el proceso posee una medida invariante y es $\beta$-mixing, con coeficiente de mixing exponencial. Si tanto la función de roce como el potencial dependen cada una de un parámetro, aproximamos el sistema en una grilla finita de tamaño $h$ por un sistema a tiempo discreto que posee ruido en ambas componentes (este procedimiento fue diseñado por Ozaki). Esta técnica nos lleva a construir una verosimilitud aproximada. Si estimamos los parámetros, que coinciden en ambos modelos, maximizándo esta función obtenemos ciertos estimadores. Luego se demuestra la consistencia de los estimadores cuando $nh_n$ tiende a infinito. Las hipótesis bajo las cuales se da esta consistencia, aunque restrictivas, son satisfechas por modelos muy usados en la práctica.

Cluster Locator, una herramienta en línea para el análisis y la visualización del agrupamiento de genes en cinco organismos modelo.

En organismos eucariotas, los grupos de genes que comparten función no están distribuidos de manera aleatoria en el genoma. En nuestro laboratorio investigamos la posibilidad de entrenar algoritmos de aprendizaje automático para predecir nuevas funciones de genes a partir de sus ubicaciones relativas en el genoma. En esa línea, hemos comenzado a desarrollar herramientas de análisis que permitan estudiar sistemáticamente los patrones de distribución de listas de genes. Hemos implementado “Cluster Locator”, una herramienta en línea (disponible en http://clusterlocator.bnd.edu.uy/) que permite caracterizar la manera en que los genes de una lista proporcionada por el usuario están distribuidos a lo largo del genoma al que pertenecen, calculando además la significancia estadística de esa distribución. Con esa herramienta ya hemos caracterizado la distribución de cientos de grupos funcionales en cinco organismos modelo; Homo sapiens, Mus musculus, Drosophila melanogaster, Caenorhabditis elegans y Saccharomyces cerevisiae. __________________ Flavio Pazos Obregón*1,2, Pablo Soto1, José Luis Lavín3, Ana Rosa Cortázar3, Rosa Barrio4, Ana María Aransay3,5, Rafael Cantera1,6 1: Departamento de Biología del Neurodesarrollo, IIBCE, Motevideo, Uruguay. 2: Instituto de Matemática y Estadística “Rafael Laguarda”, Facultad de Ingeniería, UDELAR, Uruguay. 3: Plataforma de Análisis del Genoma, CIC bioGUNE, Derio, España. 4: Unidad de Genómica Funcional, CIC bioGUNE, Derio, España. 5: CIBERehd, ISCIII, Madrid, España. 6: Departamento de Zoología, Universidad de Estocolmo, Suecia. * fpazos@iibce.edu.uy

Parada óptima de difusiones multidimensionales

En esta charla hablaremos del problema de parada óptima de procesos multidimensionales. Luego de una breve introducción sobre el problema de parada óptima en general, nos enfocamos en el caso en que el proceso subyacente es un movimiento Browniano multidimensional, y la función de pago es cuadrática. Cuando la función de pago es simétrica, obtenemos la parada óptima de un proceso de Bessel, que es una situación conocida. En el caso general, desarrollamos la representación de la solución (que es una función excesiva) mediante una integral del núcleo de Green del proceso. De esta forma, la incógnita del problema que es la región óptima para para el proceso (que es una circunferencia en el caso simétrico) verifica una sistema de ecuaciones integrales. Este sistema se transforma tomando límite adecuadamente en otro en el que aparecen las funciones armónicas del proceso, que son de mas sencillo tratamiento que el núcleo de Green. Estas últimas ecuaciones admiten un tratamiento numérico, que resolvemos en dimensiones dos y tres. Se trata de un trabajo conjunto con Sören Christensen, Fabián Crocce y Paavo Salminen.

Modelación estocástica en tasas de interés: Parte II

La idea de la charla es continuar la realizada en el primer semestre donde cuento algunos de los resultados obtenidos en el desarrollo de mi doctorado. En esta charla haremos un repaso del problema e introduciremos la modelación central que se utilizó. Contaré el método de estimación utilizado y los resultados obtenidos.

Aprendizaje semi-supervisado

El problema clásico de clasificación tiene como objetivo asignar una etiqueta a un nuevo dato a partir de una muestra D_n de entrenamiento. Típicamente se asume D_n iid, y se prueban resultados de consistencia cuando n → ∞. En el contexto de aprendizaje semi-supervisado, la muestra de entrenamiento es pequeña, y se tiene una enorme cantidad, l>>n, de datos para clasificar, X_1 , . . . , X_l . El objetivo es usar (si es posible) la enorme cantidad de datos no clasificados, para construir un clasificador que sea mejor (se equivoque menos) que el que se puede construir con la muestra inicial D_n ya etiquetada. Intuitivamente, esto será posible si conocer la distribución de las X aporta información a la clasificación. En la charla propondremos un algoritmo que permite clasificar secuencialmente la muestra X_1,...X_l , y que asintoticamente (cuando l → ∞ y n es fijo), se comporta como la mejor regla (teórica) posible. Si bien esto requiere imponer hipotesis fuertes sobre la distribución de las X, veremos que las mismas son necesarias, por la dificultad intrínseca del problema.

Mínimo largo de descripción (MDL): una herramienta para la selección y comparación de modelos.

Se quiere construir un modelo paramétrico que explique cierto conjunto de datos. Un problema a considerar es determinar la cantidad de parámetros a utilizar de modo de obtener un ajuste adecuado. Para ello consideraremos que el mejor ajuste se logra con la elección de parámetros que permita la mayor compresión del conjunto de datos (incluyendo el costo de almacenar también los parámetros del propio modelo). Se presentará MDL como una herramienta para lograr dicho objetivo, comentaremos cómo se realizan los cálculos correspondientes y si el tiempo lo permite veremos una aplicación.

Infiriendo sobre migraciones y ancestrías a través de largos de haplotipos.

Al final sí voy a hablar de cosas sobre las que estoy trabajando, pero va a ser algo nuevo. Supongamos que consideramos ciertas poblaciones (por ejemplo charrúas, africanos y europeos), y que podemos saber qué parte del cromosoma corresponde a qué población (asumiendo que esas poblaciones coexistieron y se cruzaron, generando descendencia mestiza). Eso nos puede llevar a preguntas acerca de las migraciones que se dieron en las últimas generaciones que generaron la coexistencia (tasas de migración, o cambios en la misma), como a preguntas acerca de ancestría (pudo una persona dada haber tenido un ancestro charrúa "puro"?). Veremos algunos modelos que son la base del trabajo de este proyecto.

Imperfectly enforced emissions standards, under-reporting and general deterrence: empirical evidence.

This provides empirical estimates of the effect that enforcement actions by municipal and national authorities have on the level of both reported and actual emissions of industrial plants. In a regulatory framework where non-complying is ubiquitous and most violations aren´t followed by a sanction, we provide evidence consistent with under-reporting and general deterrence of BOD discharges by industrial plants. Previous empirical analyses in environmental enforcement, mostly in developed countries and without information on both reported and actual levels of emissions, either did not deal with the issue of under-reporting or were not able to find such evidence.

Enfoque Bayesiano basado en hyperpriors para denoising e interpolación de imágenes conjuntos, con una aplicación a generación de imágenes de alto rango dinámico.

Recientemente se han reportado resultados muy impresionantes basados en enfoques Bayesianos que asumen modelos Gaussianos para la distribución de patches (ventanas localizadas) en imágenes. Esta mejora en los resultados se puede atribuir a la asignación de un modelo gaussiano individual para cada patch. La limitante de estos enfoques es que no son generalizables de forma directa a otros problemas que el denoising, ya que los problemas inversos asociados se vuelven mal condicionados. En este trabajo proponemos utilizar hyperpriors/hyperparametros para modelizar los patches de las imágenes, con el fin de estabilizar la estimación. El enfoque propuesto presenta principalmente dos ventajas: en primer lugar es adaptable a cualquier operador de degradación diagonal, en particular a problemas con datos faltantes (e.g. inpainting o interpolación, o zooms). En segundo lugar, el enfoque permite contemplar modelos de ruido dependientes de la señal, lo cual es particularmente adaptado a las cámaras digitales en donde el ruido en cada pixel depende de su nivel de luminancia. Para ilustrar este segundo punto, presentamos una aplicación a la generación de imágenes de alto rango dinámico a partir de una única imagen adquirida con un sensor modificado, que ilustra el potencial del enfoque propuesto. Es un trabajo conjunto con Cecilia Aguerrebere, Andrés Almansa, Julie Delon y Yann Gousseau.

¿Cuánto tiempo debemos recordar las cosas?

En este trabajo analizamos el desempeño de sistemas de caché. Un sistema de caché es una memoria que permite almacenar localmente contenidos para luego acceder rápidamente a ellos, sin tener que contactar a la fuente, reduciendo los tiempos de acceso. En el caso de cachés TTL (time-to-live), los contenidos se guardan un cierto tiempo en memoria, lo que genera un compromiso entre el tiempo durante el cual se recuerda el archivo (memoria ocupada) y la probabilidad de que esté guardado localmente cuando es requerido (probabilidad de hit). Nos planteamos entonces encontrar, para un catálogo de objetos de tamaño N, el tiempo óptimo que es necesario mantener cada archivo para maximizar la probabilidad de hit, sujeto a una restricción de memoria ocupada en media. En este trabajo, probamos que la política óptima depende fuertemente de la forma de la función "hazard-rate" del proceso de pedidos. En el caso en que el hazard-rate es creciente, la política óptima resulta ser estática. En el caso de hazard-rate decreciente, caracterizamos la política óptima, y para el caso de tiempos entre pedidos Pareto (de relevancia práctica), caracterizamos el "límite fluido" de la política cuando el tamaño del catálogo tiende a infinito. Compararemos también el desempeño de esta política con políticas más clásicas de caché, como ser "least-recently-used" o "least-frequently-used", entre otras.

Análisis bayesiano de ecuaciones en derivadas parciales lineales con condiciones de frontera aleatorias.

En esta charla presentaré un método de inferencia bayesiana jerárquica propuesto en [1] para la estimación de parámetros en ecuaciones en derivadas parciales lineales en presencia de condiciones de frontera aleatorias. La metodología desarrollada se aplica, en primera instancia, a datos sintéticos en el caso de la ecuación del calor en una dimensión espacial a los efectos de inferir el parámetro de difusividad térmica. En segunda instancia, se analiza un caso de estudio experimental llevado a cabo en una cámara ambiental con el propósito de inferir las propiedades térmicas de una pared [2]. Los resultados muestran que nuestra técnica reduce el error de sesgo de las estimaciones de los parámetros de la pared en comparación con otros enfoques donde las condiciones de frontera se suponen no aleatorias. La estimación de la ganancia de información permite orientar al usuario en la determinación eficiente de las variables que caracterizan al experimento. [1] Fabrizio Ruggeri, Zaid Sawlan, Marco Scavino & Raúl Tempone (2017). A Hierarchical Bayesian Setting for an Inverse Problem in Linear Parabolic PDEs with Noisy Boundary Conditions, Bayesian Analysis 12 (2), 407-433. [2] Marco Iglesias, Zaid Sawlan, Marco Scavino, Raúl Tempone & Christopher Wood (2017). Bayesian inferences of the thermal properties of a wall using temperature and heat flux measurements. Submitted.https://arxiv.org/abs/1608.03855, Marzo.