Seminario de Probabilidad y Estadística

Seminario de Probabilidad y Estadística
Ondas aleatorias anisotrópicas
11/05/2018 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

Los modelos de ondas aleatorias fueron introducidos por Longuet-Higgins en la década del 50 en el contexto del estudio de la superficie del mar. A partir de los 70 Berry propuso y estudió modelos de ondas aleatorias en contextos más generales (óptica, sonido, etc) aunque en dimensión dos o tres. Los ceros y los puntos críticos dan información sobre las zonas de silencio, de oscuridad, etc, sobre los valores extremos, etc. En los últimos años hay una gran actividad en el estudio de estos temas. En esta charla la idea es presentar esta clase de modelos. En particular, nos interesa la introducción de anisotropía en ellos.

Cotas para el proceso de exploración en un grafo geométrico.
04/05/2018 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

En este trabajo mostramos como utilizar resultados asintóticos para procesos de exploración de grafos homogéneos para acotar (inferior y superiormente) grafos geométricos definidos a partir de un proceso de Poisson espacial. Las cotas obtenidas son independientes de la dimensión del espacio y de la forma en que se defina el proceso de exploración (volumen asociado a cada nodo explorado). En particular probamos que las cotas son válidas para las trayectorias del proceso de exploración y no solo para el límite. Trabajo conjunto con Matthieu Jonckheere (UBA) y Jaron Sanders (KTH, Suecia)

Modelación estocástica en tasas de interés: Parte III
27/04/2018 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

La idea de la charla es continuar las anteriores donde cuento algunos de los resultados obtenidos en el desarrollo de mi doctorado. La presentación es autocontenida. En esta charla haremos un repaso del problema y nos enfocamos en el objetivo de estimar el riesgo de incumplimiento (riesgo de default) que existe en la deuda soberana.

Pérdida de dimensión para medidas de salida de caminatas aleatorias
20/04/2018 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

Decimos que una probabilidad pierde dimensión si la dimensión de Hausdorff de su soporte (el menor cerrado de medida total) es estríctamente mayor que la dimensión de Hausdorff de la medida (i.e. la mínima dimensión de un Boreliano de medida total). Es posible hacer ejemplos artificiales muy sencillos. En esta charla exploraremos un fenomeno interesante que es que muchas probabilidades naturales definidas por caminatas al azar pierden dimensión.

ABC Shadow algorithm: a tool for statistical analysis of spatial patterns
13/04/2018 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

This talk presents an original ABC algorithm, {\it ABC Shadow}, that can be applied to sample posterior densities that are continuously differentiable. The proposed algorithm solves the main condition to be fulfilled by any ABC algorithm, in order to be useful in practice. This condition requires enough samples in the parameter space region, induced by the observed statistics. The algorithm is tuned on the posterior of a Gaussian model which is entirely known, and then it is applied for the statistical analysis of several spatial patterns. These patterns are issued or assumed to be outcomes of point processes. The considered models are: Strauss, Candy and area-interaction

Test de independencia basado en porcentajes de recurrencias.
04/04/2018 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

Dada una muestra i.i.d de (X,Y) donde X e Y toman valores en espacios métricos, queremos realizar la prueba de hipótesis H0: X e Y son independientes contra la alternativa de que X e Y no sean independientes. La región crítica que plantearemos está basada en un U-estadístico que surge a partir de las medidas asociadas a los llamados gráficos de recurrencias, que están basados en contabilizar la cantidad de observaciones que distan entre sí, más que una cierta cantidad t (variando t), lo cual permite reducir la dimensionalidad del espacio original. Los gráficos de recurrencia (RP: recurrence plots) fueron introducidos por Eckmann et al (1987) con la idea de dar una herramienta para el estudio de sistemas dinámicos de alta dimensión cuyas trayectorias son difíciles de visualizar. Los RP son muy útiles para poder ver la estructura de dependencia que tiene una serie de tiempo y son una buena herramienta visual para descubrir en una serie de tiempo periodicidades, así como para buscar modelos para ajustar los datos, sean éstos determinísticos o probabilísticos. En esta charla veremos que estas medidas pueden ser utilizadas para plantear un test de hipótesis que es asintóticamente consistente en el caso en que X e Y sean vectores aleatorios con distribución conjunta (X,Y) sea normal multivariada, o bien en el caso en que X e Y sean variables aleatorias reales continuas cualesquiera. Mostraremos mediante simulaciones, que ésta prueba tiene un excelente rendimiento bajo algunas alternativas estudiadas recientemente en la literatura y tienen dos importantes fortalezas, en primer lugar el estadístico usado tiene una distribución límite bajo Ho cierto y en segundo lugar es muy útil cuando los vectores tienen dimensión alta, ya que lo reduce a un caso bidimensional.

Spacing test for the Lasso
09/03/2018 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

Recent advances in Post-Selection Inference have shown that conditional testing is relevant and tractable in high-dimensions. In the Gaussian linear model, further works have derived unconditional test statistics such as the Kac-Rice Pivot for general penalized problems. In order to test the global null, a prominent offspring of this breakthrough is the spacing test that accounts the relative separation between the first two knots of the celebrated least-angle regression (LARS) algorithm. However, no results have been shown regarding the distribution of these test statistics under the alternative. For the first time, this paper addresses this important issue for the spacing test and shows that it is unconditionally unbiased. Furthermore, we provide the first extension of the spacing test to the frame of unknown noise variance. More precisely, we investigate the power of the spacing test for LARS and prove that it is unbiased: its power is always greater or equal to the significance level α. In particular, we describe the power of this test under various scenarii: we prove that its rejection region is optimal when the predictors are orthogonal; as the level α goes to zero, we show that the probability of getting a true positive is much greater than α; and we give a detailed description of its power in the case of two predictors. Moreover, we numerically investigate a comparison between the spacing test for LARS and the Pearson’s chi-squared test (goodness of fit). Generalisation to infinite dimensional Lasso is performed. Joint work with Yohann de Castro and Stéphane Mourareau

Sequential Aggregation of Heterogeneous Experts for PM10 Forecasting
23/02/2018 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

Within the framework of air quality monitoring in Normandy, we experiment the methods of sequential aggregation for forecasting concentrations of PM10 of the next day. Besides the field of application and the adaptation to the special context of the work of the forecaster, the main originality of this work is that the set of experts contains at the same time statistical models built by means of various methods and groups of predictors, as well as experts which are deterministic chemical models of prediction modeling pollution, weather and atmosphere. Numerical results on recent data from April 2013 until March 2015, on three monitoring stations, illustrate and compare various methods of aggregation. The obtained results show that such a strategy improves clearly the performances of the best expert both in errors and in alerts and reaches the “unbiasedness” of observed-forecasted scatterplot, which is especially difficult to obtain by usual methods. Joint work with Benjamin Auder (Univ. Paris-Sud Orsay, France), Michel Bobbia (Atmo Normandie, Rouen, France) and Bruno Portier (LMI., INSA Rouen, France). More details can be found in B. Auder, M. Bobbia, J-M. Poggi, B. Portier Sequential Aggregation of Heterogeneous Experts for PM10 Forecasting Atmospheric Pollution Research, 7, 1101-1109, 2016

Efectos genéticos de los procesos de expansión espacial
24/11/2017 de 10:30 a 12:30 Salón de Seminarios. Centro de Matemática,

Numerosas especies biológicas han colonizado nuevas áreas geográficas en tiempos relativamente recientes. La expansión de la especie humana moderna a partir de África y la colonización por parte de múltiples especies de regiones cubiertas por hielo durante la última glaciación se encuentran entre los casos de interés. En general, es posible encontrar evidencia genética de la expansión demográfica. Sin embargo, es mucho más difícil establecer direccionalidad y, más en general, caracterizar el proceso de expansión geográfica. En esta charla, voy a presentar dos modelos sencillos de expansión geográfica en una dimensión, conocidos como el modelo "instantáneo" y el de "fundación en serie" y examinar sus consecuencias genéticas. Algunas de las cualidades más usadas para caracterizar la variación genética son indistinguibles entre estos modelos, mientras que otras permiten discriminarlos con relativa facilidad. Algunos de estos contrastes son por el momento intuitivos o basados en simulaciones, y no están bien caracterizados en términos generales.

Sobre la estimación de la interpolación “en ley” de un proceso ARMA estacionario
24/11/2017 de 10:30 a 11:00 Salón de Seminarios. Centro de Matemática,

Cuando se programó la sesión de la fecha se pensó en incorporar problemas abiertos. Desde entonces, mi intención ha sido describir problemas que no sé resolver vinculados a la estimación de los parámetros de la interpolación “en ley” de un proceso ARMA estacionario causal. En primer lugar describiremos el proceso de inmersión de un ARMA con parámetro en Z en un proceso estacionario de parámetro continuo cuyos valores en Z coinciden en ley con los del ARMA, e identificaremos los parámetros a ser estimados. Dado que es razonable utilizar la función característica empírica de las observaciones, describiremos un procedimiento sencillo basado en la transformada rápida de Fourier para pasar de la función característica a la densidad y viceversa. Finalmente analizaremos un ejemplo de estimación para el que las dificultades superan ampliamente a los logros.

Procesos de Ornstein--Uhlenbeck fraccionarios iterados.
17/11/2017 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

En esta charla, mostraremos que componiendo operadores del tipo Ornstein Uhlenbeck (definidos en un trabajo recientemente publicado por Arratia, Cabaña y Cabaña) aplicados a un movimiento browniano fraccional, queda una combinación lineal de procesos de Ornstein--Uhlenbeck fraccionarios. Le llamaremos a estos procesos FOU(p) (FOU de orden p, siendo p el número de iteraciones realizadas). A través de la obtención de una fórmula para la densidad espectral de un FOU(p), mostraremos que siendo cada sumando un proceso de memoria larga, la combinación lineal termina siendo un proceso de memoria corta. También se verá que el exponente de Hurst del browniano fraccional, termina siendo el exponente Hölder de las trayectorias del proceso FOU(p), y por lo tanto puede ser interpretado como un parámetro que mide en algún sentido la regularidad de las trayectorias. Se mostrará que los procesos FOU(p) pueden ser utilizados para modelar tanto procesos de memoria corta como de memoria larga. Se aplicarán estos modelos a tres series de datos reales, a las cuales se les ajustarán modelos FOU(p) para distintos valores de p, y se comparará su performance a nivel predictivo con respecto a los modelos ARMA(p,q), mediante el cálculo de diversas medidas de calidad de predicciones como el índice de Willmott. Finalmente, se planteará también un procedimiento para estimar sus parámetros, que resulta ser consistente y convenientemente normalizado tiene una distribución límite gaussiana, cuya aplicación práctica aún no está estudiada.

Profundidad estadística en variedades.
10/11/2017 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

El concepto de profundidad es una significativa herramienta en la estadística moderna con diversas aplicaciones en diferentes contextos, por ejemplo en métodos de clasificación, pruebas de hipótesis y detección de outliers. Esta noción estadística permite ordenar un conjunto de datos multivariados respecto a un centro lo que proporciona una idea de mediana en un contexto multivariado. Tukey en 1975 introduce una primera noción de profundidad para datos bivariados. En trabajos posteriores se definen otras medidas de profundidad en R^d y en espacios vectoriales de dimensión infinita (datos funcionales). La idea de la presentación es enunciar algunas ideas de profundidad en el contexto multivariado y dar una posible extensión cuando los datos se encuentran sobre un variedad Riemanniana, por tanto no tenemos estructura de espacio vectorial. Probaremos la convergencia del estimador propuesto y su distribución asintótica.

Test Adaptativos Informatizados.
03/11/2017 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

En muchas situaciones en educación y psicología es necesario estimar un rasgo latente de un sujeto lo cual en general suele realizarse mediante test fijos. Una alternativa a estos son los test adaptativos informatizados (TAI). Un test adaptativo es una prueba donde los ítems se responden en una computadora y la característica principal es que la prueba se adapta el nivel de rasgo que va obteniendo el sujeto en cada respuesta. Partiendo de un banco de ítems calibrado según un modelo de rasgo latente paramétrico o no paramétrico se presentarán los algoritmos necesarios para desarrollar un TAI. Especificamente; presentaremos los procedimientos de arranque, procedimientos para la estimación de la habilidad en cada etapa (máxima verosimilitud y bayesianos), los procedimientos para la selección de ítems (máxima información y basados en otras medidas) y métodos para el control de restricciones.

Estimación por máxima verosimilitud aproximada en un modelo de oscilador armónico no lineal perturbado con un ruido blanco.
20/10/2017 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

La ecuación diferencial de segundo orden asociada a un oscilador armónico, sujeto a roce y a la acción de un potencial polinomial, que se perturba por un ruido blanco gaussiano da origen a un proceso de Markov en el espacio de fases (posición y velocidad). Estos modelos son conocidos como difusiones hipoelípticas: el ruido sólo actúa sobre la velocidad. Bajo ciertas condiciones, sobre la función de roce y el potencial, el proceso posee una medida invariante y es $\beta$-mixing, con coeficiente de mixing exponencial. Si tanto la función de roce como el potencial dependen cada una de un parámetro, aproximamos el sistema en una grilla finita de tamaño $h$ por un sistema a tiempo discreto que posee ruido en ambas componentes (este procedimiento fue diseñado por Ozaki). Esta técnica nos lleva a construir una verosimilitud aproximada. Si estimamos los parámetros, que coinciden en ambos modelos, maximizándo esta función obtenemos ciertos estimadores. Luego se demuestra la consistencia de los estimadores cuando $nh_n$ tiende a infinito. Las hipótesis bajo las cuales se da esta consistencia, aunque restrictivas, son satisfechas por modelos muy usados en la práctica.

Cluster Locator, una herramienta en línea para el análisis y la visualización del agrupamiento de genes en cinco organismos modelo.
06/10/2017 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

En organismos eucariotas, los grupos de genes que comparten función no están distribuidos de manera aleatoria en el genoma. En nuestro laboratorio investigamos la posibilidad de entrenar algoritmos de aprendizaje automático para predecir nuevas funciones de genes a partir de sus ubicaciones relativas en el genoma. En esa línea, hemos comenzado a desarrollar herramientas de análisis que permitan estudiar sistemáticamente los patrones de distribución de listas de genes. Hemos implementado “Cluster Locator”, una herramienta en línea (disponible en http://clusterlocator.bnd.edu.uy/) que permite caracterizar la manera en que los genes de una lista proporcionada por el usuario están distribuidos a lo largo del genoma al que pertenecen, calculando además la significancia estadística de esa distribución. Con esa herramienta ya hemos caracterizado la distribución de cientos de grupos funcionales en cinco organismos modelo; Homo sapiens, Mus musculus, Drosophila melanogaster, Caenorhabditis elegans y Saccharomyces cerevisiae. __________________ Flavio Pazos Obregón*1,2, Pablo Soto1, José Luis Lavín3, Ana Rosa Cortázar3, Rosa Barrio4, Ana María Aransay3,5, Rafael Cantera1,6 1: Departamento de Biología del Neurodesarrollo, IIBCE, Motevideo, Uruguay. 2: Instituto de Matemática y Estadística “Rafael Laguarda”, Facultad de Ingeniería, UDELAR, Uruguay. 3: Plataforma de Análisis del Genoma, CIC bioGUNE, Derio, España. 4: Unidad de Genómica Funcional, CIC bioGUNE, Derio, España. 5: CIBERehd, ISCIII, Madrid, España. 6: Departamento de Zoología, Universidad de Estocolmo, Suecia. * fpazos@iibce.edu.uy

Parada óptima de difusiones multidimensionales
29/09/2017 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

En esta charla hablaremos del problema de parada óptima de procesos multidimensionales. Luego de una breve introducción sobre el problema de parada óptima en general, nos enfocamos en el caso en que el proceso subyacente es un movimiento Browniano multidimensional, y la función de pago es cuadrática. Cuando la función de pago es simétrica, obtenemos la parada óptima de un proceso de Bessel, que es una situación conocida. En el caso general, desarrollamos la representación de la solución (que es una función excesiva) mediante una integral del núcleo de Green del proceso. De esta forma, la incógnita del problema que es la región óptima para para el proceso (que es una circunferencia en el caso simétrico) verifica una sistema de ecuaciones integrales. Este sistema se transforma tomando límite adecuadamente en otro en el que aparecen las funciones armónicas del proceso, que son de mas sencillo tratamiento que el núcleo de Green. Estas últimas ecuaciones admiten un tratamiento numérico, que resolvemos en dimensiones dos y tres. Se trata de un trabajo conjunto con Sören Christensen, Fabián Crocce y Paavo Salminen.

Modelación estocástica en tasas de interés: Parte II
22/09/2017 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

La idea de la charla es continuar la realizada en el primer semestre donde cuento algunos de los resultados obtenidos en el desarrollo de mi doctorado. En esta charla haremos un repaso del problema e introduciremos la modelación central que se utilizó. Contaré el método de estimación utilizado y los resultados obtenidos.

Aprendizaje semi-supervisado
15/09/2017 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

El problema clásico de clasificación tiene como objetivo asignar una etiqueta a un nuevo dato a partir de una muestra D_n de entrenamiento. Típicamente se asume D_n iid, y se prueban resultados de consistencia cuando n → ∞. En el contexto de aprendizaje semi-supervisado, la muestra de entrenamiento es pequeña, y se tiene una enorme cantidad, l>>n, de datos para clasificar, X_1 , . . . , X_l . El objetivo es usar (si es posible) la enorme cantidad de datos no clasificados, para construir un clasificador que sea mejor (se equivoque menos) que el que se puede construir con la muestra inicial D_n ya etiquetada. Intuitivamente, esto será posible si conocer la distribución de las X aporta información a la clasificación. En la charla propondremos un algoritmo que permite clasificar secuencialmente la muestra X_1,...X_l , y que asintoticamente (cuando l → ∞ y n es fijo), se comporta como la mejor regla (teórica) posible. Si bien esto requiere imponer hipotesis fuertes sobre la distribución de las X, veremos que las mismas son necesarias, por la dificultad intrínseca del problema.

Mínimo largo de descripción (MDL): una herramienta para la selección y comparación de modelos.
08/09/2017 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

Se quiere construir un modelo paramétrico que explique cierto conjunto de datos. Un problema a considerar es determinar la cantidad de parámetros a utilizar de modo de obtener un ajuste adecuado. Para ello consideraremos que el mejor ajuste se logra con la elección de parámetros que permita la mayor compresión del conjunto de datos (incluyendo el costo de almacenar también los parámetros del propio modelo). Se presentará MDL como una herramienta para lograr dicho objetivo, comentaremos cómo se realizan los cálculos correspondientes y si el tiempo lo permite veremos una aplicación.

Infiriendo sobre migraciones y ancestrías a través de largos de haplotipos.
01/09/2017 de 10:30 a 11:30 Salón de Seminarios. Centro de Matemática,

Al final sí voy a hablar de cosas sobre las que estoy trabajando, pero va a ser algo nuevo. Supongamos que consideramos ciertas poblaciones (por ejemplo charrúas, africanos y europeos), y que podemos saber qué parte del cromosoma corresponde a qué población (asumiendo que esas poblaciones coexistieron y se cruzaron, generando descendencia mestiza). Eso nos puede llevar a preguntas acerca de las migraciones que se dieron en las últimas generaciones que generaron la coexistencia (tasas de migración, o cambios en la misma), como a preguntas acerca de ancestría (pudo una persona dada haber tenido un ancestro charrúa "puro"?). Veremos algunos modelos que son la base del trabajo de este proyecto.