Extrayendo datos manuscritos de documentos estructurados.

Dia	2026-04-10 10:30:00-03:00
Hora	2026-04-10 10:30:00-03:00
Lugar	FCEA: Salón 1 del EIP (entrada por Lauro Müller)

Extrayendo datos manuscritos de documentos estructurados.

Natalia Bottaioli (Centre Borelli, ENS Paris-Saclay, Université Paris-Saclay)

Esta charla aborda un tema con el que me he obsesionado desde hace ya varios años: la extracción de datos presentes en las actas de estado civil, tales como las actas de nacimiento. El problema se sitúa en la intersección de visión por computadora, aprendizaje profundo y la privacidad de datos. En la primera parte, daré contexto exponiendo sobre mi trabajo de tesis de la Maestría en Ciencia de Datos y Aprendizaje Automático (Fing, Udelar), que aborda el problema de transcribir automáticamente actas de nacimiento uruguayas manuscritas. Iremos de pipelines clásicos de segmentación y reconocimiento hasta modelos extremo a extremo, y veremos cómo, con conjuntos de datos pequeños y estrategias de anotación bien elegidas, es posible alcanzar resultados muy precisos. En la segunda parte, les contaré sobre el trabajo que vengo realizando en el marco de mi doctorado en la Université Paris-Saclay, en torno a la pregunta: ¿qué hacemos cuando los datos reales no se pueden utilizar (ni para entrenar, ni para publicar) por restricciones de privacidad? Para responder esto, presentaré un método no supervisado para generar documentos sintéticos realistas a partir de formularios manuscritos, que permite entrenar modelos sin exponer información sensible.