Sala zoom: https://salavirtual-udelar.zoom.us/j/86569984170?pwd=Ldh16CDI4HroEB2mEEQG1uDbmHXx4i.1
Resumen:
El proyecto CRUZAR trabaja activamente en el desarrollo de herramientas que permitan categorizar, indexar y navegar el conocimiento presente en los documentos del archivo Berrutti. Estas herramientas habilitan un análisis mucho más rico y exhaustivo de la información existente dentro de los documentos, ayudando a investigadores y familiares en el estudio de los acontecimientos ocurridos durante la época de la dictadura uruguaya.
En este marco, se busca la construcción de un grafo de conocimiento que concentre información de interés extraída del corpus. El objetivo principal de este trabajo es la construcción de un sistema de extracción de información sobre los documentos del archivo, que permita obtener entidades, relaciones y eventos mencionados en los textos, que en el futuro alimentarán este grafo de conocimiento. Con este objetivo en mente, se realizó un relevamiento del estado del arte para la tarea de extracci´on de informaci´on, donde se observó que los enfoques construidos en base a modelos de lenguaje de gran escala (Large Language Models) son capaces de obtener buenos resultados para la tarea en dominios donde los datos etiquetados son escasos, lo cual incentivó el uso de esos enfoques para el problema presente en este trabajo.
Para la construcción y evaluación del sistema de extracción de información, se construyó un conjunto de datos etiquetado con entidades, relaciones y eventos sobre un subconjunto de documentos del archivo. Este proceso requirió de la definición y ejecución de una tarea de etiquetado, la cual involucró un grupo interdisciplinario de anotadores. El resultado de la tarea de etiquetado fue un conjunto de 515 documentos anotados con un acuerdo entre anotadores y autor de 62.1 en promedio para todas las tareas, donde el acuerdo entre anotadores y autor es el promedio ponderado de la métrica F1 considerando al autor como gold standard. Las tareas que obtuvieron peor acuerdo son extracción de relaciones (24.6) y extracción de argumentos de eventos (44.4), y las que obtuvieron mejor acuerdo son las tareas de extracción de entidades (73.5), extracción de valores (90.5) y extracción de disparadores de eventos (77.5). Luego de un proceso de curado manual, se obtuvo un conjunto de datos de buena calidad con 403 documentos, que conforman el conjunto de datos final utilizado en este trabajo.
El sistema de extracción de información construido en base a modelos generativos alcanza un promedio ponderado de la m´etrica F1 de 58.4, promediado sobre todas las tareas, al utilizarse con el modelo Qwen2.5-Coder para generación de código, junto con una instrucción que formula el problema como uno de generación de código, y utilizando 3 ejemplos de entradas y salidas esperadas en la instrucci´on. Las tareas que obtienen los peores resultados son la extracción de relaciones (27.0) y extracción de argumentos de eventos (48.2), y las que obtienen los mejores resultados son la extracción de entidades (68.8), extracción de valores (78.3) y extracción de disparadores de eventos (69.5). Si bien estos resultados demuestran que aún hay espacio para la mejora, las salidas del sistema son útiles y comprueban que es posible obtener un sistema de este tipo sobre los documentos del archivo. También, durante la construcción del sistema se exploraron diversas estrategias y diseños, obteniendo importantes aprendizajes sobre mejores patrones de diseño para este sistema y potenciales líneas de mejora para el
futuro. Los aportes de esta tesis son los siguientes:
- Relevamiento del estado del arte en resolución de correferencias y extracción de información.
- Definición de una ontología de dominio que guíe la construcción del sistema de extracción de información y que será útil para la construcción de un grafo de conocimiento en el futuro.
- Como producto del preprocesamiento de los textos, se generó un conjunto de datos con 1000 transcripciones de fichas curadas manualmente, útil para la construcción y evaluación de sistemas de Optical Character Recognition (OCR).
- Desarrollo de un conjunto de datos etiquetados para la tarea de extracción de información y de un marco de trabajo para la tarea de etiquetado.
- Evaluación de diferentes estrategias para el uso de modelos generativos de lenguaje natural y código para la extracción de información.
- Diseño y desarrollo de un sistema de extracción de información para los documentos del pasado reciente.