Chiruzzo, L., Denisov, P., Molina-Villegas, A., Sabido, S. F., Coto-Solano, R., Agüero-Torales, M., … & Mager, M. (2024, June). Findings of the AmericasNLP 2024 shared task on the creation of educational materials for indigenous languages. In Proceedings of the 4th Workshop on Natural Language Processing for Indigenous Languages of the Americas (AmericasNLP 2024) (pp. 224-235).
Agüero-Torales, M. M., Abellán, C. R., Mata, M. C., Hernández, J. I. D., López, M. S., Miranda-Escalada, A., … & Chiruzzo, L. (2024). Overview of GenoVarDis at IberLEF 2024: NER of Genomic Variants and Related Diseases in Spanish. Procesamiento del Lenguaje Natural, 73, 381-392.
Sastre, I., Alfonso, L., Fleitas, F., Gil, F., Lucas, A., Spoturno, T., … & Chiruzzo, L. (2024, June). RETUYT-INCO at MLSP 2024: Experiments on language simplification using embeddings, classifiers and large language models. In Proceedings of the 19th Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2024) (pp. 618-626).
Berruti, S., Collazo, A., Sellanes, D., Rosá, A., & Chiruzzo, L. (2024, June). Automatic Crossword Clues Extraction for Language Learning. In Proceedings of the 19th Workshop on Innovative Use of NLP for Building Educational Applications (p. 381).
Lucas, A., Baladón, A., Pardiñas, V., Agüero-Torales, M., Góngora, S., & Chiruzzo, L. (2024, June). Grammar-based Data Augmentation for Low-Resource Languages: The Case of Guarani-Spanish Neural Machine Translation. In Proceedings of the 2024 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers) (pp. 6385-6397). Special Track award at NAACL2024
Góngora, S., Chiruzzo, L., Méndez, G., & Gervás, P. (2024) PAYADOR: A Minimalist Approach to Grounding Language Models on Structured Data for Interactive Storytelling and Role-playing Games. In Proceedings of The 15th International Conference on Computational Creativity
Suarez, J. D., & Chiruzzo, L. (2024, May). Null Subjects in Spanish as a Machine Translation Problem. In Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024) (pp. 12313-12322).
Acceda aquí a la lista completa de publicaciones del grupo.
Período | Proyecto | Programa/Financiador | Detalle |
---|---|---|---|
2024 - | Métodos de generación controlada para la construcción de agentes conversacionales de apoyo a la enseñanza | Fondo María Viñas - ANII | El importante desarrollo que han tenido en los últimos años los grandes modelos de lenguaje (LLM: Large Language Models) en tareas de generación de lenguaje natural trajo aparejada una mejora significativa en la construcción de agentes conversacionales o “chatbots”, que interactúan con los usuarios simulando una conversación entre humanos. Estos chatbots logran un excelente desempeño en cuanto a la corrección lingüística del texto generado, tanto a nivel sintáctico como discursivo. Los textos son coherentes y cohesivos, e incluso son pertinentes a nivel pragmático, ya que son acordes a lo que espera el usuario. Sin embargo, estas herramientas muestran también grandes debilidades, como la falta de información sobre el material utilizado para el entrenamiento del LLM, la reproducción de sesgos indeseados contenidos en este material, o la falta de confiabilidad en los contenidos generados. El modelo genera salidas en base a generalizaciones que infirió sobre el lenguaje, produciendo información “inventada”, que no es posible asociar con las fuentes de donde proviene. Estas carencias de los LLM resultan críticas si se utilizan en un contexto educativo. Esta propuesta busca investigar posibles aplicaciones de los LLM a la enseñanza, adaptándolos a dominios específicos, en contextos controlados, en donde las fuentes de información que se utilizan para generar salidas son confiables y seleccionadas por docentes. Se estudiarán posibles técnicas para aprovechar su gran potencial para generarlenguaje en forma correcta y pertinente, buscando, al mismo tiempo, mitigarlas debilidades antes mencionadas. En el proyecto colaborarán investigadores del área Procesamiento de Lenguaje Natural y Lingüistas con formación en enseñanza de lenguas, que aportarán el conocimiento específico sobre el funcionamiento y la construcción de las herramientas, con integrantes de Ceibal, que definirán los contextos y actores educativos que son los potenciales usuarios de los resultados que se alcancen. |
2023 - | IA para el procesamiento de archivos documentales y su aplicación al caso de los archivos del pasado reciente | Fondo Inteligencia Artificial, ANII-IDRC | El Proyecto Cruzar es un esfuerzo multidisciplinario, que incluye a docentes, investigadores y estudiantes de las facultades de Información y Comunicación, Ciencias Sociales e Ingeniería de la Universidad de la República, así como miembros de la organización Madres y Familiares de Uruguayos Detenidos Desaparecidos, dedicados al análisis de los documentos producidos durante la última dictadura en Uruguay. El objetivo general de dicho proyecto es procesar diferentes colecciones documentales que existen de ese período de tiempo, y mediante el análisis de esos documentos, contribuir al esclarecimiento de muchas preguntas que están sin respuesta hasta nuestros días. Estos objetivos son compartidos por otros equipos de investigación de la región que se enfrentan a problemas similares. Tal es el caso del Laboratorio de Humanidades Digitales (LABHD) de la Universidad Federal de Bahía en Brasil. El procesamiento de colecciones documentales presenta diversos desafíos, muchos de los cuales pueden resolverse con la aplicación de técnicas de IA. Tal es el caso de la clasificación automática de documentos según su tipo, la transcripción de imágenes a texto, o la extracción e identificación de entidades y relaciones presentes en el texto, entre otros. Hasta el momento hemos avanzado en varías líneas de aplicación de IA en este contexto, con diferentes niveles de éxito y madurez en los resultados obtenidos. Este proyecto propone profundizar en algunos de los problemas de aplicación de IA en este contexto, en particular en la mejora de la transcripción y en la extracción de información. Asimismo, se propone realizar actividades conjuntas de cooperación con el LABHD para realizarla transferencia de las herramientas previamente desarrolladas, así como la aplicación de las nuevas estrategias a llevar a cabo en este proyecto a las colecciones documentales que ellos consideren pertinentes. |
2023 - | Corrección automática de textos en inglés de estudiantes del sistema educativo uruguayo | Fondo Sectorial en Educación - ANII Ceibal | Este proyecto tiene como objetivo el desarrollo de un sistema de corrección automática de trabajos de estudiantes de inglés del sistema de educación media pública del Uruguay, ante la falta de opciones de código abierto que aseguren la protección de sus datos. El primer paso es la creación de un corpus de textos escritos por estudiantes de educación media, con variedad de temáticas y niveles de dominio de la lengua. Se creará una rúbrica de corrección de aspectos formales de la lengua, tales como la ortografía y aspectos gramaticales para corregir y anotar el corpus. Este corpus anotado se utilizará en el entrenamiento de modelos basados en técnicas actuales del PLN, en particular, redes neuronales y modelos de lenguaje. Este sistema tomará en consideración algunos errores y características típicas de la producción de estudiantes cuya lengua materna es, mayoritariamente en nuestro sistema educativo, el español rioplatense. La información brindada por este análisis automático del sistema tiene dos fines principales. En primer lugar, puede brindar información al estudiante, o al docente, acerca de su desempeño lingüístico. Para ello, la herramienta incorporará un incipiente sistema de retroalimentación que indicará al estudiante el tipo de error y explicaciones acerca de su naturaleza. En segundo lugar, la herramienta puede ser utilizada en evaluaciones de carácter masivo y realizar un primer análisis en términos de los aspectos formales de la lengua que permita a los evaluadores dedicarse a la valoración de otros aspectos de carácter más cualitativo, tales como la calidad de los contenidos o la organización textual. Ambos fines están para dar información para la toma de decisiones de estudiantes y docentes acerca de los pasos a seguir para lograr los objetivos curriculares. |
2021 - 2022 | Búsqueda de respuestas a partir de textos en español | CSIC-UdelaR | En este proyecto nos proponemos profundizar la investigación en las áreas QA (Question & Answering) e IR (Information Retrieval), con el objetivo de llegar a definir un enfoque genérico aplicable a diferentes dominios. Algunos de los problemas que se abordarán son: investigación en el área IR para mejorar la identificación de documentos relevantes para una pregunta; modelos neuronales entrenados sobre corpus genéricos o específicos de dominio; estudio de enfoques alternativos a los modelos neuronales, basados en análisis sintáctico o patrones de respuestas, y su posible combinación; evaluación de la calidad de las respuestas obtenidas; interacción con aspectos extraproposicionales del significado. Como parte de este proyecto se llevó adelante la competencia QuaLES: sitio de la competencia , paper . |
2021 | Desarrollo de herramientas de apoyo a la enseñanza de lenguas aplicando técnicas de Inteligencia Artificial | ANII-FSED | Esta propuesta busca continuar con una línea de trabajo desarrollada desde 2018, en el marco de una colaboración entre el grupo Procesamiento de Lenguaje Natural (PLN) del Instituto de Computación, Facultad de Ingeniería (Udelar), y el Programa de Políticas Lingüísticas de ANEP. En 2020 se incorpora al equipo de trabajo la Facultad de Información y Comunicación (Udelar) con el objetivo de fortalecer los aspectos específicos relacionados con la enseñanza de inglés como lengua extranjera. En estos años se desarrollaron diferentes aplicaciones para la generación automática de recursos educativos para apoyar la enseñanza de la lengua inglesa, aprovechando el potencial de las herramientas y los métodos actuales del PLN. En ocasión de este llamado se propone trabajar en la extensión y adaptación de las herramientas implementadas, de forma que puedan ser utilizadas en forma remota y sean fácilmente accesibles desde las ceibalitas y la plataforma CREA, e investigar nuevas técnicas de PLN para mejorar algunos aspectos de las aplicaciones. |
Período | Proyecto | Programa/Financiador | Equipos con los que colaboramos |
---|---|---|---|
2021 - 2023 | Cobertura informativa y procesos de (des)información en los medios de comunicación uruguayos | CSIC-UdelaR | Facultad de Información y Comunicación de la UdelaR |
2021 - 2023 | Expectativas e indicadores de sentimiento económico: estudio del caso uruguayo | CSIC-UdelaR | Facultad de Ciencias Económicas de la UdelaR |
2021 | De la ley de seguridad ciudadana (1995) a la ley de urgente consideración (2020): análisis de las agendas de seguridad durante los últimos 25 años en Uruguay | Facultad de Ciencias Sociales | |
2019 - 2020 | E-Participación: Desarrollo de un Marco de Referencia y Plataforma Tecnológica para apoyar procesos de participación ciudadana | BID | Facultad de Ciencias Sociales, AGESIC |
2017 - | CRUZAR : proyecto de sistematización de información de archivos del pasado reciente vinculados al terrorismo de estado y graves violaciones a los Derechos Humanos. | UdelaR | Facultad de Información y Comunicación, Facultad de Ingeniería, UdelaR |
Estudiante | Posgrado | Tesis | Orientación) |
---|---|---|---|
Mathias Etcheverry | Doctorado en Informática | Tratamiento de Expresiones Temporales con Redes Neuronales Artificiales y Representaciones Distribuidas de las Palabras | Dina Wonsever |
Diego Garat | Doctorado en Informática | Dina Wonsever | |
Pablo Grill | Maestría en Informática | Procesamiento de Lenguaje Natural aplicado a juicios escritos de maestros | Aiala Rosá, Guillermo Moncecchi |
Gonzalo Herrera | Maestría en Informática | Estudio de modelos neuronales de lenguaje y sus aplicaciones a diferentes problemas del área PLN | Aiala Rosá, Luis Chiruzzo |
Rodrigo Laguna | Maestría en Informática | Curriculum Learning | Guillermo Moncecchi |
Juan Machado | Maestría en Ciencia de Datos | Aiala Rosá | |
Gabriel Mordecki | Maestría en Informática | Detección y respuesta de títulos clickbait en prensa | Javier Couto, Guillermo Moncecchi |
Raúl Speroni | Maestría en Ciencia de Datos | Juan José Prada |
Período | Proyecto | Programa/Financiador | Detalle |
---|---|---|---|
2018 - 2020 | Curación automática de sentencias de la Base Nacional de Jurisprudencia | ANII - Fondo de Datos Video de difusión | El proyecto propone la automatización de varias tareas de curación de datos abiertos de sentencias judiciales. El proceso fundamental es la anonimización de datos sensibles (Nombres de personas y eventualmente de lugares y organizaciones). Los otros procesos son la generación de metadatos dedescripción temática y el reconocimiento de citaciones a especialistas de prestigio (“doctrinos”). Elproyecto se realiza en completo acuerdo con el Poder Judicial, Suprema Corte de Justicia e incluye un convenio de interés mutuo y salvaguarda de la confidencialidad de los datos entre el Poder Judicial y la UDELAR |
2018 - 2020 | Diseño de un mecanismo para mejorar la información para productores ganaderos mediante Procesamiento de Lenguaje Natural | BID | Este proyecto busca mejorar y facilitar la búsqueda, el acceso y el uso por parte de los usuarios de los datos, la información, las aplicaciones y las tecnologías disponibles en INIA, con énfasis en esta primera etapa en la producción ganadera familiar, desarrollando un piloto de una plataforma informática que, a través del Procesamiento de Lenguaje Natural (PLN) y otras tecnologías de inteligencia artificial, estructure automáticamente dichos contenidos (producción de pasturas,manejo de ganado, condiciones ambientales, guías y recomendaciones sanitarias, etc.) y haga ergonómica la interacción con los usuarios. Proyecto en colaboración con ICT4V, INIA y Quanam, participa Horacio Saggion (Pompeu Fabra) |
2014 - 2015 | RITA: RIch Text Analysis through Enhanced Tools based on Lexical Resources | STIC-AmSud | The objective of the project is the development of tools for the syntactico-semantic analysis of Spanish and Portuguese. To do this, we aim to build a framework to integrate the different capabilities and resources of the groups involved. In particular, we want to integrate different lines of work on compositional semantics and enriched lexica: the Lexicon-Grammar tables, verbal subcategorization frames, multiword expressions, grammatical formalisms with enough expressivity to integrate this information, and learning mechanisms capable of building complex models from examples at these levels of analysis |
2012 - 2014 | ECOS PU11H02: Modelado de Opiniones y de su anclaje calendario y realización de sistemas cronológicos con polaridad | ECOS-SUD | Proyecto de colaboración con el laboratorio MoDyCo de la Universidad Paris Ouest. La problemática del proyecto se sitúa en la recuperación y modelado de opiniones y de expresiones de calendario en textos. Se inscribe en el área de Procesamiento de Lenguaje Natural, apoyándose sobre dos modalidades de análisis: tratamiento simbólico y explotación de técnicas de aprendizaje automático. Actualmente, la recuperación de opiniones y de expresiones temporales está siendo abordada separadamente por equipos en Uruguay y Francia. Este proyecto apunta a reunir ambos enfoques de modo de poder recuperar opiniones emitidas en un período temporal dado. Esto permitiría responder a una pregunta del tipo: “Cuál es la opinión de X / acerca de X antes del 2010?” |
2009 - 2010 | Temantex: Análisis temporal de textos | I+D, CSIC-UdelaR | El objetivo del proyecto es el análisis temporal de textos en español. Esto involucra el reconocimiento de los eventos y las expresiones temporales en textos y el reconocimiento de relaciones temporales entre eventos y de eventos con intervalos o instantes denotados por expresiones temporales |
2008 - 2009 | Merging, InduCing and Reasoning with Ontologies in BIOinformatics: The MICROBIO Project | STIC-AmSud | Proyecto de colaboración con Pontificia Universidade Católica do Rio Grande do Sul, Faculdade de Informatica. Brasil, Universidad de Concepción. Chile, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications. France,Facultad de Matemática, Astronomía y Física. Universidad Nacional de Córdoba. Argentina, Institut Pasteur de Montevideo. Uruguay. |
2006 - 2008 | U05H01: Modèle de discours et outils informatiques pour l’analyse, la recherche d’information, la visualisation et la navigation textuelle | ECOS-SUD | Proyecto de cooperación con la Université Paris X - Nanterre (France) |
2006 - 2008 | SIBILA: Sistema automático de respuestas basado en un modelo del discurso | PDT - MEC | |
2000 - 2002 | CLATEX: Construcción de una herramienta informática para la segmentación en cláusulas de textos en español | CSIC - UdelaR | Este proyecto incluye el desarrollo de un formalismo de reglas contextuales para el reconocimiento de cláusulas |
1998 - 2001 | U97E01:Adquisición de conocimientos a partir de textos: representación y tratamientos informático | ECOS-SUD | Proyecto de cooperación con la Université Sorbonne (Paris IV). En el marco de este proyecto se desarrolló una plataforma de exploración contextual (ContextO). Esta plataforma incluye un amplio rango de aplicaciones: extracción de definiciones y relaciones de causalidad en texto libre, construcción automática de resúmenes, filtrado semántico de información, etc. |