| Grupo PLN - UdelaR

Últimas publicaciones

Sastre, I., & Rosá, A. (2026, July). Concept Tokens: Learning Behavioral Embeddings Through Concept Definitions. In M. Liakata, V. P. Moreira, J. Zhang, & D. Jurgens (Eds), Findings of the Association for Computational Linguistics: ACL 2026 (pp. 26501–26518). doi:10.18653/v1/2026.findings-acl.1319
Robaina, S., Rosá, A., & Chiruzzo, L. (2026, July). RETUYT-INCO at BEA 2026 Shared Task 1: Feature-Enriched mDeBERTa for Word Difficulty Prediction. In E. Kochmar, B. Alhafni, S. Bannò, M. Bexte, J. Burstein, A. Horbach, … Z. Yuan (Eds), Proceedings of the 21st Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2026) (pp. 1113–1118). doi:10.18653/v1/2026.bea-1.79
Sastre, I., Remersaro, I., Díaz, F., De Horta, N., Chiruzzo, L., Rosá, A., & Góngora, S. (2026, July). RETUYT-INCO at BEA 2026 Shared Task 2: Meta-prompting in Rubric-based Scoring for German. In E. Kochmar, B. Alhafni, S. Bannò, M. Bexte, J. Burstein, A. Horbach, … Z. Yuan (Eds), Proceedings of the 21st Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2026) (pp. 1235–1243). doi:10.18653/v1/2026.bea-1.91
Castro, S., Chiruzzo, L., Góngora, S., Deng, N., Rahili, S., Sastre, I., … Mihalcea, R. (2026, July). SemEval-2026 Task 1: MWAHAHA, Models Write Automatic Humor And Humans Annotate. In E. Kochmar, D. Ghosh, K. North, & M. Komachi (Eds), Proceedings of the 20th International Workshop on Semantic Evaluation (2026) (pp. 3797–3822). doi:10.18653/v1/2026.semeval-1.454
Mager, M., Ebrahimi, A., Bui, M. D., Pugh, R., Oncevay, A., Chiruzzo, L., … Von Der Wense, K. (Eds). (2026). Proceedings of the Sixth Workshop on NLP for Indigenous Languages of the Americas (AmericasNLP). doi:10.18653/v1/2026.americasnlp-6.0
Bui, M. D., Guzmán, D., Ebrahimi, A., Morales, F., Agüero-Torales, M., Insfrán, R., … von der Wense, K. (2026, July). Findings of the AmericasNLP 2026 Shared Task on Cultural Image Captioning for Indigenous Languages. In M. Mager, A. Ebrahimi, M. D. Bui, R. Pugh, A. Oncevay, L. Chiruzzo, … K. Von Der Wense (Eds), Proceedings of the Sixth Workshop on NLP for Indigenous Languages of the Americas (AmericasNLP) (pp. 279–295). doi:10.18653/v1/2026.americasnlp-6.27
Altamirano, J., Leon Pérez, M., Ruiz-Juarez, B., Chiruzzo, L., Gomez-Adorno, H., & Balouchzahi, F. (2026, July). ServSocIA at Semeval-2026 Task 9: Evaluating Prompt Strategies for Polarization Detection. In E. Kochmar, D. Ghosh, K. North, & M. Komachi (Eds), Proceedings of the 20th International Workshop on Semantic Evaluation (2026) (pp. 2754–2759). doi:10.18653/v1/2026.semeval-1.346
Pagella, L., Stari, C., & Rosá, A. (2026). Hacia una metodología automatizada para identificar habilidades científicas en informes de laboratorio de Física. Revista de Enseñanza de la Física, 38(1), 229-235.
Garat, D., Moncecchi, G., & Wonsever, D. (2025, November). In-Context Learning for Frame-Semantic Parsing. In 2025 3rd International Conference on Foundation and Large Language Models (FLLM) (pp. 629-635). IEEE.
Dai, Z., Manitto, M., Chiruzzo, L., & Rosá, A. (2025, October). Error Detection and Correction for English Learners using Neural Models. In 2025 44th International Conference of the Chilean Computer Science Society (SCCC) (pp. 1-6). IEEE.
Dutra, M., Aguirre, R., & Chiruzzo, L. (2025, October). Experiments on Automatic Alignment of Spoken Spanish and Uruguayan Sign Language Glosses. In 2025 IEEE CHILEAN Conference on Electrical, Electronics Engineering, Information and Communication Technologies (CHILECON) (pp. 1-4). IEEE.
Salinas, C., Nieto, M. , Beltramelli,N., Etcheverry,L. and Rosá,A. (2025,October), Data Science in Education: Analyzing and Mitigating Bias from an Intersectional Perspective. In _ 2025 IEEE CHILEAN Conference on Electrical, Electronics Engineering, Information and Communication Technologies (CHILECON) (1-7). IEEE.
Mordecki, G., Chiruzzo, L., Laguna, R., Prada, J.J., Rosá, A., Sastre, I. & Moncecchi, G. (2025,September). Overview of TA1C at IberLEF 2025: Detecting and Spoiling Clickbait in Spanish-Language News. Procesamiento del Lenguaje Natural, [S.l.], v. 75, p. 523-535, sep. 2025. ISSN 1989-7553.
Sastre, I., & Rosá, A. (2025, August). Memory Tokens: Large Language Models Can Generate Reversible Sentence Embeddings. In R. Jia, E. Wallace, Y. Huang, T. Pimentel, P. Maini, V. Dankers, … P. Lesci (Eds), Proceedings of the First Workshop on Large Language Model Memorization (L2M2) (pp. 183–189).

Acceda aquí a la lista completa de publicaciones del grupo.

Proyectos recientes

Período	Proyecto	Responsable(s)	Programa/Financiador	Detalle
2025 -	Usos de modelos de lenguaje para la construcción de sistemas de preguntas sobre bases documentales	Aiala Rosa - Guillermo Moncecchi	CSIC - UdelaR	En este proyecto nos proponemos investigar cómo explotar el gran potencial de los modelos de lenguaje generativos para el desarrollo de herramientas confiables para el problema de Búsqueda de Respuestas a partir de bases de documentos, cómo evaluar diferentes enfoques y cómo lograr herramientas que puedan utilizarse con recursos computacionales limitados. Se espera hacer aportes a nivel académico y también aportar a la comprensión del uso de modelos de lenguaje en general, más allá del ámbito académico, dado que estos se están incorporando cada vez más en diferentes ámbitos, como el desarrollo de software o contextos sensibles como la educación o la medicina.
2024 -	Métodos de generación controlada para la construcción de agentes conversacionales de apoyo a la enseñanza	Aiala Rosá	Fondo María Viñas - ANII	Esta propuesta busca investigar posibles aplicaciones de los LLM a la enseñanza, adaptándolos a dominios específicos, en contextos controlados, en donde las fuentes de información que se utilizan para generar salidas son confiables y seleccionadas por docentes. Se estudiarán posibles técnicas para aprovechar su gran potencial para generar lenguaje en forma correcta y pertinente, buscando, al mismo tiempo, mitigar debilidades como la reproducción de sesgos indeseados, o la falta de confiabilidad en los contenidos generados. En el proyecto colaborarán investigadores del área Procesamiento de Lenguaje Natural y Lingüistas con formación en enseñanza de lenguas, con integrantes de Ceibal, que definirán los contextos y actores educativos que son los potenciales usuarios de los resultados que se alcancen. El proyecto se enmarca en la línea de trabajo CINACINA .
2023 -	IA para el procesamiento de archivos documentales y su aplicación al caso de los archivos del pasado reciente	Lorena Etcheverry - Aiala Rosá	Fondo Inteligencia Artificial, ANII-IDRC	El Proyecto Cruzar es un esfuerzo multidisciplinario, que incluye a docentes, investigadores y estudiantes de las facultades de Información y Comunicación, Ciencias Sociales e Ingeniería de la Universidad de la República, así como miembros de la organización Madres y Familiares de Uruguayos Detenidos Desaparecidos, dedicados al análisis de los documentos producidos durante la última dictadura en Uruguay. El objetivo general de dicho proyecto es procesar diferentes colecciones documentales que existen de ese período de tiempo, y mediante el análisis de esos documentos, contribuir al esclarecimiento de muchas preguntas que están sin respuesta hasta nuestros días. Este proyecto propone profundizar en algunos de los problemas de aplicación de IA en este contexto, en particular en la mejora de la transcripción y en la extracción de información.
2023 -	Corrección automática de textos en inglés de estudiantes del sistema educativo uruguayo	Luis Chiruzzo - Laura Musto	Fondo Sectorial en Educación - ANII Ceibal	Este proyecto tiene como objetivo el desarrollo de un sistema de corrección automática de trabajos de estudiantes de inglés del sistema de educación media pública del Uruguay, ante la falta de opciones de código abierto que aseguren la protección de sus datos. El primer paso es la creación de un corpus de textos escritos por estudiantes de educación media, con variedad de temáticas y niveles de dominio de la lengua. Este corpus anotado se utilizará en el entrenamiento de modelos basados en técnicas actuales del PLN, en particular, redes neuronales y modelos de lenguaje. Este sistema tomará en consideración algunos errores y características típicas de la producción de estudiantes cuya lengua materna es, mayoritariamente en nuestro sistema educativo, el español rioplatense. El proyecto se enmarca en la línea de trabajo CINACINA
2021 - 2022	Búsqueda de respuestas a partir de textos en español	Aiala Rosá - Guillermo Moncecchi	CSIC-UdelaR	En este proyecto nos proponemos profundizar la investigación en las áreas QA (Question & Answering) e IR (Information Retrieval), con el objetivo de llegar a definir un enfoque genérico aplicable a diferentes dominios. Como parte de este proyecto se llevó adelante la competencia QuaLES.
2021 - 2022	Desarrollo de herramientas de apoyo a la enseñanza de lenguas aplicando técnicas de Inteligencia Artificial	Aiala Rosá - Laura Musto	ANII-FSED	Esta propuesta busca continuar con una línea de trabajo desarrollada desde 2018, en el marco de una colaboración entre el grupo Procesamiento de Lenguaje Natural (PLN) del Instituto de Computación, Facultad de Ingeniería (Udelar), y el Programa de Políticas Lingüísticas de ANEP. En 2020 se incorpora al equipo de trabajo la Facultad de Información y Comunicación (Udelar) con el objetivo de fortalecer los aspectos específicos relacionados con la enseñanza de inglés como lengua extranjera.

Proyectos en los que participamos

Período	Proyecto	Programa/Financiador	Equipos con los que colaboramos
2021 - 2023	Cobertura informativa y procesos de (des)información en los medios de comunicación uruguayos	CSIC-UdelaR	Facultad de Información y Comunicación de la UdelaR
2021 - 2023	Expectativas e indicadores de sentimiento económico: estudio del caso uruguayo	CSIC-UdelaR	Facultad de Ciencias Económicas de la UdelaR
2020 - 2022	De la ley de seguridad ciudadana (1995) a la ley de urgente consideración (2020): análisis de las agendas de seguridad durante los últimos 25 años en Uruguay	CSIC-UdelaR	Facultad de Ciencias Sociales
2019 - 2020	E-Participación: Desarrollo de un Marco de Referencia y Plataforma Tecnológica para apoyar procesos de participación ciudadana	BID	Facultad de Ciencias Sociales, AGESIC
2017 -	CRUZAR : proyecto de sistematización de información de archivos del pasado reciente vinculados al terrorismo de estado y graves violaciones a los Derechos Humanos.		Facultad de Información y Comunicación, Facultad de Ingeniería, UdelaR

Tesis de Doctorado

2026 - Diego Garat - “Bajo el dominio de la ley. Desidentificación y extracción de eventos de la Base de Jurisprudencia Nacional del Uruguay” - Doctorado en Informática (UdelaR - Pedeciba) - Orientadores: Guillermo Moncecchi - Dina Wonsever
2024 - Mathias Etcheverry - “Lexical Semantics on Word Embeddings through Deep Metric Learning” - Doctorado en Informática (UdelaR - Pedeciba) - Orientadora: Dina Wonsever - Descargar
2020 - Luis Chiruzzo - “Statistical Deep Parsing for Spanish” - Doctorado en Informática (UdelaR - Pedeciba) - Orientadora: Dina Wonsever - Descargar
2013 - Guillermo Moncecchi - “Recognizing Speculative Language in Research Texts” - Doctorado en Informática (UdelaR - Pedeciba) - Orientadora: Dina Wonsever - Descargar
2011 - Aiala Rosá - “Identificación de opiniones de diferentes fuentes en textos en español” - Doctorado en Informática (UdelaR - Pedeciba) - Orientadora: Dina Wonsever - Descargar
2006 - Javier Couto - “Une plate-forme informatique de Navigation Textuelle: modélisation, architecture, réalisation et applications de NaviTexte” - Université Paris-Sorbonne - Orientador: Jean-Luc Minel - Descargar
2004 - Dina Wonsever - “Repérage automatique des propositions par exploration contextuelle. Réalisation du systeme informatique Propos” - Université Paris-Sorbonne - Orientador: Jean-Pierre Desclés

Tesis de Maestría

2026 - Lorena Pagella - Habilidades científicas en Física Experimental: una metodología automatizada para el análisis de informes de laboratorio”. Supervisoras de tesis: Cecilia Stari, Aiala Rosá.
2025 - Rodrigo Gallardo - “Extracción de información utilizando modelos generativos en documentos del pasado reciente”. - Supervisoras de tesis: Aiala Rosá, Lorena Etcheverry.
2025 - Santiago Góngora -“Approaches to interactive and improvisational storytelling” - Supervisor de Tesis: Luis Chiruzzo - Descargar
2025 - Santiago Máximo -“Generación de poses de lengua de señas a partir de descripciones en lenguaje natural de símbolos HamNoSys” - Supervisor de Tesis: Luis Chiruzzo
2025 - Rodrigo Laguna - “Teacher Student Curriculum Learning applied to Optical Character Recognition” - Supervisor de Tesis: Guillermo Moncecchi - Descargar
2024 - Gabriel Mordecki - “Te Ahorré un Click: caracterización y detección automática de clickbait en español” - Supervisores de Tesis: Guillermo Moncecchi, Javier Couto. Descargar
2023 - Lucía Bouza - “Recuperación de información para la búsqueda de respuestas en idioma español”. Supervisor de Tesis: Guillermo Moncecchi. Descargar
2020 - Raúl Garreta - “Data efficient deep learning methods for text classification” - Maestría en Informática. Supervisores de Tesis: Guillermo Moncecchi, Dina Wonsever. Descargar
2019 - Fernando López-Bello - “Identificación de genes vinculados al diagnóstico a partir de la información bibliográfica disponible y la historia clínica” - Maestría en Bioinformática Orientadores: Hugo Naya, Víctor Raggio, Aiala Rosá - Descargar
2018 - Andrés Ferraro - “Análisis y aplicaciones sobre letras musicales del Río de la Plata” - Maestría en Informática. Orientadores: Guillermo Moncecchi, Pablo Cancela - Descargar
2016 - Mathias Etcheverry - “Tratamiento de Expresiones Temporales con Redes Neuronales Artificiales y Representaciones Distribuidas de las Palabras” - Maestría en Informática (UdelaR - Pedeciba). Orientadora: Dina Wonsever - Descargar
2015 - Luis Chiruzzo - “Construcción de Recursos Lingüísticos para una Gramática HPSG para el Español” - Maestría en Informática (UdelaR - Pedeciba). Orientadora: Dina Wonsever
2006 - Diego Garat - “Análisis de superficie basado en puntuación” - Maestría en Informática (UdelaR - Pedeciba). Orientadora: Dina Wonsever - Descargar
2004 - Guillermo Moncecchi - “Reglas contextuales y modelos de estado finito” - Maestría en Informática (UdelaR - Pedeciba). Orientadora: Dina Wonsever - Descargar
2002 - Juan José Prada - “Marcadores del discurso en español: análisis y representación” - Maestría en Informática (UdelaR - Pedeciba). Orientadora: Dina Wonsever - Descargar
1993 - Dina Wonsever - “Cálculo de grupos nominales en generación de texto” - Maestría en Informática (UdelaR - Pedeciba). Orientador: José Coch.

Proyectos anteriores

Período	Proyecto	Programa/Financiador	Detalle
2018 - 2020	Curación automática de sentencias de la Base Nacional de Jurisprudencia	ANII - Fondo de Datos Video de difusión	El proyecto propone la automatización de varias tareas de curación de datos abiertos de sentencias judiciales. El proceso fundamental es la anonimización de datos sensibles (Nombres de personas y eventualmente de lugares y organizaciones). Los otros procesos son la generación de metadatos dedescripción temática y el reconocimiento de citaciones a especialistas de prestigio (“doctrinos”). Elproyecto se realiza en completo acuerdo con el Poder Judicial, Suprema Corte de Justicia e incluye un convenio de interés mutuo y salvaguarda de la confidencialidad de los datos entre el Poder Judicial y la UDELAR
2018 - 2020	Diseño de un mecanismo para mejorar la información para productores ganaderos mediante Procesamiento de Lenguaje Natural	BID	Este proyecto busca mejorar y facilitar la búsqueda, el acceso y el uso por parte de los usuarios de los datos, la información, las aplicaciones y las tecnologías disponibles en INIA, con énfasis en esta primera etapa en la producción ganadera familiar, desarrollando un piloto de una plataforma informática que, a través del Procesamiento de Lenguaje Natural (PLN) y otras tecnologías de inteligencia artificial, estructure automáticamente dichos contenidos (producción de pasturas,manejo de ganado, condiciones ambientales, guías y recomendaciones sanitarias, etc.) y haga ergonómica la interacción con los usuarios. Proyecto en colaboración con ICT4V, INIA y Quanam, participa Horacio Saggion (Pompeu Fabra)
2014 - 2015	RITA: RIch Text Analysis through Enhanced Tools based on Lexical Resources	STIC-AmSud	The objective of the project is the development of tools for the syntactico-semantic analysis of Spanish and Portuguese. To do this, we aim to build a framework to integrate the different capabilities and resources of the groups involved. In particular, we want to integrate different lines of work on compositional semantics and enriched lexica: the Lexicon-Grammar tables, verbal subcategorization frames, multiword expressions, grammatical formalisms with enough expressivity to integrate this information, and learning mechanisms capable of building complex models from examples at these levels of analysis
2012 - 2014	ECOS PU11H02: Modelado de Opiniones y de su anclaje calendario y realización de sistemas cronológicos con polaridad	ECOS-SUD	Proyecto de colaboración con el laboratorio MoDyCo de la Universidad Paris Ouest. La problemática del proyecto se sitúa en la recuperación y modelado de opiniones y de expresiones de calendario en textos. Se inscribe en el área de Procesamiento de Lenguaje Natural, apoyándose sobre dos modalidades de análisis: tratamiento simbólico y explotación de técnicas de aprendizaje automático. Actualmente, la recuperación de opiniones y de expresiones temporales está siendo abordada separadamente por equipos en Uruguay y Francia. Este proyecto apunta a reunir ambos enfoques de modo de poder recuperar opiniones emitidas en un período temporal dado. Esto permitiría responder a una pregunta del tipo: “Cuál es la opinión de X / acerca de X antes del 2010?”
2009 - 2010	Temantex: Análisis temporal de textos	I+D, CSIC-UdelaR	El objetivo del proyecto es el análisis temporal de textos en español. Esto involucra el reconocimiento de los eventos y las expresiones temporales en textos y el reconocimiento de relaciones temporales entre eventos y de eventos con intervalos o instantes denotados por expresiones temporales
2008 - 2009	Merging, InduCing and Reasoning with Ontologies in BIOinformatics: The MICROBIO Project	STIC-AmSud	Proyecto de colaboración con Pontificia Universidade Católica do Rio Grande do Sul, Faculdade de Informatica. Brasil, Universidad de Concepción. Chile, LORIA - Laboratoire Lorrain de Recherche en Informatique et ses Applications. France,Facultad de Matemática, Astronomía y Física. Universidad Nacional de Córdoba. Argentina, Institut Pasteur de Montevideo. Uruguay.
2006 - 2008	U05H01: Modèle de discours et outils informatiques pour l’analyse, la recherche d’information, la visualisation et la navigation textuelle	ECOS-SUD	Proyecto de cooperación con la Université Paris X - Nanterre (France)
2006 - 2008	SIBILA: Sistema automático de respuestas basado en un modelo del discurso	PDT - MEC
2000 - 2002	CLATEX: Construcción de una herramienta informática para la segmentación en cláusulas de textos en español	CSIC - UdelaR	Este proyecto incluye el desarrollo de un formalismo de reglas contextuales para el reconocimiento de cláusulas
1998 - 2001	U97E01:Adquisición de conocimientos a partir de textos: representación y tratamientos informático	ECOS-SUD	Proyecto de cooperación con la Université Sorbonne (Paris IV). En el marco de este proyecto se desarrolló una plataforma de exploración contextual (ContextO). Esta plataforma incluye un amplio rango de aplicaciones: extracción de definiciones y relaciones de causalidad en texto libre, construcción automática de resúmenes, filtrado semántico de información, etc.