Ingeniería de Muestra 2023 - Inteligencia Artificial

Desafíos de Procesamiento de Lenguaje Natural


NOVEDADES

Desafío 1: HAHA - Humor Analysis based on Human Annotation

Nivel avanzado: conocimientos de Aprendizaje Automático.

El desafío HAHA consiste en clasificar tweets según su intencionalidad humorística.

Se deben desarrollar sistemas que determinen si un tweet intenta ser humorístico o no. En base a un dataset de tweets ya clasificados, que será distribuido el primer día de Ingeniería de Muestra, se pueden entrenar modelos de aprendizaje automático para resolver la tarea.

La métrica de evaluación que se utilizará es accuracy, que se calcula dividiendo la cantidad de ejemplos clasificados correctamente sobre la cantidad total de ejemplos.

Entregables:



ACLARACIÓN: El contenido del dataset es muy variado e intenta ser una muestra realista de diferentes formas de transmitir humor en redes sociales, contiene material descargado de Twitter, que puede incluir textos altamente ofensivos. Estos textos no representan en absoluto el pensamiento de los investigadores autores de este dataset ni de la Facultad de Ingeniería. Contar con estos datos es de gran importancia para la investigación en esta área, ya que permite analizar y detectar contenidos ofensivos transmitidos en formato de chiste, lo cual es muy frecuente en redes sociales. El primer día de IdeM se liberarán las colecciones de datos de entrenamiento y desarrollo, y al final de la competencia se liberarán los datos de test (sin anotaciones) para ser procesados por los sistemas participantes.


Desafío 2: Jeporoheka - Clasificación de palabras español/guaraní

Nivel principiante: conocimientos básicos de programación.

El desafío Jeporoheka consiste en descubrir qué palabras están en guaraní y cuáles en español.

Se debe desarrollar un sistema que, dada una palabra, indique si está en guaraní o en español. Para eso se cuenta con un conjunto de palabras en ambos idiomas, etiquetadas con el idioma de cada una. La tarea se puede resolver utilizando sistemas de reglas o aprendizaje automático. El primer día de IdeM se liberarán las colecciones de datos de entrenamiento y desarrollo, y al final de la competencia se liberarán los datos de test (sin anotaciones) para ser procesados por los sistemas participantes.

Composición del dataset (cantidades de palabras):

IdiomaTrainDevTestTotal
Guaraní600100100800
Español600100100800
Total12002002001600

Evaluación: La métrica de evaluación que se utilizará es accuracy, que se calcula dividiendo la cantidad de ejemplos clasificados correctamente sobre la cantidad total de ejemplos.

Entregables:

Se publicó un notebook de Python para tomar como guía para este desafío.

Cronograma de actividades


Próximamente se publicará más información y los recursos necesarios para trabajar.
Por consultas y comentarios SUSCRIBIRSE AQUÍ.

Organiza: Grupo PLN (Inco - Fing - Udelar)