Ingeniería de Muestra 2023 - Inteligencia Artificial
Desafíos de Procesamiento de Lenguaje Natural
NOVEDADES
- 9/10/23: Se publicó información sobre las métricas de evaluación y los entregables, y un notebook de Python para el desafío Jeporoheka (ver más abajo).
- 9/10/23: Se publicaron los datos para los dos desafíos: HAHA-IdM2023 y jeporoheka-IdM2023
Desafío 1: HAHA - Humor Analysis based on Human Annotation
Nivel avanzado: conocimientos de Aprendizaje Automático.
El desafío HAHA consiste en clasificar tweets según su intencionalidad humorística.
Se deben desarrollar sistemas que determinen si un tweet intenta ser humorístico o no. En base a un dataset de tweets ya clasificados, que será distribuido el primer día de Ingeniería de Muestra, se pueden entrenar modelos de aprendizaje automático para resolver la tarea.
La métrica de evaluación que se utilizará es accuracy, que se calcula dividiendo la cantidad de ejemplos clasificados correctamente sobre la cantidad total de ejemplos.
Entregables:
- Archivo con las salidas de las predicciones sobre el corpus de test, que tendrá el mismo formato que el archivo de desarrollo (dev.csv)
- Archivos con los recursos necesarios para reproducir el experimento y aplicarlo sobre el corpus de test.
ACLARACIÓN: El contenido del dataset es muy variado e intenta ser una muestra realista de diferentes formas de transmitir humor en redes sociales, contiene material descargado de Twitter, que puede incluir textos altamente ofensivos. Estos textos no representan en absoluto el pensamiento de los investigadores autores de este dataset ni de la Facultad de Ingeniería. Contar con estos datos es de gran importancia para la investigación en esta área, ya que permite analizar y detectar contenidos ofensivos transmitidos en formato de chiste, lo cual es muy frecuente en redes sociales. El primer día de IdeM se liberarán las colecciones de datos de entrenamiento y desarrollo, y al final de la competencia se liberarán los datos de test (sin anotaciones) para ser procesados por los sistemas participantes.
Desafío 2: Jeporoheka - Clasificación de palabras español/guaraní
Nivel principiante: conocimientos básicos de programación.
El desafío Jeporoheka consiste en descubrir qué palabras están en guaraní y cuáles en español.
Se debe desarrollar un sistema que, dada una palabra, indique si está en guaraní o en español. Para eso se cuenta con un conjunto de palabras en ambos idiomas, etiquetadas con el idioma de cada una. La tarea se puede resolver utilizando sistemas de reglas o aprendizaje automático. El primer día de IdeM se liberarán las colecciones de datos de entrenamiento y desarrollo, y al final de la competencia se liberarán los datos de test (sin anotaciones) para ser procesados por los sistemas participantes.
Composición del dataset (cantidades de palabras):
Idioma | Train | Dev | Test | Total |
---|---|---|---|---|
Guaraní | 600 | 100 | 100 | 800 |
Español | 600 | 100 | 100 | 800 |
Total | 1200 | 200 | 200 | 1600 |
Entregables:
- Archivo con las salidas de las predicciones sobre el corpus de test, que tendrá el mismo formato que el archivo de desarrollo (dev.csv)
- Archivos con los recursos necesarios para reproducir el experimento y aplicarlo sobre el corpus de test.
Se publicó un notebook de Python para tomar como guía para este desafío.
Cronograma de actividades
- Viernes 6/10: Lanzamiento de los desafíos en IdM y publicación de los datos de entrenamiento y desarrollo.
- Miércoles 18/10: Publicación de los datos de testeo.
- Viernes 20/10: Resultados y anuncio delos ganadores.
Próximamente se publicará más información y los recursos necesarios para trabajar.
Por consultas y comentarios SUSCRIBIRSE AQUÍ.
Organiza: Grupo PLN (Inco - Fing - Udelar)