X Jornadas de Informática e Investigación Operativa

Título: Extracción automática de Objetos Digitales de Aprendizaje (ODA) con metadatos utilizando anotaciones semánticas y técnicas de PLN.

Marco de Trabajo: Proyecto de Grado

Área de desarrollo: Sistemas de Información

Autor: Rodolfo Sum

Contacto: rodolsum@hotmail.com

Día: MIERCOLES

Hora: 09:00

Palabras Claves: Objetos de Aprendizaje, Extracción de Metadatos, Procesamiento de Lenguaje Natural, Anotación Semántica

Resumen:
Tutora: Regina Motz
Autores: Claudia Badell, Martín Barrosa, Rodolfo Sum

En el área de e-Learning, se está apostando a disminuir los costos en la elaboración de los cursos. La estrategia es crear material didáctico como componentes modulares y reutilizables, Objetos Digitales de Aprendizaje (ODAs) [1], tal que permitan integrarse en otros más complejos para formar unidades didácticas o cursos completos. Actualmente, existe mucho material disponible en diversas fuentes como la Web, documentos pdf, repositorios de ODAs, muchos de ellos con metadatos en formatos abiertos como SCORM [3], LOM [2], etc.
En este contexto, se desarrolló un prototipo que recibe como entrada documentos no estructurados y extrae información según un área temática y un conjunto de componentes pedagógicos, empaquetándola en ODAs. El área temática se define a través de una ontología. Además, genera metadatos que describen el contenido extraído y el origen de dicha información, colocándolos en formato LOM.
El motor de extracción utiliza GATE [4], una plataforma de uso libre mediante licencia GNU y desarrollada en Java. Esta incluye diferentes herramientas de Procesamiento de Lenguaje Natural y permite integrar otros plugins, en un pipeline de procesamiento. Se realizaron adaptaciones sobre algunos de sus recursos para el manejo del idioma español.
El sistema es capaz procesar documentos pdf, texto, HTML y paquetes SCORM. El proceso comienza por identificar el formato del documento delegando luego su manejo a un Wrapper especializado. Este Wrapper ejecuta una secuencia de pasos que incluye: tokenización, separación en oraciones, marcado POS, anotación de conceptos de la ontología y búsqueda de patrones sobre el documento.
En cada uno de los pasos anteriores, se adquiere información sobre el contenido del texto, logrando conocer el rol (artículo, adjetivo, sustantivo, etc.) que cumple cada palabra y donde se trata la temática objetivo (instancias de la ontología de dominio).
Luego se ejecutan reglas implementadas en JapeC que permiten identificar los componentes pedagógicos y metadatos. Estas recorren el documento evaluando la estructura de las oraciones, buscando patrones que verifican algún formato correspondiente a un componente pedagógico (definición, ejemplo, ejercicio, etc.).
El formato de empaquetamiento de los ODAs extraídos es configurable por el usuario. El prototipo implementa formato XML (y salida en pantalla), pero puede extenderse a SCORM, IMS u otros.
Como caso de estudio, se realizó una experiencia en la Universidad de Educación a Distancia (UNED), Madrid, donde se evaluó la aplicación del prototipo sobre cursos en formato SCORM brindados por esta.

Referencias:
[1] http://www.aproa.cl/
[2] IEEE P1484.12, Learning Object Metadata
[3] SCORM http://www.adlnet.gov/scorm/index.aspx
[4] GATE http://www.gate.ac.uk/sale/tao/