Dra. Aiala Rosá | ||
Grupo Procesamiento de Lenguaje Natural | ||
El área de procesamiento de lenguaje natural es por su naturaleza un espacio interdisciplinario entre la Informática y la Lingüística. La vinculación corresponde a una confluencia en el objeto de estudio, el lenguaje humano, ya sea con el propósito de conocer a fondo su estructura y funcionamiento como con el propósito de construir aplicaciones informáticas con capacidad de realizar comprensión y extraer información de enunciados lingüísticos.
En la Universidad de la República este espacio interdisciplinario se ha concretado en el trabajo conjunto de dos grupos académicos: el Grupo de Procesamiento de Lenguaje Natural (GPLN) del Instituto de Computación de la Facultad de Ingeniería y el Departamento de Teoría del Lenguaje y Lingüística General (DTTLG), de la Facultad de Humanidades y Ciencias de la Educación. Más de diez años de trabajo conjunto se han concretado en varios proyectos de análisis de textos: modelo de discurso, reconocimiento de proposiciones, reconocimiento de eventos y expresiones temporales y otros. El hecho de procesar textos en forma automática, cualquiera sea la finalidad con que se realiza tal tarea (extraer información, responder preguntas, realizar resúmenes, traducir), implica enfrentarse con ciertas propiedades del discurso que es necesario aprehender. Nuestra línea de trabajo ha sido la de adoptar una estructura modular para dar cuenta de esas propiedades complejas, expresándolas mediante el análisis en distintos ejes o módulos independientes, capaces, sin embargo, de interactuar entre sí. Esta estructura, si bien no aporta en principio una visión holística del discurso, permite, sin embargo, trabajar independientemente en cada eje, al mismo tiempo que habilita la incorporación de otros nuevos, a medida que se vayan desarrollando. La metodología de trabajo incorpora los diferentes tipos de formación involucradas en el área. Un ejemplo ilustrativo es el caso de desarrollo de sistemas basados en corpus, que se ha aplicado a distintos fenómenos. En particular, podemos citar el reconocimiento de eventos y expresiones temporales y el reconocimiento de opiniones en textos. En ambos casos la metodología incluye una primera etapa de análisis conceptual del fenómeno, que concluye en la definición de un esquema de anotación. En esta etapa es fundamental el aporte de la formación lingüística. La etapa siguiente consiste en la anotación concreta de un corpus según el esquema de anotación. Esta tarea, que implica a menudo la toma de decisiones para la resolución de casos difíciles, ha sido realizada con la participación conjunta de linguistas e informáticos. Como etapa posterior, se explotan los resultados del corpus anotado, ya sea mediante métodos de aprendizaje automático, mediante reglas manuales o mediante combinación de los anteriores. Algunos modelos utilizados para el primer caso son Conditional Random Fields, Support Vector Machines y Naïf Bayes. Un elemento importante en el aprendizaje supervisado es una adecuada elección de atributos, este tema es propicio para la interacción entre las distintas formaciones. |
||
Volver a Programa |