Título: Trabajando para las generaciones futuras: herramientas para archivar la Web de la mejor manera posible Marco de Trabajo: INVESTIGACION Área de desarrollo: Lingüística Computacional Autor: José Coch Contacto: jose.coch@lingway.com Día: VIERNES Hora: 13:00:00 Palabras Claves: web, ingenieria linguistica, procesamiento de la informacion, resumen automatico, analisis de contenido Resumen: Muchos paises se plantean desde hace unos años archivar la enorme masa de conocimientos que residen en la Web, siguiendo la línea del gran precursor Internet Archive que lo hace desde 1996. Puesto que la Web está en contina transformación, en este contexto se plantean una serie de problemas: con qué frecuencia archivar cada sitio, qué informaciones o meta-informaciones asociar, qué herramientas darle a los investigadores para explorar el contenido de los sitios archivados. El proyecto Watson (2002-2004), financiado por el Ministerio de Investigación de Francia, tiene por objetivo aplicar técnicas de procesamiento de información y de ingeniería lingüística para filtrar, extraer información, resumir, y analizar el contenido de un sitio en un momento dado y también con respecto a su evolución en el tiempo. Serán presentadas las principales herramientas desarrolladas y los resultados obtenidos. |
Ultima modificacion 5 de Octubre 2004 16:30 |