KAPSULA 2000:
Adquisición de contenidos documentales
en lenguajes naturales

Documentos, informes y especificaciones

 

KAPSULA 2000 es un proyecto tecnológico de cooperación, cofinanciado por el Departamento de Industria del Gobierno Vasco, a través del INTEK.

 

Objetivo:

El proyecto KAPSULA 2000, que se define como un proyecto para la adquisición de contenidos documentales en lenguajes naturales, tiene como objetivo la creación de sistemas automáticos que permitan la captura de contenidos documentales, desde diversos tipos de soportes y formatos, de información tanto gráfica como textual en lenguaje natural.

La información que puede alimentar al sistema puede ser gráfica, sonora y textual, representando esta última tanto documentos textuales que proceden de distintos soportes y formatos, como textos que acompañan a la descripción de las imágenes y audio, o textos embebidos en imágenes infográficas.

Los contenidos documentales capturados desde una diversidad de soportes fuente y formatos se sacan tanto en ficheros planos posicionales como en ficheros planos de identificación de campos por etiquetas o en ficheros de texto, para que puedan ser incorporados a bases documentales orgánicas cualesquiera (bases de datos en general), a bases documentales de indexación de todo el texto (full-text), a productos de edición y multimedia estándar del mercado o a sistemas de navegación hipertexto.

Inicialmente, el único lenguaje natural que se trata es el euskara, dado que es el idioma nativo en el que trabaja la herramienta de análisis que se emplea en este desarrollo, pero este proyecto circula sobre sobre otro de investigación genérica (dentro de Ametzagaiña A.I.E.) que desarrolla y aplica el análisis al castellano, al inglés y al francés, con lo que también se adquieren capacidades multilingües.

 

Participantes:

 

 

Descripción de entregables principales

 

Hito 1: Adquisición de contenidos documentales de fotografías, infografías y textos propios.

Especificación documental orgánica general y útil para la carga de fotografías, infografías y documentos digitales de elaboración propia hacia ficheros planos y/o etiquetados con contenido documental.

 

Hito 2: Indexación y catalogación de contenidos Internet – Explorador WWW.

Captura de páginas Web de Internet mediante un sistema desasistido (normalmente background) de exploración que mantiene automáticamente una base documental local seleccionando los documentos de acuerdo con una especificacióin temática dictada por el usuario. La información local se carga en ficheros planos y/o etiquetados de alimentación general por decisión asistida por el usuario.

 

Hito 3: Sistema de carga de documentación de archivos y bibliotecas.

Especificación y elaboración de prototipos para la carga genérica de documentación de archivos y bibliotecas desde los soportes de las publicaciones hasta la generación de archivos planos y/o etiquetados que alimentan automáticamente la base documental.

 

Hito 4: Sistema de carga de bases documentales asociadas a Obras de Referencia.

Especificación y desarrollo de un útil que permite la carga de documentación textual asociada a diccionarios y enciclopedias hacia un registro documental complejo que permite:

 

Hito 5: Plug-ins para software de edición y multimedia estándar

Integración de la tecnología ya desarrollada (gestión de bases documentales, motores de indexación y búsqueda, análisis morfológico y lematización) en otras herramientas software de uso masivo en el mercado de la microinformática. Se trata de cubrir las necesidades de archivo y recuperación documental que se dan, por un lado, en el mundo de la ofimática y la autoedición (Microsoft Word y QuarkXPress), y por otro, en la edición electrónica y multimedia (Macromedia Director y Adobe Acrobat).

Documentos, informes y especificaciones