ACOTE
Ayuda a la traducción basada en memorias de traducción.

Documentos, informes y especificaciones

 

ACOTE es un proyecto tecnológico de cooperación, cofinanciado por el Departamento de Industria del Gobierno Vasco, a través del INTEK.

Objetivos del proyecto

Descripción del objetivo

El proyecto ACOTE se sitúa en el terreno de las herramientas de ayuda a la traducción y tiene como objetivo la aplicación de técnicas de análisis lingüístico al desarrollo de los útiles de extracción de información alineada de los textos traducidos y de presentación de concordancias.

Los lenguajes que se tratan son el euskera y el castellano, dado que son los idiomas nativos en los que trabaja la herramienta de análisis lingüístico que se emplea en este desarrollo, y que ha sido desarrollada dentro de un proyecto de investigación genérica de Ametzagaiña A.I.E., y aplicado posteriormente en el proyecto INTEK, KAPSULA 2000, centrado en la Adquisición de contenidos documentales en lenguajes naturales.

Formalización del objetivo

Las herramientas de ayuda a la traducción existentes en el mercado se basan principalmente en métodos estocásticos y estadísticos (Modelos Ocultos de Markov, Redes Neuronales, Inteligencia Artificial...). Su aplicación directa a idiomas altamente flexivos (como el euskera) supone una gran merma de efectividad.

ACOTE plantea la integración de técnicas de análisis lingüístico (lematización, léxico, sintagma y frase), para mejorar el rendimiento y el acierto en herramientas tales como Alineadores de textos bilingües, Visualizadores de concordancias o Detectores de errores de traducción.

La alineación de textos ya traducidos permite representar de forma paralela los diferentes grupos de texto (párrafo, frase o palabra) de manera que el traductor pueda emplear el conocimiento ya desarrollado como base para una nueva traducción.

La concordancia de textos se entiende, en este proyecto, como la presentación de cada palabra, o grupo de palabras significativas de un texto dentro de su contexto. El traductor puede elegir así la expresión que se adapte mejor a la búsqueda de información contextual que esté efectuando.
El detector de errores fundamentales en la traducción aprovecha la información desarrollada en el primer apartado para facilitar una herramienta que aplica los criterios de alineamiento de textos para la detección de fragmentos de texto que no tienen equivalencia aparente en la lengua destino.

Para ello, en una primera fase se plantea desarrollar un Segmentador de textos que alcance a la expresión mínima del lenguaje (morfema), en cada una de las lenguas tratadas, para posteriormente ser aplicado dicho análisis a un Sistema de Equivalencias, que contemple no sólo asignaciones a nivel de palabra, sino también a nivel de sintagma u oración. Por último, se pretende desarrollar tres prototipos que incorporen las aportaciones tecnológicas realizadas en las anteriores fases.

Génesis del objetivo

El objetivo de este proyecto ha surgido de la necesidad planteada en diversas ocasiones por diferentes grupos de traductores de textos al euskera, de una herramienta que permita aprovechar el corpus de textos alineados disponible para facilitar la traducción de textos que generan un bajo nivel de variaciones fundamentales (boletines oficiales, documentos legales, ..).

La aportación de este proyecto se basa en la tecnología de análisis morfológico ya existente (Kapsula) aprovechada para desarrollar una herramienta adecuada a un amplio grupo de usuarios, que no encuentran en las herramientas estándar (diseñadas para dar respuesta a las problemáticas planteadas por lenguas como el inglés). El enfoque dirigido a usuario del sistema de segmentación de textos se aparta en cierta forma de lo que podría ser un análisis formal completo, para buscar una expresión lo más funcional posible. El estado del arte actual en las herramientas de traducción ya reconoce en muchos casos la bondad del abandono del formalismo total a favor del formalismo funcional como elemento básico para llegar a obtener los mejores resultados.

Objetivos del futuro próximo

La continuidad natural de este proyecto está conformada por las denominadas "memorias de traducción".

PARTICIPANTES

Adur Software Productions S.C.: Líder
Ametzagaiña A.I.E.: Agente tecnológico
Rosetta Testu Zerbitzuak, S.L.

DURACION DEL PROYECTO

Septiembre 2000 - Diciembre 2001