Una vez realizada la traducción automática de un texto, es necesario evaluar su calidad. Dependiendo de la finalidad a la que está dirigida la traducción, será necesario un nivel de calidad distinto. Por ejemplo, en un sistema que traduzca frases a varios idiomas dentro de un programa de chat multilingüe, será suficiente con una traducción que permita entender el texto resultante. En otros casos, como en la traducción de textos dentro de una empresa, la calidad deberá ser mucho mayor.
No existe una medida perfecta para evaluar una traducción, por lo que se utilizan distintos métodos, cada uno con sus ventajas y desventajas.
Métodos objetivos
Pertenecen a esta clase los métodos en la que no sea necesaria la valoración de la traducción por un ser humano.
- WER (word error rate)
- mínimo número de sustituciones, inserciones y borrados que se deben de realizar para corregir la frase generada.
- PER (position-independent word error rate)
- mejora de WER para que sea independiente de la posición de las palabras dentro de la frase.
- mWER (multi-reference word error rate)
- se calcula WER entre la frase generada y la más similar de entre un conjunto de frases de referencia. Esta medida resulta más fiable que WER. Si se utiliza una sola frase de referencia, esta puede diferir mucho de la traducción de nuestro sistema debido a las libertades a la hora de traducir propias de un traductor humano. Por ello, al escoger entre varias traducciones de referencia, se mejoran los resultados obtenidos.
- BLEU
- mide la precisión de los ngramas (unigramas, bigramas, trigramas y cuatrigramas) con respecto a un conjunto de traducciones de referencia.
- NIST
- variación de BLEU en el que se le otorga un mayor peso a los ngramas poco frecuentes.
Métodos subjetivos
En estos métodos, los humanos intervienen en la valoración de la traducción.
- SSER (subjective sentence error rate)
- un humano califica la traducción de una frase de 0 a 1. Una calificación de 0 se le da una traducción perfecta, mientras que una de 1 se corresponde una traducción sintáctica y semánticamente incorrecta.
- IER (information item error rate)
- las frases de prueba se dividen en ítems. Un humano examina si la información de cada uno de los ítems se encuentra presente en la traducción. De esta manera, se puede comprobar si siendo la traducción de la frase incorrecta, existen partes de esta que en cambio sí son correctas.
Véase también