Память переводов

Память переводов (ПП, англ. translation memory, TM, иногда также называемая «накопитель переводов») — база данных, содержащая набор ранее переведённых сегментов текста.

Описание

Одна запись базе данных памяти переводов соответствует сегменту или «единице перевода» (англ. translation unit), за которую обычно принимается одно предложение (реже — часть сложносочинённого предложения либо абзац). Если единица перевода исходного текста в точности совпадает с единицей перевода, хранящейся в базе (точное соответствие, англ. exact match), она может быть автоматически подставлена в перевод. Новый сегмент может также слегка отличаться от хранящегося в базе (нечёткое соответствие, англ. fuzzy match). Такой сегмент может быть также подставлен в перевод, но переводчик будет должен внести необходимые изменения.

Помимо ускорения процесса перевода повторяющихся фрагментов и изменений, внесенных в уже переведённые тексты (например, новых версий программных продуктов или изменений в законодательстве), системы ПП также обеспечивают единообразие перевода терминологии в одинаковых фрагментах, что особенно важно при техническом переводе. С другой стороны, если переводчик регулярно подставляет в свой перевод точные соответствия, извлеченные из баз переводов, без контроля их использования в новом контексте, качество переведённого текста может ухудшиться.

В каждой конкретной системе ПП данные хранятся в своем собственном формате (текстовый формат в Wordfast, база данных Access в Deja Vu), но существует международный стандарт TMX (англ. Translation Memory eXchange format), который основан на XML и может генерироваться практически всеми системами ПП. Благодаря этому сделанные переводы можно использовать в разных приложениях, то есть переводчик, работающий с OmegaT, может использовать ПП, созданную в Trados, и наоборот.

Большинство систем ПП как минимум поддерживает создание и использование словарей пользователя, создание новых баз данных на основе параллельных текстов (англ. alignment), а также полуавтоматическое извлечение терминологии из оригинальных и параллельных текстов.

Популярные программные системы ПП

В соответствии с обзорами использования систем ПП, к наиболее популярным системам относятся[1][2]:

  • memoQ
  • XTM Cloud
  • Memsource
  • Déjà Vu
  • OmegaT (бесплатная система, распространяемая по лицензии GNU GPL)
  • SDLX[3]
  • Trados
  • SmartCAT (бесплатная программа со встроенной функцией распознавания PDF)
  • STAR Transit
  • Wordfast (реализована как набор макросов для MS Word, новая версия 2009 года является отдельным приложением)

В английской Википедии есть список, сравнивающий возможности различных систем.

Стандарты и форматы памяти переводов[4]

  • TMX (Translation Memory Exchange Format — Обмен памятью переводов). Этот стандарт обеспечивает взаимный обмен между разными поставщиками памяти переводов. TMX является общепринятым форматом в среде переводчиков и лучше всего подходит для импорта и экспорта памяти переводов. Последняя версия этого формата — 1.4b — позволяет восстанавливать исходные документы и их перевод из файла TMX.
  • TBX (Termbase Exchange format — обмен терминологическими базами). Это принятый Localization Industry Standards Association (LISA) формат сейчас пересматривается и переиздаётся согласно ISO 30042. Этот стандарт позволяет проводить обмен терминологией, в том числе детальной лексической информацией. Основная база TBX определяется стандартами: ISO 12620, ISO 12200 и ISO 16642. ISO 12620 обеспечивает реестр четко определённых «категорий данных» со стандартизованными именами, которые функционируют как типы элементов данных или предопределённые значения. ISO 12200 (известен также как MARTIF) предоставляет основу для каркасной структуры TBX. ISO 16642 (известен также как Terminological Markup Framework — Структура терминологической разметки) включает структурную метамодель для терминологических языков разметки (Terminology Markup Languages) в целом.
  • SRX создан для улучшения формата TMX и большей эффективности обмена памятью переводов между программами. Возможность указывать правила сегментации, которые использовались в предыдущем переводе, повышает эффективность отождествления сегментов в текущем тексте с содержимым ПП.
  • GMX GILT означает Globalization, Internationalization, Localization, and Translation (Глобализация, интернационализация, локализация, перевод). Стандарт GILT Metrics состоит из трёх частей: GMX-V для показателей объёма, GMX-C для показателей сложности, GMX-Q для показателей качества. Предложенный стандарт GILT Metrics направлен на квантификацию объёма работ и требований качества при реализации задач GILT.
  • OLIF — открытый стандарт, совместимый с XML, который используется для обмена терминологическими и лексическими данными. Хотя изначально он применялся в качестве способа обмена лексическими данными между частными лексиконами машинного перевода, постепенно этот формат превратился в более общий стандарт терминологического обмена.
  • XLIFF (XML Localisation Interchange File Format — XML формат для взаимного обмена при локализации), создан как единый формат файлов для взаимного обмена, который распознаётся всеми программными средствами локализации. XLIFF — это наилучший в современной индустрии переводов способ обмена информацией в формате XML. Некоторые инструменты используют проприетарные форматы XLIFF, не позволяющие открывать созданные в них файлы в других программах.
  • TransWS (Translation Web Services — переводческие веб-сервисы), определяет требуемые параметры вызова веб-сервисов при отправлении и получении файлов и сообщений, имеющих отношение к проектам локализации. Задумывался как развёрнутая система автоматизации процесса локализации с использованием сервисов в сети Интернет.
  • xml:tm, этот подход к памяти переводов основан на концепции текстовой памяти, которая позволяет совмещать авторскую память и память переводов. Формат xml: tm был передан Lisa OSCAR компанией XML-INTL.

Преимущества и недостатки

Преимущества

  • Сокращение времени и объёма работы переводчика.
  • Улучшение последовательности перевода, особенно при работе группы переводчиков над одним проектом.
  • Увеличение прибыли за счёт увеличения производительности труда переводчика, группы переводчиков.
  • Повышение качества услуг за счёт увеличения точности и единообразия перевода терминов, особенно в специализированных текстах.

Недостатки

  • Может делать перевод более «сухим»; утрачивается сама суть текста, если перевод с использованием накопителя переводов выполняется переводчиком низкой квалификации.
  • Часто отсутствует связь предлагаемого программой предложения/текста с соседними предложениями и с текстом в целом.
  • Оригинал должен быть в электронном виде.
  • Одна незамеченная ошибка может распространиться на весь проект.
  • Необходимо обучение работе в самой программе, а при смене работы — возможно, и не один раз (если работодатели пользуются разными программами ТМ).
  • Подходит не ко всем видам текстов.
  • Высокая стоимость лицензионного ПО.

См. также

Примечания

  1. См. стр. 26 в Imperial College London Translation Memories Survey 2006 Архивировано 25 марта 2007 года. (PDF)
  2. ITI Translation Memory Survey, 2007 (недоступная ссылка)  (недоступная ссылка с 13-05-2013 [4225 дней])
  3. В результате приобретения в июне 2005 года компании Trados британской компанией SDL International в 2006 появился единый продукт TRADOS SDLX 2006
  4. Стандарты Localization Industry Standards Association (LISA)

Литература

  • Грабовский В. Н. Технология Translation Memory // Мосты. Журнал переводчиков. 2004. № 2. — С. 57-62.

Ссылки