Преодоление языковых барьеров становится первостепенной проблемой в
глобализованном мире. Программы и сервисы автоматического перевода
широко используются, когда необходимо быстро понять смысл документа или
веб-страницы на иностранном языке, однако задачи бизнеса требуют
совершенно иного уровня качества выходящих документов, соответствия
стиля и лексики заданным стандартам.
Современные технологии
автоматизированного перевода можно принципиально разделить на два
класса: МП (машинный перевод), при котором для получения связного
выходного текста используются лингвистические алгоритмы анализа и
синтеза, и TM (Translation Memory, память переводов), работающую по
принципу накопления и повторного использования переводов фрагментов
(как правило, при обработке типовой документации). В контексте данного
обзора речь идет именно о последней. Основой технологии TM
является база параллельных текстов – при обработке нового входящего
документа система разбивает его на сегменты (обычно – предложения,
однако иногда используются иные способы сегментации) и сравнивает их с
уже хранящимися в базе данных эталонами. При нахождении полного или
частичного совпадения используется сохраненный текст, а отличающиеся
слова помечаются для последующего редактирования вручную либо
автоматически за счет интеграции с МП. Таким образом, результирующий
документ, как из мозаики, собирается из готовых фрагментов. К
несомненным достоинствам данной технологии относятся высокая скорость
обработки, гарантированное качество переведенных документов, единство
стиля, используемой терминологии (что особенно актуально при работе со
специализированными текстами), а также обеспечение непрерывности
рабочего процесса при привлечении новых сотрудников. Однако
действительно эффективным применение систем TM оказывается лишь при
достаточно высоком (не менее 75%) уровне совпадений – в противном
случае их немалая стоимость совершенно не оправдывается. ![](http://itc.ua/img/ko/2010/06/041298.jpg)
Таким
образом, успех TM напрямую зависит от объема и качества базы эталонных
переводов по нужным тематикам и областям деятельности – их придется
либо покупать, либо создавать самостоятельно. Именно по этой причине
этап внедрения TM может быть достаточно долгим и потребовать от ведущих
специалистов-переводчиков существенных дополнительных трудозатрат,
связанных с наполнением TM. В то же время практически каждая компания,
как правило, имеет архив готовых документов на исходном и целевом
языках, которые могут стать основой такой БД, но для них нужны
специальная обработка и сегментация. Кроме того, даже в крупных
переводческих агентствах, уже применяющих системы ТМ, всегда есть
определенная доля заказов, которые в силу разных причин (нестандартный
формат, перегруженный макет, особые требования переводчика,
специализирующегося на данной узкой тематике) невозможно или
нецелесообразно обрабатывать автоматически, что дает постоянный (пусть
и не слишком значительный) источник новых материалов для добавления в
БД, но заниматься этим вручную довольно дорого. Автоматизировать
все упомянутые процессы как раз и поможет новый продукт ABBYY Aligner.
Функционирует он чрезвычайно просто: задаются документ на исходном
языке и его переведенный аналог, а после обработки программа выдает
базу параллельных предложений (или абзацев, что можно настроить
отдельно). Продукт работает в Microsoft Windows XP, Vista и Windows 7,
системные требования совершенно скромные, но надо понимать, что от
доступных аппаратных ресурсов в значительной степени зависит
производительность.
Программа понимает основные форматы документов
(TXT, RTF, PDF, HTML, XML, а также Microsoft Office, в том числе и
последней версии) и умеет работать с текстами на десяти языках
(английский, немецкий, французский, испанский, итальянский, польский,
португальский, турецкий, украинский, русский). Результат можно
сохранить в RTF, внутреннем формате программы ATA либо в TMX, который
поддерживается большинством систем TM (Trados, Déjà Vu X, Transit,
открытая OmegaT, встраиваемая в Microsoft Office Metatexis и пр.) и
фактически является стандартом для обмена базами переводов. Для
массовой обработки имеющихся в распоряжении документов Aligner
предлагает специальный пакетный режим (в этом случае размер каждого
файла не должен превышать 10 МБ). Естественно, механическое
сопоставление по порядку предложений в исходном и переведенном текстах
не способствует созданию качественной БД параллельных фрагментов –
разные языки имеют свои особенности. ABBYY Aligner использует словарные
базы и сравнивает сегменты исходного и переведенного текстов, что
позволяет повысить качество. По результатам экспресс-тестирования на
достаточно больших текстовых документах (руководства пользователя
размером свыше 150 страниц на английском, польском и русском языках),
можно сделать заключение, что программа действительно выявляет
отсутствующие или неточно совпадающие сегменты в пределах одного-двух
абзацев и правильно находит соответствия. Хотя, конечно, если в одном
из входящих документов пропустить страницу-другую, вряд ли стоит
рассчитывать на отсутствие ошибок. Имеется и еще один нюанс – иногда
приложение принимает точки в сокращениях (т. е., пр.) как окончание
предложения и, соответственно, неверно выделяет сегмент. Чтобы избежать
ошибок подобного рода, в окне настроек для каждого используемого языка
можно задать собственный список сокращений. Впрочем, даже если этого не
сделать, программа сама просигнализирует о некоторых неточностях или
«сомнениях» – не полностью (по мнению Aligner) совпадающие сегменты
выделяются в окне редактора подцветкой, как и пустые строки и
орфографические ошибки. Дополнительные инструменты редактора позволяют
разбивать или объединять сегменты текста, перемещать их, выполнять
сопоставление вручную и, естественно, править обнаруженные ошибки. В
заключение отметим, что для небольших проектов и персональных
пользователей на веб-сайте ABBYY предлагается бесплатный сервис Aligner
online, который, правда, имеет ограничения по размеру файлов, не
поддерживает пакетный режим, не допускает редактирования и работает не
со всеми форматами. Впрочем, для большинства персональных пользователей
систем МП с поддержкой элементов TM, например, профессиональных
редакций ПРОМТ, сервиса может оказаться вполне достаточно. ITC.UA, Елена Дериева
|