Что делать, если клиенту нужно перевести многстраничную сканированную инструкцию, пестрящую схемами, или договор в нередактируемом формате pdf? Мы часто получаем в работу подобные файлы — это могут быть документы в формате .pdf, .jpeg, .png или .tiff, которые по сути являются изображениями. С текстом в таком изображении работать не получится.
Решений может быть несколько, например:
- набрать весь текст оригинала вручную, а затем уже загрузить его для работы в CAT-инструмент;
- попробовать «расшифровать» документ какой-либо онлайн-программой и работать с полученным результатом.
Эти варианты имеют очевидные недостатки: в первом случае будет потрачено неоправданно большое количество времени (и нервов), а во втором можно получить непригодный для CAT-инструмента материал, если, например, программа разобьет один блок текста на несколько частей и разбросает их по всему документу или не распознает все нужные символы.
Как же поступаем мы? С 2019 года все документы такого рода проходят специальную предподготовку для преобразования в формат .docx, который подходит для CAT-инструментов. Предподготовка включает профессиональное распознавание файлов OCR*-специалистами и может быть двух видов в зависимости от преследуемой цели:
- Подготовка файла .docx, идентичного оригиналу.
- Подготовка файла для дальнейшей верстки.
Файл .docx, идентичный оригиналу, мы готовим в том случае, если клиенту нужно отдать перевод в формате .docx. Такой файл подходит для дальнейшего перевода при помощи любого CAT-инструмента. В результате мы получим перевод (в том же формате .docx) с форматированием оригинала и всеми его структурными элементами: отступами, выравниванием, колонтитулами, сносками, нумерованными или маркированными списками, начертанием шрифтов. OCR-специалисты обрабатывают в том числе и текст на изображениях и помещают его в текстовые поля, размер которых регулируется, — они растягиваются в соответствии с объемом текста.
Подготовка файла для дальнейшей верстки нужна, если клиенту требуется конечный файл, сверстанный в формате .pdf. В этом случае документ .docx является промежуточным: сначала OCR-специалист распознает файл оригинала, затем файл переводится в CAT-инструменте, а уже перевод верстается согласно формату оригинала. Поэтому здесь файл .docx содержит только текст, извлеченный из оригинала (клиент после верстки получает отформатированный документ).
Таким образом, тип обработки «нередактируемого» файла зависит от типа заказа и потребностей заказчика. Главное — профессиональный и продуманный подход к делу и выполнение каждого участка работы соответствующими специалистами.
*OCR — оптическое распознавание символов при помощи специального ПО.

12 лет в бизнесе профессиональных переводов. Основатель и директор Бюро переводов Профпереклад.
Ключевые компетенции:
менеджмент, стратегический маркетинг, лингвистические технологии.
Образование:
Киево-Могилянская Бизнес Школа (KMBS) и IE Business School