Що робити, якщо клієнту потрібно перекласти скановану інструкцію на багато сторінок із численними схемами або договір у форматі .pdf, текст у якому не редагується? Ми часто отримуємо в роботу подібні файли — це можуть бути документи у форматі .pdf, .jpeg, .png або .tiff, які фактично є зображеннями. З текстом у такому зображенні працювати не вийде.
Рішень може бути кілька, наприклад:
- набрати весь текст оригіналу вручну, а потім уже завантажити його для роботи в CAT-інструмент;
- спробувати «розшифрувати» документ за допомогою якоїсь онлайн-програми й працювати з отриманим результатом.
Ці варіанти мають очевидні недоліки: у першому випадку буде витрачено невиправдано багато часу (і нервів), а в другому можна отримати непридатний для CAT-інструмента матеріал, якщо, наприклад, програма розіб’є один блок тексту на кілька частин і розкидає їх по всьому документу або не розпізнає всі потрібні символи.
Як же чинимо ми? З 2019 року всі подібні документи проходять спеціальну попередню підготовку для перетворення на формат .docx, який підходить для CAT-інструментів. Ця підготовка охоплює професійне розпізнавання файлів OCR*-фахівцями й може бути двох видів залежно від переслідуваної мети:
- Підготовка файлу .docx, ідентичного оригіналу.
- Підготовка файлу для подальшої верстки.
Файл .docx, ідентичний оригіналу, ми готуємо в тому разі, якщо клієнтові потрібно віддати переклад у форматі .docx. Такий файл підходить для подальшого перекладу за допомогою будь-якого CAT-інструмента. У результаті ми отримаємо переклад (у тому-таки форматі .docx) з форматуванням оригіналу й усіма його структурними елементами: відступами, вирівнюванням, колонтитулами, виносками, нумерованими чи маркованими списками, типами шрифтів. OCR-фахівці обробляють зокрема й текст на зображеннях і поміщають його в текстові поля, розмір яких регулюється, — вони розтягуються відповідно до обсягу тексту.
Підготовка файлу для подальшої верстки потрібна, якщо клієнту потрібен кінцевий файл, зверстаний у форматі .pdf. У цьому разі документ .docx є проміжним: спочатку OCR-фахівець розпізнає файл оригіналу, потім файл перекладається в CAT-інструменті, а вже переклад верстається згідно з форматом оригіналу. Тому тут файл .docx містить тільки текст, витягнутий з оригіналу (клієнт після верстки отримує відформатований документ).
Отже, тип обробки файлу, що не редагується, залежить від типу замовлення й потреб замовника. Головне — професійний і продуманий підхід до справи та виконання кожної ділянки роботи відповідними фахівцями.
*OCR — оптичне розпізнавання символів за допомогою спеціального програмного забезпечення.

12 лет в бизнесе профессиональных переводов. Основатель и директор Бюро переводов Профпереклад.
Ключевые компетенции:
менеджмент, стратегический маркетинг, лингвистические технологии.
Образование:
Киево-Могилянская Бизнес Школа (KMBS) и IE Business School