Наприкінці березня, коли ми були свідками найжахливіших днів пандемії Covid-19, Генеральний секретар ООН написав твіт про боротьбу з іншим ворогом, «інфодемією дезінформації», і підкреслив нагальну потребу «доносити до загалу факти й наукові розвідки, надію та солідарність на противагу відчаю та розбрату».
Саме з огляду на цю потребу з’явилися ініціативи на кшталт TICO-19. Абревіатура TICO означає Translation Initiative for Covid-19 — Ініціатива з перекладу матеріалів про Covid-19. TICO об’єднує учасників з організації «Перекладачів без кордонів» (TWB), наукових закладів (Університет Карнегі-Меллона, Університет Джонса Гопкінса), постачальників лінгвістичних послуг (Appen, Translated) і великих технологічних компаній (Amazon, Facebook, Google, Microsoft).
В однойменному документі від 3 липня цього року, попередньо опублікованому на сервері arXiV.org, група вказала, що інформування вразливих груп населення про те, як вони можуть захистити себе, має вирішальне значення для запобігання новій хвилі Covid-19 — ресурс WIRED.com назвав цю проблему «найбільшим викликом в історії перекладу» у травневій статті про TICO-19.
Група TICO-19 надала доступ до даних тестів і розробок дослідникам машинного перекладу (МТ) 35 мовами — 9 основними, високоресурсними мовами та 26 малоресурсними мовами — щоб дати змогу перекласти матеріали, пов’язані з Covid, на ці мови.
Дослідження передбачає три основні складники:
(1) накопичення пам’яті перекладу та технічних словників для постачальників мовних послуг (LSP), перекладачів і волонтерів, щоб допомогти їм працювати послідовно й точно;
(2) підготовку багатомовного стандарту відкритого доступу з даними для мов із дуже низьким рівнем ресурсів, що спрямовано на відстеження якості наявних систем машинного перекладу та можливість подальших досліджень;
(3) розробку одно- та двомовних ресурсів для реалізації МТ, щоб сприяти застосуванню сучасних технологій у медичному й гуманітарному машинному перекладі, а також інших програм для обробки природних мов (NLP).
Вибираючи 35 мов, дослідники основну увагу приділяли потенційному впливові зібраних перекладів і гуманітарним пріоритетам TWB. Мови було розділено на такі групи:
- 9 основних мов (тобто lingua franca у великих частинах світу): арабська, спрощена китайська, французька, бразильська португальська, латиноамериканська іспанська, гінді, російська, суахілі та індонезійська.
- 18 пріоритетних мов, яким TWB надає високий пріоритет через великий попит із боку партнерів, як-от «Червоного Хреста». Сюди належать 6 азійських мов (дарі, центральна кхмерська, курдська курманджі латиницею, курдська сорані з арабським письмом, непалі й пушту) і 12 мов Африки (амхарська, динка, нігерійська фульфульде, гауса, канурі, руандійська, лінґала, луганда, оромо, сомалійська, ефіопська тигринья, зулу).
- 8 важливих мов із мільйонами мовців у Південній та Південно-Східній Азії (як-от бенгальська, бірманська, фарсі, малайська, маратхі, таґальська, тамільська, урду).
«Пріоритетні» й «важливі» — це мови, які використовуються в громадах, що можуть бути найбільш сприйнятливими до поширення вірусу та його потенційно катастрофічних наслідків, переважно через брак доступу до інформації.
Отже, «надзвичайно малоресурсними» є деякі мови спільнот, які досі не охоплено машинним перекладом і застосуванням штучного інтелекту, і для яких, за словами дослідників, досі не розроблено жодних відомих інструментів чи ресурсів. Незабаром група планує до вибірки мов додати інші, як-от конголезьку суахілі, нуер і еритрейську тигринья.
Команда TICO-19 зробила висновок, що їхні зусилля спрямовано лише на «частку потреб незначної частини мов світу». Однак вони сподіваються, що дослідження матиме безпосередній вплив на охоплені мови, особливо стосовно стандарту перекладу: «це дасть змогу спільноті дослідників MT, як в академічному, так і в галузевому середовищах, краще підготуватися до наступної кризи, коли знадобляться перекладацькі технології».
*За матеріалами порталу Slator
15 лет в бизнесе профессиональных переводов. Основатель и директор Бюро переводов Профпереклад.
Ключевые компетенции:
менеджмент, стратегический маркетинг, лингвистические технологии.
Образование:
Киево-Могилянская Бизнес Школа (KMBS) и IE Business School