В конце марта, когда мы были свидетелями самых ужасных дней пандемии Covid-19, Генеральный секретарь ООН написал твит о борьбе с другим врагом, «инфодемией дезинформации», и подчеркнул острую необходимость «доносить до общественности факты и научные исследования, надежду и солидарность в противовес отчаянию и раздору».
Как раз с учетом этой потребности появились инициативы, подобные TICO-19. Аббревиатура TICO означает Translation Initiative for Covid-19 — Инициатива по переводу материалов о Covid-19. TICO объединяет участников из организации «Переводчики без границ» (TWB), научных учреждений (Университет Карнеги-Меллона, Университет Джонса Хопкинса), поставщиков лингвистических услуг (Appen, Translated) и крупных технологических компаний (Amazon, Facebook, Google, Microsoft).
В одноименном документе от 3 июля этого года, предварительно опубликованном на сервере arXiV.org, группа указала, что информирование уязвимых групп населения о том, как они могут защитить себя, имеет решающее значение для предотвращения новой волны Covid-19 — ресурс WIRED.com назвал эту проблему «самым большим вызовом в истории перевода» в майской статье о TICO-19.
Группа TICO-19 предоставила доступ к данным тестов и разработок исследователям машинного перевода (МТ) на 35 языках — 9 основных, высокоресурсных языках и 26 малоресурсных языках — чтобы дать возможность перевести материалы, связанные с Covid, на эти языки.
Исследование предполагает три основные составляющие:
(1) накопление памяти перевода и технических словарей для поставщиков языковых услуг (LSP), переводчиков и волонтеров, чтобы помочь им работать последовательно и точно;
(2) подготовку многоязычного стандарта открытого доступа с данными для языков с очень низким уровнем ресурсов, направленного на отслеживание качества имеющихся систем машинного перевода и возможность дальнейших исследований;
(3) разработку одно- и двуязычных ресурсов для реализации МТ, чтобы способствовать применению современных технологий в медицинском и гуманитарном машинном переводе, а также других программ для обработки естественных языков (NLP).
При выборе 35 упомянутых языков исследователи уделяли основное внимание потенциальному влиянию собранных переводов и гуманитарным ценностям TWB. Языки были разделены на следующие группы:
- 9 основных языков (то есть lingua franca в больших частях мира): арабский, китайский, французский, бразильский португальский, латиноамериканский испанский, хинди, русский, суахили и индонезийский.
- 18 приоритетных языков, которым TWB предоставляет высокий приоритет ввиду большого спроса со стороны партнеров, например «Красного Креста». Сюда относятся 6 азиатских языков (дари, центральная кхмерский, курдский курманджи латиницей, курдский сорани с арабским письмом, непальский и пушту) и 12 языков Африки (амхарский, динка, нигерийский фула, гауса, канури, руандийский, лингала, луганда, оромо, сомалийский, эфиопский тигринья, зулу).
- 8 важных языков с миллионами носителей в Южной и Юго-Восточной Азии (например, бенгальский, бирманский, фарси, малайский, маратхи, тагальский, тамильский, урду).
«Приоритетные» и «важные» — это языки, используемые в общинах, которые могут быть наиболее восприимчивыми к распространению вируса и его потенциально катастрофическим последствиям, преимущественно из-за нехватки доступа к информации.
Соответственно, «чрезвычайно малоресурсными» являются некоторые языка сообществ, которые до сих пор не охвачены машинным переводом и применением искусственного интеллекта, и для которых, по словам исследователей, до сих пор не разработаны какие-либо известные инструменты или ресурсы. Вскоре группа планирует добавить в выборку языков другие, например конголезский суахили, нуэр и эритрейский тигринья.
Команда TICO-19 сделала вывод, что их усилия направлены только на «часть потребностей части языков мира». Однако они надеются, что исследование будет иметь непосредственное влияние на охваченные языки, особенно касательно стандарта перевода: «это позволит сообществу исследователей MT, как в академической, так и в отраслевой средах, лучше подготовиться к следующему кризису, когда понадобятся переводческие технологии».
*По материалам портала Slator

12 лет в бизнесе профессиональных переводов. Основатель и директор Бюро переводов Профпереклад.
Ключевые компетенции:
менеджмент, стратегический маркетинг, лингвистические технологии.
Образование:
Киево-Могилянская Бизнес Школа (KMBS) и IE Business School