Кто лучше переводит на татарский язык: человек или машина?

«Миллиард.Татар» публикует материал об IT-разработках, связанных с татарским языком.

Искусственный интеллект никогда не выполнит полноценный перевод?

Среди ученых-лингвистов существуют разные мнения в вопросе приоритета машинного и человеческого перевода. Ученые и переводчики-лингвисты, которые считают, что искусственный интеллект никогда не будет способен выполнить полноценный перевод без помощи человека, аргументируют свою точку зрения тем, что все человеческие языки, в отличие от машинных, обладают такой особенностью, как многозначность слов. Одно и то же слово в зависимости от контекста может обозначать совершенно разные вещи.

Причина этого явления коренится в том, что люди в гораздо большей степени, чем компьютеры, используют систему так называемых умолчаний. Система умолчаний подразумевает, что тот, кто получает сообщение, обладает некоей базовой информацией, позволяющей сократить ненужные подробности. Однако у компьютера умолчание может иметь только один вариант, а у человека – множество.

Человек мыслит ассоциативно и может из нескольких вариантов выбрать именно тот, который в данном случае уместен. Другие считают машинный перевод экономически более выгодным и полезным при переводе огромных массивов текстов за короткий срок, а также целесообразным, когда стоит задача понять общий смысл текста.

Какие системы машинного перевода бывают?

Системы машинного перевода делятся на три категории: системы на основе грамматических правил (Rule-Based Machine Translation, RBMT), статистические системы (Statistical Machine Translation, SMT) и наиболее перспективные гибридные системы, сочетающие преимущества тех и других. Системы RBMT анализируют текст и строят его перевод на базе встроенных словарей и набора правил для данной языковой пары. В системах SMT применяется принцип статистического анализа: в программу загружаются большие (в миллионы слов) объемы текстов на исходном языке и их переводы, выполненные человеком.

Многие сторонники технического развития возлагают надежды на новые коммуникационные протоколы, такие как voiceoverinternet (голос через интернет) или multimodal interfaces (мультимодальные интерфейсы) и на машинный перевод как на решение проблем многоязычной коммуникации в Интернете. Существуют некоторые сложности: при переводе любой пары языков могут возникнуть специфические проблемы, которые решаются только для этой конкретной пары языков. Также создание систем машинного перевода требует огромного объема материалов на языках, с которых и на которые будет осуществляться перевод.

Татарский язык в Гугле и Яндексе

Компания «Яндекс» запустила машинный перевод для региональных языков России, например, для татарского, марийского, якутского и др. Результатом проекта по созданию статистического русско-татарского переводчика по технологии phrase-based MT в рамках Государственной программы «Сохранение, изучение и развитие государственных языков Республики Татарстан и других языков в Республике Татарстан на 2014–2022 годы» стала общедоступная версия переводчика от компании Яндекс, запущенная в 2015 году. Первая версия Яндекс.Переводчика для данной языковой пары была обучена, в том числе, с использованием морфоанализатора и параллельного корпуса.

Весьма популярна также программа Google Translate, известный в мире сервис по переводу предложений, целых текстов и сайтов. С 2020 года Google поддерживает татарский язык.

В 2019 году был запущен проект Tatsoft, разработанный сотрудниками Академии наук Татарстана, который работает на основе нейросетевого подхода и содержит около 1 миллиона пар русскотатарских предложений.

Из сборника «Функционирование родных языков в современном мире: в вопросах и ответах» / авт.-сост.: Л.Р. Славина, А.Ф. Ханова