Как татарстанские разработчики создали онлайн-переводчик башкирского языка

Институт прикладной семиотики Академии наук Татарстана в сотрудничестве с специалистами из Башкортостана создал русско-башкирский машинный переводчик «Башкортсофт». В интервью «Миллиард.Татар» директор института Ринат Гильмуллин рассказал о том, что показал опыт сотрудничества с башкирской стороной, а также об общих проблемах татарского и башкирского языков.

«Сотрудничество с Башкортостаном вылилось в разработку русско-башкирского машинного переводчика»

- Расскажите, в чем заключается ваше сотрудничество с научным сообществом тюркских народов?

- Как уже отмечалось, мы ведем совместную работу с представителями различных тюркских народов. Ежегодно, начиная с 2013 года, активно проводим конференцию по компьютерной обработке тюркских языков под названием «TurkLang», представляем на ней свои лучшие научно-исследовательские и прикладные разработки. Благодаря этому сформировалось мощное сообщество представителей науки Татарстана и других тюркских народов.

Оно сейчас активно развивается. Например, в этом году в конференции приняло участие более 100 ученых, занимающихся исследованиями в области компьютерной обработки языков. Уже есть совместная деятельность с казахами, киргизами, узбеками, чувашами и крымскими татарами в виде разработки машинного переводчика, корпусов электронных словарей. Также, например, с участием казахов, турок, киргизов и узбеков были реализованы электронные тезаурусы тюркских языков для создания систем многоязычного поиска и извлечения знаний.

Хочу также отметить, что такого рода совместные исследования и разработки дают огромную пользу и для развития как нашего татарского языка, так и других тюркских языков.

- Можете подробнее рассказать о сотрудничестве с башкирской стороной?

- Мы стараемся помогать всем, кто к нам обращается. Сотрудничество с Башкортостаном у нас вылилось в отдельную разработку в виде веб-портала русско-башкирского машинного переводчика.

Вообще, создание машинного переводчика — это весьма науко- и трудоемкий процесс, который нельзя реализовать без участия специалистов и разработчиков различного профиля. Задействованы и филологи, и программисты, и ученые, как с татарстанской, так и с башкортостанской стороны. И благодаря совместной работе, использованию передового опыта, удалось разработать уникальный продукт. На сегодняшний день этот сервис является одним из лучших по качеству перевода в русско-башкирской паре.

«С нашей стороны – разработка моделей и алгоритмов, реализация веб-сервиса, со стороны башкирских коллег - лингвистический ресурс»

- А с кем именно вы работали при создании «Башкортсофта»? Это был какой-то институт или организация?

- Это представители различных как научных, так и общественных организаций, ученые, разработчики, лингвисты, переводчики – специалисты разного профиля. Подбором специалистов по заданным нами требованиям занимался Фонд по сохранению и развитию башкирского языка (создан указом главы Башкортостана в 2018 году, - прим. ред.).

- В какую сумму ему это обошлось?

- Эту информацию можно найти на официальном сайте «Гранты Республики Башкортостан» («Создание веб-сайта башкирско-русского и русско-башкирского переводчика с функционалом озвучивания башкирских текстов», - прим. ред.).

- Как выбирался человек, озвучивающий текст?

- Данная работа, так же как и подготовка данных для машинного обучения, проводилась нашими башкортостанскими коллегами. С нашей стороны – разработка моделей, алгоритмов и собственно реализация веб-сервиса, исполнение и контроль над полным циклом технологического процесса. Со стороны же башкирских коллег был предоставлен весь необходимый лингвистический ресурс для создания переводчика.

- Пригодились ли наработки, полученные при создании «Татсофта»?

- Задачей разработки систем машинного перевода мы занимаемся уже более 20 лет, начиная от создания rule-based систем и заканчивая совместной работой с компанией «Яндекс» по созданию статистического машинного переводчика. То есть использовался весь опыт создания такого рода систем, от разработки лингвистических моделей до реализации алгоритмов на основе нейронных сетей.


Фото: Салават Камалетдинов


- А как вы работали над «Татсофтом»? Сколько времени заняло его создание, сколько ваших людей было задействовано?

- В разработке русско-татарского машинного переводчика в общей сложности приняло участие более 30 специалистов различного профиля – разработчики, лингвисты, переводчики. Работы по подготовке лингвистических ресурсов для переводчика были начаты еще в 2014 году, первая версия общедоступного нейросетевого переводчика была запущена в начале 2020 года. Работа не останавливается и по сей день. Система постоянно развивается и совершенствуется.

- А сколько ваших людей было задействовано в работе над «Башкортсофтом»?

- С нашей стороны 5 специалистов. Сколько со стороны башкирских коллег - у меня нет точной информации.

«Говорят, на сегодня это лучший русско-башкирский переводчик»

- Какие сложности возникали в ходе работы?

- Основная задача при построении переводчика, учитывая малоресурсность наших языков, связана с подготовкой достаточного объема лингвистических данных (моноязычный корпус, русско-башкирский параллельный корпус и словари). Должен отметить, что наши башкортостанские коллеги хорошо справились с этой задачей и в достаточно сжатые сроки смогли предоставить весь необходимый материал для реализации переводчика.

- Довольны ли вы результатом? Что говорят рядовые пользователи, если с ними уже есть обратная связь?

- Промежуточными результатами можно быть довольным. Автоматическая метрика оценки качества перевода имеет достаточно высокие показатели. От пользователей также приходят положительные отзывы, говорят, что на сегодня это лучший русско-башкирский переводчик. В то же время мы понимаем, что для его развития и для повышения качества перевода работы должны вестись постоянно и непрерывно.


Фото: Регина Яфарова


- Что вообще показала эта работа, какие выводы вы из нее сделали?

- Сейчас, к сожалению, приходится констатировать тот факт, что наши языки, в том числе и татарский, и башкирский – относятся, как я уже сказал, к малоресурсным языкам. И вот лишь такого рода совместные разработки в виде создания популярных и востребованных сервисов мирового уровня позволяют нам получать новые лингвистические ресурсы и взращивать своих высококвалифицированных специалистов. Что, безусловно, является важной задачей для сохранения и развития языков в условиях такой масштабной цифровизации.

И чем больше таких разработок, тем больше у нас шансов изменить ситуацию с малоресурсностью наших языков.

Этому способствует и создание веб-портала «Тюркская морфема» на материале семи тюркских языков, реализованного в рамках гранта Российского научного фонда (modmorph.turklang.net). Лингвистические возможности родственных тюркских языков при разработке подобных проектов используются для развития отдельно взятого языка. На основе этих совместных исследований и разработок реализуется система машинного перевода для семи тюркских языков (turk.translate.tatar).

Ильгизар Вахитов, Рустем Шакиров