«Мы разрабатываем машинный переводчик, который позволяет переводить шесть тюркских языков»

За последние несколько лет Институт прикладной семиотики Академии наук РТ реализовал несколько ключевых IT-проектов для татарского языка. Среди них - машинный переводчик «Татсофт», национальный корпус татарского языка «Туган тел», портал «Тюркская морфема» и многое другое. Сейчас активно развиваются проекты по машинному переводчику для семи тюркских языков, в том числе татарскому и башкирскому, а также системы распознавания и синтеза татарской речи. Об этом и не только «Миллиард.Татар» рассказал директор института Ринат Гильмуллин.


«Эта работа позволила включить татарский язык в список мировых языков, поддерживаемых Microsoft»

- Ринат Абрекович, расскажите вкратце о вашем институте. Когда и зачем он был создан?

- Наш институт был создан в 2009 году на базе совместной научно-исследовательской лаборатории «Проблемы искусственного интеллекта» Академии наук Татарстана и Казанского университета, одним из основателей которой был наш учитель, выдающийся ученый Раис Гатич Бухараев. В настоящее время у нас работают 15 человек, средний стаж сотрудников 42 года, доля сотрудников с ученой степенью составляет 77%.

Одна из приоритетных задач института - разработка современных IT-продуктов и лингвистических ресурсов для татарского языка.

Здесь можно выделить несколько уровней реализации данной задачи. Базовый уровень – это обеспечение возможности использования татарского языка в инфокоммуникационных технологиях. Этим мы занимаемся практически с момента создания лаборатории в 1993 году. Базовый уровень предполагает татарскую локализацию компьютерных систем и технологий, с тем, чтобы у пользователя была возможность работать на компьютере на татарском языке, – создание стандарта клавиатуры, шрифтов, драйверов для набора и печати текстов на татарском языке. В рамках сотрудничества с фирмой Microsoft были проведены работы по локализации OS Microsoft Windows и ее приложений Microsoft Office. Эта работа позволила включить татарский язык в список мировых языков, поддерживаемых Microsoft, начиная с версии OS Microsoft Windows NT, ХP и по актуальные версии в наши дни. Татарский язык, наряду с другими мировыми языками, поддерживается компанией Microsoft и представлен во всех ее продуктах.


Фото: Салават Камалетдинов


Можно считать, что базовый уровень реализован. Однако на дворе XXI век, появляются современные гаджеты и новые мобильные операционные системы, и для них нужно разрабатывать соответствующие мобильные приложения, словари с поддержкой татарского языка. Поэтому работа в этом направлении продолжается. В настоящее время разработаны мобильные приложения с татарской клавиатурой под Android «Тиз.Яз» и «Татарская клавиатура» под iOS, общее скачивание которых составляет более 400 тысяч.

В этом году мы совместно с министерством цифровизации участвовали в создании новой версии клавиатуры «Татарча яз». Обновленная клавиатура содержит функцию предиктивного набора, то есть подсказки для удобства при наборе сообщений. Выполняются также работы по локализации первой российской мобильной операционной системы «Аврора», а также мобильной версии портала «Госуслуги РТ».

«Крупные компании практически не заинтересованы в поддержке малоресурсных языков»

- Насколько нам известно, вы разрабатывали татарский переводчик «Татсофт», а также синтезатор татарской речи. Можно об этом подробнее?

- Очевидно, что если мы хотим сохранять и развивать язык, он должен внедряться и активно использоваться в сфере цифровых технологий. В этом плане цифровизация - это инструмент, который позволяет решать эти задачи. В плане обеспечения ресурсов (данных и вычислительных мощностей) нам, конечно, тяжело конкурировать с такими компаниями, как Google или Яндекс, которые преследуют коммерческую цель и в первую очередь создают сервисы для более крупных мировых языков, таких как английский, китайский и другие, и практически не заинтересованы в поддержке малоресурсных языков. Но сегодня институт обладает большим научно-исследовательским опытом и ведущими в своей области специалистами для решения такого рода задач.


Фото: Регина Яфарова


Сегодня практически ни один пользователь не может обойтись без множества популярных сервисов. Если, например, не будет таких сервисов, как отправить сообщение, подавать голосовые команды, возможности читать, общаться с компьютером на родном языке, то пользователь будет вынужден использовать эти сервисы на других языках. Поэтому важно создавать IT-сервисы, продукты для татарского языка. При этом они должны быть общедоступными и, главное, – соответствовать современному уровню мировых аналогов.

За последние несколько лет Институту удалось реализовать ряд проектов, соответствующих такому уровню, которыми мы, в общем-то, гордимся. Один из них — это машинный переводчик в русско-татарской языковой паре «Татсофт». Данной проблематикой мы занимаемся достаточно давно, используя различные подходы для разработки машинного переводчика. В 2015 году благодаря сотрудничеству с компанией Яндекс русско-татарская языковая пара была включена в сервис Яндекс.Перевод. С нашей стороны было оказано содействие в подготовке параллельного корпуса.

- То есть действующий татарский переводчик в Яндексе - это и ваша заслуга?

- Да, безусловно, в этом есть и наш вклад. Но технологии меняются, кроме того, зависимость от крупных фирм сильно мешает развитию в данном направлении. Нет возможности оперативно обновлять систему, создавать новые сервисы на базе машинного перевода.

Поэтому мы решили разработать собственный машинный переводчик «Татсофт». Это первый русско-татарский переводчик, реализованный с использованием технологий искусственного интеллекта, и на сегодняшний день он является лучшим по качеству общедоступным переводчиком в русско-татарской языковой паре среди своих аналогов (Google, Яндекс).

«Недостаточность данных удается компенсировать за счет углубления в детали татарского языка и более тонкой настройки переводчика»

- Как это работает?

- Это аналог нейронов мозга человека. Например, когда вы несколько раз показываете ребенку изображение кошки, он сможет четко распознавать ее среди сотен других. Здесь примерно то же. Мы обучаем алгоритм на большом объеме параллельных предложений в русско-татарской языковой паре. После такого обучения система становится способной переводить любые предложения с русского на татарский язык и обратно.


Фото: Рамиль Гали


Помимо основного назначения переводчик позволяет озвучивать перевод на татарском и русском языках. А в перспективе, чем мы сейчас занимаемся, позволит реализовать новые продукты и сервисы, такие как синхронный переводчик, голосовой ассистент, автоматическое субтитрирование ТВ-передач, аудио-переводчик, перевод новостей, книг, обучению языку и т.д.

«Татсофт» также используется в системе «SmartCAT» для поддержки автоматизированного перевода документов. К системе подключены более 70 государственных учреждений и муниципальных образований Татарстана.

Основным вопросом при создании такого переводчика является наличие достаточного объема данных. Для крупных мировых языков, в отличие от нашего языка, такой вопрос не стоит. Яндекс и Google нацелены в первую очередь на коммерческий успех, поэтому их внимание направлено по большей части на крупные языки – английский, русский, китайский. Они не нацелены на какой-то конкретный язык, им нет разницы. И у них нет проблем с набором данных и с вычислительными мощностями.

У нас, увы, другая ситуация – данных нам не хватает. Например, для обучения нашего переводчика нам понадобилось порядка 100 тысяч страниц текста формата А4. Это минимальный объем, необходимый для создания переводчика. По сравнению с другими языками и тем, что нужно, это капля в море.

Но вопрос недостаточности данных нам удается компенсировать за счет исследования, углубления в детали татарского языка и более тонкой настройки переводчика с учетом этих знаний. В этом главная особенность нашего переводчика, что позволяет ему оставаться на сегодняшний день лучшим по качеству перевода в русско-татарской языковой паре.

- А ваш переводчик может переводить с фото?

- Это уже его развитие. Мы хотим, чтобы он переводил не только с фото, но и с речи - когда будет реализована система распознавания татарской речи.


Фото: Регина Яфарова


«Это машинный переводчик, который позволяет переводить на русский и обратно шесть тюркских языков»

- Сейчас вы разрабатываете переводчик на семь тюркских языков, так?

- Да, это происходит в рамках проекта «TurkLang 7» на основе гранта Российского фонда фундаментальных исследований. Это машинный переводчик, который позволяет переводить на русский и обратно шесть тюркских языков – татарский, башкирский, казахский, узбекский, крымско-татарский, чувашский.

- Башкирский внесен туда по чьей-то инициативе?

- Сами решили включить его в перечень языков, никто напрямую к нам не обращался.

- Расскажите о речевом синтезаторе татарского языка.

- Это очень интересный проект по направлению «Речевые технологии». Но здесь не только синтезатор, но и распознавание татарской речи. Синтезатор — это когда задается текст, и компьютер его озвучивает. А есть обратная задача – когда человек говорит, и вы переводите эту речь в текст. Сегодня это очень актуальная задача, на основе таких технологий для других языков создается очень много сервисов, и для татарского это тоже должно быть.

А синтез речи мы уже реализовали, он используется как раз в машинном переводчике «Татсофт».

- Как он создавался?

- Здесь используется тот же механизм, что и в переводчике. Нужно записать большой объем речевого корпуса. Для синтезатора это конкретный диктор, мы записываем его в течение многих часов и потом идентифицируем то, что записано, с текстом по предложениям. Чтобы промежуток записи соответствовал тексту. Это называется «разметка». А потом система обучается на основе этих данных при помощи алгоритмов машинного обучения.

- У каких тюркских народов есть подобный синтезатор?

- Насколько я знаю, он есть только для турецкого языка. Но, на самом деле, технологии сейчас таковы, что если есть данные, создать подобный синтезатор не проблема.

«Нужны люди разного возраста, с разными диалектами»

- Планируется ли создание голосового помощника на татарском языке, аналогичного Siri, Алисе?

- Это комплексная задача, и синтез речи – только одна из подзадач этого проекта. Помимо задачи понимания диалога, необходимо уметь распознавать речь не только одного человека, а множества людей. Для этого нужно записать как можно больше голосов в разных условиях – на рынке, в машине, в офисе и т.д. Голоса должны быть разными – разного возраста, на разных диалектах. И чем больший набор таких голосов мы будем иметь, тем лучше будет для системы.

Ключевая задача - это сбор и обработка данных. Для этого мы разработали телеграм-бот «Татар тавышы». Он выдает предложение, человек его озвучивает и заодно может проверить свое произношение. И тем самым он поможет нам собрать необходимые данные.

- Получается, с миру по нитке?

- А другого варианта нет. Данные для нас являются ключом к успеху.

- И насколько успешен ваш бот?

- Данные собираются. Есть люди, которые записывают для нас по несколько часов. Правда, для того, чтобы иметь хорошие данные, нужны, условно, не два человека, которые записали бы по десять тысяч минут, а десять тысяч человек, записавших по две минуты.


Фото: Регина Яфарова


- В какие суммы все это обошлось?

- Точные цифры назвать не смогу. Большая часть финансирования идет по государственной программе. Также мы активно ищем возможности участия в различных российских научно-исследовательских грантах. Нет ни одного года, чтобы мы не участвовали в каком-либо гранте.

- Башкирские разработчики загрузили свои стихи в нейросеть, и она начала писать стихи на башкирском. Наверное, можно сделать такой же проект и на татарском?

- Эти технологии известны, они разрабатывались в первую очередь для английского языка. Если такая задача будет стоять, мы можем это реализовать.

 - Есть ощущение, что башкирский язык в интернете представлен больше, чем татарский. Это так?

- Я бы так не сказал. У нас, помимо переводчика, есть и другие важные проекты. Например, национальный корпус татарского языка «Туган тел», в котором сейчас более 200 миллионов словоформ. Он является мощным и важным инструментом для лингвистов и филологов в исследовании языка. Разработаны электронные словари, электронный атлас татарских народных говоров, различные мобильные приложения, обучающие программы и т.д. и т.п.

- Расскажите о своем участии в проекте «Ана теле».

- Он создавался совместно с «Education First», наш институт также принимал в нем участие, я был техническим руководителем проекта. Считаю, что чем больше подобных проектов для татарского языка, тем лучше. Но, когда мы делаем что-то совместно с большими компаниями, в этом есть и свои минусы – есть ограничения в плане внесения изменений, использования системы, и требуется постоянное финансирование на поддержку системы.

Ильгизар Вахитов