«Сим-сим, откройся»: как Tatsoft начал решать проблему татарского интернета

Зачем нужен Tatsoft, когда есть Яндекс? Эти сравнения неизбежны, и сами разработчики признают, что это один из самых частых вопросов. С сервисами Яндекса знакома вся страна, ими пользуются за рубежом, а Tatsoft за первую неделю в Play Market набрал всего 500 загрузок. Продукт Института семиотики явно проигрывает, но выиграть и не пытается. И вот в чем дело - в материале «Миллирд.Татар». 

Еще в 2015 году, когда Яндекс решил обогатить свой переводчик представителями «малых» языков, Институт прикладной семиотики делился своими оцифрованными татароязычными данными. Яндекс Переводчик научился говорить по-татарски, но вместе с тем в Институте семиотики началась разработка собственного сервиса.

Ссылки на приложения 

https://play.google.com/store/apps/details?id=tatar.translate&hl=gsw 

https://speech.tatar/ 

https://translate.tatar/ 

 

Нас никто не «отключит»

«Когда появляются новые технологии, крупные компании не интересуются региональными языками с коммерческой точки зрения. Мы не хотели ждать, поэтому решили сделать свой переводчик», - вспоминает ведущий научный сотрудник института Булат Хакимов.


Булат Хакимов. Фото: © Рамиль Гали / «Татар-информ»


По мнению сотрудника института, наличие собственных серверов и программных решений в Татарстане обеспечивает автономность — их «никто не отключит, не посчитает нецелесообразными».

Другая причина — развитие собственной экосистемы: переводчики, программы, плагины для ИИ. С развитием технологий выйти на уровень крупных игроков цифрового рынка станет проще.

«Мне кажется, сейчас разрыв между огромными корпорациями и небольшими группами в плане возможностей будет уменьшаться. Если раньше огромные базы данных могли содержать на своих серверах только в Яндексе, то сегодня те же задачи можно решить с меньшими ресурсами», — добавил Хакимов.

Разница подходов

Tatsoft – это полностью нейросетевой сервис, и в этом смысле он один из первых. На заре своих переводчиков Яндекс использовал только статистический метод, а позднее объединил оба метода в единый алгоритм.


Источник: translate.tatar (скрин сайта)


Если отмести все детали в сторону, статистический метод позволяет получить грубый дословный перевод, а нейросетевой его очеловечивает, передает контекст. Разницу подходов Яндекса и Tatsoft можно заметить, когда вы пытаетесь перевести большой объем художественного текста. Эта разница становится существенной, когда вы переводите с татарского языка на русский.

«Яндекс в принципе лучше переводит на русский. Не только благодаря статистической модели. У них есть своя богатая модель русского языка. Если сравнить переводы Tatsoft с татарского и на татарский, то качество второго будет заметно лучше», - рассказал Булат Хакимов.

У языка есть границы применения

Сейчас у Tatsoft появился сервис голосового перевода. Для сбора данных Институт семиотики использовал корпус татарского языка «Туган тел», лингвистический портал «Тюркская морфема» и даже Telegram-бот «Татар тавышы» для анализа татарской речи из голосовых сообщений. Общий объем датасетов составил 600 часов записи. Сервис говорит голосами артистов камаловского театра Алмаза Гараева и Алсу Вазиевой. Станет ли Tatsoft популярнее?

«Изучая статистику татароязычных запросов в браузерах Яндекса и других поисковых системах, мы обнаружили, что превалируют темы связанные с искусством, музыкой, песнями, а все утилитарные, жизненные запросы у людей идут полностью на русском языке», - добавил Булат Хакимов.

У людей уже сформировался образ языка и границы его применения. Чтобы эти границы преодолеть необходимо создавать рабочие цифровые сервисы, создавать предложение.


Фото: © Рамиль Гали / «Татар-информ»


Что такое «опенсорс»

Проблема открытых технологий актуальна для всего интернета. Целый цикл статей на эту тему можно найти на сайте N+1. За одним этим словом скрывается целая философия, в основе которой лежит простая идея: программное обеспечение должно быть доступно всем. 

Опенсорс решает две основные задачи: «воспитание» подрастающих программистов и профилактика монополизации. Юные разработчики могут ознакомиться с работами опытных кодеров, а опытные кодеры не останутся единственными разработчиками на рынке ИТ. 

Android, Яндекс, VK – все эти компании работают с открытым кодом. Помимо популяризации, это «эффект опенсорса», когда сторонние разработчики ищут недостатки в коде, а компания-разработчик «выбирает» предложенные улучшения – мост, который строит сам себя. Такая технология работы заметно снижает затраты на производство и облегчает поиск потенциальных кадров.

Эпоха «открытости» 

Senior-developer Яндекса Сайдаш Мифтахов считает, что создание доступных технологий – это необходимый фундамент, которого сейчас не хватает.


Фото: © «Миллиард.Татар»


«Из-за того, что эти технологии недоступны открытому сообществу, мы сильно запаздываем. Те языки, которые открыты для общего пользования, сильно лучше представлены в современных моделях», - добавил Мифтахов. 

Для сравнения он часто приводит в пример каталонский язык (~9 млн против ~7 млн татароговорящих). Сообщество отдало достаточно много ресурсов в публичное пользование, и на каталонском сейчас может заговорить даже утюг. 

Компании, которые занимаются обучением ИИ-моделей, берут данные напрямую из интернета. Поэтому многие нейронные сети владеют большим количеством языков. Одного только присутствия в интернете будет достаточно, чтобы качество «татарских» результатов росло и был достигнут «эффект опенсорса», считает разработчик. 

Private >> Public

Сейчас институт семиотики работает именно в этом направлении. Инструменты для развития татароязычного интернет-пространства должны быть доступны всем.


Ринат ГильмуллинФото: © Рамиль Гали / «Татар-информ»


«Мы с удовольствием готовы обменяться данными. Мы будем только рады, если татарский язык будет представлен на популярных сервисах. С Яндексом мы продолжаем сотрудничать и сейчас в этом направлении ведутся переговоры. Будет обновлено соглашение с Яндексом. При помощи наших наборов данных они хотят улучшить работы своего переводчика», — поделился директор института семиотики Ринат Гильмуллин.

По словам Гильмуллина, на сегодняшний день русско-татарский датасет уже размещен на гитхабе института (GitHub — онлайн-сервис совместной разработки — прим.). Также планируется открыть api (механизм взаимодействия с другими программами — прим.) сервиса Tatsoft. Разработчики могут воспользоваться этими инструментами.

Создание «татарских программ» — это не способ самоизоляции. Это создание экосистемы, которая сможет существовать самостоятельно, но при этом будет открыта для всего интернета.


Автор: Жамиль Салимгареев
 

Следите за самым важным и интересным в Telegram-канале