Ссылки на приложения
https://play.google.com/store/apps/details?id=tatar.translate&hl=gsw
Нас никто не «отключит»
«Когда появляются новые технологии, крупные компании не интересуются региональными языками с коммерческой точки зрения. Мы не хотели ждать, поэтому решили сделать свой переводчик», - вспоминает ведущий научный сотрудник института Булат Хакимов.

Булат Хакимов. Фото: © Рамиль Гали / «Татар-информ»
По мнению сотрудника института, наличие собственных серверов и программных решений в Татарстане обеспечивает автономность — их «никто не отключит, не посчитает нецелесообразными».
Другая причина — развитие собственной экосистемы: переводчики, программы, плагины для ИИ. С развитием технологий выйти на уровень крупных игроков цифрового рынка станет проще.
«Мне кажется, сейчас разрыв между огромными корпорациями и небольшими группами в плане возможностей будет уменьшаться. Если раньше огромные базы данных могли содержать на своих серверах только в Яндексе, то сегодня те же задачи можно решить с меньшими ресурсами», — добавил Хакимов.
Разница подходов
Tatsoft – это полностью нейросетевой сервис, и в этом смысле он один из первых. На заре своих переводчиков Яндекс использовал только статистический метод, а позднее объединил оба метода в единый алгоритм.

Источник: translate.tatar (скрин сайта)
Если отмести все детали в сторону, статистический метод позволяет получить грубый дословный перевод, а нейросетевой его очеловечивает, передает контекст. Разницу подходов Яндекса и Tatsoft можно заметить, когда вы пытаетесь перевести большой объем художественного текста. Эта разница становится существенной, когда вы переводите с татарского языка на русский.
«Яндекс в принципе лучше переводит на русский. Не только благодаря статистической модели. У них есть своя богатая модель русского языка. Если сравнить переводы Tatsoft с татарского и на татарский, то качество второго будет заметно лучше», - рассказал Булат Хакимов.
У языка есть границы применения
Сейчас у Tatsoft появился сервис голосового перевода. Для сбора данных Институт семиотики использовал корпус татарского языка «Туган тел», лингвистический портал «Тюркская морфема» и даже Telegram-бот «Татар тавышы» для анализа татарской речи из голосовых сообщений. Общий объем датасетов составил 600 часов записи. Сервис говорит голосами артистов камаловского театра Алмаза Гараева и Алсу Вазиевой. Станет ли Tatsoft популярнее?
«Изучая статистику татароязычных запросов в браузерах Яндекса и других поисковых системах, мы обнаружили, что превалируют темы связанные с искусством, музыкой, песнями, а все утилитарные, жизненные запросы у людей идут полностью на русском языке», - добавил Булат Хакимов.
У людей уже сформировался образ языка и границы его применения. Чтобы эти границы преодолеть необходимо создавать рабочие цифровые сервисы, создавать предложение.

Фото: © Рамиль Гали / «Татар-информ»
Что такое «опенсорс»
Проблема открытых технологий актуальна для всего интернета. Целый цикл статей на эту тему можно найти на сайте N+1. За одним этим словом скрывается целая философия, в основе которой лежит простая идея: программное обеспечение должно быть доступно всем.
Опенсорс решает две основные задачи: «воспитание» подрастающих программистов и профилактика монополизации. Юные разработчики могут ознакомиться с работами опытных кодеров, а опытные кодеры не останутся единственными разработчиками на рынке ИТ.
Android, Яндекс, VK – все эти компании работают с открытым кодом. Помимо популяризации, это «эффект опенсорса», когда сторонние разработчики ищут недостатки в коде, а компания-разработчик «выбирает» предложенные улучшения – мост, который строит сам себя. Такая технология работы заметно снижает затраты на производство и облегчает поиск потенциальных кадров.
Эпоха «открытости»
Senior-developer Яндекса Сайдаш Мифтахов считает, что создание доступных технологий – это необходимый фундамент, которого сейчас не хватает.

Фото: © «Миллиард.Татар»
«Из-за того, что эти технологии недоступны открытому сообществу, мы сильно запаздываем. Те языки, которые открыты для общего пользования, сильно лучше представлены в современных моделях», - добавил Мифтахов.
Для сравнения он часто приводит в пример каталонский язык (~9 млн против ~7 млн татароговорящих). Сообщество отдало достаточно много ресурсов в публичное пользование, и на каталонском сейчас может заговорить даже утюг.
Компании, которые занимаются обучением ИИ-моделей, берут данные напрямую из интернета. Поэтому многие нейронные сети владеют большим количеством языков. Одного только присутствия в интернете будет достаточно, чтобы качество «татарских» результатов росло и был достигнут «эффект опенсорса», считает разработчик.
Private >> Public
Сейчас институт семиотики работает именно в этом направлении. Инструменты для развития татароязычного интернет-пространства должны быть доступны всем.

Ринат Гильмуллин. Фото: © Рамиль Гали / «Татар-информ»
«Мы с удовольствием готовы обменяться данными. Мы будем только рады, если татарский язык будет представлен на популярных сервисах. С Яндексом мы продолжаем сотрудничать и сейчас в этом направлении ведутся переговоры. Будет обновлено соглашение с Яндексом. При помощи наших наборов данных они хотят улучшить работы своего переводчика», — поделился директор института семиотики Ринат Гильмуллин.
По словам Гильмуллина, на сегодняшний день русско-татарский датасет уже размещен на гитхабе института (GitHub — онлайн-сервис совместной разработки — прим.). Также планируется открыть api (механизм взаимодействия с другими программами — прим.) сервиса Tatsoft. Разработчики могут воспользоваться этими инструментами.
Создание «татарских программ» — это не способ самоизоляции. Это создание экосистемы, которая сможет существовать самостоятельно, но при этом будет открыта для всего интернета.
Автор: Жамиль Салимгареев