Ссылки на приложения
https://play.google.com/store/apps/details?id=tatar.translate&hl=gsw
Нас никто не «отключит»
«Когда появляются новые технологии, крупные компании не интересуются региональными языками с коммерческой точки зрения. Мы не хотели ждать, поэтому решили сделать свой переводчик», - вспоминает ведущий научный сотрудник института Булат Хакимов.
По мнению сотрудника института, наличие собственных серверов и программных решений в Татарстане обеспечивает автономность — их «никто не отключит, не посчитает нецелесообразными».
Другая причина — развитие собственной экосистемы: переводчики, программы, плагины для ИИ. С развитием технологий выйти на уровень крупных игроков цифрового рынка станет проще.
«Мне кажется, сейчас разрыв между огромными корпорациями и небольшими группами в плане возможностей будет уменьшаться. Если раньше огромные базы данных могли содержать на своих серверах только в Яндексе, то сегодня те же задачи можно решить с меньшими ресурсами», — добавил Хакимов.
Разница подходов
Tatsoft – это полностью нейросетевой сервис, и в этом смысле он один из первых. На заре своих переводчиков Яндекс использовал только статистический метод, а позднее объединил оба метода в единый алгоритм.
Если отмести все детали в сторону, статистический метод позволяет получить грубый дословный перевод, а нейросетевой его очеловечивает, передает контекст. Разницу подходов Яндекса и Tatsoft можно заметить, когда вы пытаетесь перевести большой объем художественного текста. Эта разница становится существенной, когда вы переводите с татарского языка на русский.
«Яндекс в принципе лучше переводит на русский. Не только благодаря статистической модели. У них есть своя богатая модель русского языка. Если сравнить переводы Tatsoft с татарского и на татарский, то качество второго будет заметно лучше», - рассказал Булат Хакимов.
У языка есть границы применения
Сейчас у Tatsoft появился сервис голосового перевода. Для сбора данных Институт семиотики использовал корпус татарского языка «Туган тел», лингвистический портал «Тюркская морфема» и даже Telegram-бот «Татар тавышы» для анализа татарской речи из голосовых сообщений. Общий объем датасетов составил 600 часов записи. Сервис говорит голосами артистов камаловского театра Алмаза Гараева и Алсу Вазиевой. Станет ли Tatsoft популярнее?
«Изучая статистику татароязычных запросов в браузерах Яндекса и других поисковых системах, мы обнаружили, что превалируют темы связанные с искусством, музыкой, песнями, а все утилитарные, жизненные запросы у людей идут полностью на русском языке», - добавил Булат Хакимов.
У людей уже сформировался образ языка и границы его применения. Чтобы эти границы преодолеть необходимо создавать рабочие цифровые сервисы, создавать предложение.
Что такое «опенсорс»
Проблема открытых технологий актуальна для всего интернета. Целый цикл статей на эту тему можно найти на сайте N+1. За одним этим словом скрывается целая философия, в основе которой лежит простая идея: программное обеспечение должно быть доступно всем.
Опенсорс решает две основные задачи: «воспитание» подрастающих программистов и профилактика монополизации. Юные разработчики могут ознакомиться с работами опытных кодеров, а опытные кодеры не останутся единственными разработчиками на рынке ИТ.
Android, Яндекс, VK – все эти компании работают с открытым кодом. Помимо популяризации, это «эффект опенсорса», когда сторонние разработчики ищут недостатки в коде, а компания-разработчик «выбирает» предложенные улучшения – мост, который строит сам себя. Такая технология работы заметно снижает затраты на производство и облегчает поиск потенциальных кадров.
Эпоха «открытости»
Senior-developer Яндекса Сайдаш Мифтахов считает, что создание доступных технологий – это необходимый фундамент, которого сейчас не хватает.
«Из-за того, что эти технологии недоступны открытому сообществу, мы сильно запаздываем. Те языки, которые открыты для общего пользования, сильно лучше представлены в современных моделях», - добавил Мифтахов.
Для сравнения он часто приводит в пример каталонский язык (~9 млн против ~7 млн татароговорящих). Сообщество отдало достаточно много ресурсов в публичное пользование, и на каталонском сейчас может заговорить даже утюг.
Компании, которые занимаются обучением ИИ-моделей, берут данные напрямую из интернета. Поэтому многие нейронные сети владеют большим количеством языков. Одного только присутствия в интернете будет достаточно, чтобы качество «татарских» результатов росло и был достигнут «эффект опенсорса», считает разработчик.
Private >> Public
Сейчас институт семиотики работает именно в этом направлении. Инструменты для развития татароязычного интернет-пространства должны быть доступны всем.
«Мы с удовольствием готовы обменяться данными. Мы будем только рады, если татарский язык будет представлен на популярных сервисах. С Яндексом мы продолжаем сотрудничать и сейчас в этом направлении ведутся переговоры. Будет обновлено соглашение с Яндексом. При помощи наших наборов данных они хотят улучшить работы своего переводчика», — поделился директор института семиотики Ринат Гильмуллин.
По словам Гильмуллина, на сегодняшний день русско-татарский датасет уже размещен на гитхабе института (GitHub — онлайн-сервис совместной разработки — прим.). Также планируется открыть api (механизм взаимодействия с другими программами — прим.) сервиса Tatsoft. Разработчики могут воспользоваться этими инструментами.
Создание «татарских программ» — это не способ самоизоляции. Это создание экосистемы, которая сможет существовать самостоятельно, но при этом будет открыта для всего интернета.
Автор: Жамиль Салимгареев