«Мы решили с помощью своего переводчика выпустить татарскую версию чата ОpenAI»

Институт прикладной семиотики создал татарский чат-бот «Татар тавышы», с которым можно общаться, искать информацию, создавать тексты на татарском языке. Интернет-пользователи в шутку назвали «Щат Җпт». «Миллиард. Татар» поговорил с директором Института прикладной семиотики Академии наук РТ, кандидатом физико-математических наук Ринатом Гильмуллиным и с заместителем директора Института прикладной семиотики АН РТ, кандидатом технических наук Айратом Гатиатуллиным об искусственном интеллекте, татарской «Алисе», голосовом переводчике на татарский и русский языки.

«Если бы у нас не было собственной разработки, нам бы пришлось платить тому же «Яндексу» или «Гуглу»

- Как возникла идея создать татарский чат-бот? Что он умеет?

Ринат Гильмуллин: Умные чаты, основанные на нейросетях, которые запустила компания ОpenAI, популярны во всем мире. Мы решили выпустить татарскую версию этого чата, с помощью своего переводчика на татарский язык. Таким образом, мы создали возможность общаться с этим чатом на татарском языке.


Ринат Гильмуллин. Фото: © Регина Яфарова


- Каков механизм разработки такого чата?

- Разработка принадлежит ОpenAI, при этом используется огромное количество данных. С помощью нейросетей на этих данных обучаются модели, и уже нейросеть генерирует ответы на запросы пользователей. Наша задача заключалась в переводе этих запросов. Условно пользователь делает запрос на татарском языке, мы переводим его на русский. Этот русский запрос отправляется в ОpenAI. Далее мы получаем ответ на русском и переводим его на татарский язык.

- Что умеет татарский чат-бот?

- С чатом можно общаться на естественном языке на любую тему.

- Он и рассказы умеет писать?

- И рассказы, и рефераты. Фактически это такая энциклопедия, багаж знаний. Причем эти знания не обязательно находятся в том виде в этой базе. Интеллектуальность заключается именно в том, что он может выводить из существующих знаний новые. В этом суть чата.

- Обратила внимание, что он отвечает на красивом литературном татарском, предложения строит грамматически правильно. Как удалось этого добиться?

- В этом как раз заслуга нашей разработки - нашего переводчика TatSoft, который бурно развивается. Он уже превратился в популярный сервис. Недавно мы выступали перед Раисом  Республики Татарстан Рустамом Миннихановым и демонстрировали статистику прироста посещаемости TatSoft. На тот момент это была статистика за январь 2023 года. Уже тогда, по данным «Яндекс. Метрики», TatSoft посещали пользователи из 83 страны. За последние два месяца добавилось еще 7 стран. Этот переводчик также создан на нейросетях и позволяет качественно переводить с русского на татарский и обратно.

TatSoft применяется и в системе SmartCAT, которая используется  многими госорганами, муниципальными образованиями, чтобы переводить, вести делопроизводство на татарском языке. TatSoft - это не только веб-вервис, но используется во многих инструментах как движок. С помощью этого движка могут создаваться другие сервисы. Может кто-то нам предложит создать какой-то сервис. Если бы у нас не было собственной разработки, нам бы пришлось платить тому же «Яндексу» и/или «Гуглу» за использование их сервисов в сторонних разработках. А когда есть собственная разработка мы можем в любой момент вносить изменения, улучшать и развивать продукт.

«Как внести свой вклад в развитие татарского чат-бота?»

- Каков принцип его работы? Чтобы он так качественно переводил, нужны корпусы текстов?

- Это первый нейросетевой переводчик в русско-татарской языковой паре. Мы запустили его уже в 2019 году. Где-то через год «Яндекс» включил русско-татарскую языковую пару. И уже через два года эта пара появилась в Google. 

Принцип работы такой же: нужно много данных, в нашем случае это параллельные предложения на русском и на татарском языках, переведенные человеком. Далее на этом датасете обучается модель перевода, который позволяет получать естественный человеческий перевод.

- Чтобы пользоваться переводчиком TatSoft, надо скачать приложение?

- Это общедоступный веб-сервис по адресу translate.tatar, он в открытом доступе.  Также мы запустили телеграм-бот, который называется TatSoft. Можно запустить этот переводчик, выбрать направление перевода и написать, что хотите перевести. Мы работаем еще над тем, чтобы реализовать голосовой переводчик, когда можно будет диктовать запрос и получать озвучку перевода.

- Что нужно для его создания? 

- Мы уже работаем над ним. В этом году планируем представить работающий функционал. Сложность заключается в том, что надо набирать большое количество записей, надиктованных разными людьми с разных устройств. На голос влияет и возраст, и пол, детский голос звучит совсем по-другому. На результат влияют диалект, дикция, особенность речи. Второй фактор, который нужно учитывать - люди будут пользоваться различными устройствами, гарнитурами. Одно дело, когда мы в комнате сидим, другое — когда едем в транспорте. Нам нужно большой объем данных. Любой желающий может в этом принять участие и внести свой вклад в реализации этого функционала. 

Для участия достаточно перейти по ссылке и озвучить предложения. 


Бот для сбора голосовых сообщений на татарском языке Татар Тавышы


- В народе татарский бот прозвали «Щат Җпт». Как вы относитесь к этому?

- Мне кажется, кто-то придумал это название в шутку.

- Почему он такой популярный оказался?

- Такие чат-боты популярны во всем мире. Это же удобно – можно быстро получать информацию довольно хорошего качества, с хорошим анализом. Не надо куда-то обращаться, можно задавать все, что угодно, и получать достойный ответ.

«К искусственному интеллекту нужно относиться как к помощнику»

- Недавно Илон Маск и другие бизнесмены предложили приостановить развитие искусственного интеллекта, заговорили об опасностях, которые он таит. Как вы к этому относитесь? Можно ли вообще остановить развитие искусственного интеллекта? Какие риски могут быть?

- Сложно что-то однозначно говорить. Останавливать развитие искусственного интеллекта точно не стоит, да это и невозможно. К искусственному интеллекту нужно относиться как инструменту, помощнику, который позволяет решать определенные задачи эффективно и быстро. От таких вещей никто не будет отказываться. Да, какие-то профессии могут исчезнуть или уже исчезли. С другой стороны, это новые возможности для человека, новые горизонты. Никто же не будет отказываться от машин, самолетов и т.д. 

Риски пока тяжело оценивать. Единственное - искусственный интеллект нужно контролировать. Сейчас он воспринимается как черный ящик: есть вход и выход, но мы не знаем, что там внутри. Мы хотим получить ответ, почему именно такое решение было выдано. Если он сможет это объяснить, рисков не будет.

- Занимаетесь ли сейчас разработкой колонки наподобие «Алисы»?

- У нас такой специальной задачи - выпускать колонки - нет. С другой стороны, у нас есть наработки, которые мы можем использовать для умной колонки. Это вопрос софта и вопрос «железа», то есть самих устройств. Они раздельно не существуют. Чаще всего компании интегрируются с производителем. Например, колонки «Алиса» принадлежат «Яндексу». Полагаю, не нужно изобретать велосипед, лучше предлагать интегрироваться «Яндексу». В принципе мы им даже написали, что мы готовы предложить свои наработки в части татарского языка, чтобы они могли внедрить и выпустить поддержку для татарского языка.

- Какие наработки уже есть?


Фото: © Расих Фасхутдинов / «Татар-информ»


- У «Алисы» тот же функционал - распознавание, синтез речи. Это комплекс, который касается софта. Другое дело, с одним лишь софтом далеко не уйдешь. Нельзя ограничиться только распознаванием речи и переводом. Нужно к этой Алисе "прикрутить" различные сервисы. Например, чтобы найти какую-то музыку, нужно подключать поисковик. У «Яндекса» такая обертка уже есть. Недостаточно сделать двигатель - его нужно установить на автомобиль. Нужно создавать базы татарских песен, татарских сказок. Это же не просто колонка, скорее она воспринимается как умный ассистент, который может управлять умным домом, вызвать такси, еду и т.д. Здесь нет смысла заново все создавать. Нужно интегрироваться.

- А если они не захотят?

- Это другой вопрос. Это же коммерческая компания. Должно быть достаточное количество пользователей, то есть должна быть экономическая выгода. Татарский язык для них не на первых ролях. Здесь приходится надеяться на помощь руководства республики.

«У татарского языка огромные возможности»

- Для других народов есть интересные наработки с чат-ботами, колонками и т.д.?

- У нас большое сообщество. Мы сотрудничаем с коллегами из тюркских стран - Казахстана, Узбекистана.

Айрат Гатиатуллин: У нас есть ассоциация, мы проводим конференцию TurkLang по компьютерным разработкам для тюркских языков. Мы смотрим на разработки турков, казахов, узбеков. В конференции регулярно участвует представители порядка 15 регионов и стран. Наиболее активно развивается Турция. Узбекистан в последнее время начали уделять усиленное внимание 3-4 направлениям.


Фото: © Расих Фасхутдинов / «Татар-информ»


- У них какие конкретно разработки?

Айрат Гатиатуллин: У них есть и речевые технологии. Примерно такие же, что у нас.  Для узбекского, казахского, турецкого языков новые технологии разрабатываются наиболее активно. 

- У башкир что-нибудь такое есть?

- Есть, есть. Они к нам тоже обращались, мы сотрудничали. В разработке БашкортСофт тоже участвовали.

- Какие еще проекты развиваете?

- Мы запускаем телеграм-канал «Институт прикладной семиотики». Там будет весь список наших продуктов.

Например, у нас есть бот, который помогает сравнивать переводы. Я уже упомянул про звуковой бот «Татар тавышы». С его помощью мы будем искать голоса и надеемся, что население будет активно принимать участие.

У нас есть электронный национальный корпус «Туган тел». Там накоплен большой объем текстов на татарском языке.


Фото: © Расих Фасхутдинов / «Татар-информ»



- Художественных текстов?

- Не только. Он нужен не столько для того, чтобы читать произведения, это сбор данных, которые помогают филологам, лингвистам исследовать язык с разных позиций. Сами данные можно использовать в прикладных разработках. Мы строим языковые модели, которые используются наряду с нейросетями. 

То, что в компьютерах есть возможность набирать татарские тексты в продуктах Microsoft - это тоже результат нашей деятельность, которая началась еще в 1990-ые гг. Появляются новые операционные системы - под Андроид, под IOS.
Второе направление - создание интеллектуальных продуктов, машинный переводчик.

- Что такое портал «Тюркская морфема»?

- Это база данных, которая позволяет описывать тюркские языки. Наши коллеги тоже участвуют в этом. Они описывают свои языки, мы - свой. Тюркские языки сходны по грамматике. Мы создавали площадку для исследования разных языков и для дальнейшего обогащения своего языка.


Фото: © Расих Фасхутдинов / «Татар-информ»


Это перспективная тема, которая может вызвать революцию в разработке операционных систем. Изучается возможность самого языка в разработке интеллектуальных систем. Как оказалось, у татарского языка огромные возможности - в него уже заложены механизмы, которые могли бы использоваться в разработке операционных систем нового поколения. В международной научном сообществе этой темой также начинают интересоваться, задаваться вопросами, потому что невозможно все время гнаться за развитием информационных технологий - постоянно наращивать память, совершенствовать железо. Программные системы должны стать гораздо эффективными.

 — Это связано с тем, что татарский язык агглютинативный, логичный?

- Да, он агглютинативный, имеет мощные морфологическими, синтактическими и семантические конструкции, которые удовлетворяют показателям технологичности при обработке данных. Кроме того, татарский язык обладает возможностью задавать нечеткие команды и активностью знаний, которые являются одними из важных признаков искусственного интеллекта и интеллектуальности систем.

- Технологии активно использует молодое поколение. Работаете с молодежью?


«Tatar. Бу Хакатон». Фото: © Владимир Васильев / «Татар-информ»


- Академия наук совместно с ГБУ «Безопасность дорожного движения» уже третий год  в рамках Kazan digital проводит «Tatar. Бу Хакатон» для школьников, студентов, где они реализуют идеи в разработке it-решений, которые направлены на сохранение, развитие татарского языка. Много новых идей приходит из этого мероприятия. Победителям мы предоставляем возможность стажироваться в Академии наук РТ. В течение года помогаем доводить проекты до определенного уровня, чтобы его можно было представлять и далее развивать. Последний пример - мы работаем с ребятами из КНИТУ-КАИ им. Туполева. Они еще на «Хакатоне» защитили проект «Образовательный портал «Тел» для изучения татарского языка. Там тоже есть элементы использования искусственного интеллекта, умных чатов и т.п.. Этот проект они представили на коллегии минцифры, где были отмечены Рустамом Нургалиевичем [Миннихановым].



«Tatar. Бу Хакатон» проводится в память о нашем учителе Р.Г. Бухараеве – профессоре, докторе физико-математических наук, докторе технических наук, одного из основателей теории вероятностных автоматов, научном руководителе Совместной научно-исследовательской лаборатории «Проблемы искусственного интеллекта» Казанского государственного университета и Академии наук Республики Татарстан, которому в этом году исполнятся 30 лет, и на базе этой лаборатории был образован наш Институт прикладной семиотики АН РТ. 

Следите за самым важным и интересным в Telegram-канале