«И туган тел, и матур тел» в мире ИИ: какие чат-боты умеют говорить на татарском?

Каждый день новостные заголовки пестрят вестями об успехах в создании умных чат-ботов с искусственным интеллектом. Каждая уважающая себя IT-компания создает свою версию электронного собеседника. При подобном внедрении технологий появляется спрос на их перевод на другие языки. О том, какие боты уже сейчас могут поддержать беседу на татарском языке и проектах казанских энтузиастов – в материале «Миллиард.Татар».

Попытки казанских умельцев в ИИ

В последнее время искусственный интеллект развивается с неимоверной скоростью. Если ранее подобный инструмент был доступен лишь ограниченному кругу лиц, то сейчас каждый пользователь может создать своего чат-бота на основе уже созданной модели ИИ. Подобная тенденция уже относительно недавно дошла и до Татарстана.

Первыми решили себя попробовать в этой нише Институт прикладной семиотики АН РТ. В 2023 году из-за сложностей с регистрацией для использования зарубежного ChatGPT в Телеграме начали возникать чат-боты со схожим функционалом. По подобному пути пошли ученые республики и создали два небольших проекта.

Первый – «Татар Тавышы», созданный для перевода текста и озвучки с помощью самого бота. Второй бот – «Татар чаты». Данная модель была реализована для более осмысленного диалога с алгоритмом на основе ChatGPT, поддерживающая сообщения до 4000 символов. К сожалению, поддержка ботов была недолгой и на данный момент они не реагируют на входящие сообщения.



Изображение: предоставлено автором


Кто из «искусственных» сможет поддержать разговор на татарском?

Изначально первые модели искусственного интеллекта говорили на английском, но со временем новые модификации моделей получали поддержку крупных языков. Через небольшое время после запуска ChatGPT очень быстро научили говорить и на русском. А несколькими месяцами ранее блогеры начали тестировать бот на татарском языке.

Стандартный или даже шаблонный разговор виртуальный собеседник осилит на любом языке. Но тогда какие еще задачи можно возложить на чат-бота уже сейчас? Самое очевидное – это толковый словарь. В целом, программа успешно справляется с базовыми словами и фразами, но не стоит ожидать понимания фразеологизмов и игр слов, используемые именно в нашей речи.

Чтобы оценить творческий потенциал ИИ мы дали ему задание написать стихотворение на тему любви. Оценить его способности согласилась кандидат филологических наук, научный сотрудник и преподаватель татарского языка в Российском исламском институте Гузель Батыршина. Мы предложили судить машину по грамматике, логическому построению и «литературности» строк.


Изображение: предоставлено автором


«На первый взгляд стихотворение воспринимается как набор слов, с другой стороны, это теоретически можно рассматривать как философский стих. Литературный дух был не очень заметен. Во всяком случае, я его не почувствовала. 

Рифмы в строках не совпадают. Отдельные слова, например, «хур» я вообще не поняла. Может быть, это означает «позор». Тем не менее я думаю, что это нормальный уровень для искусственного интеллекта. На основе этого можно написать чувственное и красивое стихотворение», – поделилась анализом Батыршина.

К сожалению, наш кандидат филологических наук не сможет оценить работы от других чат-ботов. Российские аналоги встают в ступор от подобного запроса. GigaChat на запрос присылает лишь одно четверостишие на русском языке, а Алиса Про (платная и прокаченная версия бота от Яндекса) честно признается что не осилит подобный запрос.


Изображение: предоставлено автором


«ChatGPT старается, но звучит с явным “финским” акцентом»

Редакция «Миллиард.Татар» провела беседу с молодыми программистами по вопросу поддержки татарского в ИИ. Первым своим мнением поделился Райнур Хасанов – предприниматель, руководитель команды разработчиков в «CODERLAR», создатель платформы «Ачык университет» и член Совета ВФТМ.

«Есть вероятность, что российские компании, такие как Яндекс и Сбер, со временем расширят поддержку татарского языка в своих продуктах с искусственным интеллектом, включая чат-боты. Однако на данный момент эта поддержка ограничена. 

Всё зависит от приоритетов технологического развития этих компаний и спроса со стороны пользователей. Если татарский язык продолжит набирать популярность в цифровой среде, а государственные и локальные инициативы будут поддерживать его развитие, это может повлиять на решения крупных технологических игроков.

Важно понимать, что эти компании – коммерческие организации, и их действия направлены на извлечение прибыли. Если они увидят, что татароязычная аудитория, активно использующая татарский язык, может принести дополнительную выгоду, то они, безусловно, будут развивать поддержку татарского языка в своих сервисах», – рассказал Райнур.

Хасанов также высоко оценил уровень татарского у ChatGPT: «На данный момент уровень владения татарским языком у ChatGPT 4.0 и выше (платная версия) довольно хороший. Он может писать тексты на татарском, хотя не всегда идеально, но в целом справляется. Например, недавно мы вместе разработали идеи для короткометражного мультфильма: описали главных персонажей, ключевые события и попросили его создать полную красочную историю с диалогами. Результат был близок к литературному стилю, с интересными репликами. Конечно, были небольшие недочёты, но их легко исправить вручную.

ChatGPT хорошо справляется именно с самостоятельным созданием текста на татарском. Однако при переводе с русского или других языков ошибок встречается больше. Пока ChatGPT не может разговаривать на татарском языке. Он старается, но звучит с явным «финским» акцентом, что пока делает речь далекой от идеала.

При этом поддержка татарского языка всё ещё уступает более распространённым, таким как русский и английский. Для дальнейшего улучшения важно продолжать оцифровку и развитие текстовых корпусов на татарском. Если будет уделено больше внимания цифровизации и созданию татароязычных данных, возможности ИИ в этом направлении значительно расширятся».

Хасанов неоднозначно оценил перспективу развития ботов на татарском: «Трудно сказать однозначно. Количество языковых активистов растёт, и для реализации их проектов было бы интересно развитие ИИ на татарском языке. Однако насколько это будет популярно среди широкой аудитории, пока неясно. ВФТМ активно работает над популяризацией языка и культуры, что может способствовать увеличению спроса на такие решения.

С развитием цифровых технологий и повсеместным внедрением ИИ в различные сферы жизни, такие как образование и культура, будут востребованы решения на татарском языке. Если продвижение и цифровизация татарского языка продолжатся, появление ИИ, работающего на этом языке, станет естественным этапом этого процесса».

«В интернете по татарскому языку, башкирскому, чувашскому и другим языкам не так много данных»

Свои мысли о ситуации с отечественными ботами поведал и Сайдаш Мифтахов – автор курса и семинаров об Искусственном интеллекте на татарском. Аналитик и Data Scientist объяснил причины почему те же Сбер или Яндекс не спешат добавлять поддержку национальных языков России:

«Это всегда упирается в экономику. Искусственный интеллект и в целом большие модели машинного обучения, большие языковые модели, они всегда очень дорогие. Они тратят очень много ресурсов, и, соответственно, как их создание, так и их поддержка, то есть условно поддержка того, чтобы пользователи писали запросы, это всегда очень дорогое удовольствие. Поэтому экономически зачастую это является нецелесообразным, это одна сторона медали. 

Другая же сторона: компаниям дорого и тяжело обучать эти модели, потому что у них нет достаточно большого объема данных для обучения, для того, чтобы они могли беспрепятственно просто взять и обучить свои модели. То есть здесь еще большей проблемой, нежели финансовой, стоит проблема отсутствия данных. 

В интернете по татарскому языку, башкирскому, чувашскому и другим языкам не так много данных, это во-первых. И, во-вторых, нет хороших подготовленных так называемых датасетов, то есть наборов данных, предназначенных именно для обучения таких моделей. И из-за чего в целом решение задачи о поддержке татарского, башкирского, чувашского и других языков является очень тяжело решаемым.

Компаниям приходится использовать большой ресурс для того, чтобы создать эти базы и источники данных, что является очень организационно тяжелой задачей и тоже требует достаточно много денег. Без понимания что это действительно имеет какую-то финансовую выгоду, никакая корпорация или компания этого делать не будет. Поэтому вполне ожидаемо, что в сторону национальных языков инвестиций не очень много. Повторюсь, экономический фактор здесь играет одну из ключевых ролей», – рассказал Мифтахов.

Если верить словам экспертов, то пока еще не скоро стоит ожидать поддержку татарского в популярных сервисах. Вся работа с новыми технологиями взвалена на молодых и инициативных программистов, а также на институт семиотики. Без сомнений, язык Тукая проникнет в машинный алгоритм, вопросом лишь остается срок этого события.

 

Материал подготовил: Салават Хасанов
Источник изображения на анонсеru.freepik.com
 


 

Следите за самым важным и интересным в Telegram-канале