«У оцифрованного языка есть будущее»: в Уфе программист разрабатывает умную колонку на башкирском

Программист Айгиз Кунафин из Уфы работает над созданием умной колонки, которая будет понимать запросы на башкирском языке и отвечать по-башкирски. Проект получил название «Һомай» по имени мифической птицы из башкирского эпоса. Разработчик обещает представить прототип голосового помощника уже в ближайшие месяцы. «Миллиард татар» поговорил с автором проекта и выяснил, как искусственный интеллект поможет сохранять языки малых народов.

«Проект вырос из школьного сайта»

Идея создать голосового помощника на башкирском языке пришла к Айгизу Кунафину во время всеобщей изоляции из-за пандемии коронавируса. В 2020 году профессиональный программист-фрилансер и отец четырех детей захотел создать сайт, который бы автоматически проверял домашнюю работу и отправлял результаты учителю. По задумке программиста, сайт должен бы облегчить жизнь и родителям, и педагогам.

«Я программист, а программисты – лентяи. Они стремятся автоматизировать все, что можно автоматизировать. Условно говоря, мне не хватит нервов каждый день проверять, сделал ребенок домашку или нет. А вот если я напишу программу, которая сможет не просто следить за тем, сделал ребенок задания или нет, но еще и за тем, правильно ли он сделал, то для меня это было неким вызовом. Поэтому сначала я хотел сделать это для своих детей, но потом решил сделать это для всех и для учителей, которые загружены бумажной работой», — говорит Айгиз. 


Айгиз Кунафин. Источник фото: bashinform.ru


В процессе работы возникла идея, что алгоритм должен проверять не только тексты, загруженные учеником, но и устные ответы. 

«Тогда мне пришла идея, что дети будут надиктовывать свои ответы по истории или литературе, а они будут автоматически расшифровываться. Потому что учителю намного быстрее прочитать текст, чем слушать ответ ребенка. Еще лучше было бы, если бы текст автоматически анализировался, а учитель бы просто оценивал: сказал ребенок то, что надо, или нет. Когда я начал над этим работать, то выяснилось, что на тот момент – это был 2020 год – для русского языка хороших технологий распознавания речи особо не было. Были от “Яндекса”, но они платные. Были какие-то другие, но качество не очень. Для башкирского языка, соответственно, вообще не было», — говорит Айгиз.

Так и возник проект, суть которого – создать с нуля алгоритм распознавания башкирской речи и голосовой синтезатор, который сможет говорить по-башкирски. Появился и подходящий формат для реализации задуманного – умная колонка.

«Алиса» по-башкирски 

Чтобы научить компьютер «понимать» человеческую речь, используются нейросети и технология машинного обучения. В упрощенном виде это выглядит так: компьютерной программе «скармливают» большой объем данных, например, текстов с мета-данными. В самом общем виде эти мета-данные выглядят как набор значений для каждого выражения: «истинно», «ложно» и все промежуточные значения. Алгоритм, анализируя эти тексты, со временем учится отличать значения выражений и правильно их использовать. Например, в ответ на запрос о погоде алгоритм выдаст информацию Гидрометцентра для конкретного района.


Фото: из открытых источников vk.com


Первой и самой большой проблемой в этом амбициозном проекте оказалась нехватка датасетов, то есть, наборов данных – текстов и образцов речи. Понятно, что текстов на башкирском языке в интернете не так много, как на русском и тем более, английском. Айгизу Кунафину вместе с единомышленниками пришлось буквально с нуля создавать набор данных для обучения алгоритма. Для этого привлекли волонтеров.

«Когда я начинал это делать, открытых данных вообще не было. Те, у кого эти данные были, не хотели ими делиться. Такая же проблема была у татар. Причем в Татарстане в этом плане информация еще более закрытая. Грубо говоря, пока денег не дашь, никто тебе навстречу не пойдет. Когда мы все это начинали, мы собрали команду энтузиастов и стали думать, какие данные нам нужны, и кто их нам может дать. Сначала мы собирали что-то сами. Потом мы создали группы «ВКонтакте», в Telegram, других соцсетях и начали агитировать, чтобы люди зачитывали различные тексты и отправляли аудиозаписи нам», — рассказывает Айгиз.

В интернете есть краудсорсинговый проект Common Voice. Он создан компанией Mozilla как раз для таких целей. На сайте проекта любой желающий может зачитать на микрофон кусок текста и отправить его разработчикам или вложить в открытый доступ. Эти образцы голосов разных людей используются для тренировки моделей голосовых ботов. Чтобы привлечь людей к проекту, Айгиз и его команда запустили на платформе Common Voice конкурс с розыгрышем главного приза – iPhone. 

«Участвовали 860 человек. Но люди участвовали не только ради приза, но и понимая, что они реально помогают сохранить язык, ведь в наше время будущего любого языка во многом зависит от того, оцифрован он или нет. Обычные люди, пользователи бесплатно записывали для нас аудио и присылали», — говорит разработчик.

Еще одной задачей был перевод башкирских текстов на русский и английский языки. Для этого снова потребовалась помощь рядовых пользователей.


Студенты факультета башкирской филологии, востоковедения и журналистики БашГУ изъявили желание участвовать в проекте
Источник фото: bashedu.ru


«Наши языки — башкирский, татарский — по своим масштабам не такие большие. Носителей языков не так много. И если вы хотите, чтобы ваш бот получал информацию из глобальных источников, нужно, чтобы он умел переводить запросы с башкирского на русский, а еще лучше – на английский, потому что больше всего данных в интернете – на английском. Поэтому мы занялись тем, что стали собирать параллельные тексты, чтобы улучшить качество перевода. И в этом нам тоже помогают люди. Мы даем им на проверку примеры текстов – предложения на башкирском и русском языках из переведенных книг. Участники должны отмечать: правильно переведен текст или неправильно. Таким образом, мы за год собрали 130 тысяч пар текстов» — говорит Айгиз. 

Еще одна группа помощников сканировала книги на башкирском языке, переводя их в машиночитаемый формат. Тогда компьютер сможет обучаться не только на повседневных словах и выражениях, но и на примерах из башкирской классики. В скором будущем команде Айгиза Кунафина понадобится помощь тестировщиков – добровольцам нужно будет придумывать запросы для голосового помощника и испытывать реакции прототипа – насколько правильно машина будет отвечать на голосовые запросы.


Фото: из открытых источников t.me


Команда и цена вопроса

Айгиз Кунафин – выпускник Уфимского авиационного университета. В последние годы он занимается проблемами машинного обучения. В проекте «Һомай» ему помогают единомышленники.

«Сколько человек в команде – раскрывать не буду. Есть разработчики, DevOps’ы, product-менеджеры и архитекторы. Можно сделать все и одному, но это будет долго, а качество – так себе. Ведь мы предполагаем, что будем продавать эти колонки не штучно. Соответственно, нужно подготовиться к тому, что ее купят тысяча человек. Система должна быть к этому готова. Нужен человек, который может спроектировать эту колонку. Мы нашли такого человека. Держать все это в голове одного человека – очень сложно», — рассказывает автор проекта.

По словам разработчика, если раньше создать полноценного голосового помощника вроде Alexa или «Алисы» было под силу разве что таким IT-гигантам, как Amazon или «Яндекс» с соответствующими штатами специалистов и бюджетами, то теперь этим могут заниматься и небольшие группы программистов. Но деньги все равно нужны. Сейчас команда Кунафина тратит свои сбережения. Сколько уже ушло на проект – сказать не могут. 


Источник фото: bash.news

 

«В основном все это время тратилось мои деньги и время. Поскольку эти расходы были “размазаны” на три последних года, сразу взять и сказать, сколько потрачено, невозможно. С другой стороны, мы понимаем, что есть себестоимость товара, а есть цена в магазине. Поэтому говорить о стоимости того, чего еще не существует, было бы неправильно», — говорит Айгиз.

Разработчик не получает деньги спонсоров, но рассматривает возможность привлечения целевого гранта. 

«У нас есть преимущество перед “Яндексом”»

Уже в ближайшие месяцы умная колонка «Һомай» может быть представлена публике. По словам разработчика, основные компоненты уже готовы. Осталось «натаскать» алгоритм на реальных запросах и донастроить систему. 

«Следующий этап – мы начнем тестировать систему на людях. Они будут задавать вопросы голосом и получать реакцию. Это произойдет в ближайший месяц. Будет рабочий прототип, чтобы показать пользователям саму колонку, что она работает. Прототип будет представлен примерно через два месяца. Можно собрать колонку быстро и дорого. Но мы постараемся найти баланс, чтобы было дешевле, и в то же время, чтобы она работала. Поиск этого баланса и настройка производства тоже займут определенное время. Когда мы выйдем на продажи – это еще открытый вопрос», — говорит Айгиз.

Программист оптимистично смотрит и на возможность серийного производства колонки. По его словам, сборку можно организовать в Китае из готовых компонентов по оригинальному дизайну. Кстати, разработкой дизайна и логотипа занимался уфимский специалист Газиз Абдульменов. Он же предложил нынешнее название. Һомай – это мифическая птица счастья из башкирского эпоса «Урал-батыр», девушка-лебедь, дочь небесного царя Самрау и Солнца.


Башкирский эпос «Урал-батыр»Фото: из открытых источников vk.com


Другой вопрос – будет ли эта колонка востребована. Ведь носителей башкирского и татарского языка, которые бы хотели иметь дома голосового помощника, говорящего на их языке, на самом деле не так много. 

«Здесь нужно понимать, что наши народы не такие большие, а носителей татарского и башкирского языка – еще меньше. С другой стороны, если у нас будет готовая колонка, ничего не мешает мне сделать такую же колонку для татарского языка. Если обратятся татары и скажут сделать свой вариант “Һомай” или сделать интеграцию языка на ту же платформу, в принципе, мы сможем это сделать. И для других народов тоже можно сделать», — рассуждает программист.

Несмотря ни на что, разработчик уверен, что он сумел побить «Яндекс» на его поле. По словам Айгиза Кунафина, большие компании никогда не возьмутся за создание голосовых помощников для малых народов. Тогда что мешает самим представителям этих народов заняться «оцифровкой языка»?

«У меня как носителя башкирского языка есть преимущество перед “Яндексом”. Во-первых, это большая компания и быстро что-то менять у них не получится. Во-вторых, я как башкир лучше понимаю башкир – что им надо, как лучше это преподнести. То же самое касается татар. Поэтому здесь должно быть движение снизу. У “Яндекса” ведь уже есть переводчик с башкирского и на башкирский язык. Что им мешало сделать колонку? Теперь мы сами сделаем колонку и скажем “Яндексу”: нам твоя “Алиса” не нужна», — говорит Айгиз.


Источник фото: bashinform.ru


Разработчик уверен, что большая работа, которую он сейчас делает совершенно бесплатно, с кучкой единомышленников и небольшой армией помощников-добровольцев, не пропадет даром. В конце концов, будущее языка в немалой степени определяется тем, сможет ли он выжить в цифровую эпоху. Останется ли язык в бумажных книгах на полках библиотек и на сценах театров или перейдет в виртуальную среду и станет языком нового поколения. 

В пример Айгиз приводит нашумевший в 2022 году чат-бот ChatGPT. Многие называли эту систему революцией в развитии искусственного интеллекта. С помощью платформы за рубежом уже написана и издана художественная книга, а в России студент за сутки написал и защитил дипломный проект. Но подлинный потенциал таких разработок нам только предстоит оценить. 

«Есть информационные агентства, которые ежедневно используют ChatGPT, чтобы писать новости. Говорили, что кто-то потеряет из-за этого работу, но это не так – бот чаще используется как помощник. У меня есть знакомые, которые используют бот, чтобы писать часть кода. Ты можешь попросить его написать какую-то рутинную часть кода, которую тебе уже не интересно писать. Сейчас идет переходный период, когда ботов используют наиболее гибкие люди. Пройдет пять, может, десять лет, когда все мы придем к тому, что будем ежедневно общаться с такими машинами. Многое изменится, например, образование. Сейчас пытаются запретить использовать чат-боты для написания курсовых, дипломных. На мой взгляд, этого делать нельзя. Нельзя остановить прогресс. Нам нужно меняться, хотя это будет нелегко. Многие будут сопротивляться», — говорит Айгиз Кунафин.


Фото на анонсе: из открытых источников vk.com

Следите за самым важным и интересным в Telegram-канале