«Умная колонка будет мультиязычной: говоришь Һомай - отвечает по-башкирски, говоришь iВика - отвечает по-марийски»

Инициатором создания «умной колонки» на марийском языке стал лингвист и сотрудник Марийского института языка, литературы и истории Андрей Чемышев. За последние годы он провел огромную работу по созданию электронных словарей, поисковых систем, корпуса марийского языка и шрифта с национальными буквами. София Костогрызова специально для «Миллиард.Татар» пообщалась с лингвистом.  

«Я понял: мой любимый язык не сохранится в новых реалиях»


Фото: из личного архива Андрея Чемышевва


- Андрей, расскажите о себе: чем занимаетесь, чем занимаетесь, откуда такой интерес к марийскому языку?

- Раньше в силу обстоятельств мне приходилось часто менять профессию (отголоски 90-х, видите ли). В 2005 году, когда начал работать на Марий Эл Радио, впервые столкнулся с цифровым неравенством: не было шрифтов с поддержкой юникода, не было раскладок клавиатуры. Использовать марийский язык в компьютерных технологиях было проблематично. Нужны были электронные словари, системы проверки правописания… Я думал, так между делом будем делать то, чего не хватает для функционирования марийского языка в электронном информационном пространстве. 

В 2011 году, когда в Йошкар-Оле мы проводили международную конференцию «Языки меньшинств в компьютерных технологиях: опыт, задачи и перспективы», то понял: мой любимый язык не сохранится в новых реалиях, если разработкой необходимых языковых инструментариев в новом цифровом мире не заниматься постоянно, системно. Составил план, что я буду делать в ближайшие 5 лет, бросил работу и всё время начал посвящать этому новому делу. В Йошкар-Оле я тогда не нашёл понимания того, что цифровизацией языка надо заниматься профессионально и системно. 5 лет отработал в Сыктывкаре, наш бренд известен много где: FU-Lab. 

Когда мы начали собирать корпус коми языка, тут мне стало не по себе: а как же марийский? В 2016 году вернулся в Йошкар-Олу, полгода не было для меня работы, нищенствовал, но работу продолжал. Потом при Республиканском центре марийской культуры создали для меня отдел, далее — МарНИИЯЛИ им. В.М. Васильева. В этом году ещё создана Лаборатория цифровой лингвистики в МарГУ. Я всех убедил, что главное: собирать исходные данные. Исходные данные — это наше всё! Без датасетов мы не создадим ни машинные переводчики, ни многие-многие другие необходимые продукты.

«Наши языки «убивают» не школы, не государство, а телеканал «Карусель»


Фото: из личного архива Андрея Чемышевва


- Как к вам пришла идея создать «умную колонку»? Кто, кроме Вас, принимает участие в ее разработке?

- Когда я понял, что в мире новый тренд — речевые технологии, который состоит из синтеза речи и распознавания речи, решил в этом начать разбираться. Как делать синтезатор, я технически понимал. А вот как собирать исходные данные для распознавания речи? Айгиз Кунафин, программист из Уфы, сказал, что собирает исходные данные на базе краудсорсинговой платформы Common Voice. Мы тоже выбрали такой же путь. Уже третий год собираем аудиокорпус на этой платформе. Мы уже почти собрали необходимый объём, ну почти. У нас уже есть программа распознавания марийской речи: демо в телеграме @mari_asr_bot.

Насчёт умной колонки? Я не собирался это делать. Мы с Айгизом думали, что нам нужна система автоматического перевода аудио- и видеоконтента, чтобы наши детки мультики смотрели на наших родных языках: у Айгиза на башкирском, а моя Эрвина — на марийском. Они включают свои планшеты, а мультики автоматически переводятся на те языки, которые мы поставим в настройках.

Наши языки «убивают» не школы, не государство, а телеканал «Карусель». Наши дети с пелёнок смотрят этот видеоконтент, так они и вырастают людьми, не знающими свой родной язык. Обидно же! Мы уверены, что это сможем исправить, используя новые технологии: губительное воздействие таких телеканалов можем использовать во благо.

Помните шум-гам с татарской умной колонкой? Что он уже якобы создан. В итоге это оказалось «уткой», запущенной казанскими студентами в рамках своих курсовых или дипломных работ по пиару.

Но вот Айгиз взял и создал свою башкирскую умную колонку Һомай. Да, ему финансово помогал Фонд поддержки башкирского языка. И нам пришла идея использовать одно и то же железо и программное обеспечение, а колонка будет мультиязычной: говоришь Һомай — тебе отвечает по-башкирски, говоришь iВика — отвечает по-марийски.


Фото: скрин видео из открытых источников vk.com


iВика — так называется наш проект. В данный момент пишем исходные данные для синтезатора речи, то есть голоса нашей колонки. В конце декабря закончим. Если звёзды лягут как надо, в следующем году хочу, чтобы моя дочка уже разговаривала с iВикой, а не с Алисой как сейчас (ей пока 4 годика).

«Наша колонка в первую очередь будет заточена на наших деток»

- В чем суть работы «умной колонки»?

- Суть? Да тоже самое, что Алиса. Хотя, тоже самое, что Һомай. Наша колонка в первую очередь будет заточена на наших деток. Песни ставить будет спрашиваете? Тут уж нам деваться некуда. Как говорит мой друг Санюн Вадик, моркинцам всегда нужны свадьбы и праздники…

- Какие ресурсы нужны для создания колонки? Какие данные нужны?

- Данные для создания распознавания речи. Данные для создания синтезатора речи. Данные для создания качественного машинного переводчика. А всё остальное уже есть. Например, ChatGPT.

- Насколько это затратное дело?

- 10 миллионов рублей надо…

- Где предполагаете применить? Ведете ли переговоры с разработчиками Алисы или Маруси?

- Ни с кем не ведём переговоры. Я же понимаю, что это бесполезно. Зачем тратить время, которого и так не хватает.

Следите за самым важным и интересным в Telegram-канале