«Чтобы нейросети узнали про татар, надо вплести татарскую культуру в машиночитаемый мир»

Подводим итоги конкурса татарской Википедии «МинБезТатар», прошедшего при поддержке проекта «Миллиард.Татар», и обсуждаем татарскую культуру в мире нейросетей и поисковых машин вместе с Фархадом Фаткуллиным - участником движения Викимедиа из Татарстана.

«Чтобы нейросети узнали про татар, надо вплести татарскую культуру в машиночитаемый мир»

«Коллеги, вплоть до республики Саха, дали обратную связь — все читают, всем интересно»

- Фархад, как, по-вашему, прошел конкурс? 

- Конкурс прошел ожидаемо хорошо. «Башкортостан татарлары» прошел даже круче, чем ожидалось. Мне на российском и международном уровнях, в том числе башкиры, сказали, что этот проект был невероятным.  

- Почему это - круто?

- Во-первых, вы заставили меня поломать голову и сделать так, чтобы, если завтра кто-то захочет объявить конкурс «Татарстан башкортлары» или «Татарстан удмуртлары», или на любую другую тему (с любой точки планеты, на любом языке), была бы возможность это реализовать. То есть, международный консенсус появился. Можно сделать это при поддержке любого спонсора, на любом языке. Методологию продумали так, чтобы не было проблем. 

Во-вторых, волонтеры татарскую «Википедию», в первую очередь, пишут для себя. А этот марафон «Башкортостан татарлары» озвучил интересную тему и предложил призы. Повторюсь, люди пишут для себя. Тот же Амир эфенди – победитель, ему не важно, есть конкурс или нет. Он все равно будет писать. По большому счету, эта тройка лидеров – это те же самые волонтеры, которые сейчас наиболее активны. Остальные участники за ними просто тянутся. 

Плюс, вы задаете тему. «МинБезТатар» звучит красиво, современно, по-татарски. Вот почему этот конкурс хорошо «зашел». «Башкортостан татарлары», повторюсь, тоже хорошо прошел: коллеги дали обратную связь (вплоть до республики Саха), все читают и им интересно. 

- А какие были статьи в «Башкортостан татарлары»? И есть ли там статья про северо-западный диалект?  

- Да, такая статья есть. Еще я помню, там были разные личности.  

- Про северо-западный диалект, наверное, сами башкиры писали? 

- Нет конечно, я могу даже конкретного человека назвать, который написал эту статью! Это был Ильнур эфенди, который занял третье место. Мы с вами можем посмотреть вплоть до источников, откуда он это перевел. Он очень такой татаристый человек, иногда, правда, с башкирами задирается. Но я его всегда успокаиваю (смеется

- Ну, северо-западный диалект - вещь неоднозначная. 

- Как сказал один уважаемый лингвист: «В чем разница между языком и диалектом? Наличием армии и флота!» (смеется)

А статья об этом диалекте нормальная. Естественно, им всем лень было категории проставить, но я пошел на уступки, пусть и не сама категория была, а хотя бы связанная с ней. В итоге, если статья так или иначе попадала под тему «Башкортостан татарлары», я ее засчитывал. 

- Можете еще чуть подробнее рассказать о системе оценки конкурса? 

- Оценка сделана объективно, на базе статистических показателей. Внутри татарской «Википедии» собраны данные по всем 64 участникам. Сначала их было больше, но из-за дисквалификации некоторых из них, осталось 64. Пять человек мы отсеяли, потому что их вклад оказался вандальным, или каким-то неправильным. 

В специальную таблицу было внесено по месяцам, кто и сколько вносил объема в статейный материал. Если авторы преодолевали порог в 1 Кбайт в месяц, то дальше мы рассматривали их как участников. 

- А что значит «вандальный материал»? 

- В какую-нибудь статью участник добавлял что-то неподтвержденное или просто писал нехорошими словами, к примеру. В итоге эти «работы» просто откатывали, а значит в послужном списке автора становилось меньше байтов. А если показатель ниже порога – то дальше мы его просто не рассматриваем. 

«Очень напрягаются, конечно, по поводу того, что из Татарстана приезжает самая крупная делегация»


Фото: © Салават Камалетдинов / «Татар-информ»


- А с чего начиналась «Татвики»? Если не ошибаюсь, вы же — амбассадор татарской «Википедии»?  

- Пути Господни неисповедимы. Почему это все на меня свалилось, почему меня уважаемые в Татарстане личности и даже наш самый уважаемый башкир попросили сконцентрироваться на татарской «Википедии»… Наверное, они уверены, что если у меня «пойдет» это дело, то я смогу объяснить людям технологии и возможности, и для всей страны будет лучше. Поэтому я такой общественный амбассадор. Мне просто приходится этим заниматься. 

Вот, мы с вами встречались в преддверии 15 сентября. В этот день, в 2003 году был создантатароязычный раздел. 

- То есть, в этом году юбилей? 

- В этом году, в апреле у башкир было 18-летие, теперь у нас будет 20-летие. Но в вики-пространстве такого «мы» и «они» нет. В «Википедии» 300 языков и поэтому всегда найдется «Википедия» у которой юбилей в этом году. А отмечать мы его будем, видимо, в Уфе. Там будет проходить общероссийская вики-конференция.
 
- Почему Уфа? 

- Коллеги захотели провести там, плюс имеется возможность. Подали на грант главы региона, чтобы провести конференцию в Башкирии и привезти туда экспертов. 

- А какое сейчас отношение к «Википедии» — на фоне всего происходящего? 

- Из того, что я слышал от московских коллег, там переживающие готовы с водой выплеснуть ребенка. 

- Понятно, а что с проектом «Руниверсалис»?

-Я понимаю, что этот проект — просто перенос из русскоязычной «Википедии» всего, что там есть. Просто потому, что «Вики» позволяет. Более того, она хочет этого.

«Габдулла Тукай является одной из самых популярных статей на татарской «Википедии»

- А мы сможем так перенести татарскую «Википедию»? 

- Если вы договоритесь с «руниками» (участники «Руниверсалис»). И если всю инфраструктуру удастся воссоздать, то да, без проблем. 

- А что для этого нужно? 

- Первое – пространство. 

- Сервера? 

- Нет, это все просто. Скажем так, уже сегодня на примере Татарстана и на примере неких федеральных проектов, открыть Госуслуги РФ на всех языках России проблем не составляет. И я слышал, что в тестовом режиме некоторые языки мигрантов уже используются. 

Но вопрос, видимо, в другом. Технологически для руников нужно, чтобы они этого захотели. Чтобы  аудитория не только русскоязычная была, но и все языки. Чтобы они свою инфраструктуру расширили для того, чтобы можно было взять и выключить русский интерфейс. 

То есть, «Википедия» останется «Руниверсалисом», но с татароязычным интерфейсом. И человек будет попадать туда, где русского вообще нет. 


Фото на анонсе: © «Миллиард.Татар»


— Это уже сепаратизм….

— Это вы так думаете! Во «Вконтакте» же есть такая возможность. Важно, чтобы руники захотели сделать у себя такое же. 

Проект «Знания» тоже. Всяческих им успехов и попутного ветра, потому что, чем больше знаний в наших социумах, тем лучше. 

- А если не хотят руники подключать? Может ли как-то Татарстан инициировать подобный проект? 

- Пожалуйста! В чем проблема? Могут создать отдельный сайт. С «Татарикой» мешать смысла нет, она более академическая. Ее важно сохранить как памятник, как авторитетный источник. 

— Это дорогое удовольствие? 

- Для Татарстана это незначимая сумма. Технологически какой-нибудь ЦИТ развернуть можно. 

- А перенос с «Вики» на этот сайт сложно реализовать? 

- Совсем нет. Этот же вопрос представительной делегации википедистов задавали представители ЦИТ в «Саляте» в 2018 году. Это уже есть в головах людей. Если вдруг у Татарстана такое желание возникнет, то пожалуйста. Зеркал у «Википедии» много, в том числе и русскоязычной в России огромное количество. 

Вы ранее поднимали вопрос о том, будет ли доступен контент «Вики» при каких-то ограничениях со стороны России. Ответ – да, будет. Она не исчезнет, но просто очень сильно затруднится. Опыт Китая и Турции показывает это. 

- То есть, контент будет создавать очень сложно? 

- Да, активность кратно упадет. В Турции, если не ошибаюсь, около трех лет была блокада. С весны 2017 по начало 2020. На треть упала читаемость. 

- То есть, сценарии можно посмотреть на примере других стран. А что сегодня из себя представляет татарская «Вики»? Кто пользователь? Я смотрел статистику, и у одних статей на мобильной версии просмотров 0,3%, а у других 97%.


Фото: © Салават Камалетдинов / «Татар-информ»


- Мы с вами в основном потребляем контент с мобильных. Поэтому там, где мобильная доля выше, это значит, что к материалу обращаются широкие слои населения. Там, где ниже – читают те, кому нужен, например, реферат. 

Мне в свое время дочь говорила: «Пап, ты думаешь нам, молодежи, интересно «Татвики» читать? Нет, на самом деле. Мы туда обращаемся, когда нам задают подготовить презентацию или реферат. Надо же брать откуда-то информацию». В поисковик просто вбивают, копируют и готово. 

В идеале, конечно, чтобы доля посетителей с мобильных была выше. Но выше она будет только в случае существования тех статей, которые хорошо увязаны во вселенную знаний планеты. 

Поэтому мы специально выбирали критерии оценки для «Башкортостан татарлары». Они казались сложными для понимания и, возможно, немного жесткими. Поэтому критерии статейных конкурсов в татарской «Википедии» меняются в сторону, не сколько написания по-татарски, а написания так, чтобы написанное искусственный интеллект мог найти. 

Ну, и стоит понимать, что мы с вами живем в Российской Федерации, и основной язык – русский. А это значит, что всем поисковикам – Яндексу, Гуглу, Бингу — важно отдавать приоритет русскому языку. Соответственно, даже если задать вопрос по-татарски, чаще всего ответ он выдаст на русском. А татарскую статью может и не показать вовсе. 

Но в случае, если татарский контент в эту систему мировых знаний вплетен кратно лучше, чем русский или английский, то выдастся именно он.

- А как это можно сделать? 

- Габдулла Тукай является одной из самых популярных статей на татарской «Википедии». Это значит, что, когда человек делает запрос «Габдулла Тукай» или «Габдулла Тукай биографиясы» Яндекс и Гугл его отправляют преимущественно туда. Или, как минимум, поисковики дают ссылки на русскую и татарскую статьи, и пользователь выбирает то, что ему надо. 

А для того, чтобы это делать, нужно, чтобы человек не просто статью на татарском закинул к себе в Телеграмм или в ВК, или в другие социальные сети. Нужно, чтобы ИИ поисковиков планеты начали понимать, что это — про Тукая, что этот сайт и конкретный материал татароязычным людом планеты очень уважается. 

По простому это называется SEO. Но это должно быть сделано так, чтобы алгоритмы поисковиков понимали, что это писал реальный человек, и что сайт этот надежный. 

«Нейросети же обучаются. Она как человек, и память у нее такая же»

- Недавно институт семиотики выпустил татарский ChatGPT, плюс сейчас они собирают материал для «Татар Войс». 

- Очень уважаю Жаудат абыйны (Сулейманов – основатель Института прикладной семиотики – ред.). С «Салята» началось наше сотрудничество, еще в 2016 году. Он сказал, что то, что я делаю — «круто». Он, кстати, как раз и втянул нас в «Тюркленд». У нас даже секция была по тюркоязычным «Википедиям». Рината Гильмуллина тоже давно знаю, он очень крутой! Айрат Идиатуллин – с ним тоже знаком. Им желаю только успехов в их начинаниях. 

То, что Институт создает очень ценные продукты, программные комплексы – это очень хорошо. То, что стоят новые амбициозные задачи — это тоже хорошо. У меня, как у лингвиста и как у переводчика, который чуть-чуть понимает, как в этом мире юридические аспекты работают для языка, есть огромное желание, чтобы когда-нибудь их спонсоры разрешили им создавать свои продукты под свободной лицензией. 

- Они на этом зарабатывают, если правильно понимаю. 

- Если это тема зарабатывания, то мы туда, естественно, попасть не сможем. В любом случае то, что они как пионеры-первопроходцы прокладывают дорогу — очень здорово. Это значит, что следующие продукты им делать будет проще, и, может быть, они появятся под свободной лицензией. 

- Но все же, как можно научить нейросети татарскому языку? Что для этого надо?

- Меня часто называют вики-активистом. Но я таковым не являюсь. Я просто человек с определенным кругозором, который кое-что понимает, в силу профессии и опыта. Мне постоянно приходится разбираться с разными вещами, в совершенно разных областях. 

Говоря о нейросетях, совсем недавно коллега-айтишник сбросил информацию: в обучении любой продвинутой нейросети, которая в себя включает более 10 миллиардов параметров и выше, обязательно включается вики-медиа. 

- То есть, мы туда попадаем через «Татвики»? В этом ее большой плюс? 

- Да. Наличие у татарского языка своей «Вики» позволяет любую важную для татарского мира концепцию прописать в вики-данные. И хорошо прописать, без возможности ее удаления. 

- Можете немного проще объяснить концепцию? 

- Для вас важен чак-чак, к примеру. Определенный его тип. Вы создаете в «Вики» статью, что этот чак-чак есть, и что он очень вкусный — обязательно со ссылками на какой-нибудь балтасинский журнал, который брал интервью у человека, который хорошо готовит этот чак-чак. 

Статья на «Вики» появляется, она подкреплена источниками, а это значит, что феномен существует и он важен. Это основание для его появления в базе данных планеты, которые читают те самые нейросети и поисковики. В них появляется элемент про конкретный балтасинский чак-чак с подробным его описанием. 

- Получается, это как те спутники, которые запускают в космос с информацией о человечестве? Мы должны для машины описать, кто мы есть?

- Если вы хотите, чтобы кто-нибудь, интересуясь чем-то, узнавал об этом феномене, то важно, чтобы нейросети планеты понимали, что это такое. Если этот материал не будет машиночитаемым, то соответственно популяризировать нашу культуру будет ограниченное количество носителей, а люди за пределами этого информационного пузыря об этом и не узнают. 

- Это как с индексом Сводеша у лингвистов? 100 слов, благодаря которым определяют родство языков. По сути, нам нужно 100 статей о себе? Или они уже написаны?  

- Вы затронули очень интересный клубок. В Институте истории им. Марджани в ходе круглого стола, который проходил в феврале 2021 года , профессор исторических наук Мартынов, самый уважаемый русскоязычный википедист города Казани, один из наиболее уважаемых википедистов России и планеты, сказал коллегам: «Если вы хотите, чтобы татарская культура была известна за пределами татарского пузыря, начинайте как можно больше информации публиковать под свободной лицензией. А второй шаг – нужно создавать машиночитаемый контент об этих элементах». 

Для того, чтобы нейросети узнали про татар, нужно, чтобы татарская культура была вплетена в машиночитаемый мир. Феномен должен быть представлен в машиночитаемой среде, описан понятным образом. И второе, он должен быть вплетен, чтобы машина смогла найти этот феномен, чтобы он имел вес для нее.


Изображение сгенерировано нейросетью на основе текста «Миллиард.Татар»


Нейросети же обучаются. Она как человек, и память у нее такая же. Чем больше информации о чем-то она прочитала, тем лучше она ее находит. То есть, она не будет находить про татар, если она про них не читала. Либо, если у нее нет доступа к базе данных, в которых про татар хорошо написано. Может быть, она мало читала, обучаясь, но перед тем, как отвечать на ваш запрос, она поняла его, обратилась в базу данных, посмотрела ключевые факты и после этого сгенерировала вам ответ. 

- Что значит «понятным для машины языком»? 

- Усилиями вики-волонтера Вячеслава на русском языке появилась статья про недавно ушедшего, важного для «Татмедиа» и вообще для Татарстана хорошего человека (мне даже посчастливилось с ним раньше работать) Эдуарда Хайруллина. 

Статью на татарский перевел Ильнур эфенди, буквально 3 мая. То, что эта статья есть – это конечно хорошо. Но стоит обратить внимание на то, как она написана. Это касается вашего вопроса про руников. Татарский, русский или любой другой язык, это как… 

Чеки же раньше насаживали на штырь? Так вот, описано должно быть не на чеке, на татарском или русском языке, а должно быть описано в штыре. Штырь – это и есть элемент вики-данных. 

Должен быть твердый и понятный элемент. В нем должно быть, если не вообще все, то, заполнено должно быть по максимуму. Этот штырь должен сидеть, должен быть хорошо вплетен в экосистему штырей всей вселенной, всех времен и народов. 

Если вдруг мы начинаем смотреть на мир вне времени и вселенной, как «Википедия» и должна это делать, и если кто-нибудь или когда-нибудь задаст вопрос о том, из какого металла сделан этот штырь, то он рано или поздно придет к этому штырю. 

Если вдруг он задаст вопрос о насаживании на этот штырь… 


Фото: © Рамиль Гали / «Татар-информ»


 - То есть, это перекрестные ссылки? 

- Да, и также этот штырь должен быть отмечен. То, из какого материала он сделан, когда родился, женился, к каким категориям относится. 

И дай Бог, когда мы сможем перевести «Миллиард.Татар» под свободную лицензию, это будет такой штырь, и мы впишем его, благодаря чему искусственный интеллект будет знать, что в определенный исторический период, на периферии солнечной системы существовал такой проект «Миллиард.Татар». То есть, «Татвики» — это такая стартовая площадка. 

- А вот 100 статей «кто такие татары», чтобы нейросети знали и понимали, что мы есть и у нас много чего есть. Нужен ли такой проект? 

- На сегодняшний день этих штырей более 100 миллионов. Это не предел, видов того же чак-чака может быть много. В татарской «Википедии» полмиллиона статей. И сегодня есть возможность создавать еще больше! 
Количество штырей, которые доступны на татарском – больше. Под миллион штырей имеют татарскую бирку. Остальные 100 миллионов штырей можно прочитать на татарском языке. Достаточно будет выбрать татарский язык интерфейса и сразу видишь – «туган көне», «яшәү урыны» и т.д. Вселенские Госуслуги на татарском уже есть. Вопрос только в том, пользуемся мы ими или нет. Чтобы в этих Госуслугах про татар было больше статей, надо чтобы было больше вики-волонтеров, которые свое время тратят на то, чтобы эту систему учить. 

100 статей? Такой конкурс можно придумать, вы даже можете определить методом собственного интеллектуального анализа, какие 100 тем важны для татарского народа, и их пока нет в татарской «Википедии», во вселенной машиночитаемых элементов. И, соответственно, сказать, что нам нужны статьи на эти темы. 

- А возможно ли найти во всей этой огромной библиотеке «Вики» те 100 статей, которых не хватает?  

- Да, это возможно. Просто нужен человек, который захочет проделать эту работу. Для себя оценить, что важно и чего еще нет. 

Тут мы приходим к концепции культуры, к тому, что это всего лишь набор фактов и взаимосвязи между ними. И если у каждого в голове свой набор фактов и нет взаимосвязи, то общей культуры татарской у нас нет. Это значит, что каждый будет оценивать все по-разному. 

Это значит, что мы все можем собраться вместе и обсудить, что важно в появившейся групповой культуре, и чего в этой групповой культуре нет. Эта работа возможна. Чтобы не проводить эту работу, а просто организовать конкурс на татарскую тему…

- Напомните, а сколько было участников «МинБезТатар», и сколько они внесли информации? 

- Суммарно 64 участника внесли данных на 1 Кбайт за 1 конкретный месяц. Статистика говорит о том, что каждый месяц более 100 – 150 активных участников в татарской «Википедии» за последнее время. Они меняются постоянно. Эти 64 участника конкурса – это за прошедшие шесть месяцев. 


Фото на анонсе: © «Миллиард.Татар»

 

Следите за самым важным и интересным в Telegram-канале