Существует ли корпус татарского языка?

«Миллиард.Татар» публикует материал о национальных корпусах мировых языков.

Корпус – это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всем многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике) для научных исследований и обучения языку.

Большинство крупных языков мира уже имеет свои национальные корпуса, различающиеся по полноте и уровню научной обработки текстов. Общепризнанным образцом является, в частности, Британский национальный корпус (BNC): на него ориентированы многие другие современные корпуса.

Национальный корпус русского языка охватывает период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах – литературном, разговорном, просторечном, отчасти диалектном. В настоящее время проекты создания общедоступных корпусов тюркских языков особенно актуальны.

Тюркская корпусная лингвистика находится на начальной стадии развития, о чем свидетельствует небольшое количество по-настоящему репрезентативных корпусов текстов на тюркских языках. Первым корпусом татарского языка стал «Письменный корпус татарского языка». Он представляет современный письменный татарский язык в электронной форме, его объем в настоящее время составляет более 500 миллионов слов (>620 млн токенов), число различных словоформ – около 5 миллионов. Количество источников на момент написания этой статьи составляет 17 000 единиц.


Источник: wikipedia.org: 


Татарский корпус «Туган тел» тоже является лингвистическим ресурсом современного литературного татарского языка. Проект выполняется при финансовой поддержке Программы фундаментальных исследований президиума Российской академии наук. Разрабатываемый корпус адресован широкому кругу пользователей: лингвистам, специалистам в области татарского языкознания, типологам, преподавателям татарского языка, деятелям культуры, а также всем, кто изучает и интересуется татарским языком. Объем корпуса на сегодняшний день составляет более 26 миллионов словоупотреблений.

Корпус содержит тексты различных жанров (художественная литература, тексты СМИ, тексты официальных документов, учебная литература, научные публикации и др.). Каждый документ имеет метаописание (авторы, выходные данные, даты создания, жанры, части, главы и др.). Тексты, включенные в корпус, снабжены морфологической разметкой (информация о части речи и грамматических характеристиках словоформы). Морфологическая разметка выполняется автоматически с использованием модуля двухуровневого морфологического анализа татарского языка, реализованного в программном инструментарии PC-KIMMO.


Фото: Рамиль Гали


Кроме этих корпусов в ИЯЛИ им. Г. Ибрагимова АН РТ разработаны еще два корпуса: «Корпус татарской художественной литературы» и «Корпус русско-татарских параллельных текстов». Объем Корпуса татарской художественной литературы на сегодня 15 млн словоупотреблений. Количество предложений: 1,8 млн. Он включает в себя прозаические и поэтические сочинения татарских авторов, тексты отдельных фольклорных жанров, а также произведения, переведенные с других языков на татарский.

Эти тексты хронологически относятся к временному диапазону от XIX века до современности. В Корпусе русско-татарских параллельных текстов размещены различные тексты, абсолютно идентичные друг другу.

Из сборника «Функционирование родных языков в современном мире: в вопросах и ответах» / авт.-сост.: Л.Р. Славина, А.Ф. Ханова

Следите за самым важным и интересным в Telegram-канале