Корпус – это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всем многообразии жанров, стилей, территориальных и социальных вариантов и т. п. Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике) для научных исследований и обучения языку.
Большинство крупных языков мира уже имеет свои национальные корпуса, различающиеся по полноте и уровню научной обработки текстов. Общепризнанным образцом является, в частности, Британский национальный корпус (BNC): на него ориентированы многие другие современные корпуса.
Национальный корпус русского языка охватывает период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах – литературном, разговорном, просторечном, отчасти диалектном. В настоящее время проекты создания общедоступных корпусов тюркских языков особенно актуальны.
Тюркская корпусная лингвистика находится на начальной стадии развития, о чем свидетельствует небольшое количество по-настоящему репрезентативных корпусов текстов на тюркских языках. Первым корпусом татарского языка стал «Письменный корпус татарского языка». Он представляет современный письменный татарский язык в электронной форме, его объем в настоящее время составляет более 500 миллионов слов (>620 млн токенов), число различных словоформ – около 5 миллионов. Количество источников на момент написания этой статьи составляет 17 000 единиц.
Татарский корпус «Туган тел» тоже является лингвистическим ресурсом современного литературного татарского языка. Проект выполняется при финансовой поддержке Программы фундаментальных исследований президиума Российской академии наук. Разрабатываемый корпус адресован широкому кругу пользователей: лингвистам, специалистам в области татарского языкознания, типологам, преподавателям татарского языка, деятелям культуры, а также всем, кто изучает и интересуется татарским языком. Объем корпуса на сегодняшний день составляет более 26 миллионов словоупотреблений.
Корпус содержит тексты различных жанров (художественная литература, тексты СМИ, тексты официальных документов, учебная литература, научные публикации и др.). Каждый документ имеет метаописание (авторы, выходные данные, даты создания, жанры, части, главы и др.). Тексты, включенные в корпус, снабжены морфологической разметкой (информация о части речи и грамматических характеристиках словоформы). Морфологическая разметка выполняется автоматически с использованием модуля двухуровневого морфологического анализа татарского языка, реализованного в программном инструментарии PC-KIMMO.
Кроме этих корпусов в ИЯЛИ им. Г. Ибрагимова АН РТ разработаны еще два корпуса: «Корпус татарской художественной литературы» и «Корпус русско-татарских параллельных текстов». Объем Корпуса татарской художественной литературы на сегодня 15 млн словоупотреблений. Количество предложений: 1,8 млн. Он включает в себя прозаические и поэтические сочинения татарских авторов, тексты отдельных фольклорных жанров, а также произведения, переведенные с других языков на татарский.
Эти тексты хронологически относятся к временному диапазону от XIX века до современности. В Корпусе русско-татарских параллельных текстов размещены различные тексты, абсолютно идентичные друг другу.
Из сборника «Функционирование родных языков в современном мире: в вопросах и ответах» / авт.-сост.: Л.Р. Славина, А.Ф. Ханова