Электронный корпус языка это

Что такое Корпус?

Корпус — это информационно-справочная система, основанная на собрании текстов на некотором языке в электронной форме. Национальный корпус представляет данный язык на определенном этапе (или этапах) его существования и во всём многообразии жанров, стилей, территориальных и социальных вариантов и т. п.

Национальный корпус создается лингвистами (специалистами по так называемой корпусной лингвистике, быстро развивающейся современной области языкознания) для научных исследований и обучения языку. Большинство крупных языков мира уже имеет свои национальные корпуса (различающиеся по полноте и уровню научной обработки текстов). Общепризнанным образцом является, в частности, Британский национальный корпус (BNC): на него ориентированы многие другие современные корпуса. Среди корпусов славянских языков выделяется Чешский национальный корпус, созданный в Карловом университете Праги.

Национальный корпус имеет две важные особенности. он характеризуется представительностью, или сбалансированным составом текстов. Это означает, что корпус содержит по возможности все типы письменных и устных текстов, представленные в данном языке (художественные разных жанров, публицистические, учебные, научные, деловые, разговорные, диалектные и т.п.), и что все эти тексты входят в корпус по возможности пропорционально их доле в языке соответствующего периода. Следует иметь в виду, что хорошая представительность достигается только при значительном объеме корпуса (десятки и сотни миллионов словоупотреблений).

корпус содержит особую дополнительную информацию о свойствах входящих в него текстов (так называемую разметку, или аннотацию). Разметка — главная характеристика корпуса; она отличает корпус от простых коллекций (или «библиотек») текстов, в изобилии представленных в современном интернете, в том числе и на русском языке (таких, как, наиболее известная «библиотека Максима Мошкова» или, например, «Русская виртуальная библиотека»). В настоящее время специалистами создана и пополняется также «Фундаментальная электронная библиотека» русской классической литературы, ориентированная на академический режим подачи текстов, максимально точное воспроизведение авторитетных печатных изданий. Однако такие библиотеки в необработанном виде для научных исследований языка пригодны очень ограниченно. Не следует забывать также, что библиотеки создаются теми, кому интересно в большей степени содержание текстов, чем их языковые качества. Для составителей Национального корпуса такие факторы, как увлекательность или полезность книги, ее высокие художественные или научные достоинства являются важными, но не первостепенными. Национальный корпус, в отличие от электронной библиотеки, — это не собрание «интересных» или «полезных» текстов; это собрание текстов, интересных или полезных для изучения языка. А такими могут оказаться и роман второстепенного писателя, и запись обычного телефонного разговора, и типовой договор аренды и т.п. — наряду, конечно, с классическими произведениями художественной литературы.

Чем богаче и разнообразнее разметка, тем выше научная и учебная ценность корпуса. В Национальном корпусе русского языка в настоящее время используется пять типов разметки: метатекстовая, морфологическая (словоизменительная), синтаксическая, акцентная и семантическая. В ближайшее время планируется внедрение словообразовательной разметки, а также упрощённой синтаксической разметки в основном корпусе (отличной от той, которая представлена в синтаксическом Глубоко аннотированном корпусе). Система разметки постоянно совершенствуется.

Зачем нужен национальный корпус?

Национальный корпус предназначен в первую очередь для обеспечения научных исследований лексики и грамматики языка, а также тонких, но непрерывных процессов языковых изменений, происходящих в языке на протяжении сравнительно небольших периодов — от одного до двух столетий. Другая задача корпуса — предоставление всевозможных справок, относящихся к указанным областям (лексика, грамматика, акцентология, история языка). Современные компьютерные технологии многократно упрощают и ускоряют процедуры лингвистической обработки больших массивов текстов. Раньше исследователь мог лишь просматривать тексты и вручную выписывать из них нужные примеры; эта предварительная (но абсолютно неизбежная) деятельность была очень трудоемкой и не позволяла обрабатывать большие массивы материала. Теперь ограничений на объем анализируемого материала и скорость поиска информации в нем по существу нет, а это означает, что в распоряжении исследователя оказываются колоссальные массивы текстов самого разного типа. Это не замедлило сказаться на развитии наших знаний о языке: возможность массовой — в том числе статистической — обработки текстов, недоступная прежде, позволила обнаружить в структуре и развитии языка такие закономерности, о существовании которых наука раньше или не подозревала, или лишь смутно догадывалась, но не могла строго обосновать. Теперь подлинно научные описания грамматического строя языков, а также авторитетные академические словари — практически все без исключений — должны составляться на основе корпусов этих языков. Учет корпусных данных оказывается крайне желательным (если не строго обязательным) и при многих других более специальных научных исследованиях.

С этой точки зрения основными потребителями национальных корпусов являются, конечно, самого разного профиля. Однако круг пользователей корпуса вовсе не ограничивается профессиональными исследователями языка. Надежные статистические данные о языке определенной эпохи или определенного автора могут интересовать литературоведов, историков и представителей многих других областей гуманитарного знания. Важное значение национальные корпуса имеют и для преподавания языка в качестве родного или иностранного; всё больше учебников и учебных программ в наше время оказываются ориентированы на корпус. Быстро и эффективно проверить с помощью корпуса особенности употребления незнакомого слова или грамматической формы у авторитетных авторов сможет и иностранец, и школьник, и учитель, и журналист, и редактор, и писатель. Таким образом, национальный корпус обращен ко всем, кто в силу профессии, по необходимости или из простой любознательности ищет ответ на вопросы об устройстве и функционировании языка, то есть фактически к большинству образованных носителей этого языка и ко всем, изучающим его в качестве иностранного.

Как развивается Национальный корпус?

Национальный корпус русского языка охватывает прежде всего период от середины XVIII до начала XXI века: этот период представляет как язык предшествующих эпох, так и современный, в разных социолингвистических вариантах &#151 литературном, разговорном, просторечном, отчасти диалектном. В корпус включаются оригинальные (непереводные) произведения художественной литературы (проза и драматургия, в дальнейшем также поэзия), имеющие культурную значимость, а также представляющие интерес с точки зрения языка. Но Национальный корпус ни в коей мере не является только корпусом языка художественной литературы. Помимо художественных текстов, в корпус в большом количестве включаются и другие образцы письменного (а для современного этапа — и устного) языка: мемуары, эссеистика, публицистика, и научная литература, публичные выступления, частная переписка, дневники, документы и т. п.

Национальный корпус русского языка в настоящее время включает следующие подкорпуса:

основной корпус, в который входят прозаические (включая драматургию) письменные тексты XVIII — начала XXI века;

синтаксический (глубоко аннотированный) корпус, в котором для каждого предложения построена полная морфологическая и синтаксическая структура (дерево зависимостей);

газетный корпус (корпус современных СМИ), в котором представлены статьи из средств массовой информации 1990-2000-х годов;

корпус диалектных текстов, включающий запись диалектной речи различных регионов России с сохранением их грамматической специфики; предусмотрен специальный поиск с учётом диалектной морфологии;

корпус поэтических текстов, в котором возможен поиск не только по лексическим и грамматическим, но и по специфическим для стиха признакам (поиск определённого сочетания в сонетах, в эпиграммах, в стихотворениях, написанных амфибрахием, с определённым типом рифмовки и т. п.);

обучающий корпус русского языка — корпус со снятой омонимией, разметка которого ориентирована на школьную программу русского языка;

корпус устной речи, включающий расшифровки магнитофонных записей публичной и частной устной речи, а также транскрипты кинофильмов;

акцентологический корпус (корпус истории русского ударения) — тексты, несущие информацию об истории русского ударения (все тексты поэтического корпуса и акцентуированные записи устной речи, в том числе кинофильмов). Эти тексты доступны для поиска по месту ударения и просодической структуре слова;

мультимедийный корпус, куда входят снабжённые видео- и аудиорядом фрагменты кинофильмов 1930—2000-х годов. Возможен поиск не только по произносимому тексту, но и по жестам (кивание головой, похлопывание по плечу и т. п.) и типу речевого действия (согласие, ирония и т. п.)

Источник

Национальный корпус русского языка

По техническим причинам 19 января года с 19:00 до 21:00 Корпус будет работать в ограниченном режиме.

Очень просим отправлять сообщения о замеченных вами сбоях в обычной работе корпуса на электронный адрес ruscorpora-bugs@yandex.ru с темой ‘Ошибка Корпуса’

В случае работы с сохранёнными в браузере ссылками или страницами на локальной машине необходимо будет зайти на главную страницу и выполнить поиск заново. Сохранённые ссылки/страницы будут работать после 21:00 19 января 2019 года.

По техническим причинам Корпус будет работать в ограниченном режиме до восстановления работоспособности основной системы.

Очень просим отправлять сообщения о замеченных вами сбоях в обычной работе корпуса на электронный адрес ruscorpora-bugs@yandex.ru с темой ‘Ошибка Корпуса’

В случае работы с сохранёнными в браузере ссылками или страницами на локальной машине необходимо будет зайти на главную страницу и выполнить поиск заново.

Внимание!

14 августа в течение дня в датацентре будут проходить регламентные работы. Поиск в старой версии будет недоступен.

Внимание! Корпус переходит на новую версию поиска!

Временно на сайте будут действовать две версии корпуса: старая и новая. В дaльнейшем Новая версия будет активно развиваться, а старая поддерживаться больше не будет. Просим вас активно пользоваться новой версией и сообщать нам о всех замеченных ошибках.

На этом сайте помещен корпус современного русского языка общим объёмом более 600 млн слов. Корпус русского языка — это информационно-справочная система, основанная на собрании русских текстов в электронной форме.

Корпус предназначен для всех, кто интересуется самыми разными вопросами, связанными с русским языком: профессиональных лингвистов, преподавателей языка, школьников и студентов, иностранцев, изучающих русский язык.

Развитие подкорпусов НКРЯ (основного, поэтического, параллельного, акцентологического, диалектного) в 2015 году осуществлялось при поддержке РГНФ, проекты № 15-04-12018 «Развитие специализированных модулей НКРЯ» и № 14-04-12012 «Корпус диалектных текстов Национального корпуса русского языка. Пополнение и разметка».

Новости проекта

2 апреля 2021 года
Газетный корпус пополнен текстами СМИ: «Газета.ру», «Коммерсант», «Лента.ру» и «Московский комсомолец» за 2019 год, РБК за 2015—2019 годы. Объём пополнения составил 27,3 млн словоупотреблений.
В состав Мультимедийного параллельного корпуса (русского МультиПарка) включены две пьесы А.П. Чехова: три постановки пьесы «Вишневый сад» и одна постановка и две экранизации пьесы «Дядя Ваня». Доступен поиск по орфоэпической и вокалической структуре слова.

2 марта 2021 года
В многоязычном параллельном корпусе появилась возможность поиска по семантическим признакам и по полю «Перевод», а также информация о переводчике в метаинформации о тексте и возможность отбора текстов по переводчику. Созданы отдельные страницы отбора подкорпуса для двуязычных и многоязычного параллельных корпусов.
В выдаче корпуса доступны таблицы частот для параллельных и исторических корпусов.
Стал доступен расширенный контекст из формата KWIC.
Восстановлены ссылки на словари из описания слова на странице выдачи результатов поиска.

29 января 2021 года
Пополнен диалектный корпус, объём которого достиг 390 тыс. словоупотреблений со снятой омонимией. Добавлены тексты из различных регионов и диалектных зон: северные говоры (Архангельская область), среднерусские (Тверская область), южнорусские (Смоленская, Тамбовская области), говоры позднего формирования (Поволжье, Урал, Сибирь). Представлены разные фольклорные и бытовые жанры и тематики. 48 из этих новых текстов сопровождаются аудиозаписями, 3 — видеозаписями (они доступны через ссылку в метапризнаках документа). Работы по пополнению корпуса выполнены при поддержке проекта РФФИ № 18-012-00557.
В поэтическом корпусе стала доступна функция поиска по точному имени автора, расширены возможности отбора подкорпуса (теперь можно выбрать больше строфических вариантов и дополнительных признаков).

26 декабря 2020 года
Обновлена общая статистика корпуса на сайте.
Восстановлен показ количества найденных примеров по ссылке «Все примеры» на странице результатов поиска.
В ряде параллельных корпусов (китайский, бурятский, армянский) стал доступен поиск по полю «Перевод».
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

2 декабря 2020 года
Мультимедийный корпус пополнен до 5,1 млн словоупотреблений. Были добавлены большие коллекции текстов устной научной речи (доклады на конференциях, учебные и популярные лекции, теле- и радиопередачи), устной политической речи (интервью, пресс-конференции, выступления на митингах, собраниях и съездах, ток-шоу на радио и ТВ и мн. др.). Исправлен ряд ошибок поиска и выдачи.
В корпусе берестяных грамот создана отдельная страница отбора подкорпуса с возможностью построить подкорпус по городу, номеру грамоты, жанру, языку, материалу (при помощи этого параметра можно выбрать две свинцовые грамоты, традиционно рассматриваемые в одном ряду с берестяными) и датировке. Поисковую выдачу можно упорядочить по дате. Метаинформация каждой включенной в корпус грамоты связана гиперссылкой с соответствующей записью обновленной в 2018 г. базы данных gramoty.ru, что позволяет перейти от поисковой выдачи к изображению грамот и исследовательской литературе. Исправлен ряд ошибок поиска и выдачи в корпусе. Работа над корпусом берестяных грамот поддерживается проектом РНФ № 19–18–00352.
Улучшена выдача в Excel для всех корпусов.

1 ноября 2020 года
В составе старорусского корпуса стали доступны для поиска восточнославянские деловые тексты XIII—начала XVI вв. объёмом около 90 тыс. словоупотреблений из издания «Полоцкие грамоты» (2015) под редакцией А. Л. Хорошкевич. Работы выполнены по гранту РФФИ 18-512-18003. Тексты не снабжены грамматической разметкой. Планируется дальнейшее их включение в древнерусский корпус (тексты до 1400 г.) и в новый корпус «простой мовы» (тексты XV—начала XVI вв.).
В старорусском корпусе усовершенствован показ шрифтовых выделений в тексте.
В церковнославянском и старорусском корпусах поиск по трем видам орфографии теперь работает на всём массиве текстов.
Восстановлен показ расширенного контекста в параллельном корпусе.
Восстановлено сглаживание в графиках. Точки на графике со сглаживанием отражают точное значение в этот год.

1 октября 2020 года
Исправлен ряд ошибок, связанных с отбором и сбросом подкорпуса в диалектном, церковнославянском и параллельном корпусах.
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

2 сентября 2020 года
Пополнен параллельный корпус. Совокупный объём двуязычных пар вырос на четверть и достиг цифры 134 миллиона словоупотреблений.
Англо-русская языковая пара (здесь и далее – в обоих направлениях перевода) достигла 34 млн словоупотреблений; в корпус включена коллекция научно-популярных и публицистических текстов, а также переводы русской художественной литературы на английский. Немецко-русский корпус вырос втрое и составляет 29 млн словоупотреблений: сюда входит немецкая проза XIX-XX веков, причем многие произведения представлены в нескольких русских переводах; добавлены также новости немецких СМИ и русская художественная проза разных периодов. Шведско-русский корпус составляет 12.2 млн слов и пополнен современными художественными и публицистическими текстами. Объём французско-русского корпуса – 5,6 млн слов. Пополнены также параллельные корпуса балтийских языков – латышского до 3,4 млн слов, литовского до 0,7 млн. Появились ранее не представленные в корпусе тексты, переведенные с болгарского на русский – 1,6 млн словоупотреблений (классика и проза XX в.).
Команда НКРЯ благодарит за предоставленные выровненные тексты М. А. Куниловскую (англо-русская языковая пара) и Д. Н. Шаповаленко (немецко-русская).
Китайско-русский параллельный корпус сделан доступным для поиска, а также значительно расширен – примерно до 2,4 миллионов словоформ.
Пополнен древнерусский корпус. В него теперь входит 27 текстов объёмом 570 тыс. словоупотреблений. Добавлены памятники XI-XIII веков – жития, хожения, поучения, законодательный свод «Русская Правда» и другие тексты. В разметку ряда текстов внесены исправления.

31 июля 2020 года
Восстановлена работа графиков на всём временном диапазоне в основном, газетном и поэтическом корпусах.
Поэтический корпус пополнен до 12,4 млн словоупотреблений. В него включены стихотворения поэтов XX – начала XXI в. (Юрий Домбровский, Ян Сатуновский, Олег Охапкин, Сергей Стратановский, Елена Шварц, Алексей Цветков, Григорий Дашевский).
Русская классика в немецких переводах объединена с немецким корпусом в составе параллельного корпуса.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

2 июля 2020 года
Газетный корпус пополнен до 305 млн словоупотреблений. Расширен список изданий: добавлены тексты СМИ за 2014-2018 гг. («Газета.ру», «Коммерсант», «Лента.ру», «Московский комсомолец», «Новая газета»). В корпус региональной и зарубежной прессы включены 10 новых газет, как региональных, так и районных.
Основной корпус пополнен до 322 млн словоупотреблений. Среди новых поступлений — периодика XVIII—XXI веков, в том числе периодические издания русской эмиграции, современные литературные журналы, большая коллекция дневников и мемуаров, художественные, публицистические и научные книги разных периодов, современные тексты электронной коммуникации и электронных СМИ. Благодарим Центр изучения эго-документов «Прожито» за предоставленные материалы.
В основном и газетном корпусах теперь корректно показывается расширенный и нерасширенный контекст.
В старорусском корпусе добавлена возможность поиска по грамматическим признакам.
Появилась возможность скачивания результатов поиска в формате CSV.
Исправлен ряд ошибок, связанных с неправильным отбором подкорпуса. Работа с этим типом ошибок будет продолжаться.
Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

1 июня 2020 года
Акцентологический корпус пополнен до 132 млн словоупотреблений.
В акцентологическом корпусе теперь корректно показывается расширенный и нерасширенный контекст.
Исправлен ряд ошибок, возникающих при точном поиске: сложные запросы с использованием операторов “*”, “-”, а также запросы с кавычками, пробелами, запятыми и другими знаками препинания обрабатываются корректно.
Изменен формат показа запроса в верхней части страницы выдачи: теперь запрос показывается в том виде, как его интерпретирует поиск. Операторы выделены цветом.
В биграммах некоторое время назад стал доступен точный поиск без учета морфологии и пунктуации. Из результатов поиска теперь можно посмотреть примеры употребления биграммов по ссылке «Примеры».
Также исправлен ряд небольших технических погрешностей во всех корпусах – такая работа ведется в постоянном режиме, мы благодарны любым сообщениям об ошибках. Об обнаруженных ошибках сообщайте, пожалуйста, на адрес info@ruscorpora.ru или нажав на кнопку «Сообщить об ошибке», мы обязательно постараемся их исправить.

30 апреля 2020 года
В апреле в новой версии Корпуса произошли следующие изменения:
Исправлен ряд ошибок, возникающих при лексико-грамматическом поиске:
— сложные запросы с использованием операторов “*”, “|”, “-” теперь обрабатываются корректно
— запросы с кавычками, пробелами и операторами обрабатываются корректно
— запросы одновременно с грамматическими и семантическими признаками обрабатываются корректно
— поиск слов с е/ё производится корректно независимо от написания слова
В лексико-грамматическом поиске реализован поиск по нескольким последовательным словам с расстоянием между ними для случаев, когда одно из окон запроса пустое. Такие запросы теперь обрабатываются как словосочетания с любым словом на месте, соответствующем пустому окну.
В церковнославянском корпусе восстановлен поиск по сложным запросам в лексико-грамматическом поиске.
Обновлены данные об объёме параллельных корпусов.
Стало возможным копировать информацию из всплывающих окон с данными о слове или тексте.
Если вы заметите ошибки в лексико-грамматическом поиске – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке», это поможет нам наладить работу соответствующей функции.

3 апреля 2020 года
В марте в новой версии Корпуса были исправлены следующие ошибки:
В ряде параллельных корпусов восстановлен инфинитив в таблице грамматических признаков.
В поэтическом корпусе на странице выбора подкорпуса «сонет» убран из списка параметров «Жанр текста» и оставлен в списке параметров «Строфика».
При сбрасывании подкорпуса на одной из открытых станиц сайта поиск теперь производится по всему объёму корпуса на всех открытых страницах.
Ведутся работы по улучшению отображения нерасширенного и расширенного контекстов выдачи:
В устном корпусе сокращен размер нерасширенного контекста, по ссылке из выдачи открывается расширенный контекст.
В поэтическом корпусе по ссылке из выдачи открывается расширенный контекст (до 100 строк). В расширенном контексте подсвечиваются вхождения найденного. Исправлен формат выдачи метаданных. По ссылке из списка отобранных текстов на странице выбора подкорпуса открывается весь текст стихотворения (до 1000 строк).
Если вы заметите ошибки в формате выдачи расширенного и нерасширенного контекстов в устном и поэтическом корпусах – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке», это поможет нам наладить работу этих функций.

25 февраля 2020 года
В феврале в новой версии Корпуса были пополнены несколько корпусов:
Региональный корпус пополнен до 17 млн словоупотреблений.
Устный корпус пополнен до 13 млн словоупотреблений.
Синтаксический корпус пополнен до 1,1 млн словоупотреблений.
Восстановлены таблицы постраничных частот.
В устном корпусе восстановлен поиск искаженных форм.

27 января 2020 года
За декабрь-январь в новой версии Корпуса налажены следующие функции:
Восстановлена возможность поиска слов в зоне рифмовки в поэтическом корпусе.
Стал доступен экспорт результатов поиска в таблицу Excel в объёме 500 записей. Если вы заметите ошибки в таблице с результатами, сообщите, пожалуйста, о них при помощи кнопки «Сообщить об ошибке».
На главной странице сайта появилась ссылка на инструкцию по составлению сообщения об ошибке.

6 декабря 2019 года
Дорогие коллеги,
Начинаем вести регулярное (примерно раз в месяц) оповещение пользователей о том, что было исправлено в новой версии Корпуса за истекший период.
С момента временного отключения старой версии в сентябре в новой версии Корпуса налажены следующие функции:
Сортировка результатов выдачи:
Сортировка по дате – восстановлен прямой и обратный хронологический порядок сортировки выдачи (упорядочивание выдачи в настройках).
Исправлена еще одна ошибка в настройках сортировки выдачи – результат выдачи больше не пропадает при сортировке по дате и по другим признакам.
Восстановлена возможность отбора подкорпуса по дате создания и дате публикации.
Исправлены ошибки, которые возникали при вводе запроса в окно поиска:
Знаки препинания в запросе в окне точного поиска теперь не влияют на результат поиска.
Лишний пробел в начале или в конце запроса в окне точного и лексико-грамматического поиска теперь не влияет на результат поиска.
Стало возможным просматривать до 500 страниц выдачи.
Восстановлена возможность одновременного доступа к корпусу с многих компьютеров (актуальная, например, при работе группы студентов или школьников).
Расстояние между лексемами:
Восстановлена возможность задавать сложный поиск из нескольких лексем с расстоянием между лексемами в окне лексико-грамматического поиска.
Исправлен некорректный показ условий поиска в начале выдачи лексико-грамматического поиска с расстоянием между лексемами и в начале выдачи точного поиска при поиске словосочетания.
Если вы заметите, что что-то из перечисленного не работает или восстановлено не полностью – напишите, пожалуйста, об этом на адрес info@ruscorpora.ru или сообщите о проблеме нажав на кнопку «Сообщить об ошибке» на странице с неправильными результатами, мы обязательно постараемся это исправить.

3 апреля 2018 года
Объём латышско-русского и русско-латышского параллельного корпуса вырос более чем втрое и достиг 2,5 млн словоупотреблений. Объём бурятско-русско и русско-бурятского параллельного корпуса вырос более чем вдвое и достиг 270 тыс. словоупотреблений.

12 мая 2017 года
Пополнение параллельных корпусов, совокупный объём которых достиг 76,8 млн словоупотреблений.
Открыт новый параллельный шведско-русский корпус объёмом 400 тысяч словоупотреблений с морфологической разметкой.
Испанско-русский корпус преодолел пилотную стадию, вырос более чем вчетверо и насчитывает 1,3 млн словоупотреблений. В него включены тексты современных испаноязычных СМИ в русском переводе, а также художественная литература XIX—XX веков.
Существенно вырос объём и китайско-русского параллельного корпуса, насчитывающего теперь 180 тысяч слов.
Пополнились также французский (до 3,9 млн), белорусский (до 9,4 млн), бурятский (до 120 тысяч) и другие параллельные корпуса.

21 марта 2017 года
Появилась возможность задать в поэтическом корпусе подкорпус по месту написания стихотворения, указанному в авторской помете, с помощью интерактивной карты.

25 февраля 2017 года
Школа лингвистики НИУ ВШЭ и образовательный сайт «Верные слова» организуют онлайн-олимпиаду «Что может корпус». Олимпиада проходит с 20 марта по 20 апреля в трёх возрастных группах: дети 7—10 лет, 10—13 лет и 13—16 лет. Цель олимпиады — показать детям, родителям и учителям, какие сведения о языке и культуре они могут получить в Национальном корпусе русского языка и как эффективно работать с этим ресурсом дома и на уроках.

14 февраля 2017 года
Пополнены акцентологический корпус (до 31,7 млн словоупотреблений) и устный корпус (до 12 млн).
Пополнение в составе мультимедийного корпуса (более 4,6 млн словоупотреблений) и Мультимедийного параллельного корпуса, который теперь включает в себя 6 постановок и 3 экранизации пьесы Н. В. Гоголя «Ревизор».

13 февраля 2017 года
Пополнение основного корпуса. Объём корпуса вырос на 18 млн словоупотреблений и достиг 283 млн. Объём текстов в старой орфографии вырос вдвое (до 3,7 млн слов). В корпус вошли документы XVIII века, тексты первого русского научного журнала «Ежемесячные сочинения», мемуары XIX — XX в., дневники начала XX в., художественная литература разных периодов, современная детская, детективная, научная, философская проза и многие другие тексты. Впервые за долгое время пополнен корпус со снятой омонимией; в него включено 24 текста электронной коммуникации. Исправлена и унифицирована разметка корпуса на разных уровнях.

1 февраля 2017 года
Вышел первый сборник материалов к «Корпусной грамматике русского языка» — синхронного описания русской грамматики, опирающегося на данные Корпуса (проект rusgram.ru). Материалы к корпусной грамматике русского языка. Глагол. Часть 1. СПб.: Нестор-История, 2016.
Авторы: Н. Р. Добрушина, А. Б. Летучий, Е. В. Падучева, С. С. Сай.
Ответственный редактор: В. А. Плунгян.
Научные редакторы: Е. В. Рахилина, Е. Р. Добрушина, Н. М. Стойнова.

30 сентября 2016 года
В составе параллельного латышско-русского корпуса доступна латышская морфологическая разметка (с элементами семантики) и поиск по ней. Объём корпуса достиг 727 тыс. словоупотреблений.

15 августа 2016 года
Пополнение параллельных корпусов: их совокупный объём составляет 72,2 млн слов. Среди пополненных параллельных корпусов: английский (текущий объём 24,6 млн), немецкий (9,1 млн), белорусский (8,1 млн), французский (2,8 млн), латышский (730 тыс.), испанский (320 тыс.), бурятский (75 тыс.)

13 августа 2016 года
Открыт для доступа пилотный параллельный русско-китайский и китайско-русский корпус объёмом 55 тысяч словоупотреблений, включающий 5 текстов. Китайские тексты снабжены семантической разметкой (по китайско-английскому словарю), разметкой грамматических показателей и фонетической транскрипцией иероглифов. Фонетическая и семантическая неоднозначность не снята.

21 июля 2016 года
Значительно обновлен раздел «Другие корпуса»: появились разделы со ссылками на веб-корпуса русского языка, синтаксические и диалектные корпусные ресурсы.

13 мая 2016 года
В поэтическом корпусе добавлена возможность выбирать подкорпус по обозначенному автором месту написания стихотворения. Кроме того, можно формировать подкорпус по унифицированным современным названиям географических пунктов (ряд пунктов обозначается в текстах несколькими способами — СПб., Петроград, Ленинград и др.).

15 апреля 2016 года
Выложена новая версия глубоко аннотированного корпуса русских текстов СинТагРус объёмом более 1 млн словоупотреблений. Добавлена возможность поиска лексических функций.

23 марта 2016 года
Не стало Елены Александровны Гришиной – главной вдохновительницы и создательницы мультимедийных и устных корпусов в составе Национального корпуса русского языка, замечательной исследовательницы русской устной речи и жестикуляции. Светлая ей память.

15 января 2016 года
В параллельный корпус добавлен пилотный параллельный бурятско-русский текст — роман «Путь праведный» Б. Санжина и Б. Дандарона объёмом 40 тыс. словоупотреблений. Текст снабжён морфологической разметкой (аналогичной принятой в бурятском корпусе) и формой грамматического поиска.

30 декабря 2015 года
Пополнение поэтического корпуса. Добавлены тексты поэтов второй половины XX в.: Сергея Петрова, Виктора Кривулина, Михаила Айзенберга, Ивана Жданова, Александра Еременко, Сергея Гандлевского. Общий объём корпуса — 11 млн слов.

24 декабря 2015 года
Масштабное пополнение основного корпуса — его объём вырос на 36 млн словоупотреблений и превысил 265 млн. Добавлено 25 тысяч новых текстов с неснятой омонимией. Среди новых поступлений — периодика XVIII—XXI веков, художественные, мемуарные, публицистические и научные книги разных периодов, современные тексты электронной коммуникации и электронных СМИ. Доступен для поиска подкорпус текстов в дореформенной орфографии (XVIII—середина XX в.) объёмом 1.9 млн словоупотреблений (сюда входят, в частности, журналы XVIII века, письма Пушкина, романы Набокова). Уточнены метаразметка и текст ранее добавленных документов, исправлено несколько тысяч ошибок и опечаток разного рода.

24 декабря 2015 года
Пополнен газетный корпус (корпус СМИ XXI века). Объём корпуса вырос почти на треть и составляет 228 млн словоупотреблений. В его составе теперь доступны для поиска тексты СМИ 2011—2014 годов, в том числе материалы региональных выпусков центральных газет.

23 декабря 2015 года
Пополнение параллельного корпуса. Размер английского корпуса вырос с 20,2 до 24,6 млн словоупотреблений; он пополнен переводами русской классики и представительным собранием сочинений В. В. Набокова как русского, так и американского периода, в том числе в авторских переводах. Объём белорусского корпуса увеличился вдвое — с 3.4 до 6.8 млн словоупотреблений. Включены переводы русской и белорусской классики и приключенческой литературы.
Итальянский корпус преодолел пилотную стадию (0,7 млн) и насчитывает 4 млн словоупотреблений. Он включает художественные, философские и публицистические тексты разных периодов.
Открыт новый эстонский корпус объёмом 400 тыс. словоупотреблений (художественные тексты). Тексты снабжены морфологической разметкой. Пополнен также ряд других параллельных корпусов.
Для каждого двуязычного подкорпуса теперь доступна форма грамматического запроса, учитывающая специфику грамматических помет для соответствующего языка.

22 декабря 2015 года
Пополнен старорусский корпус. Его объём вырос более чем вдвое — до 7 млн словоупотреблений. Добавлены новые тексты XIV–XVII веков: летописи, повести, деловые документы. Тексты доступны без морфологической разметки, при поиске слов и словосочетаний можно использовать символ *.

11 ноября 2015 года
Пополнен древнерусский корпус. Для поиска доступно ещё три памятника: «Житие Андрея Юродивого», «Повесть об Акире Премудром» и «Вопрошание Кириково». Всего в корпусе теперь более полумиллиона слов. В древнерусском корпусе доступен поиск по семантической разметке многозначных слов и омонимов (возможно отдельно искать, например, миръ «вселенная» и миръ «покой»).

25 сентября 2015 года
Открыт подкорпус «Русская классика в немецких переводах», составленный при помощи Фонда поддержки Интернет. Объём подкорпуса 5 млн словоупотреблений, хронологический охват оригинальных текстов — от Пушкина до Горького, немецких переводов — от 1860-х до 1980-х годов.

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *