- Национальный корпус русского языка
Электронный онлайн-корпус русских текстов.
В корпус входят как письменные тексты (художественные, мемуары, публицистика, научная, религиозная литература, повседневная печатная продукция), так и записи устных текстов (публичной речи и частных бесед).
Объём основного корпуса на 7 апреля 2018 года составлял 283 млн словоупотреблений, а общий объём корпусов превышает 600 млн слов.
В настоящее время свободным и бесплатным является только поиск по корпусу.
Доступ ко всему корпусу невозможен в связи с законом об авторских правах.
Для получения доступа к 1/6 размеченной части подкорпуса
необходимо зарегистрироваться и принять лицензионное соглашение.
- Генеральный интернет-корпус русского языка.
Доступный для поиска
электронный онлайновый корпус русских текстов из сети интернет.Открыт в 2013 году.
Корпус включает в себя текстовые материалы из блогосферы, социальных сетей, с крупнейших новостных ресурсов и из литературных журналов.
Объём корпуса на лето
2016 года составляет 19,8 миллиарда словоупотреблений, из них 49
% приходится на «
Вконтакте», 40 % - на
Живой Журнал, еще по 4 % - на
Блоги Mail.ru и Новости, и 2 % - на
Журнальный зал[5].
В сегменте Новостей собраны материалы из источников:
РИА Новости,
Регнум,
Лента.ру,
Росбалт. Тексты снабжены метаразметкой (по дате создания текста, полу, месту и году рождения автора, интернет-жанру и так далее); все тексты снабжены автоматической морфологической разметкой и лемматизированы
[5].
Большую часть текстов создают записи за
2013-
2014 годы, хотя на некоторых сегментах, например, в Журнальном зале, собраны тексты, начиная с
1994 года.
В настоящее время интерфейс корпуса находится в стадии бета-тестирования, поэтому
доступ к поиску по корпусу предоставляется и является бесплатным, однако предоставляется по заявке.
P.S.
+
Художественный журнал. Современное искусство. Спорно и интересно.