По поводу вот этого корпуса
https://parus-proj.github.io/PaRuS/ Архив с корпусом в формате Conll после распаковки имеет размер около 130 Гб. То есть данных много. Закономерный вопрос - насколько качественны эти данные, учитывая, что ручной модерации они не подвергались в силу объема.
Я сделал небольшой лексический анализ. Искал словоформы, которые отсутствуют в лексиконе
Грамматического Словаря. Видно, что данные в какой-то степени грязные. Например, есть "существительные" (лемма + слово):
2016-й 2016-го
а да-а
августой августой
аврелие аврелий
автоконцерный автоконцерны
акий аким
андре андреу
"Прилагательные" (лемма + слово):
инфосистема инфосистемы
коврино коврино
котеночей котеночьи
мальдивый мальдив
навыкать навыкате
намерный намерен
подо поже
"Наречия":
гимпа гимпу
главное главное
говорят говорят
казнить казнено
30 су-30
33 су-33
34 су-34
35 су-35
38 ми-38
38 ил-38
39 ам-39
Есть и проблемы с токенизацией, например встречаются такие "слова":
ожидается,
нельзя…-
неукомплекто-
двух-
делать-
фильма-
разоткровенничалась,-
если,-
есть,-
говорила,-
вдруг-
если,-
кстати.-