Небольшое исследование качества корпуса PARUS на гитхабе

Dec 08, 2019 08:41

По поводу вот этого корпуса https://parus-proj.github.io/PaRuS/

Архив с корпусом в формате Conll после распаковки имеет размер около 130 Гб. То есть данных много. Закономерный вопрос - насколько качественны эти данные, учитывая, что ручной модерации они не подвергались в силу объема.

Я сделал небольшой лексический анализ. Искал словоформы, которые отсутствуют в лексиконе Грамматического Словаря. Видно, что данные в какой-то степени грязные. Например, есть "существительные" (лемма + слово):


2016-й 2016-го
а да-а
августой августой
аврелие аврелий
автоконцерный автоконцерны
акий аким
андре андреу

"Прилагательные" (лемма + слово):

инфосистема инфосистемы
коврино коврино
котеночей котеночьи
мальдивый мальдив
навыкать навыкате
намерный намерен
подо поже

"Наречия":

гимпа гимпу
главное главное
говорят говорят
казнить казнено
30 су-30
33 су-33
34 су-34
35 су-35
38 ми-38
38 ил-38
39 ам-39
Есть и проблемы с токенизацией, например встречаются такие "слова":

­ожидается,­
нельзя…-
неукомплекто-
двух-
делать-
фильма-
разоткровенничалась,-
если,-
есть,-
говорила,-
вдруг-
если,-
кстати.-

github, корпус, лексика

Previous post Next post
Up