Статистика шаблонов предложений с открытыми именными группами

Apr 08, 2020 07:44

В архиве templates.clause_with_np.100000.zip находится часть датасета, 100 тысяч самых частотных записей, с сэмплами следующего вида:
52669    есть#NP,Nom,Sing#.
25839    есть#NP,Nom,Plur#.
18371    NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709    NP,Masc,Nom,Sing#покачал#NP,Ins#.

Первый столбец - частота. Всего был собран ~21 миллион предложений.

Второй столбец содержит результат shallow parsing'а, в котором именные группы заменены подстановочными масками вида NP,тэги. Задается падеж, а также число и грамматический род в случаях, когда это необходимо для правильного согласования с глаголом. Например, запись NP,Nom,Sing описывает группу существительного в именительном падеже и единственном числе. Символ '#' используется как разделитель слов и чанков.

Из недостатков этой версии датасета особо отмечу, что сюда не попали конструкции с нулевой связкой. Кроме того, в именные группы попали некоторые обстоятельства с существительными времени, продолжительности и "раз".

dataset, морфологический разбор текста, синтаксис, существительное, глаголы, синтаксический разбор, #пожал, #покачал, #np

Previous post Next post
Up