В архиве
templates.clause_with_np.100000.zip находится часть датасета, 100 тысяч самых частотных записей, с сэмплами следующего вида:
52669 есть#NP,Nom,Sing#.
25839 есть#NP,Nom,Plur#.
18371 NP,Masc,Nom,Sing#пожал#NP,Ins#.
17709 NP,Masc,Nom,Sing#покачал#NP,Ins#.
Первый столбец - частота. Всего был собран ~21 миллион предложений.
Второй столбец содержит результат shallow parsing'а, в котором именные группы заменены подстановочными масками вида NP,тэги. Задается падеж, а также число и грамматический род в случаях, когда это необходимо для правильного согласования с глаголом. Например, запись NP,Nom,Sing описывает группу существительного в именительном падеже и единственном числе. Символ '#' используется как разделитель слов и чанков.
Из недостатков этой версии датасета особо отмечу, что сюда не попали конструкции с нулевой связкой. Кроме того, в именные группы попали некоторые обстоятельства с существительными времени, продолжительности и "раз".