PS: В ходе перепроверки выяснилось, что сделанный ранее вывод о проблемах синтагруса неверен. Шаблоны вида:
NP,Acc#значит#NP,Nom,Sing#
соответствуют в том числе предложениям типа:
что значит эта фраза ?
В них аккузатив для "что" определен правильно.
В ходе анализа типичной структуры предложений в инет-текстах собираю статистику такого вида:
276 как#называется#NP,Nom,Sing#?
179 NP,Acc#значит#NP,Nom,Sing#?
163 какие#есть#NP,Nom,Plur#?
141 у#NP,Gen#есть#NP,Nom,Sing#.
140 есть#NP,Nom,Sing#.
132 есть#ли#NP,Nom,Sing#?
120 есть#ли#NP,Nom,Plur#?
117 у#NP,Gen#есть#NP,Nom,Sing#?
87 существует#ли#NP,Nom,Sing#?
83 есть#NP,Nom,Plur#?
79 может#ли#NP,Nom,Sing#?
77 есть#NP,Nom,Sing#?
76 чем#NP,Nom,Sing#отличается#от#NP,Gen#?
69 NP,Dat#нравится#NP,Nom,Sing#?
68 сколько#стоит#NP,Nom,Sing#?
67 существуют#ли#NP,Nom,Plur#?
63 у#NP,Gen#есть#NP,Nom,Plur#?
55 чем#отличается#NP,Nom,Sing#от#NP,Gen#?
49 как#называются#NP,Nom,Plur#?
49 как#NP,Nom,Plur#относятся#к#NP,Dat#?
Собственно говоря, это предложения, в которых именные группы заменены слотами вида "NP,теги". Решетка разделяет токены и NP-чанки. Первый столбец - это абсолютная частота паттерна.
Можно заметить, что второй шаблон грамматически невалиден:
179 NP,Acc#значит#NP,Nom,Sing#?
Первая именная группа тут обычно бывает в номинативе, а не аккузативе: "Инфлюенца означает грипп?" etc.
Это - артефакт частеречной разметки UDPipe, обученного на датасете Синтагрус. Очевидно, в Синтагрусе мало именно таких паттернов, и это может быть плохо при анализе текстов из сервисов типа TheQuestion и т.д.