К вопросу о точности UDPipe, обученном на датасете Синтагрус

Mar 18, 2020 10:58


PS: В ходе перепроверки выяснилось, что сделанный ранее вывод о проблемах синтагруса неверен. Шаблоны вида:

NP,Acc#значит#NP,Nom,Sing#

соответствуют в том числе предложениям типа:

что значит эта фраза ?

В них аккузатив для "что" определен правильно.


В ходе анализа типичной структуры предложений в инет-текстах собираю статистику такого вида:

276 как#называется#NP,Nom,Sing#?
179 NP,Acc#значит#NP,Nom,Sing#?
163 какие#есть#NP,Nom,Plur#?
141 у#NP,Gen#есть#NP,Nom,Sing#.
140 есть#NP,Nom,Sing#.
132 есть#ли#NP,Nom,Sing#?
120 есть#ли#NP,Nom,Plur#?
117 у#NP,Gen#есть#NP,Nom,Sing#?
87 существует#ли#NP,Nom,Sing#?
83 есть#NP,Nom,Plur#?
79 может#ли#NP,Nom,Sing#?
77 есть#NP,Nom,Sing#?
76 чем#NP,Nom,Sing#отличается#от#NP,Gen#?
69 NP,Dat#нравится#NP,Nom,Sing#?
68 сколько#стоит#NP,Nom,Sing#?
67 существуют#ли#NP,Nom,Plur#?
63 у#NP,Gen#есть#NP,Nom,Plur#?
55 чем#отличается#NP,Nom,Sing#от#NP,Gen#?
49 как#называются#NP,Nom,Plur#?
49 как#NP,Nom,Plur#относятся#к#NP,Dat#?

Собственно говоря, это предложения, в которых именные группы заменены слотами вида "NP,теги". Решетка разделяет токены и NP-чанки. Первый столбец - это абсолютная частота паттерна.

Можно заметить, что второй шаблон грамматически невалиден:

179 NP,Acc#значит#NP,Nom,Sing#?

Первая именная группа тут обычно бывает в номинативе, а не аккузативе: "Инфлюенца означает грипп?" etc.

Это - артефакт частеречной разметки UDPipe, обученного на датасете Синтагрус. Очевидно, в Синтагрусе мало именно таких паттернов, и это может быть плохо при анализе текстов из сервисов типа TheQuestion и т.д.

#нравится, #относятся, #стоит, синтаксический разбор, #значит, udpipe, #np, #отличается, синтаксис, , Синтагрус, #ли, #от, #называется, part-of-speech tagging, #называются, #есть, синтаксический анализатор

Previous post Next post
Up