В
репозиторий "NLP Datasets" выложен
датасет для тренировки NP чанкера.
NP chunker - это вариант
shallow parser'а, извлекающего из предлождений группы существительного (noun phrases). Вот результаты разметки нескольких предложений для иллюстрации идеи:
« ⟦ Школа злословия » ⟧ учит прикусить ⟦ язык ⟧
Сохранится ли ⟦ градус дискуссии в новом сезоне ⟧ ?
⟦ Великолепная « Школа злословия » ⟧ вернулась в ⟦ эфир ⟧ после ⟦ летних каникул ⟧ в ⟦ новом формате ⟧
Потом ⟦ проект ⟧ переехал с ⟦ « Культуры » ⟧ на ⟦ НТВ ⟧
Скобочки ⟦ и ⟧ добавлены при разметке для визуальной отбивки границ смежных чанков.
Тренировочный датасет получен автоматической конвертацией tree bank'а из
проекта Грамматического Словаря. Выглядит датасет примерно так:
0 Но
1 справедливый
2 судья
0 обязан
0 выслушать
1 разные
2 стороны
2 и
2 все
2 точки
2 зрения
0 .
Записи для разных предложений разделяются пустой строкой. Первое поле каждой записи содержит числовую пометку 0, 1 или 2:
0 - слово не входит в именную группу
1 - слово начинает новый NP chunk
2 - слово продолжает ранее начатый NP chunk
Таким образом, смежные чанки разделяются меткой 2.
По задумке модель NP чанкера будет использоваться в
чатботе в новых диалоговых правилах как эффективный механизм извлечения информации из реплик собеседника, например:
- Что такое [NP виртуальная реальность], скажи мне.