Датасет для тренировки NP chunker'а: kelijah

kelijah

Датасет для тренировки NP chunker'а

Jan 03, 2020 09:36

В репозиторий "NLP Datasets" выложен датасет для тренировки NP чанкера.

NP chunker - это вариант shallow parser'а, извлекающего из предлождений группы существительного (noun phrases). Вот результаты разметки нескольких предложений для иллюстрации идеи:

« ⟦ Школа злословия » ⟧ учит прикусить ⟦ язык ⟧

Сохранится ли ⟦ градус дискуссии в новом сезоне ⟧ ?

⟦ Великолепная « Школа злословия » ⟧ вернулась в ⟦ эфир ⟧ после ⟦ летних каникул ⟧ в ⟦ новом формате ⟧

Потом ⟦ проект ⟧ переехал с ⟦ « Культуры » ⟧ на ⟦ НТВ ⟧

Скобочки ⟦ и ⟧ добавлены при разметке для визуальной отбивки границ смежных чанков.

Тренировочный датасет получен автоматической конвертацией tree bank'а из проекта Грамматического Словаря. Выглядит датасет примерно так:

0 Но
1 справедливый
2 судья
0 обязан
0 выслушать
1 разные
2 стороны
2 и
2 все
2 точки
2 зрения
0 .

Записи для разных предложений разделяются пустой строкой. Первое поле каждой записи содержит числовую пометку 0, 1 или 2:

0 - слово не входит в именную группу
1 - слово начинает новый NP chunk
2 - слово продолжает ранее начатый NP chunk

Таким образом, смежные чанки разделяются меткой 2.

По задумке модель NP чанкера будет использоваться в чатботе в новых диалоговых правилах как эффективный механизм извлечения информации из реплик собеседника, например:

- Что такое [NP виртуальная реальность], скажи мне.

dataset, chatbot, chunker, nlp, chunking, существительное