Лингвистический преобразователь. Самодостаточные и индексированные последовательности: ur

ur_quan1986

Лингвистический преобразователь. Самодостаточные и индексированные последовательности

May 30, 2012 20:57

В примерах с потоками токенов и лемм уже можно выявить кое-что интересное. Последовательности языковых единиц содержат повторяющуюся информацию. В частности, если взять морфологическое представление "Войны и мира", то там огромное число раз будет встречаться лемма "Наташа" в различных формах и будет указано, что она женского рода и первого склонения. Эта информация важна для корректного словоизменения, но она избыточна, так как одинакова для каждого экземпляра слова. Если взять лексическое представление текста, то в нём тоже будет содержаться значительное число повторяющихся лексем.

Логично было бы использовать альтернативное представление ПСД: все уникальные значения хранить в словаре, а в самом сообщении ссылаться на словарные записи. Скажем, последоватетльность лексем в тексте "Ура! Ура! Ура!" можно представить в виде совокупности словаря {0: Ура, 1: !} и закодированной последовательности "0;1;0;1;0;1". Это позволило бы значительно сократить объём передаваемых сообщений и исключить повторную обработку одних и тех же данных. В случае морфологии мы можем хранить начальные формы слов и неизменяемые категории в словаре, а непосредственно в сообщении указывать лишь формы слов (форм, кстати, на самом деле очень мало, и их тоже логично кодировать).

Но при таком подходе теряется самостоятельность сообщения: для его обработки отправитель и получатель должны разделять общий словарь. Вообще, ничего страшного в этом нет, но иногда это критично. Поэтому мы будем использовать и первый, самодостаточный вариант компоновки сообщений.

ИИ