May 08, 2012 11:08
А мы будем двигаться дальше. Сообщение можно представлять не только как набор символов и токенов, но и как набор атрибутированных лемм. Лемма - суть начальная форма для словоформы, её атрибуты - это изменяемые и неизменяемые грамматические категории, а также информация о семантике (смысле) леммы. К примеру, для словоформы "домом" леммой является "дом", неизменяемыми атрибутами - мужской род, 2-ое склонение, неодушевлённость, нарицательность; изменяемыми - единственное число, творительный падеж.
Фактически, словоформа (лексема) - это форма леммы при определённых значениях изменяемых атрибутов, поэтому представления текста в виде набора лексем и набора атрибутированных лемм эквивалентны.
Морфологический уровень языка не заботится о явном представлении форм лемм, для него важны лишь атрибуты и их значения. Таким образом, сообщение с точки зрения морфологического уровня представляет собой набор концептов, в котором порядок их следования уже жёстко задан, но форма их конечного выражения ещё не определена. На этом уровне мы имеем максимальную информацию о каждом слове, входящем в состав сообщения. Словарём для морфологического уровня является словарь в привычном для нас понимании: он содержит начальные формы слов, их категории и описание их смысла.
Важнейшей характеристикой для слова является его часть речи (тип). Часть речи определяет состав категорий, которыми обладает слово. Мы будем выделять следующие части речи: существительное, прилагательное, числительное, глагол, наречие, местоимение, предлог, союз, частица, междометие, причастие, деепричастие, знак и константа. Последние две части речи соответствуют аналогичным типам токенов лексического уровня языка.
Если проводить аналогию с языками программирования, то для них морфологическим представлением является последовательность пар <тип, значение> (а не <тип, лексема>), как было на предыдущем уровне. Значение - это результат вычисления лексемы заданного типа. Для лексемы "123.45" значением будет вещественное число 123,45.
ИИ