Токипона и семантический поиск

Oct 07, 2009 19:24

С некоторой натяжкой этап семантического анализа в "семантических" поисковых машинах можно сравнить с процессом перевода. Поисковик как бы переводит текст "для себя", в свой внутренний язык.
В Exactus, например, этим внутренним "языком" является последовательность выделенных из текста синтаксем, для которых определено значение (семантический падеж). В системе SEUS "переведенный" текст должен представлять собой последовательность RDF-триплетов.
Теоретически, такой "перевод" документов и запросов может улучшить качество поиска (за счет снятия полисемии и прочих полезных эффектов).
Интересный вопрос, который может здесь возникнуть - а почему-бы в качестве "внутреннего языка" не попробовать использовать какой-либо из искусственных языков? Существуют искусственные языки, отличающиеся особой точностью и логичностью - например, ифкуиль. Что будет, если переводить текст документов и запросов на этот язык?
На самом деле, этот вопрос достаточно праздный, поскольку такой перевод ничуть не легче реализовать, чем адекватный перевод на другой естественный язык. Впрочем, было бы очень интересно сравнить качество поиска по англоязычной коллекции с качеством поиска по коллекции на ифкуиле.
Однако, существует искусственный язык, перевод на который естественного языка представляется мне вполне решаемой задачей, сравнимой по сложности с переводом на "внутренний язык". В токипоне всего лишь 120 корней. Большинство объектов и понятий в языке передаются описательно. Например: алкоголь = telo nasa ("жидкость безумная"); кровь = telo loje ("жидкость красная"). Очевидно, такая описательная структура языка позволяет объединить в один "концепт" все слова-синонимы, а также явным образом указывает на связь между гипонимами и гиперонимами.
Что будет, если в ранжирующий алгоритм добавить фактор токипона-релевантности?

поиск, идеи, искусственные языки

Previous post Next post
Up