О цитатном ранжировании и искусственном интеллекте.: jescid

jescid

О цитатном ранжировании и искусственном интеллекте.

Nov 14, 2006 16:35

Интернет - это большая сложная транспортно-информационная система из грибовидных (дипольных) структур, шляпка каждой из которых (собственно диполи) представляет собой мозг человека, сидящего за компьютером, в совокупности с самим компьютером, который как бы является искусственным продолжением мозга, а ножки - например, телефонная сеть, соединяющая компьютеры, или эфир, через который передаются радиоволны.
В отличие от многих других объектов природы Internet является уникальным объектом, что создает дополнительные сложности в его исследовании.
Михаил Басин, Ипполит Шилович. Синергетика и Internet. - С.-Пб.: Наука, 1999, с. 29.
Об индексе цитирования и ссылочном ранжировании в контексте поисковиков и научных статей мной уже писалось с полгода назад (см. ещё тут - подробно и интересно о ранжировании результатов поиска, кое запатентовано Гуглом). Недавно в беседе с sushilshik обсуждали принципы построения продуктивных дискуссий в научном мире и варианты обработки и представления большого количества информации. Часть осмысленных идей нужно бы изложить для будущего счастия и прогресса человечества :)

Практика показывает, что для обсуждения, имеющего целью прийти к новому результату, наиболее продуктивно общение на основе чего-то реального (наблюдаемого события/данных эксперимента) или уже накопленных достижений (так же на основе событий/экспериментов), а именно по цепочке: предпосылка (наблюдение/опыт/цитата) → вывод .

Если же продуктивное обсуждение оформлять в текст, то будет такая прошивка:

цитата/эксперимент/наблюдение
-
автор/источник текста (статья автора, описывающего опыт/эксперимент, излагающего свои мысли)
→
контекст/время цитаты (например, при каких обстоятельствах и когда Ленин написал "Как нам реорганизовать рабкрин", когда Пушкин сочинил "Евгения Онегина", когда Врангель издал свои мемуары и т.п.)
→
кто, где и в каком контексте ссылается на источник (+ кто, где и в каком контексте цитирует источник не ссылаясь)

+ интересно отслеживать искажения источника - кто, где, контекст.

Т.о., ссылочное ранжирование заменяется цитатным - т.е., помимо ссылки на источник и его контекст (параметры источника), сам источник тагетируется по отрывкам, а также графом ссылок на него с контекстом упоминания.
И, т.о., всевозможные отрывки всевозможных источников (с их содержанием и параметрами) - что/кто именно, откуда, кем, в связи с чем цитируется/излагается в данном тексте - формирует некую ассоциативно-тематическую прошивку базы знаний. Частотная характеристика (сколько раз, насколько полно и в каком контексте процитирован данный источник) такой прошивки для данного её узла и будет являться цитатным контекстным ранжированием (CCR - citation context rank). Ясно, что CR не идентичен обычному ссылочному ранжированию, потому что последнее может учитывать лишь отдельные слова в цитате, но никак не смысловые шинглы (целые отрывки, их контекст и пр. параметры).

В реальном мире, где на события наложена определённая нормировка по времени и причинно-следственные связи, если они зависимы (событие k не может произойти раньше события n, причём ещё часто k не может произойти раньше, чем закончится событие n) - в таком мире у людей (узелков связных графов всего социума) физически часто нет времени читать всю статью про какое-то историческое событие/физическое явление/вообще любую (энциклопедическую) статью/книгу (на той же wiki - где часто всё основательно), не говоря уж о возможностях всё лично и самостоятельно испытать на собственном опыте - и природа наградила человека ассоциативным мышлением, освобождающим нас от необходимости помнить абсолютно всё, но учитывать, осмысливать и брать за основу опыт/наблюдения других.
С другой стороны, подобная ассоциативность мышления характерна и для искусственного интеллекта (и вообще интеллекта) - в т.ч. как один из его признаков.
То соображение, что для эффективного процесса развития человеческой мысли и деятельности принципиально то, в связи с чем именно приводится (приходит на ум и используется как предпосылка) цитата высказывания/события/наблюдения - может быть важно и для построение систем искусственного интеллекта.
С вычислительной точки зрения это непросто, но вполне осуществимо. Не сейчас, так в ближайшем будущем.

UPD: т.к. к моему журналу последнее время липнут тролли, то комментарии с попытками засирать мои посты и/или оные с требованиями внимания от меня к незаурядному уму и личным проблемам их автора (поговорить не с кем) я буду просто убивать, а излишне ретивых и навязчивых - банить.

ai, it