Только что выложил на mypanga.ru новое, хотя и весьма старое, большое произведение из "пангийской серии" -
Воспоминания Странника Неуязвимого о некоторых событиях 3647 года. Текст относится к ненаписанному еще основному пангийскому циклу ("Вихри враждебные" и далее), и является обязательным к прочтению для всех фанатов Панги. Собственно, это вообще первая публикация, из которой можно узнать, что же там на Панге происходило через 700 лет после Шеллера.
А теперь - помощь зала. В списке-панораме российской фантастики уже 135 произведений, из которых я не читал больше сотни. Поэтому у меня возникла мысль - а не классифицировать ли их как-нибудь автоматически, с помощью компьютерного анализа текстов? Первое, что я сделал - написал скрипт, измеряющий "словарное расстояние" между двумя текстами:
СР = SQRT( SUM по всем словам (Частота СЛОВА в тексте А - Частота СЛОВА в тексте Б)^2 )
Однако получившиеся результаты, например такие:
"Жук в муравейнике", "Волны гасят ветер" = 0.016827
"Обитаемый остров", "Жук в муравейнике" = 0.022802
"Обитаемый остров", "Мастер и Маргарита" = 0.023276
"Часовой Армагеддона", "Мастер и Маргарита" = 0.031258
"Обитаемый остров", "Часовой Армагеддона" = 0.032006
"Обитаемый остров", "Пограничная река" (А.Каменистый) = 0.034750
"Часовой Армагеддона", "Пограничная река" = 0.036498
"Мастер и Маргарита", "Пограничная река" = 0.038984
- хотя и лучше чем ничего (найти наиболее близкие к "ЧА" тексты я могу вычислить прямо сейчас, что и сделаю при следующей публикации "Панорамы"), но являются относительными - координата каждой книги зависит от того, относительно какой ее измерять.
Первое, что пришло мне в голову - выбрать два самых далеких друг от друга текста, и измерить для каждой книги две относительные координаты, по отношению к этим двум. А вот вторая мысль заключалась в том, чтобы попросить помощи зала. Какие еще есть идеи, как формализованно составить карту-схему фантастики?
UPD. Посчитал расстояния для 40 примерно текстов. По "осям" "Мастер и Маргарита" - "Часовой Армагеддона" выявились три "из ряда вон" выходящие книжки - БГХ, "Мозаика" Бояндина и "Объектный подход" Ароматова. Остальные кучкуются около 0.025, а эти - почти 0.05 выдают.
Двойная радость: во-первых, БГХ и впрямь нетривиальная книга (даже по сравнению с ЧА!), во-вторых, "словарное расстояние" позволяет получать неожиданные результаты. Еще немного, еще чуть-чуть - и мы увидим карту-схему!