В который раз я с удивлением переоткрываю, что для спокойствия души и вообще sanity мне жизненно необходимо хотя бы несколько дней в год сидеть ночью в ПУСТОЙ квартире. В тишине.
А потом снова забываю. Ну блииииин.
Совсем unrelated: а есть какие-нибудь очень-compressed lossy inverted index'ы для приблизительного полнотекстового поиска? ну типа чтобы занимали не 2х и не 8х от оригинального текста, а, например, 0.1х. А лучше 0.01х.
Можно чтоб давали false positives, хуже если false negatives, позиции в тексте не нужны, TF-IDF можно выбросить, но с ним лучше.
Хорошо, если их можно динамически апдейтить (добавлять и удалять документы). Если нельзя - нууу, будем делить документы в бины, отделять hot от cold, то-се.
Совсем хорошо, если можно части индекса отдельно строить и мержить.
Важно, чтобы RAM мало требовалось на построение и поиск (условно, датасет весит 1 гб, документы 1 кб..5 мб логнормально распределены, есть 50-200 мб диска, 20-50 мб оперативки). Пока думаю про какое-то trie толстых блумфильтров, где документы в листьях, а вверх они OR-ятся, группированы просто от фонаря (по старшим битам например)
Вотъ..
This entry was originally posted at
http://wizzard.dreamwidth.org/377977.html. It has
comments. Please
comment there using OpenID.