Анализ логов

Oct 01, 2009 14:57

Сделал тут себе на Окамле анализатор логов с гейшами и го, способный отвечать на всякие каверзные вопросы о том, что за публика ходит ко мне на сайт, откуда, зачем и что там делает. Например, я могу его спросить по каким ключевым словам приходили люди из Германии, Японии и Штатов с поисковика bing на страницы, содержащие строку 'Press'. И получить ( Read more... )

ocaml, fp, log analysis

Leave a comment

Comments 5

vorotylo October 1 2009, 10:11:51 UTC
А как ты логи индексировал? Чем-то general purpose или написанным под задачу?

(Потому что даже подсчитать строки в 2 Gb текстовых логов - без всяких анализов - за 0.07 секунд... можно не успеть.)

Reply

thedeemon October 1 2009, 11:13:29 UTC
Строка разбирается на значимые части (IP, запрошенный файл, реферрер, ключевые слова и т.д.), для каждой части есть словарь - пара Hashtbl'ов из исходного вида в уникальный int и обратно. В памяти хранится отфильтрованный лог (без обращений к картинкам, например), где все части представлены числами. При выборе нужной информации сравниваются только int'ы - ключи словарей.

Reply

vorotylo October 1 2009, 13:08:14 UTC
Спасибо.

Reply

nponeccop October 2 2009, 01:09:57 UTC
Ну, там же было написано:
---
Логи читаются один раз при загрузке (пара гигов загружается секунд за 30, это сопровождается отображением прогресса, про что недавно писал), при этом строится их компактное представление, и памяти в процессе работы жрется примерно 10% от их исходного размера. Дальше все работает in-memory
---

Reply


Leave a comment

Up