Упс, SQL хранилище оказалось быстрее бинарных файлов

Oct 04, 2011 20:16

Тест русского морфологического анализатора, примерно 2600 предложений, реализация с хранением словаря в MySQL дает ~150 секунд, реализация с хранением словаря в локальных файлах ~180 секунд.

Другими словами,

(а) затраты на подкачку словарных статей и правил разбора из базы данных через libmysql.dll с пересечением границ процессов + затраты на десериализацию некоторых объектов + более эффективный поиск слов в лексиконе

оказываются в итоге меньше, чем

(б) затраты на подкачку данных из локальных файлов в рамках одного процесса + менее эффективный алгоритм просмотра лексикона, ориентированный на более компактное представление словаря на диске.

2 миллиона грамматических форм - это как бы уже не шутки, эффективность индексного поиска начинает сказываться.

SQL словарь, Морфологический анализ, процедурный API

Previous post Next post
Up