Oct 04, 2011 20:16
Тест русского морфологического анализатора, примерно 2600 предложений, реализация с хранением словаря в MySQL дает ~150 секунд, реализация с хранением словаря в локальных файлах ~180 секунд.
Другими словами,
(а) затраты на подкачку словарных статей и правил разбора из базы данных через libmysql.dll с пересечением границ процессов + затраты на десериализацию некоторых объектов + более эффективный поиск слов в лексиконе
оказываются в итоге меньше, чем
(б) затраты на подкачку данных из локальных файлов в рамках одного процесса + менее эффективный алгоритм просмотра лексикона, ориентированный на более компактное представление словаря на диске.
2 миллиона грамматических форм - это как бы уже не шутки, эффективность индексного поиска начинает сказываться.
SQL словарь,
Морфологический анализ,
процедурный API