Закончился пересчет на 30 тысячах предложений (из 130 тысяч в эталонном корпусе) для модели морфологии на основе CRF + переходные вероятности, так что получается нормальный sequence labeling алгоритм.
Оптимизация системы занимает примерно час.
Получается файл размером около 38 Мб.
Вероятностная модель доступна в отладочном режиме (не круглосуточно) по
(
Read more... )