французские забавы

Jul 13, 2012 21:12

Добавил в новый лексер предпоследнюю важную вещь - возможность задавать правила расщепления токенов через сопоставления с регулярками. Проверил это дело на француском словаре, так как там наблюдается самый разгул хулиганства со стороны апострофов. наречие d'où не разбиваем, а d'Europe - разбиваем, ну и так далее:





Добавил описание в раздел "Правила переписывания токенов token_rewriter" на страничку лексера. Осталось переделать английский словарь, чтобы там апостроф больше не работал символом-разделителем.

сегментатор, токенизатор

Previous post Next post
Up