Добавил в новый лексер предпоследнюю важную вещь - возможность задавать правила расщепления токенов через сопоставления с регулярками. Проверил это дело на француском словаре, так как там наблюдается самый разгул хулиганства со стороны апострофов. наречие d'où не разбиваем, а d'Europe - разбиваем, ну и так далее:
Добавил описание в раздел "Правила переписывания токенов token_rewriter" на
страничку лексера. Осталось переделать английский словарь, чтобы там апостроф больше не работал символом-разделителем.