EDSL для FSM

Feb 01, 2013 06:05

В диком интернете нет (и не может быть) никакого порядка, в именовании файлов изображений. Это хорошо ещё, если картинку на хостинг закачивает вебмастер своими руками по фтп: в большинстве случаев имя файла будет относительно осмысленным, а вот если это происходит через веб-форму для аплоада, то имя, которое в итоге получит файл, остаётся на ( Read more... )

code, common lisp, edsl, image, filename, internet, dsl, lisp, code generation

Leave a comment

p2004r February 1 2013, 11:32:48 UTC
CRF++ решит проблему? (только бить на символы и описывать контекст классифицируемого тоже относительно символов, а не слов как в оригинале)

Reply

swizard February 1 2013, 12:20:42 UTC
Не знаю, как-то там сложно всё. Плюс непонятно, можно ли этой штукой вообще данные из дикого инета классифицировать, там же никогда не знаешь что на вход придёт.

Reply

p2004r February 1 2013, 12:25:49 UTC
citeseer разбирает библиографии статей именно этой библиотекой. там в его исходниках есть идея обвязки этой библиотеки разными способами.

Изначально у citeseer были регексы, теперь регексы только для вырезания библиографии остались, а весь разбор идет этой библиотекой.

PS тут ведь всего надо два тега проставить или символ "часть слова", или "разделитель".

Reply

swizard February 1 2013, 12:53:42 UTC
А тебе не сложно привести пример для примеров файлов в посте? Было бы любопытно, а то я сходу не могу разобраться, как ей пользоваться.

Reply

p2004r February 1 2013, 13:32:32 UTC
там есть ссылка на svm версию с которой соревнуется автор crf++, так там намного понятней проиллюстрировано как строится темплейт ( ... )

Reply

p2004r February 1 2013, 13:58:58 UTC
вот как то так

на входе ( ... )

Reply

swizard February 1 2013, 19:46:29 UTC
блин, мне нужно время, чтобы это переварить :))

Reply


Leave a comment

Up