Утилиты на технологии Word2Vec

Mar 26, 2015 14:19

Доступна утилита, снимающая опечатки в запросах на основе технологии Word2Vec. Утилита использует словарь русского языка на 200+ тысяч словарных статей, и также использует список несловарных слов, таких как URL сайтов или современные сленговые выражения. Предлагаю всем, кто будет использовать утилиту в работе, регулярно обмениваться своими списками несловарных слов.

Также доступна утилита, генерящая запросы с наиболее типичными опечатками.

Доступна утилита мультиклассификатор, работает на удивление хорошо.




В планах разработка перефразировщика запросов.

Буду благодарен за получение обратной связи от использующих утилиты.

Версия для Windows, запускаемая на машине с 4+ Гб оперативной памяти:

https://cloud.mail.ru/public/0491239fad14/Word2VecUtils1.z01
https://cloud.mail.ru/public/ced4bf14b62a/Word2VecUtils1.z02
https://cloud.mail.ru/public/172d6c9bb365/Word2VecUtils1.zip

PS. Здесь в комментариях завязалась любопытная дискуссия по Word2Vec - http://servponomarev.livejournal.com/6529.html

word2vec

Previous post Next post
Up