Nov 17, 2014 07:23
В русскую словарную базу добавилось около 1000 глаголов с наиболее продуктивными моделями, включая такие архиважнейшие слова, как пинговать и сконфигурироваться.
Далее по плану: пересчет вероятностной модели русской морфологии, чтобы получить актуальный part-of-speech tagger. Затем - лемматизация 45 Гб корпуса текстов, включая википедию и новости. Затем много экспериментов с word2vector.
русский язык,
глаголы,
russian lexicon