Добавим в корпус еще html архив компьютерры

Oct 26, 2014 17:28

Нашелся в закромах архив номеров 1995-2005 года, в HTML формате.
Распарсил его с помощью HtmlAgilityPack и System.Web.HttpUtility.HtmlDecode.
Получилось примерно 190 Мб текста в utf-8.

PS: вот тут можно взять торрент с архивом новостей regnum'а в plain text win-1251. Сам скачивал его еще в 11 году, ням-ням.

корпус, word2vec

Previous post Next post
Up