Эта запись сделана для памяти и будет носить эзотерический характер. Чем дальше от старых добрых статистических методов, тем страшнее и тем меньше стандартизации. Забрел, с подачи
Кирилла Маслинского, в область компьютерного анализа текстов. Довольно быстро выяснилось, что какие-то пакеты для обработки текстов написаны под более позднюю версию R, чем та, что стоит у меня на машине, за обновлением R потянулась необходимость обновления Java, за ними -- недокументированные причуды самих новых версий пакетов и т. д. и т. п.
Коротко говоря, чтобы не забыть:
(1) Для установки пакета mallet нужна библиотека, которой у меня не было, пришлось ставить (без нее не компилируется):
apt get install liblzma-dev
(2) В новой версии пакета tm иначе работает функция tolower (конвертация всех заглавных букв в строчные):
corpus<-tm_map(corpus, content_transformer(tolower))
если использовать старый способ работы с нею, то потом не работает стемминг (усечение слов до основы):
corpus<-tm_map(corpus, stemDocument)
Восстановление слов от основ до наиболее обычной по корпусу формы
corpus<-tm_map(corpus, stemCompletion, dictionary=corpus, type="prevalent")
(надобное, как я понимаю, в эстетических целях) пока не заработало и гугление никакого ответа пока не принесло.
This entry was originally posted at
http://kouprianov.dreamwidth.org/310044.html Comment wherever you wish.