Облако Путина

Apr 16, 2015 19:25


peresedov задает вопрос, чего не было в "Прямой линии" Путина. Это вопрос, конечно, интересный, но методически правильнее, на мой взгляд, было бы спросить, что там было.

В качестве упражнения я нарисовал облако слов стенограммы. В нее входили как вопросы, так и ответы. Я убрал несколько очевидных слов вроде "который", предлогов и союзов. Вот текст программы:

library("tm") library("wordcloud") putin <- Corpus(DirSource(pattern="putin.txt")) putin <- tm_map(putin,content_transformer(tolower)) putin <- tm_map(putin,removePunctuation) putin <- tm_map(putin,stripWhitespace) putin <- tm_map(putin,removeWords,stopwords("russian")) putin <- tm_map(putin,removeWords,c("владимир", "владимиром", "владимирович", "путиным", "путин", "линия", "прямая", "мситтель", "кклеймёнов", "клеймёнов", "впутин", "мситтель:", "это", "вопрос", "ещё", "очень", "который", "которая", "которые", "которое")) wordcloud(putin, max.words=200, scale=c(5,0.5), random.order=FALSE, use.r.layout=FALSE, colors=brewer.pal(8, "Dark2"))

А вот что у меня получилось:



Update: Облако Путина после обрезания.

putin, russia, r, politics

Previous post Next post
Up