peresedov задает вопрос,
чего не было в "Прямой линии" Путина. Это вопрос, конечно,
интересный, но методически правильнее, на мой взгляд, было бы
спросить, что там было.
В качестве упражнения я нарисовал облако слов стенограммы. В нее
входили как вопросы, так и ответы. Я убрал несколько очевидных слов
вроде "который", предлогов и союзов. Вот текст программы:
library("tm")
library("wordcloud")
putin <- Corpus(DirSource(pattern="putin.txt"))
putin <- tm_map(putin,content_transformer(tolower))
putin <- tm_map(putin,removePunctuation)
putin <- tm_map(putin,stripWhitespace)
putin <- tm_map(putin,removeWords,stopwords("russian"))
putin <- tm_map(putin,removeWords,c("владимир",
"владимиром",
"владимирович",
"путиным",
"путин",
"линия",
"прямая",
"мситтель",
"кклеймёнов",
"клеймёнов",
"впутин",
"мситтель:",
"это",
"вопрос",
"ещё",
"очень",
"который",
"которая",
"которые",
"которое"))
wordcloud(putin, max.words=200,
scale=c(5,0.5),
random.order=FALSE,
use.r.layout=FALSE,
colors=brewer.pal(8, "Dark2"))
А вот что у меня получилось:
Update:
Облако Путина после обрезания.