Sel-kie написала
приложение для текстового анализа блога в ЖЖ. Приложение выдает самые часто встречающиеся слова последних 25 записей. У меня получилось вот что.
Разнообразие текста: 8.3%
Средняя длина поста: 110 слов
Часто встречающиеся слова:
ВОЙНА
ПРЕЗИДЕНТ
ШТАТ
ЕВРОПА
СССР
КЛИНТОН
ЕЛЬЦИН
ТРАМП
ПЕНСИОННЫЙ
РОССИЯ
Шокировало. Я-то думал, что в открытом доступе пишу про науку и немножко про свою жизнь, а получилось - про российскую политику?! И откуда тут Ельцин? Неужели я настолько забросил журнал, что 25 верхних записей покрывают времена Ельцина?
Полез смотреть. Оказалось, в прошлом году я написал про только что открытый архив чaстных разговоров Ельцина и Клинтона. И еще - что Путин рассказал, как усилия России по внедрению суверенной экономики по борьбе с выбросами парниковых газов затормозили потепление климата как минимум на год.
Ну, отлегло. В целом, результаты демонстрируют ущербность частотного подхода к описанию содержания текстов в целом и word cloud в частности.
This entry was originally posted at
https://profpr.dreamwidth.org/506620.html. Please comment there using
OpenID.