Анализируй это, анализируй то

Mar 14, 2009 00:18


С подачи Алексея Экслера опробовал анализ текстов при помощи Istio.com. Как пишут сами создатели сервиса: «Удобен для копирайтеров и тех, кто заказывает статьи. Показывает такие параметры как длина текста, наиболее частые слова в тексте и другие полезные мелочи. Дополнительной функцией сервиса является проверка текста на уникальность - если статья была скопирована из интернета, то сервис покажет список сайтов, на которых можно его найти.»

Вот так выглядит анализ моей декабрьской статьи в «Компьютерре»:
Результаты анализа

Общая статистика:
Длина с пробелами 27746 символов Длина без пробелов 24031 символов Всего слов 3686 Водность текста 27/33 Тошнота 11.53 Топ10 слов образование, интернет, технология, образовательный, учитель, информация, знание, человек, преподаватель, год Словарь текста 1429 слов Словарь ядра 1119 слов Язык текста rus Тематика текста (приблизительно) Телевидение, Технологии, Образование

Наиболее частые слова (БЕЗ стоп-слов):

Рел. - релевантность слова.

№ Срез Слово Колво раз Рел. Доля в ядре Доля в тексте 1 1 образование 36 3.12 1.8% 0.9% 2 3 интернет 27 2.34 1.3% 0.7% 3 4 технология 22 1.9 1.1% 0.5% 4 5 образовательный 17 1.47 0.8% 0.4% 5 6 учитель 16 1.38 0.8% 0.4% 6 6 информация 15 1.3 0.7% 0.4% 7 7 знание 14 1.21 0.7% 0.3% 8 8 человек 13 1.12 0.6% 0.3% 9 8 преподаватель 13 1.12 0.6% 0.3% 10 9 год 12 1.04 0.6% 0.3% 11 10 обучение 11 0.95 0.5% 0.2% 12 10 развитие 10 0.86 0.5% 0.2% 13 11 студент 10 0.86 0.5% 0.2% 14 11 работа 10 0.86 0.5% 0.2% 15 12 роль 10 0.86 0.5% 0.2% 16 12 ученик 9 0.78 0.4% 0.2% 17 13 вопрос 9 0.78 0.4% 0.2% 18 13 модель 9 0.78 0.4% 0.2% 19 13 ресурс 9 0.78 0.4% 0.2% 20 14 информационный 9 0.78 0.4% 0.2% Наиболее частые слова (Включая стоп-слова):

Слово Повторений Доля в ядре Доля в тексте и 133 6.8% 3.6% в 118 6% 3.2% не 71 3.6% 1.9% что 55 2.8% 1.4% на 38 1.9% 1% образование 36 1.8% 0.9% он 36 1.8% 0.9% это 35 1.7% 0.9% а 34 1.7% 0.9% с 32 1.6% 0.8% как 31 1.5% 0.8% мы 29 1.4% 0.7% интернет 27 1.3% 0.7% к 27 1.3% 0.7% который 26 1.3% 0.7% технология 22 1.1% 0.5% все 22 1.1% 0.5% иза 20 1% 0.5% для 20 1% 0.5% один 19 0.9% 0.5%
Насколько я понял, карта текста отражает частоту употребления слов:



Очень понравилась возможность поиска заданного текста, чтобы понять, когда уровень цитирования, заимствования и воровства вдруг скажет: «Ты проснулся знаменитым!» А пока вот:
Результаты поиска

Текст НЕУНИКАЛЬНЫЙ.
Список сайтов, на которых был найден этот текст:
offline.computerra.ru
web2-science.ru
offline.computerra.ru
lib.rus.ec
Параметры «водность» и «тошнота» объясняются в ФАКе и на форуме ресурса.

Запись опубликована almapater.ru. Please leave any comments there.

лингвистика, Интернет, образование

Previous post Next post
Up