Вопросы по тИЦ, часть 2 (формула, склейка, тематика)

Aug 01, 2011 12:27


Данная статья является продолжением FAQ по тИЦ для новичков и раскрывает более глубокие вопросы относительно тематического индекса цитирования, которые часто интересуют сеошников. Начнем с расчета этого параметра.
Формула тИЦ

Понятие индекса цитирования (ИЦ) используется уже более 100 лет. Широкое применение ИЦ нашел Юджин Гарфилд для статей в академических журналах. В русском языке этот термин часто использовали как показатель значимости статьи или автора. Позже появлялись и другие показатели, в том числе и для изданий в целом, такие как импакт фактор, вИЦ (взвешенный индекс цитирования) и другие. С этими терминами, наверняка, знакомы многие работники библиотек.

При расчете авторитетности того или иного издания по количеству его цитирований возникала проблема, когда, с одной стороны, слабозначимые работы и сильные труды могли иметь одинаковый ИЦ, а с другой стороны, не производилась сегментация по тематике, и цитирования с журналов по химии могли влиять на автортитеность сборника экономических трудов.

Возвращаясь к онлайн-ресурсам, тематический индекс цитирования должен был отражать авторитетность сайта в своей тематике, а его расчет основан, вероятнее всего, на общеизвестной формуле расчета вИЦ[ 1] (является итерационной).



где, в переименнованном виде,
PF(v,t) - тИЦ ресурса v;
P - количество ресурсов, которые ссылаются на сайт v и имеют ту же тематику;
nv - количество страниц на рассматриваемом сайте v;
N - общее число страниц в индексе Яндекса (при этом, nv/N - вероятность того, что пользователь читает сайт v);
w(i) - частота цитируемости ресурсом i сайта v;
N(i) - общее число ссылок на i-ом сайте.

При этом, PF(v,t) является нормализованной величиной.

Какие выводы можно сделать из приведённой выше формулы? По всей видимости, они будут следующими:

1. тИЦ зависит от количества уникальных страниц на сайте и чем их больше, тем больше результирующий показатель.
Факт кажется спорным и требует подтверждения. Вполне возможно, что интерпретация параметров nv/N немного иная (например, nv всегда равен единице).

2. Чем меньше исходящих ссылок на сайте-доноре, тем больше с него передается тИЦ. В принципе, это общеизвестный факт.

3. тИЦ никак не зависит от перелинковки.

Замечу ещё раз, что формула взята по аналогии с вИЦ, поэтому может немного (по мнению автора) отличаться от оригинала. Также в формуле тИЦ не присутствует метод нормализации значений и определения тематических коллекций, в данном случае они остаются за кадром.
Как определяется тематика сайта?

Задача классификации сайта по заданному набору тематик давно осуществлена поисковыми системами[ 2]. Для этого сначала строится описание рассматриваемого ресурса (из названия категорий сайта, заголовков, структуры URL его страниц). Далее вычисляется оценка близости между описаниями заранее подготовленных тематик (каталог) и описаниями ресурсов с выбором наиболее близких тематик для них.

Тематическая близость двух документов отражает вероятность принадлежности их обоих одной и той же тематике. Этот показатель может влиять на значение передаваемого ссылкой веса.
Региональный тИЦ

Изначально тематический индекс цитирования отражал ситуацию в Рунете, но со временем индекс Яндекса расширился на такие геогрфические сегменты, как Беларусь, Украина и другие. В Яндексе появились новые версии каталога для дополнительных регионов.



Соответственно, чтобы ранжировать сайты в каждом из региональных Яндекс.Каталогов, потребовалось ввести региональный тИЦ (в сеошной среде просто сокращенно рИЦ), который учитывает, помимо тематической, географическую близость ссылок.
Ответы на вопросы

Ниже представлены ответы на некоторые вопросы относительно тИЦ, встречающихся на форумах.

Имеют ли значение анкоры ссылок для поднятия тиц?
Анкоры ссылок не участвуют в определении тематической близости двух ресурсов.

Обнуляется ли тИЦ при бане сайта?
Если на сайт продолжают стоять ссылки, то тИЦ у него остаётся, за исключением случаев, когда причиной бана была та самая накрутка этого показателя.

Как происходит склейка тИЦ?
При наличии у сайта нескольких зеркал (копий) их результирующий тИЦ суммируется. В отличие от зеркал, аффилиаты являются разными сайтами, таким образом, их тИЦ не влияет друг на друга.
Документы по теме
  1. “Popularity Weighted Ranking for Academic Digital Libraries”
    Yang Sun and C. Lee Giles
    Information Sciences and Technology, The Pennsylvania State University
    Popularity_Weighted_Ranking_for_Academic.pdf [334.06KB]
  2. “Автоматическая классификация веб-сайтов”
    Маслов М. Ю., Пяллинг А.А., Трифонов С.И.
    Яндекс, RCDL’2008
    rcdl_sites_autoclassification.pdf [215.14KB]
  3. “Тематическая классификация текстов”
    С.В. Панков, С.П. Шебанин, А.А. Рыбаков
    ROOKEE, РОМИП 2010
    ROMIP_Submission_Style_Guide_for_Word.pdf [349.79KB]
  4. “Автоматическая классификация документов на основе латентно-семантического анализа”
    Игорь Куралёнок, Игорь Некрестьянов
    СПГУ, I Всероссийская научная конференция “Электронные библиотеки”
    LSA.pdf [808.58KB]

Источник: Вопросы по тИЦ, часть 2 (формула, склейка, тематика)

формула тиц, тиц, склейка, яндекс

Previous post Next post
Up