Расчёт индекса Хирша

May 17, 2015 15:03

Решил разместить здесь алгоритм расчёта индекса Хирша, поскольку из определения этого наукометрического показателя сложно что-либо понять, особенно людям с гуманитарным образованием. Ещё сложнее посчитать индекс Хирша, исходя из данных по своим публикациям и их цитированиям, которые, например, можно взять из Российского индекса научного цитирования (РИНЦ), функционирующего в Научной электронной библиотеки (НЭБ) eLIBRARY.RU.




Индекс Хирша
Целочисленный индекс Хирша (предложен в 2005 г. американским физиком Хорхе Хиршем) определяется следующим образом: автор (коллектив, организация, журнал) имеет индекс Хирша h, если h его статей цитируются не менее h раз каждая, в то время как другие его статьи цитируются не более, чем h раз каждая.

Как правило, индекс Хирша считается по всему периоду публикационной активности автора, но он может рассчитываться и для фиксированных периодов.

Прежде всего отметим некоторые свойства индекса Хирша h:
  • если цитирований нет, то h = 0;
  • если есть хотя бы одно цитирование, то h ≥ 1;
  • h не может превышать общего количества статей автора;
  • h не может превышать числа, определяемого как максимальное значение цитирований какой-либо статьи;
  • индекс Хирша h равен общему количеству статей автора, если каждая его статья цитируется не менее, чем h раз каждая.
Определение индекса Хирша можно переформулировать: индекс Хирша равен числу h, которое является максимальным значением количества h статей, каждая из которых цитируется не менее h раз.

Алгоритм расчёта индекса Хирша
Исходными данными для расчёта индекса Хирша являются данные по цитированию каждой статьи (здесь понятия «публикация» и «статья» равнозначны) автора. Этот набор данных можно представить в виде следующей таблицы:

Публикации, i
Количество цитирований, NCi

Публикация 1
NC1

Публикация 2
NC2

Публикация 3
NC3




Публикация N
NCn

Если есть цитирования, то среди N публикаций имеются публикации (или одна публикация) с максимальным числом цитирования MC, т.е. MC = Max{ NC1, NC2, NC3, … NCn }.

Шаг 2. Производится подсчёт количества NPj публикаций, которые цитируются не менее j раз (т.е. j и более раз). Результат может быть записан в виде таблицы:

Количество цитирований, j
Количество публикаций,
которые цитируются
не менее j раз, NPj

1
NP1

2
NP2

3
NP3




MC
NPm

Шаг 3. Нахождение «медианы» - расчёт индекса Хирша. Среди NPj находится максимальное число j, для которого NPj ≥ j. Это число и есть индекс Хирша.

Пример расчёта индекса Хирша
Пример. Исходные данные:

Публикация
Количество цитирований

Публикация 1
1

Публикация 2
10

Публикация 3
1

Публикация 4
3

Публикация 5
0

Публикация 6
1

Публикация 7
1

Публикация 8
2

Публикация 9
1

Публикация 10
0

Всего N = 10 публикаций, 20 цитирований и максимальное число цитирований для одной публикации MC = 10 (в примере - Публикация 2).

Шаг 1:

Количество цитирований, j
Количество публикаций,
которые цитируются
не менее j раз, NPj
Комментарий

1
8
Публикации 1, 2, 3, 4, 6, 7, 8, 9

2
3
Публикации 2, 4, 8

3
2
Публикации 2, 4

4
1
Публикация 2

5
1
Публикация 2

6
1
Публикация 2

7
1
Публикация 2

8
1
Публикация 2

9
1
Публикация 2

MC = 10
1
Публикация 2

Шаг 2:

Количество цитирований, j
Количество публикаций,
которые цитируются
не менее j раз, NPj
NPj ≥ j ?

1
8
да

2
3
да

3
2
нет

4
1
нет

5
1
нет

6
1
нет

7
1
нет

8
1
нет

9
1
нет

MC = 10
1
нет

Таким образом, в этом примере максимальное число j, для которого NPj ≥ j, равно 2, поэтому индекс Хирша h = 2.

«Накрутка» индекса Хирша
Увеличение индекса Хирша может носить как естественный, так и искусственный характер, вызванный применением специальных методов его «накрутки». В первом случае автор не прилагает целенаправленных усилий для его повышения, предоставляя цитирование своих публикаций представителям научного сообщества. Во втором случае автор может как заниматься активным самоцитированием (этот метод «накрутки» легко выявляется системами цитирования), так и войти в сговор со своими коллегами с целью, например, взаимообязательного цитирования. Публикации руководителей и начальников, как правило, подчинённые цитируют из-за высокой любви к ним, что повелось ещё со времён СССР.

Как было указано выше, автор может иметь N публикаций и индекс Хирша h = N. Очевидно, что в этом случае при значительных N имеем искусственную «накрутку» индекса. Однако решать эту «криминалистическую» задачу только математическими методами нельзя - для оценки деятельности автора с точки зрения научной этики необходимо привлечение экспертов.

В заключение, забавная задачка. Пусть автор пишет статьи с самоцитированием, причём его статьи больше никто не цитирует. Пусть в каждой последующей статье он цитирует по одному разу все свои предыдущие. Как будет расти его индекс Хирша?

Примерная хронологическая таблица для публикаций такого автора и динамика роста индекса Хирша с каждой последующей публикацией будет иметь следующий вид:

Публикация, i
Количество цитирований
в i-й статье
Индекс Хирша после
написания i-й статьи

Публикация 1
0
0

Публикация 2
1
1

Публикация 3
2
1

Публикация 4
3
2

Публикация 5
4
2

Публикация 6
5
3

Публикация 7
6
3

Публикация 8
7
4

Публикация 9
8
4

Публикация 10
9
5

Публикация 11
10
5





Т.е. после каждой второй (чётной) публикации индекс Хирша линейным образом прирастает на 1. Если же имеется сговор, то индекс Хирша может расти и быстрее - каждая новая публикация, например, может приводить к его росту на 1. Вероятно, выявлять потенциальных мошенников, накручивающих свой индекс Хирша, можно, изучая по хронологии публикаций динамику роста их индекса Хирша, но подобный подход требует более детального изучения. В любом случае, при аналитическом исследовании выявляться может лишь потенциальный мошенник, однако «грамотный» мошенник может и не попасть в этот список. И конечно, любовь подчинённых к начальнику, выливающуюся в масштабном цитировании его публикаций, инкриминировать последнему невозможно.

P.S. Не желая быть уличённым в каком-либо цитировании, предпочёл в вышеприведенном материале вообще никого не цитировать.

алгоритмы, юмор, наука

Previous post Next post
Up