приматология "экспертных" "оценок" (2) разновидности агрегации

Jan 29, 2019 13:38

сфера научного оценивания -- начало и оглавление

Оттолкнувшись от позитивного абриса реальных механизмов оценивания,
мы деконструировали феномен отдельной экспертной оценки, тыц, и, в частности, эксплицировали феномен её плавной деформации двух типов:
(1) в бессмысленную оценку-впечатление,
(2) в коррупционную оценку-услугу,
причём эти свойства могут смешиваться в любых пропорциях в одной оценке.

Пара замечаний:

1) Наша "теория оценивания" -- не статистическая или аксиологическая, а приматологическая.

2) Цели, как обычно, скромны: не открывать америк, а всего лишь разобрать реальные механизмы оценивания на (как выясняется, немногие) элементарные детальки, уточнив их, -- эксплицитности ради и Накопления понимания для.

3) Мы не ограничиваемся "экспертными" оценками -- потому что механизмы оценивания в главном, как открывается, схожи на всех уровнях -- от отдельного нейрона до диссертационного совета и какого-нибудь общего собрания.

4) В идеале хочется иметь ассортимент элементарных механизмов вместе с их содержательными смыслами.
Имея такой ассортимент, можно будет водить пальцем по реальным процедурам оценивания и разбирать их на элементы, чтобы найти точки паразитоуязвимости и способы паразитных деформаций. Но это потом.

***

Итак, из сделанного абриса видно, что там присутствует ещё один механизм (в нескольких разновидностях).
Мы обозначим его словом агрегация.
Суть этого механизма -- создание "вторичных" оценок (OUT) из нескольких "первичных" (IN).
Формально обязывающие "официальные решения" -- это обычно как раз вторичные оценки, причём "огрублённые" до ДА|НЕТ (см. ниже).

Раундов оценивания с агрегацией и огрублением может быть несколько (например, в защите диссертаций их два, см. обсуждение в конце записи).
То есть вторичные оценки одного уровня могут стать первичными для следующего.
Это промежуточные оценки. Они, кстати, не обязаны иметь форму ДА|НЕТ, и вообще форму, эквивалентную числовой -- это может быть и текст (список замечаний и проч.).

Огрубление может отсутствовать в промежуточных раундах оценивания или быть неполным, т.е. не доходить до выбора из ДА|НЕТ (будем применять для этого случая описание бинарный), а, скажем, только до выбора из ЗА|ПРОТИВ|ВОЗДЕРЖАЛСЯ, что эквивалентно выбору из +1|-1|0 (или, если придерживаться схемы с промежуточными оценками из [0..1], из 1|0|1/2).

Огрубление может состоять в простом отбрасывании (игнорировании) частей оценки -- особенно если промежуточная оценка имеет нечисловую (текстовую) форму.

***

Выше мелькало слово решение: оценки обычно предшествуют решению о дальнейшем поведении, а управление поведением -- это та задача, для решения которой Эволюция и придумала интеллектус, по крайней мере его первый этаж. Роль оценок/решений в функционировании интеллектуса фундаментальна, поэтому нужно в неё -- по завету Карла Вейерштрасса -- повглядываться.

В самом деле, уже отдельный нейрон -- элементарный "кирпичик" энцефалона как седалища интеллектуса -- занят ровно тем, чтобы "принимать решение" об электрохимическом выстреле по аксону на основе "оценки" совокупности внешних возбуждающих/тормозящих потенциалов, состояния своих синапсов, обусловленного внешними нейромедиаторами, наличия топлива/АТФ и всевозможных молекулярных запчастей.

Главный параметр-оценка у нейрона -- это суммарный баланс внешних возбуждающих и тормозящих потенциалов.
Нейрон принимает решение, чтобы стрельнуть по аксону, в зависимости от того, превышает ли этот потенциал некоторый порог.
Уже здесь возникает механизм огрубления -- превращения непрерывного параметра в бинарное ДА|НЕТ.
В общем случае огрубляемые параметры не обязательно непрерывные, но обычно и не двоичные.

В огрублении участвует порог (а если огрубление не полное, то и не один).
Сразу можно сказать, что пороговое значение может быть задано заранее, так сказать статически -- или же определяться динамически, т.е. исходя из уже наличных "измерений" -- или просто по ситуации.

Динамическому назначению порога эквивалентен, например, отбор фиксированного числа кандидатов с наилучшими показателями. Найденное таким образом значение может стать статическим в будущих отборах этого типа.

Пример ситуационного назначения порога -- типичная фраза "время истекает, зачитайте только заключение".

***

Вспоминая, что даже нейрон учитывает больше одного параметра для выстрела, причём довольно сложным образом (сложение внешних потенциалов -- простейшая часть процесса), видим, что уже тут возникла и упомянутая выше агрегация частичных оценок, измеряющих разные аспекты состояния нейрона.

Таким образом имеем фундаментальную цепочку (элементарный раунд оценивания):

(первичные оценки ->) огрубление -> агрегация -> огрубление (-> вторичные оценки | решение)
Эта цепочка присутствует и на самом нижнем уровне -- уровне отдельного нейрона, и на самом высоком из интересующих нас -- на уровне сферы научного оценивания.

Первичные оценки (где производится сравнение с образцами, критический разбор и проч.) не обязательно бинарные, хотя могут ими быть или содержать их в качестве основных компонентов (скажем, отзыв официального оппонента содержит ДА|НЕТ + прицепленный список критических замечаний).

"Решение" -- это, в финальной форме, бинарное ДА|НЕТ, но на промежуточных шагах огрубление может до этого не доходить или вообще отсутствовать.

Огрубление в общем случае -- это часть агрегации, но иногда его полезно рассматривать отдельно.
Причём эффективному (в том же смысле, как в эффективном idiotae) огрублению в каждом раунде обычно подвергаются как первичные оценки, приходящие на вход процедуры, так и вторичная оценка на выходе. К какому раунду оценивания отнести промежуточные огрубления -- иногда вопрос удобства.

Полный реальный процесс создания формальной оценки обычно состоит из нескольких элементарных раундов. Вся активность, скажем, энцефалона состоит из нагромождения таких раундов, выполняемых отдельными нейронами.

***

Возникают вопросы:

-- Зачем вообще нужна агрегация? Здесь речь в основном о смысле первичных оценок, точнее, о смысле их дефектов.

-- Как она выполняется? Здесь речь больше о форме первичных оценок и соответствующих формальных операциях.

NB Cмысл первичных оценок, их форма и, наконец, процедура агрегации -- это три стороны одной медали.

У разных вариантов агрегации могут быть разные содержательные смыслы.
И есть такие имплементации агрегации, которые привносят смыслы паразитные (привносят по замыслу или просто открывают для них дорогу).
Надо постараться аккуратно отделить одно от другого. При этом удобно брать примеры и извне наукоценоза, где что-то может быть виднее -- оценивание, повторим, штука универсальная для всех видов и уровней интеллектуса, с самого низа до самого верха.

***

Общий содержательный смысл агрегации оценок один: повышение качества оценки.

Агрегация имеет место уже в среднем мозге рептилии, где качество оценки имеет прямой смысл: выживание.

Недостаточно качественная оценка мыслится как отклонение от некоторого идеала -- сразу возникает вопрос о факторах ухудшения оценки (или факторах, препятствующих достижению идеала).

Природа таких факторов будет определять способы агрегации, направленные на их (факторов) ингибицию, если не полное исключение.

Приводимый ниже список, вероятно, неполон. Если обнаружится что-то ещё -- добавим.
Для удобства слово "сбой" обозначает любое отклонение от идеальной оценки.
Во многих случаях сразу легко указать подходящие механизмы корректирующей агрегации, но нас сначала интересует полнота самого списка.

Факторы, ухудшающие качество оценки

(1) Сбой оценивателя по объективным причинам, с подвариантами.

(1а) Объективно-неизбежные случайные ошибки вроде ошибок при подсчёте ударов в каком-нибудь боксе или при оценке ковбоями на глаз веса бычка на ярмарке [пример из Шуровьевски] или, скажем, при подсчёте каких-нибудь цитирований.

(1б) Непреднамеренный выход за пугающе прозрачную границу собственных компетенций, так что оцениватель оказывается эффективным idiota.

(1в) Ограниченность компетенций оценивателя, позволяющая дать только частичную оценку.

(2) Сбой оценивателя по лупанистическим причинам, с подвариантами.

(2а) Прямой-активный-бананостремительный лупанизм.

(2б) Лупанизм косвенный/вынужденный/защитный/ глистоидный.

(3) Влияние других оценивателей и/или иных акторов по известным приматическим механизмам.

(3а) Экономия нейральной энергии посредством репликации.

(3б) Деформация оценки "разогревом" [>> разогрев и оценка].

(3в) Срыв интерпретации разнообразными факторами.

Отдельными списками должны идти дефекты механизмов агрегации -- как чисто технического, так и злонамеренного характера (недостаточное количество оценивателей, выбранных из недостаточно широкого пула, преждевременное/чрезмерное огрубление на промежуточных шагах, частичная винсоризация ("обнуление") промежуточных оценок по причине технической невозможности их содержательного разбора и паразитного зашумления процесса, искусственное внедрение в процесс заведомо искажённых "измерений" -- и вообще приматическое вмешательство в процесс как на уровне формулировки процедур, так и при их реализации "под шумок" и "в кулуарах", etc.).

***

Понятно, что чем более ответственным является оценивание (ср. бакалаврская защита VS прописка в храме Академической Свободы), тем тщательнее должны быть рассмотрены все возможные факторы коррумпирования оценки.

Чётто не припоминается, чтобы такие рассмотрения были сделаны для академических выборов или для РНФ с РФФИ, -- откуда мы и имеем то, что имеем ( теоремный шарлатан во главе etc., отчаянно брешущий Собачко, толпы серости, стабилизировавшей свою трофику под эгидой мегасьянса ... имеем, короче, проблему фитли).

***

Проявим занудство и обозначим простые ориентиры для возможных способов объединения нескольких промежуточных параметров-"измерений" (мыслимых как частичные оценки) в один -- независимо от того, что объединяется: разные параметры или значения одного параметра, "измеряемые" разными оценивателями.

Концептуально удобно мыслить числовые параметры, которые после огрубления (см. выше) дадут ДА|НЕТ, меняющимися в интервале [0..1], чтобы 1|0 соответствовали ДА|НЕТ. Тогда математическая медитация, оттолкнувшись от хорошо прожёванной в математике темы норм, подсказывает три простых базовых способа объединять несколько параметров в один:

(1) сложение;
(2) вычисление максимума;
(3) подсчёт ненулевых компонент.

(Знатоки узнают нормы L_1, L_oo и "норму" L_0. Промежуточные возможности L_p выглядят сложноватыми для задач, возникающих в сфере научного оценивания -- тем более, что главные проблемы там лежат в сфере приматологии, а не математики.)

Однако на практике (причём уже на уровне нейрона) неудобно запрещать "измерениям" выходить из интервала [0..1] -- и полезно разрешать им быть любыми большими или отрицательными числами. Но держать в уме примордиальный смысл "протооценок" полезно.

В существующих механизмах агрегации оценок три элементарных способа легко распознаются.

Упражнение. Описать обычный механизм голосования в терминах сложения первичных оценок из интервала [0..1] с последующим огрублением.

Заметим, что огрубление может применяться к параметрам до и/или после их объединения в один.
Например, третий способ соответствует предварительному огрублению компонент до 0|1 с последующим сложением (первый способ).

А в примере с простым голосованием можно подметить два огрубления: сначала огрубление месива впечатлений в каждой голосующей голове до выбора из трёх вариантов, затем сложение этих чисел и, наконец, финальное огрубление суммы.

***

Для нечисловых первичных оценок-"измерений" (текстов-описаний) есть единственный базовый механизм агрегации:

(4) Конкатенация (объединение, сцепление) соответствующих текстов в один текст-конкатенат.

Именно конкатенация применяется в работе, например, диссертационных советов (см. в конце записи).

Обработку конкатената -- устранение дублирования, согласование расхождений, etc. -- удобно рассматривать как агрегацию в отдельном раунде оценивания.

Вроде бы не пропущено ничего существенного.

***

Прикинем способы агрегации для пунктов списка.

Для (1а) -- это, понятно, механизм статистического усреднения.

Для (1в) в чистом виде показана прежде всего конкатенация оценок нескольких оценивателей с разными core competencies, с последующей новой оценкой конкатената.

Раунд эксплицитного согласования в чём-то расходящихся оценок -- полезная штука, и мог бы быть обязательным требованием в иных случаях.

Во всех случаях просится вторичный раунд оценивания -- оценивание оценки, например более широким комьюнити, в качестве контроля и страховки от сбоев.

За "сбой" типа (2а) нужно сразу гнать ссаными тряпками лишать негодяя всех привилегий.

Сбой типа (2б) лучше всего, видимо, лечится Академической Свободой, по определению предполагающей защищённость от подобных, хм, давлений.

Далее, вполне очевидно, что мощным средством ингибиции многих из перечисленных факторов коррупции оценок является публичность.

Хотя обычно в подобных случаях говорят о "публичном контроле", но мы оставим это название для общего контроля за процессами со стороны широкой публики. Здесь же подразумевается участие только публики достаточно компетентной, и речь тогда лучше вести о ещё одном раунде оценивания -- назовём его публичное пост-оценивание.

(Приставка "пост-" немножко misleading; как и в основном цикле Интеллектуса-2 речь здесь, скорее, о нелинейно-рекурсивном процессе.)

Думать о нём можно и нужно по тем же пунктам, что и об остальных вариантах.

Такое публичное пост-оценивание работает тем лучше, чем больше у (повторим: компетентной) публики реальных возможностей делать его (информация, время, возможность включить свой отзыв "в игру", защищённость, мотивация ...). А также если есть реальные санкции, которые могут последовать за обнаружением чего-то нехорошего в результате такого пост-оценивания.

Во всяком случае возникает такая техническая ценность:

В силу ВТОРОГО (никто ни хрена...) и ТРЕТЬЕГО (ubi offuscatio...) НАЧАЛ простая публичность должна быть вариантом-по-умолчанию всех процессов в сфере научного оценивания.

Отход от этого варианта-по-умолчанию должен доказательно обосновываться в каждом случае.
Этим сразу маркируются как аморальные в смысле Этики Науки анонимные процедуры в РФФИ, РНФ и проч.

Анонимность применяется, в идеале, лишь в качестве исключения и строго дозированно -- локально, временно, etc.

С одной стороны, ограниченная анонимность может быть продуктивна (исключение паразитных влияний оценивающих друг на друга или влияния личности первичного оценивающего на вторичных)

С другой стороны, гарантированная полная анонимность порождает мощную безответственность и злоупотребления, что можно наблюдать постоянно.

Скажем, аспирант может быть защищён анонимностью -- но должен быть какой-то proxi типа научрука, который, если что, ответит за базар аспиранта. И анонимный статус должен быть снят, как только аспирант дорастёт до чего-то более существенного или выйдет из комьюнити.

Как-то так в общих чертах.

***

Нельзя забыть, что могут быть разные:

Способы формирования выборки агрегируемых оценок/оценивателей:

Что касается измеряемых первичных параметров:

--- Измеряемые первичные параметры заранее прописываются/перечисляются. Но такой список не может быть закрытым, поэтому нужно оставить открытой и следующую возможность:

--- Измеряемые первичные параметры вводятся в дело оценивателями (разумеется, с мотивировками).

Что касается оценивателей:

--- Вызываются добровольцы из большого множества (такое множество мыслится как неограниченное за исключением какого-то обязательного общего, типа, ценза -- образование, публикации, ...).

--- Назначение Приглашение оценивателей некой auctoritate. (Пальцы отказались напечатать "властью" или "авторитетами" -- настолько эти слова отягчены нехорошими смыслами; латинская auctoritas в этом отношении более нейтральна; ср..)

--- Ещё один важный механизм: отвод/отсечение по каким-либо параметрам -- прежде всего по параметру core competencies (например, доброволец добросовестно ошибся -- ср. пугающая прозрачность ... -- и другие ему на это указали; или доброволец опоздал по времени или по порядковому номеру). Здесь важно, кто и как делает отвод/отсечение: открыть глаза добровольцу на его некомпетентность могут другие добровольцы на инициативной основе, либо auctoritas.

Подобный отвод -- это прямой аналог статистической винсоризации (отбрасывания из выборки) отдельных измерений при достаточном подозрении на наличие коррумпирующих влияний.

***

Пример простого голосования уже встречался выше.
Ещё пара примеров:

Судейство в ММА

MMA -- это где бразильянки отрабатывают ударную технику.
Пример приводится чисто для расширения сознания в силу экзотичности:

1) первичные оценки -- это оценки отдельных судей каждого раунда в отдельности, они имеют числовое, хотя и странное выражение: судья фактически назначает проигравшему количество потерянных очков (хотя оценка выражается в виде 10:X, где 10 -- очки победителя, а X < 10 -- очки побеждённого);
2) сложение числовых оценок: каждый судья формирует свою окончательную оценку простым сложением очков, потерянных во всех раундах, отдельно для каждого бойца -- и огрубляет результат до +1|-1 в зависимости от того, кто потерял меньше очков;
3) голосование судей простым большинством: победа присуждается на основании сложения огрублённых оценок отдельных судей.

При этом не предусмотрено отвода (винсоризации) нереальных оценок для данного боя (видимо, для простоты) -- но для судьи остаётся риск потерять работу. Это крайне редкий случай, но такое разок всё-таки случилось в UFC года два назад (некая нехуденькая близорукая афроамериканская тётенька -- допущенная до судейства, видимо, не без соображений политкорректности -- насчитала очки как-то уж совсем от балды).

Диссертационные советы

Подчеркнём, что ниже описывается только внешность процедур; их реальность -- можно ли вообще называть оценкой производимые действия, если докторские степени получают Чучелки, -- осложнена большим количеством факторов на каждом сантиметре:

Первичные оценивающие ("официальные оппоненты", подобранные прежде всего по параметру готовности дать положительный отзыв) выдают монооценку "ЗАСЛУЖИВАЕТ", сконкатенированную со списком замечаний разных знаков.
Эти оценки, в свою очередь, конкатенируются с презентацией диссертанта, а также с сотрясениями воздуха, производимыми другими присутствующими.

Этот вторичный конкатенат "огрубляется" пропусканием через воздух, уши, недокомпетентность, недомотивированность и полудрёму членов совета.
Энцефалон каждого из членов окончательно огрубляет этот композитный конкатенат до оценки-впечатления ЗА|ПРОТИВ|ВОЗДЕРЖАЛСЯ.

Наконец, эти оценки материализуются в форме "голосов", агрегируемых голосованием по механизму простого большинства.

Стоит упомянуть и совсем заковыристый пример с нагромождением разных механизмов: метод "Дельфи".

***

Оставим пока так.

устроение_наукоценоза, оценивание

Up