Статистический способ сведения оценок КРУЧЕ экспертного сведения! Да, да, Вы не ослышались. Любой самы простецкий математический способ объединения отдельных оценок в итоговую (даже банальное среднее) переигрывает консилиум крутых экспертов. Причем переигрывает с точки зрения прогностической валидности (у машины прогноз точнее). И еще это верно и для оценки в бизнесе (ассессмент центры, кадровые комитеты и т.п.), и для образовательной оценки (экзамены).
Это шок, чего уж тут говорить. Меня учили по-другому... Но это серьезнейший научный результат, который нельзя игнорировать. Будем учиться жить в новой картине мира.
(c)
Franz Steiner ИТАК...
В ведущем психологическом журнале
Journal of Applied Psychology вышла
статья с результатами масштабного мета-анализа (объединение в один «котел» множества исследований по одной теме). В нём сравнивается валидность двух методов инте-грации (сведения) оценок - статистического и экспертного.
_______________
Kuncel, N. R., Klieger, D. M., Connelly, B. S., & Ones, D. S. (2013). Mechanical Versus Clinical Data Combination in Selection and Admissions Decisions: A Meta-Analysis. Jour-nal of Applied Psychology. Advance online publication. doi: 10.1037/a0034156 (
ссылка на текст)
_______________
Представляем выжимку из этой крутейшей статьи.
О чем статья?
Как правило, в оценочных проектах на одного кандидата мы имеем множество замеров (параметров). Этими параметрами могут быть факты его биографии, результаты психометрических тестов, оценки отдельных наблюдателей в отдельных упражнениях центра оценки и т.д. Как все это объединить в итоговый балл / решение?
- Один способ - статистический. Т.е. используем формулу, например, простое среднее арифметическое или развернутое регрессионное уравнение.
- Второй способ - экспертный. Эксперты объединяют отдельные замеры, обсуждая их, используя свои наблюдения и инсайты.
Задача, которую решали авторы статьи - оценить, какой из способов лучше. Для этого они решили сопоставить, насколько хорошо каждый из способов прогнозирует объективный внешний критерий (например, профессиональную успешность).
(с)
Berkeley Что было известно и раньше?
- То, с помощью каких именно формул проводилось статистическое объединение оценок, имеет второстепенное значение по сравнению с самим по себе фактором «статистическое - экспертное».
- Проблема возникает именно в тот момент, когда данные объединяются в сводную оценку, а не тогда, когда они собираются. В целом, люди весьма эффективны при сборе информации, но менее эффективны при объединении информации из разных источников с целью принятия итогового решения.
- Еще одно поразительное открытие, которое было сделано уже давно, заключается в следующем. Стат.модель экспертных суждений, как правило, дает более точные и последовательные оценки, чем сами суждения экспертов. Например, если изучить историю принятия решений у конкретного эксперта и на этой основе построить взвешенную сумму (определив, каким параметрам он придает большее значение, а каким меньшее), то эта формула будет прогнозировать успех оцениваемого человека точнее, чем сам эксперт, «на материале» которого она была разработана (Goldberg, 1970).
Оставались непонятными только «масштабы бедствия». Именно оценка этих масштабов и была основной целью авторов мета-анализа.
Какие провели новое исследование?
Была проведена грандиозная работа по сбору и кодированию различных исследований из разных сфер (профессиональная успешность, академические результаты). Было собрано 25 выборок из 17 исследований, опубликованных в период с 1943 до 2003 гг. Авторы тщательно выбрали исследования из нескольких полнотекстовых баз данных по ряду довольно строгих критериев. Эти критерии должны были обеспечить максимальную сопоставимость.
Общий вывод про выборку - этим данным можно и нужно доверять (детали в статье). Особенно учитывая то, что ошибки в отдельных исследованиях нивелировались самой процедурой мета-анализа (она для этого и создана).
Какие данные анализировались?
- По крайней мере один показатель взаимосвязи между статистически объединенными данными и критерием успешности (профессиональной или учебной)
- По крайней мере один показатель взаимосвязи между экспертно объединенными данными и тем же самым критерием успешности.
Все показатели характеризуют прогностическую валидность, т.е. способность статистически / экспертно объединенных оценок предсказывать критерий успешности с некоторой отсрочкой во времени.
Все показатели переводились в стандартную величину эффекта «r», т.е. привычный коэффициент корреляции.
К показателям не были применены никакие поправки на надежность, т.е. если представить себе гипотетический сценарий, в котором надежность всех методов измерения абсолютна, то различия стали бы еще более явными (кстати, такие фокусы на рынке оценки мы
встречали и не одобряем).
Величина различий оценивается авторами как значительная, особенно по отношению к критерию профессиональной успешности. В предсказании этого критерия применение статистических методов объединения отдельных оценок приводит к повышению точности более чем на 50 %.
Каковы причины?
Их две (основные). Они понятны и прозаичны.
- Искажение информации (эксперты переоценивают одно, недооценивают другое, игнорируют третье)
- Низкая согласованность оценок (между экспертами и «внутри» одного эксперта в разные моменты времени)
Подчеркнем - речь идет не о получении первичных оценок (в упражнениях центра оценки, на экзамене), а именно об интеграции данных. На этом этапе и вылезают все проблемы субъективности, предустановочности и несогласованности.
Что делать?
Это, конечно, самый главный вопрос. Отдадим должное авторам, они понимают, что полное изменение практики оценки довольно утопично из-за устоявшегося в нашем сознании доверия к экспертному мнению :). Поэтому они предлагают несколько переходных шагов, которые могут быть полезными и вместе с тем безболезненными.
- Если в оценочном проекте участвует много кандидатов, статистические методы агрегации данных могут быть использованы на всех этапах отсева кроме финального.
- Эксперты могут использовать результаты статистически агрегированных данных в качестве отправной точки в обсуждении. И при достижении консенсуса эксперты могут вносить в эти оценки изменения (в тех или иных пределах).
- Документирование причин отступления от статистически полученных данных делает такого рода решения публичными и будет способствовать исследованиям и получению экспертом богатой обратной связи.
- Лицам, принимающим решения, могут быть предоставлены оба результата. Разумеется, с обоснованием причин расхождения в случае, если оно имеется.
- Поскольку наиболее вероятная причина более низкой прогностической валидности экспертных оценок заключается в их более низкой надежности (эти оценки менее последовательны и в большей степени подвержены влиянию несистематической ошибки), имеет смысл выставлять среднее с учетом мнения всех экспертов, даже второстепенных, которые были в меньшей степени вовлечены в процесс оценки.
При этом авторы НЕ сбрасывают со счетов тот факт, что эксперты зачастую располагают очень важными инсайтами. Они узнают важные детали и нюансы, которые не вписываются в мат.модель. Но всё дело в том, что цена этих инсайтов пока что чересчур велика. Прогноз оказывается менее точным.
Ключевой вывод на перспективу - надо изучать процесс принятия решений у эксперта-оценщика. Тогда мы поймем, где слабое место, и сможем соответствующим образом выстраивать их обучение.
Напоследок авторы напоминают, что хороший тон в экспертной оценке - делать конкретные и проверяемые прогнозы относительно будущего поведения оцениваемых кандидатов. Это позволит накопить данные, даже пользуясь оценочными проектами с небольшими выборками, и сильно продвинуться в понимании процессов принятия решений экспертами-оценщиками.
Еще раз ссылка на статью:
Kuncel, N. R., Klieger, D. M., Connelly, B. S., & Ones, D. S. (2013). Mechanical Versus Clinical Data Combination in Selection and Admissions Decisions: A Meta-Analysis. Jour-nal of Applied Psychology. Advance online publication. doi: 10.1037/a0034156 (
ссылка)
P.S. Cпасибо моему наилучшему коллеге и другу Леше Попову за помощь в подготовке материала.
P.P.S. Спасибо
Филипу Ливенсу и Дейву Бартраму за наводку на статью. В первоначальном варианте
Российского стандарта центра оценки было четко сказано про приоритет экспертного подхода. После их рецензий мы уравняли в правах оба варианта (см. главу 3.2). Так что Российский стандарт - пока самый актуальный, похожие документы в Британии, Штатах и ЮАР только готовят к обновлению.