Валидность теста (или история о том, что нужно читать написанное мелким шрифтом) : assessment

assessment_ctr

Валидность теста (или история о том, что нужно читать написанное мелким шрифтом)

Oct 08, 2013 14:03

У меня есть давний интерес к российскому рынку психодиагностики/психометрики. В свое время даже обзорную статью по сабжу подготовил, по-моему она до сих пор не потеряла актуальность.

Сегодня хочу поделиться одним интересным наблюдением, иллюстрирующим текущее состояние рынка. Сразу предупреждаю: (1) я буду ёрничать; (2) всё изложенное ниже моё ИМХО как частного лица, интересующегося темой.

Итак, в России продолжают появляться крупные и мелкие международные игроки. И это здорово! Некоторое время назад состоялось второе пришествие британского Saville Consulting, которого в России теперь представляет Formatta. И производитель, и дистрибьютор очень искусно ведут бизнес, в том числе нажимая на самую больную точку всех оценочных технологий - на валидность. Настал наконец-то такой момент, когда вокруг этого можно попробовать выстроить пиар (и это тоже клёво!).

Питер Сэвилл умеет делать качественный продукт,тут ничего не скажешь. В анамнезе у него вся продуктовая линейка SHL (версии до 2000 года). И с маркетингом у него тоже всегда было ОК. Тот же SHL, будучи публичной компанией, кормит акционеров бутербродами с икрой, давно и стабильно.

Теперь собственно к сабжу - к их продукту Wave и его фантастической валидности 0,57, которую обещает производитель (пруфф). Wave - это в сущности отличный апгрейд и аналог счловского OPQ. Есть своя универсальная модель компетенций, к этой модели компетенций привязан опросник. Сама модель и опросник во многом повторяют "Большую восьмерку" SHL.

Итак, валидность 0,57 - это очень круто. Особенно для опросника, где валидность выше 0,3 очень большая и необычная редкость. Это какбэ наводит на мысль почитать про тему подробнее.

На сайте российского дистрибьютора инфы нет, поэтому идем к Сэвиллу и ищем тех.отчеты по Wave (они обязательно должны быть, это общеевропейский стандарт EFPA). После возни с регистрацией находим нужный документ и читаем. Мануал к тесту внушительный, несколько томов. Видно, что работало много людей и работали они долго. Данных набрали очень много, хотя количество не всегда переходит в качество. Не вдаваясь в подробности, опишу несколько ключевых выводов по прочтении:

Технического мануала для русскоязычной версии нет (или он не доступен). Из этого можно сделать вывод, что адаптация российской версии пока в процессе (правда коммерческое использование тоже в процессе)
Исследование валидности к опроснику имеется. То самое, в котором получилось 0,57. Но дальше следим за руками.
Проводилось исследование с помощью британской версии опросника и на британской выборке (300 чел.)
Делалось буквально следующее: взяли группу в 300 человек, дали им много опросников (Большую пятерку, Кетелла, OPQ, Wave и др.). Затем дали руководителям этих людей заполнить экспертный опросник, в котором надо было оценить людей по параметрам из модели Wave (!). Затем посчитали среднюю корреляцию между шкалами опросников и параметрами этого экспертного опросника. Для Wave она оказалась самой высокой. Это корреляция 0.57 - та самая цифра, которую они приводят как валидность.

Соответственно, к прочитанному возникает несколько комментариев:

То, что это самая высокая корреляция, не очень удивительно, учитывая, что оценка руководителями проводилась по модели Wave и опросник построен по модели Wave, а другие опросники не построены по модели Wave )))
Это корреляция, скорректированная на ненадежность. Есть такая сугубо статистическая процедура: смотрим, что будет с валидностью, если предположим, что надежность у опросника 1. Такой надежности не бывает - это просто попытка посмотреть, как бы всё смотрелось в "чистом виде". Традиционно во всех публикациях используется обычная корреляция, а не скорректированная. А обычные корреляции (без этой статистической поправки) у Saville вполне даже обычные для опросников - в районе 0.2 - 0.3.
Вся инфа о валидности основана на одном исследовании, в котором участвовали 300 человек. Все остальные огромные выборки, которые приводятся в тех.отчете, участвовали только в уточнении норм, но не в исследовании валидности.
Данное исследование было проведено в 2008 году в Британии, то есть данные несвежие и никакого отношения не имеют к российской версии опросника. А, как известно, перевод опросника - это как перевод поэзии, нужно сделать фактически новый опросник. Свежесть исследований также важна, потому что опросники чувствительны к изменениям в социуме (см. отличный комментарий по этому поводу в статье Шмелева "Каша из топора")

Вывод: нажатие на "болевые точки" пока что выглядят немножко как развод не очень просвещенной и ленивой до информации публики. Важно и нужно выстраивать пиар оценочных технологий вокруг их качества, но сначала нужно немножко разобраться с этим самым качеством. Что оно такое и как его измерить? И публике объяснить. А то получается как в анекдоте про Петьку с Василий Иванычем про приборы и "17".

Получается, что рынок уже готов потреблять инфу про валидность (и это гуд), но что это такое конкретно, пока ни для кого не имеет значения... Магия цифр, и всё на мази. Нужно с этим что-то делать.

Я искренне надеюсь, что у ребят хватит смелости и денег провести российский ресерч. Это правда сложная задача, особенно в отношении опросников. Но до этого времени я бы порекомендовал несколько поубавить пыл и подписать, что это 0,57 означает (ну или вообще убрать это до поры).

P.S. Друзья, требуйте от производителя:
1. Исследования качества их инструментов
2. Проведенные на российских выборках с помощью российских инструментов
3. Свежие и честные данные о валидности и надежности
4. Тех.мануал, в котором подробно описано всё про п. 1-3
5. Ну и рекомендую ожидать от производителя критичности и скромности в отношении своих методик - психологи пока еще только учатся делать качественные продукты.

UPD1 (декабрь): на сайте владельца российской франшизы появились три магические звездочки рядом с блоком про надежность и валидность (ссылка). Что эти звёздочки означают, пока загадка - пояснения к ним отсутствуют. Будем надеяться, что пояснение скоро появятся

валидность, холивар, психометрика, тесты