Вот не пишешь ты в ЖЖ, не пишешь, в голове роится туча идей для постов, но после некоторого перерыва становится непонятно, а как вернуться? Про что писать? Что-нибудь программное? Личное? Начинать с извинений?
В общем, я решила никак не начинать, а просто написать: здравствуйте!
Живу я хорошо, у ребёнка волосатость повышается, у котов хвосты не отваливаются, а на прошлой неделе я даже была на конференции. На конференции было много смешного и интересного, но об одной лекции я решила написать, потому что она меня поразила до глубины души.
Во многих стандартизированных тестах по всему миру есть часть, в которой нужно выполнить какое-нибудь письменное задание - иногда полное сочинение, иногда краткий анализ, вариантов есть много. Есть такие части и в ЕГЭ по русскому, английскому и обществознанию, например. А около года назад такая часть появилась и в психотесте. Понятно, что такие задания проверяются живыми людьми. И общепринятая система во всех знакомых мне экзаменах такова, что экспертов всегда двое, потому что живым людям свойственно ошибаться. Оценка вычисляется просто - делается среднее арифметическое между двумя оценками.
А вот дальше начинается разнобойчик. В части экзаменов считают среднее и всё. А в части экзаменов (в том числе в ЕГЭ и на психотесте) ещё проверяется разница между этими оценками, и если она больше определённого порога, то привлекается третий эксперт. Третий эксперт ставит оценку и потом эта третья оценка сравнивается с двумя предыдущими. Та оценка, к которой ближе оценка третьего эксперта, остаётся, а та, которая дальше - выкидывается, и для получения конечного балла делается среднее из двух оставшихся оценок. Эта система принята во всех известных мне западных, израильских и российских экзаменах, в которых есть третий эксперт.
Это была присказка, а вот дальше начинается настоящая сказка. Дядечка, который давал лекцию на конференции, решил проверить, а насколько хороша эта система. Сначала они сделали компьютерную симуляцию. Сделали большой пул "сочинений", настоящая оценка за которые была заложена в программу, а также заложили оценки экспертов с разными разбросами. Симуляция брала сочинение, рэндомально брала для него пару оценок, а дальше шла по алгоритму - проверяла разницу между оценками, если надо, привлекала третьего эксперта и считала конечную оценку по разным моделям. Так как настоящая оценка по сочинению была известна (заложена в симуляцию), можно было посчитать уровень ошибки посчитанной оценки.
Самая плохая оценка (содержащая самую большую ошибку по сравнению с настоящей) была в случае, если брали просто оценку одного эксперта, что логично. А вот дальше пошли интересные результаты. Следующая по "худшести" оценка получилась именно при той системе, которая общепринята и звучит очень логично - третий эксперт+выбрасывание выбивающейся оценки. Намного лучше получалось, если всё делалось ровно наоборот - после проверки третьего эксперта выкидывалась та оценка из двух, которая ближе к третьей оценке. Ещё лучше была ситуация, при которой просто делалось среднее арифметическое двух оценок, вне зависимости от разброса между ними. И ещё лучше, что не удивительно, было делать среднее просто трёх оценок, ничего не отбрасывая.
Эти удивительные результаты, которые никак не сочетаются с интуитивными предположениями, было решено проверить на настоящих сочинениях с настоящими проверяющими экспертами. И реальные проверки показали ту же картину с почти теми же самыми числовыми значениями ошибок при каждой системе подсчёта.
Возможное объяснение этого феномена было предложено следующее: при проверке живым человеком ошибка практически неизбежна. Существующая система исходит из предположения, что если есть две сильно различающиеся оценки, одна из них ближе к правде, а другая неправильная. На самом деле, чаще всего ошибаются оба эксперта, просто в разные стороны, поэтому среднее между ними даёт самый адекватный результат. В случае же отбрасывания стоящей отдельно оценки среднее делается между двумя ошибочными оценками, но при этом они ошибаются в одну сторону, что увеличивает ошибку в конечном балле.
Вот так-то, малятки. А психотест и ЕГЭ так и продолжают проверять по старой системе, и никто менять это не собирается.
Кстати, вопрос на засыпку. Как вы думаете, каким образом исследователи сделали свои подсчёты на настоящих сочинениях, ведь настоящая оценка там неизвестна?