How to cheat on tests

Jun 11, 2020 11:58

Дискуссия про тесты и то, как сделать их рассово дискриминирующими, вызвала много комментариев. Поэтому запишу здесь мой ответ на вопрос "ну напишите уже хоть один вопрос который будет именно расово дискриминировать, для примера?"

Дело в том, что решение о том, дискриминаторный ли тест или нет, редко когда в наши времена исходит из того, что там есть определенные вопросы, которые "on their face" дискриминируют. В конце концов составители тестов люди умные и понимают, что им будет, если они напишут такие вопросы.

И при этом, хоть каждый индивидуальный вопрос может быть "а что такого? нормальный вопрос по математике" -- все равно можно составить дискриминирующий тест. Иногда это получается случайно. Иногда -- специально.

Вы знаете, как работают machine learning системы? Которые определяют, на картинке кошка или собака, не зная ничего про то, кто такие кошки или собаки? Они это делают на основании очень многих примеров, из которых они выводят, что если в таком-то углу у тебя такого-то рода точки, то скорее всего это кошка (это я упрощаю сильно, конечно).

Так вот и с тестами. Можно составить рассово-дискриминирующий тест даже не понимая, почему тот или иной вопрос дискриминирует.

Представьте себе, что вы -- составитель стандартного теста. Например, SAT. У вас задача -- каждый год вставлять новые вопросы, чтоб тем, кто пишет тест во 2й, 3й, Nный раз не попадались те же самые вопросы. Значит вам надо, чтоб у вас постоянно пополнялся банк вопросов. Вы нанимаете людей, пишущих эти вопросы.

Но как определить, хороший ли отдельный вопрос или нет? Вам надо, чтоб общий результат вашего теста оставался примерно репрезантативным раз за разом, а не так, что "ой, в этот раз получились вдруг сложные вопросы, и у всех результаты низкие." Даже самые опытные учителя не всегда могут предсказать сложность нового, не обкатанного, теста.

Так что составители стандартных и "проходных" тестов всегда сначала обкатывают вопросы. Например, в тех же SATs, ученикам всегда дается хотя бы одна секция, которая в результат не включается, а в которой вставлены эксперементальные вопросы для обкатывания. Студенты не знают, какие секции эксперементальные, а какие нет. Поэтому они не могут эксперементальные сделать тяп-ляп.

По результатам этой эксперементальной секции, мы можем оставлять или выбрасывать вопросы, в зависимости от того, насколько репрезентантивны на них результаты. Грубо говоря, если у нас вопрос, на который правильно ответили только 10% студентов -- выбрасываем. Или наоборот, 100% ответили правильно -- тоже выбрасываем.

А дальше интересней. Представим себе, что у нас вопрос, на который правильно ответили 75% студентов, что соответствует общим оценкам на нашем тесте. Казалось бы, значит достаточно репрезентативный вопрос и надо оставлять, правильно?

Только мы же решили, что мы с вами как вымышленные составители этих тестов, хотим устроить тест рассово дискриминирующим. Поэтому мы смотрим не просто на общее распределение правильных ответов на этом вопросе, а еще и на то кто именно правильно отвечает. Благо у нас есть данные о рассовой принадлежности сдающих тесты. И оказывается, что есть некоторые вопросы, на которые афроамериканцы отвечают лучше, чем на другие, и даже лучше, чем многие белые. То есть из правильно ответивших афроамериканцев, например, 20%, тогда как из всех тестируемых их только 15%.

Мы можем сто раз перечесть этот вопрос и не понять, почему именно на нем такая странная выборка. Что в нем такого "черного"? Но нам ведь не нужно это понять. Нам нужно дискриминировать. Поэтому мы этот вопрос просто выбрасываем. Нечего нам тут вопросы задавать, на которые "эти черные" хорошо отвечают!

Или, наоборот, может у нас есть вопрос, на который из 75% правильно ответивших, меньше одного процента афроамериканцев. Из вопроса тоже совершенно непонятно, почему так. Вроде математика как математика. Но, опять-таки, нам и неважно понимать, почему. Нам важно включить этот вопрос в следующие тесты.

И так, вуаля, вопрос за вопросом, мы в результате получим тест, на котором белые будут получать статистически выше оценки, даже при статистически одинаковом знании математики.

А при этом если кто-то будет требовать "ну напишите уже хоть один вопрос который будет именно расово дискриминировать, для примера?" -- мы можем хоть весь тест выставить, и никто не найдет, почему именно и какие из вопросов дискриминируют.

Please leave your comments here: https://angerona.dreamwidth.org/1613427.html?mode=reply

stories, polemics, current events

Previous post Next post
Up