В догонку к вчерашней записи о влиянии формулировок на выполняемость задач

May 17, 2018 15:17




Небольшая добавка к вчерашней записи, где я начал проверять основы основ джедайских техник.

Во-первых нахрена это все?
Дело в том, что я тут типа развиваюсь, пересматриваю свое отношения ко многим (даже к казалось бы, привычным) вещам. Плюс к этому, я занимаюсь не только развитием самого себя в плане личной эффективности, я занимаюсь личной эффективностью профессионально - то есть за деньги учу этому других людей. Но люди-то все разные! И в моей кратине мира это накладывает дополнительные обязательства по проверке того, о чем я с такой уверенностью рассказываю людям и пишу в книгах.

Это как если бы вы всю жизнь готовили для своей семьи, и тут решили бы открыть свое собственное кафе (например, в детском саду), куда будут приходить люди с разными (порой странными) предпочтениями, со всякими (порой) внезапными аллергиями, с разной переносимостью (или непереносимостью) тех или иных продуктов. Если что-то хорошо работало для вас и вашего близкого окрудения, не факт, что оно не навредит кому-то еще.

Даже если я сам верю в логичность того или иного правила, если проверил его на самом себе - это еще не дает мне права настоятельно его всем рекомендовать (вот моя любимая история для иллюстрации этой позиции).

Потому и проверяю. Еще раз: когда вы готовите самому себе, со всем этим заморачиваться не надо. Вы быстро на опыте поймете, что вам хорошо, а что плохо и будет счастье. А заморачиваться надо тогда, когда вы начинаете готовить для других!

Это раз...

Дальше. В предыдущей заметке много было замечаний про примитивность критерия проверки правильности формулировки задачи. Действительно: всего две последние буквы первого слова, чезанах?!!!

Я сейчас проделал следующее:
  1. Сделал выборку из 300 рандомных задач
  2. Руками, вдумчиво дал им оценку, как будто бы я коучил этого человека
  3. Прогнал свой критерий "-ТЬ и -ТИ"
  4. Сделал матрицу и посчитал хи-квадрат Пирсона


Chi-square (Observed value)
57,539

Chi-square (Critical value)
3,841

DF
1

p-value
< 0,0001

Это (p < 0,0001) говорит о наличии ОЧЕНЬ значимой зависимости между моей оценкой и оценкой примитивным критерием. ОЧЕНЬ значимой, даже с учетом того, что писал Талеб про косяки с определением p-уровня значимости (кстати, кто-нибудь сможет понять именно ход мыслей Талеба? Там с моей точки зрения то, что у нас называли "алгебраический джихад").

Далее смотрим сводные таблицы







Формула забраковала
Формула одобрила
Total

Макс забраковал
72,368
27,632
100,000

Макс одобрил
24,000
76,000
100,000

Total
36,21262
63,78738
100

Смотрим, что среди тех, что я забраковал, чуть больше четверти формула все-таки одобрила (всякие "понять как устроен мир" и "построить дом").
И среди тех, что я одобрил чуть меньше четверти формула забраковала (там, где в начале идет какой-то префикс, а потом глагол или задача на английском).

Теперь смотрим, в какую сторону и как ошибается примитивный критерий:







Формула забраковала
Формула одобрила
Total

Макс забраковал
50,459
10,938
25,249

Макс одобрил
49,541
89,063
74,751

Total
100
100
100

Среди того, что одобряет формула, я забраковал только 10%, а среди того, что она забраковала, я одобрил половину!

Это значит, что выводы из предыдущего поста - это оценка снизу, то есть, в реальности формулировки связаны с выполняемостью сильнее, чем я обнаружил. То есть, этот кусок джедайских техник вроде может добавить себе немного в плюс к уровню доверия (кстати, есть те вещи, которые наоборот - опроверглись, но об этом позже).

И да.... По поводу выборки в 300 задач... По всей выборке из задач формула одобрила 63,67% задач. В выборке из 300 задач она одобрила 63,78% задач. Ну типа репрезентативненько... Ну на первый взгляд...
Previous post Next post
Up