О вероятности редких событий

Apr 07, 2021 15:46

Среднее без дисперсии - это число, по которому в общем случае нельзя сделать никаких выводов. Но часто служит оно для того, чтобы сделать выводы произвольные.

Впрочем, это не единственный способ масштабных поставок лапши на уши. В том числе, и людям, которым кажется, что если тут циферки, да ещё и полученные по результатам измерений, то теперь всё научно и всё доказано.

Предположим, есть некоторое событие, которое имеет «реальную частоту» равную 1/100. То есть, если бы мы имели возможность, например, отсмотреть всех людей планеты, то у 1/100 из них обнаружилась бы штука Икс.

Реальная же дисперсия у этой штуки, я не знаю, 0,00001. Очень маленькая, в общем.

Теперь мы выбрали группу из ста пациентов для исследования, целый месяц совершали над ними пассы и окропляли святой водой, а потом обнаружили, что двое из них имеют штуку Икс.

Сто пациентов - это неплохо так. Многие исследования проводятся и на меньших группах.

А 2/100 - это вдвое больше, чем 1/100.

Значит ли это, что пассы и святая вода аж вдвое повышают вероятность заполучения Икс? Не случайное ли это совпадение?

Нет, что вы, совсем даже не случайное. Напротив, это - закономерное совпадение.

Дело в том, что вероятность в таких условиях получить ровно 1/100 примерно равна 0,37.

Поскольку для получения 1/100 из ста пациентов ровно один должен словить Икс. Если словят двое, то это уже будет 2/100, а если 0, то вообще 0/100.

При этом мы не можем пронаблюдать полпациента с Икс или, скажем, полтора пациента с Икс.

То есть наш случай - дискретный, а его вероятность близка к частоте дискретизации,

Иными словами, для этого эксперимента событие - достаточно маловероятное, чтобы ситуация, в которой будет получена равная его «реальной вероятности» частота, оказалась менее вероятной, чем ситуация, где она получена не будет.

С вероятностью 0,37 мы получим одного иксоносца, а с вероятностью 0,63 - не одного. Иными словами, то, что мы пронаблюдали: «не 1» - это как раз наиболее вероятный исход. Вдвое более вероятный, чем исход, который даст реальную частоту.

Имей мы миллион пациентов, возможно, мы бы уже догадались, что получить ровно десять тысяч пациентов с Икс, всё-таки довольно проблематично. Скорее всего, их будет не ровно десять тысяч, а что-то около десяти тысяч. После этого мы бы установили доверительный интервал - плюс-минус сто, например, посчитали бы вероятность случайно промахнуться мимо него и так далее.

А может быть и не посчитали бы. Но вот, когда в штуках, а не в тысячах оных, это почему-то постоянно проходит мимо критического фильтра, и делается вывод вида: без нашей штуки Икс был в одном случае из ста, а с ней - в двух случаях из ста. Таким образом, наша штука повышает вероятность Икса в два раза - экспериментально доказано!

А потом прочитавшие это умозаключение, снабжённой экспериментально измеренной, а потому научной и хорошо обоснованной, пропорцией «в два раза», идут нести знания массам других заинтересованных.

В общем, я бы предложил для вменяемой популяризации необходимый критерий: если популяризатор не сообщил слушателям, каким образом получено некоторое число, то есть не расписал способ постановки эксперимента и необходимые для его анализа параметры, то это была не популяризация, а Рен-ТВ с косметическими изменениями в риторике.

Названное число означает столь же много, сколь на ровном месте оглашённый вывод: ничего не означает.

Между «от около десяти тысяч штук до около двадцати тысяч штук» и «от одной штуки до двух штук» почти одинаковая численная разница: в два раза. Но вот смысловая разница радикальная: «мы пронаблюдали некую закономерность» vs «мы пронаблюдали хрен знает что».

Однако диагностировать эту разницу по оглашённому единственному числу точно так же невозможно, как и по оглашённому в сферическом вакууме выводу.

doc-файл

контрманипуляция сознанием, статистика, наука, философия

Previous post Next post
Up