Что такое условная вероятность

Jun 01, 2024 09:56


Убивать, убивать, убивать! (© Миша Вербиша)
Я давеча попросил помощи зала - привести пример дурацких ошибок, которые можно сделать, решая "элементарные" задачи по теории вероятностей. Увы, большая часть респондентов привела примеры известных "парадоксов" (парадокс Монти Холла, который даже не особенно парадокс, и парадокс с двумя конвертами).

Но провидение помогает тем, кто ищет. Ищите, и обрящете! И вот я неожиданно обрёл: пост неизвестного мне boldoggа с задачей по теорверу для 9 класса и под за шесть сотен комментов к нему. Начнём с задачи в "авторской редакции".
❝Есть шесть контейнеров в каждом из которых лежит по два пирожка. В двух контейнерах оба пирожка с яблоками. В трёх контейнерах один пирожок с яблоками, а второй с малиной. В одном контейнере оба пирожка с малиной.

Наугад выбрали один из контейнеров. Один из пирожков в нём оказался с яблоками. Найти вероятность того, что и второй пирожок в нём с яблоками.❞
По словам автора, ответ равен 4/7, но он не понимает, как его получить. Кажется, первым в серии 600+ комментов исчерпывающий разбор задачи провёл __gastrit. Мне остаётся лишь to place his few lines into a selected context.

Это типичная ("типовая"?) задача на т.н. "условную вероятность". Понятие "условной вероятности", я подозреваю, специально придумано было для того, чтобы запудрить мозги, ещё в ту эпоху, когда само понятие вероятности было математически не определено, and for good reasons (см. наметки дискуссии здесь). Поэтому самое правильное решение подобных задач см. в заголовке поста (решение принадлежит Мише Вербицкому). Аксиоматика ТВ была предложена А. Н. Колмогоровым в 1933 году, почти сто лет назад, и с тех пор стала общим местом, поэтому я исхожу из того, что читатели согласны ей пользоваться.

Повторю азы, "стоя на одной ноге".
  1. В основе всего лежит ненаблюдаемое "вероятностное пространство" Ω, состоящее из "элементарных событий". Это обычно гигантское пространство, не просто бесконечное, а даже более чем счётное, но нам до этого нет дела. Важно, что среди всевозможных подмножеств Ω (число которых даже ещё больше, чем число элементов Ω) выделена некая "подалгебра" ℱ, называемая событиями. Эта подалгебра замкнута относительно объединений и пересечений, соответствующих союзам "или" и "и", связывающим наступление событий. Чтобы теория была красивая и полная, надо рассматривать бесконечные, но не слишком большие (счётные) объединения и пересечения.
  2. На алгебре ℱ определена (счётно)-аддитивная мера Р, (вероятность), сопоставляющая каждому событию число А∈ℱ  число Р(А) ∈ [0,1]. Аддитивность означает, что вероятность объединения попарно непересекающихся событий равна сумме вероятностей отдельных событий (сумма бесконечного ряда, если объединение бесконечно).
  3. Вероятность нормирована условиями  Р(∅) = 0, Р(Ω)=1.
Если все эти начальные данные заданы, то возникают типовые задачи следующего вида: известно, чему равны вероятности некоторых событий из алгебры ℱ, требуется, пользуясь перечисленными аксиомами, найти вероятности каких-то других событий из этой алгебры.

Тем не менее ни в одном задачнике по ТВ таких формулировок вы не найдёте. Вместо этого будут какие-то данные про то, сколько есть контейнеров с разным содержимым (в традиционной терминологии используются "урны" и разноцветные шарики), что известно про то, как эти шарики разложены по урнам и спрашивается что-то про вероятность какого-то события. От ученика требуется самому построить вероятностное пространство Ω, определить на нём нужные события и провести нужные вычисления.

Но подобная формулировка всегда неполна. Дело даже не в том, что одной и той же "текстовой" задаче могут соответствовать разные вероятностные пространства, какое-то побольше, какое-то поменьше (см. ниже). Проблема в том, что вероятность Р почти никогда не бывает определена явно. Вместо этого составители задач предпочитают говорить о том, что "что-то выбирается случайно". Надеюсь, разницу между "случайный" и "равновероятный" понимают все, кто улыбнулся, в первый раз услышав анекдот про блондинку, динозавра и 1/2?

Пример. В урне лежит 10 чёрных и 20 белых шариков. Наугад выбирается один. Какая вероятность, что он окажется чёрным? Любой ученик, не задумываясь, ответит, - 1/3. А почему, собственно? Потому, что слово "наугад" он приучен толковать вполне определённым образом и не задумывается над точным смыслом. А каков точный смысл? Ну, например, вот такой.

Пространство Ω построим из 30 ралзичных точек (неделимых элементов). Неделимый элемент с номером i = 1,... 30 состоит в элементарном событии "выбран шарик с номером i".  Каждой такой "точке" приписана равная вероятность (за исключением цвета, который мы не видим сквозь стенки урны, все шарики одинаковы). Проверяем: сумма одинаковых слагаемых 1/30 числом 30 штук равна (вот сюрприз!) как раз 1. Событие А означает подмножество из 10 вполне определённых шариков (покрашенных в чёрный цвет), событие В - подможество из 20 белых шариков [Заметим...] (заметим, что мы отнюдь не предполагаем никакой связи между цветом и номером шарика! Существенно только знание того, что шарики различны, т.е., мы их не спутаем друг с другом, и что общее число шариков каждого цвета фиксировано). Вероятность Р(А) по акссиоме аддитивности [причём тут она?] (не зря же мы предполагали все шарики различными! одноточечные элементарные события не пересекаются!)равна (1/30)⋅10=1/3. Проверяемся: события А и В очевидным образом не пересекаются, и А ∪ B = Ω и P(A) + P(B) = (1/3) + (2/3) = 1 по всем правилам.

Вопрос. А кто нам сказал, что вероятность события "один шарик" (любой) равна 1/30? Ответ: никто. Более того, в реальной жизни это может быть не так. Предположим, что шарики чуть разных размеров. Тогда (из бытового опыта) известно, что если потрясти урну хорошенько, более крупные шарики соберутся сверху, а более мелкие - снизу. Поэтому, выбирая "случайный" шарик, мы выберем более крупный шарик с чуть большей вероятностью. Что делать в такой ситуации? Ясно, что шарики (элементарные события) теперь имеют разную вероятность появиться на свет. Сохранит ли силу наше решение?

Может быть сохранит. А может, и нет. Всё зависит от того, кто красил шарики и "заряжал" урну. Предположим для простоты, что шарики бывают только двух размеров, "большие" и "маленькие" (разница неуловима на ощупь, но даст себя знать, когда мы будем трясти урну). Связан ли цвет шарика с его размером? Может быть да, а может, и нет. Например, если все большие шарики чёрные, то вероятность вытащить чёрный шарик будет больше одной трети. А как формализовать утверждение о том, что цвет и размер шарика независимы?

Пример. Предположим, что в нашей урне 6 больших шариков и 24 маленьких (цифры "подобраны", чтоб избежать конфуза с нецелыми числами, см. пример с пирожками ниже).  "Независимость цвета от размера" означает, что пропорции соханяются: из 6 больших шариков треть (т.е. 2) чёрные и 2/3 (соотв., 4 шара) белые. В той же пропорции надо раскрасить маленькие шары (8 и 16 соответственно). Как изменится ответ в нашей задаче про цвет случайного шарика?

Сначала посчитаем ответ в (неправильном) предположении, что вероятность вытащить большой и маленький шары одинакова. Тогда у нас есть 4 группы шаров, 2 больших чёрных, 4 больших белых, 8 маленьких чёрных и 18 маленьких белых. Вероятность события "один шарик" по-прежнему равна 1/30, и шанс, что он будет чёрным, равен 2/30 + 8/30 = 10/30 = 1/3. Ничего удивительного. Задачу можно "перевернуть", спросив, какая вероятность вытащить большой шарик. Ответ равен 2/30+4/30 = 6/30 = 1/5. Маленький шарик выпадет с вероятностью 4/5.

Но теперь представим себе, что вытащить большой шарик больше, чем вероятность вытащить маленький. Это значит, что вероятность вытащить большой шарик равна 1/30 + ε с каким-то положительным ε > 0 (физики может и знают, с каким; для нас важно, что это число одинаково для всех больших шаров и не зависит от их цвета). Чтобы сумма не изменилась, вероятность вытащить маленький шарик должна быть меньше 1/30, те. равна 1/3 − δ с каким-то положительным δ > 0. Верно ли, что ε = δ? Ответ: нет. Не должна измениться только суммарная вероятность P(Ω) вытащить хоть какой-нибудь шарик, которая равна (по аксиомам, конечно) 6⋅(1/30 + ε) + 24⋅(1 − δ) = 1 + 6ε − 24δ. Во избежания двусмысленности: здесь умножение используется лишь как сокращение суммирования одинаковых членов, ничего личного. Иными словами, поправка ε должна быть вчетверо больше, чем δ, иначе наша схема рухнет.

Теперь осталось посчитать вероятность того, что мы достанем один из двух больших или из 8 маленьких чёрных шариков. Вероятность такого события равна 2⋅(1/30 + ε) + 8⋅(1/30 − δ) = 2⋅(1/30 + 4δ) + 8⋅(1/30 − δ) = 10/30 + 8δ − 8δ = 1/3.

Отойдите на шаг назад и помедитируйте: это чудо? случайное совпадение? Или мы так специально "зарядили колоду", пользуясь шулерской терминологией?

Правильный ответ, как ни странно, - последний. Имея набор шариков двух размеров и крася их в два цвета, мы целенаправленно раскрашивали большие и маленькие шарики. Из условий первого примера следует, что треть шаров должна быть чёрной, а две трети - белые. Когда в условия добавили неравенство, что шары могут быть большими или маленькими, мы костьми легли, чтобы треть больших шаров были чёрными, а две трети - белыми, и то же самое про маленькие шары.

Эгалитаристы среди нас спросят, а чего это цвету такое предпочтение перед размером? А ни с чего. Если число больших шаров 6, а маленьких 24, то есть отношение один к четырём, то можно красить так, что и чёрные и белые шары распределятся между большими и маленькими в той же пропорции.

Чему нас учит этот пример, спрашивает реб Хухем в полном согласии с национальной традицией? И в таком же согласии с ней отвечает.
  1. Выбор пространства элементарных событий Ω должен явно присутствовать в постановке задачи, иначе она недоопределена. Если, как это всегда бывает в "школьных" задачах, Ω - конечное множество, в условиях задачи должно (может и неявно) участвовать распределение вероятностей на подмножествах из Ω. В 99% случаев употребление слова "случайный" указывает на то, что вероятность на пространстве Ω равномерно распределена, т.е., если там n элементов, то вероятность, приписанная каждому элементу, равна 1/n. Ахтунг: дополнительные условия, фигурирующие в особенно злоебучих задачах, несовместимы с равномерным распределением среди элементарных событий.
  2. Пример с разноразмерными шариками, которые имеют разную вероятность быть выбранными, если сунуть руку в урну - хороший пример того, как на пространстве Ω может "сидеть" не равноразложенная мера. Что не мешает решать задачи.
  3. Бывают события, которые "независимы" друг от друга. Пример см. в примере, где такая независимость была специально подстроена. Большие и маленькие шары в урне смешаны в пропорции 6:24 = 1:4. Чёрные и белые шары смешаны в пропорции 10:20 = 1:2. Тридцать - удобное число с большим числом делителей, поэтому и треть от пятой части, и пятая часть от трети - целые числа, что облегчает вычисления. Но главный пафос независимости событий А = (достали чёрный шар) и В = (достали большой шар), а также всех остальных комбинаций, - Р(АВ) = Р(А)⋅P(B).
Определение независимости событий А и В через вероятность их одновременного случения/наступления - ключевой момент теории вероятности. Почти все теоремы ТВ относятся к вероятностям, так или иначе относящимся к независимым событиям.

Пример. Бросаем идеальную монету, и считаем вероятность выпадения серии из n орлов. Каждое бросание описываем нулём или единицей (на выбор), соответственно, серию из n бросаний (последовательность из n нулей и единиц) считаем элементарным событием. Если считать бросание одной монеты случайным событием на пространстве {0,1} с вероятностью 1/2 принимающей каждое из значений, то на пространстве {0,1}n в предположении независимости возникает равномерное распределение вероятности, приписывающее каждой такой последовательности величину Р равную (1/2)n. Вам хочется узнать, какова вероятность, что орлов будет на 5 больше, чем решек? Флаг вперёд, выпишите все 2n возможных вариантов, считая их равновероятными, сосчитайте, в скольких из них орлов будет на 5 больше, чем решек, и умножьте на вероятность каждого такого исхода (1/2)n. У вас сломался калькулятор при n = 1000? Мы идём к вам на помощь.

Revenons a nos moutons. Что делать в задаче с "контейнерами" и "пирожками"? Фраза наугад выбрали один из контейнеров в соответствии с блядской традицией трактуется однозначно, что выбор был равновероятный. Как построить в данном случае вероятностное пространство? Есть шесть контейнеров (урн), их содержимое маркировано сочетанием букв Я и М. Два контейнера ЯЯ, в трёх ЯМ, в одном ММ. Если "наугад" трактуется как "равновероятно", то мы имеем пространство шести элементарных событий, перечисленных выше. Каждому приписана вероятность 1/6, так что ЯЯ будет выбран с вероятностью 2/6 = 1/3, вероятность ЯМ - 3/6, т.е., половина, вероятность ММ - 1/6. Событие А состоит в том, что выбран ЯЯ, событие В - что выбраны ЯЯ или ЯМ. Имеем А = АВ (поскольку А ⊆ В).  Условная вероятность Р (А | B) = (1/3):(5/6) = 2/5. Всё? Нет, не всё. Мы сконструировали пространство Ω элементарных событий из 6 элементов и "посадили" на нём вероятность, глядя только на то, сколько контейнеров какого типа предлагаются на выбор. Но это не единственное прочтение задачи.

Какое допущение мы при этом сделали неявно? Допущение спрятано в слове "оказалось" из предложения
❝Один из пирожков в нём [контейнере] оказался с яблоками. ❞
Есть два варианта истолковать это "оказательство".
  1. Во-первых, можно предложить, что мальчик (Вася), которому (мама) принесла коробки с пирожками, играет с ведущим (нет, мама на эту роль не годится, она Васе будет подсуживать). Вася показал пальчиком на коробку, а ведущий ему с каменным лицом говорит: в коробке есть хотя бы один пирожок с яблоками.
  2. Вася вскрывает коробку, выбирает один из пирожков и надкусывает его. Пирожок оказался с яблоками.
Разные ли будут задачи? Оказывается, что разные. В первом случае (если предположить, что Вася поймёт точный смысл высказывания "в коробке есть хотя бы один пирожок с яблоками", что вовсе не очевидно) ведущий сообщил Васе дополнительную информацию, сводящуюся в конце концов к одному биту: твой выбор - не ММ. Во втором случае ведущий ничего Васе не сообщает (тот всё делает сам), но предполагается, что ведущий знает правила игры, в частности, каким именно образом Вася выбирает один пирожок из двух, лежащих в коробке, и может воспользоваться этим знанием, чтобы подыграть Васе или, наоборот, понизить его шансы.

Как обнаружили внимательные читатели boldoggа, формулировка условия выше оказалась "слегка" перевранной. Вот "правильная" постановка задачи (см. ещё про враньё):
❝Мама купила несколько упаковок по 2 пирожка каждая. Две упаковки, где лежали 2 пирожка с яблоками, три упаковки одна упаковка, где лежали 2 пирожка с малиной, и одна упаковка три упаковки, где лежали пирожок с малиной и пирожок с яблоком. Все пирожки выглядят одинаково. Вася выбрал одну упаковку и откусил первый пирожок. Он оказался с яблоком. Какова вероятность, что второй пирожок тоже окажется с яблоком? ❞
Казалось бы, никакой разницы нет. Но указание на то, что Вася съел первый пирожок, означает, что пирожки в коробках упорядочены, и ещё до первого надкуса известно, какой первый, а какой второй (например, один пирожок побольше, а другой поменьше). Поскольку нам ничего не известно, нам остаётся только предположить, что упорядочение (расчёт на первый-второй) не зависит от содержимого коробки. В частности, три коробки ЯМ надо разделить на две равные группы: в одной лежит ЯМ, в другой - МЯ. Поскольку три не делится пополам, мы видим, что пространство из 6 элементарных событий слишком мало, чтобы рассадить на нём требуемые вероятности (см. замечание про число 30 выше). Невооружённым взглядом видно, что достаточно удвоить число элементарных событий до 12, соответственно удвоив числа коробок: 4 коробки ЯЯ, 6 коробок ЯМ (поделенных поровну, три ЯМ и три МЯ) и 2 коробки ММ. На каком основании мы считаем, что ЯМ и МЯ представлены равным числом коробок (три)? Да ни на каком! Это из серии тех предположений, что делаются от безденежья, - если числа не равны друг другу, то нам бы об этом сказали...

Но продолжим считать. В этом прекрасном новом мире событие А по-прежнему ЯЯ (4 элементарных события), а вот В изменилось: теперь это 4 коробки ЯЯ и 3 коробки ЯМ, итого 7 вариантов. По-прежнему АВ = А, и для условной вероятности имеем  Р (АВ)/Р(В) = (4/12):(7/12) = 4/7.

Чему нас учит этот пример, спрашивает реб Хухем в полном согласии с национальной традицией? И в таком же согласии с ней отвечает. "Словесные" формулировки задач, особенно про условную вероятность, никогда не бывают полностью аккуратными. Ученик, знакомый с аксиоматикой, всегда может сказать учителю, - ара, я твой русския язык не понимаю. Хочеш, чтоб я тебе пасчитал какой-то вероятност - напиши мне вероятностное пространство и задай на нём меру хотя бы на элементарных событиях. А потом опиши мне, в чём состоят интересующие тебя события, а я уж тебе и вероятность совместного случения посчитаю, и условную вероятность, я складывать и умножать-делить умею с третьего класса!

Конечно, пафос задач такого рода - не в умении складывать, умножать и делить, а именно в умении конструировать события (неэлементарные) на основе их "бытового" описания. Скажем, задача в первой формулировке не нуждается вообще в спуске до уровня Ω: утверждения, что Р(ЯЯ) = 1/3, Р(ЯМ) = 1/2, Р(ММ) = 1/6 очевидны в той же мере, как "ответ" в самой первой задаче про 30 = 10 + 20 чёрных и белых шаров. Вопрос о том, как определяются события А (искомое) и В (известное условие) уже не так очевиден. Он был бы более очевиден, если бы Вася, выбрав коробку, взял из неё не заранее обговорённый ("первый", бо́льший пирожок), а бросил бы монетку и выбрал для дегустации пирожок наугад. В противном случае, если места в коробке пронумерованы, мы могли бы представить себе лабораторного ассистента, готовившего эксперимент, злонамеренным: зная, что Вася возьмёт первый пирожок, ассистент мог бы на первое место во всех коробках ЯМ положить Я. Очевидно, что это повлияло бы на результат эксперимента, а поскольку условие задачи ничего не говорит нам про такое жульничество, то и ответа быть не может. Ответ существовал бы, если бы было известно, что ассистент тоже бросал монетку и укладывал пирожки случайным образом, каковое предположение мы и сделали по умолчанию. Поэтому мы считаем, что вероятность Р(ЯМ) = Р(МЯ) = (1/2):2 = 1/4, и дальше возимся только с простыми дробями (вычисления, разумеется, будут те же). При таком подходе независимость расчёта на первый-второй внутри коробки и содержимым пирожков надо проговаривать явно, иначе деление пополам останется необоснованным.

Психологический комментарий.  Понятие условной вероятности контр-интуитивно. Нормальный язык трактует Р (А | B) как ситуацию "эксперимент проведён, В наступило, какая вероятность наблють А?". Но после того, как эксперимент уже проведён,  никаких вероятностей не остаётся! Бессмысленно спрашивать, какова вероятность орла, когда орёл уже выпал. Васины переживания в задаче с яблоками и малиной - в пользу бедных: он уже выбрал свою коробочку, а уж повезло ли ему (если он яблоки любит больше, чем малину) или нет, - вопрос не к маме и не к нам. Знание условной вероятности будет иметь смысл в такой ситуации: много раз независимо разыгрываются события А и В, и мы считаем частоту А, отбрасывая в сторону результаты, когда В не произошло; сколько каких результатов будет, можно предсказать лишь с определённой вероятностью, в то время, как апостериорное знание "В наступило" детерминистское.

Так что никакого глубокого смысла в формулу Байеса "вчитывать" не надо. Условная вероятность всего лишь удобный измеритель того, насколько события А и В далеки от независимости. В случае полной независимости P(A) = P(A | B), P(B) = P(B | A). В других случаях условная вероятность может и вырасти (тогда говорят о положительной корреляции), и уменьшиться (отрицательная корреляция).

Второй дисклэймер. Вероятностное пространство Ω так, как его описывает колмогоровская аксиоматика, - ненаблюдаемая часть. Формально оно своё для каждой задачи из учебника. Но оно никоим образом не единственно: скажем, тривиальным образом можно "удвоить" его, увеличив число элементарных событий (перейдя к декартову произведению в математической терминологии), но сохранив при этом всю информацию о распределении вероятности на изначальном событии. Или наоборот, рассматривая две ранее несвязанные между собой задачи, можно получить из них нечто новое.

Польза от введения такого пространства скорее психологическая: вводя его, приходится воленс-ноленс проговорить вслух определения (неэлементарных) событий, а также обсудить равномерность и независимость. Я бы сказал, что это такой чек-лист, - какие шаги в какой последовательности надо делать: оказавшись в непривычной ситуации, надо поступать по инструкциям, утверждённым пожарной охраной и офицером по технике безопасности. Если задача поставлена некорректно/криво, шанс, что вы увидите это при систематическом подходе, возрастает.

Дисклэймер. Сказанные гадости про условную вероятность не означают, что рядом не бывает "парадоксальных" задач, которые в явном виде эту самую условную вероятность не используют. Самые популярные - парадокс Монти Холла про "ягуар" и козу, спрятанных за тремя дверьми, и про два конверта, в одном из которых на листке написано случайное число n, a в другом - число 2n. В обоих случаях игрок играет против ведущего, делает выбор, после чего ведущий сообщает ему дополнительную информацию и предлагает "передумать".  В первом примере на самом деле нет никакого парадокса, и дополнительная информация, сообщенная ведущим, позволяет в самом деле повысить шансы на выигрыш. Во втором задача сформулирована криво и понятие выигрыша некорректно определено. Обе более чем подробно обсуждены в 1001 популярном изложении, и я бы не хотел тратить силы на ещё одну попытку объяснить их. Но если vox populi решительно потребует, я могу "передумать" :-)


Первая реакция
Самые верные читатели сразу оценили...

херчок, математика

Previous post Next post
Up