Вообще-то я не математик. Совсем. Но мне долго не давала покоя простая задачка.
Допустим, мы имеем выборку морских свинок. В этой выборке не все свинки нормальные. Известно, что 30% свинок курят, 20% - читают книги Дарьи Донцовой, и 10% посещают психоаналитика. Если эти три фактора никак не связаны (не мешают и не «помогают» друг-другу проявляться), то какой процент ненормальных свинок (свинок, имеющих одну или несколько из этих особенностей) будет наблюдаться в выборке? Искал в интернете, нету ничего подобного ни про морских свинок, ни про других грызунов.
Возможно, я бы никогда не взялся за решение, но недавно на моей работе мне запретили пользоваться Интернетом, а бездельничать и отлынивать я не привык.
Очевидно, что максимальное количество равно сумме вероятностей 30%+20%+10%=60%.
Но часть курящих свинок будут читать Донцову, а некоторые, в перерывах между книжкой и сигаретой, даже будут бегать к психоаналитику. И наоборот.
Если факторы не взаимосвязаны, то вероятность обнаружить любителей женских детективов среди курящих свинок составит те же 20%, что и в выборке в целом. 30%х20%=6% от всей выборки. Вероятность курящих и посещающих психоаналитика 30%х10%=3%. И, наконец, вероятность читающих Донцову и посещающих психоаналитика составит 20%х10%=2%. Осталось только вычесть из суммы вероятностей этих факторов «дубли». 60%-6%-3%-2%=49%. Вот сколько ненормальных свинок будет в выборке. Представим то же самое в виде таблички.
Курящие Читающие
Курящие 30% ХХХ ХХХ
Читающие 20% 6% ХХХ
Психоанализирующие 10% 3% 2%
ИТОГО: 60% - 9% - 2% = 49%
Стал экспериментировать с этим выводом. Эмпирическим путем выяснил, что при постоянном значении суммы вероятностей факторов, вероятность встретить любой из них падает с увеличением количества факторов и, соответственно, с уменьшением вероятности отдельно взятых факторов. Например если есть 5 факторов с вероятностью по 10%, вероятность встретить любой из них составит 40%. А если 50 факторов с вероятностью по 1% - составит 37,75%.
Если сумма вероятностей факторов составляет 100%, вероятность обнаружить любой из них никогда не будет меньше 50%, хотя и будет стремиться к этой цифре с увеличением количества факторов. Нарисовал в Excel-е график зависимости вероятности обнаружения любого фактора от суммы вероятностей факторов, при малом значении вероятностей отдельных факторов (0.01%). Чё-то какая-то прям экспонента получилась =)
А вот с набором факторов, сумма вероятностей которых превышает 100%, у меня фигня выходит. Не получается тем же способом посчитать. Кто знает, что с ними делать, подскажите, плиз.