Oct 01, 2024 01:11
Что-то я туплю. Допустим, есть два набора монет: M золотых и N серебряных. Все монеты поподбрасывали и записали сколько было орлов и сколько решек. Подбрасывали разное количество раз.
Какой критерий надо использовать, чтобы оценить, насколько серебряные монеты падают чаще орлом вверх, чем золотые?
затупил
Leave a comment
Comments 16
Reply
Но я не хочу складывать все монеты в одну кучу, может, среди серебряных монет одна падает не так, как остальные, и ее просто подбросили от удивления намного больше раз, так что она представлена в выборке чрезмерно.
Reply
Reply
В моём случае монеты - это фонемы, и золотые они или серебряные - это есть они в таком-то языке или нет. А подбрасывания монет - это ошибки в этих фонемах при письме (грубо говоря). То есть они в одной куче не по тому признаку, что они непременно ведут себя одинаково (они точно ведут себя по-разному), а по другому, внешнему признаку. А надо мне понять, насколько разные доли ошибок в фонемах того и другого сорта.
Reply
Можно конечно использовать "z-критерий для сравнения двух пропорций", но тогда потребуется провести анализ-выбор "размера эффекта" доступного для собранной выборки.
Я бы в лоб построил бутстрепом "прямой ответ на вопрос" - в виде доверительного интервала (вернее распределения) для разницы выборочных вероятностей золота и серебра. И сразу закрыл оба вопроса и с мощностью - размером выборки и с распределением в генсовокупности.
Reply
Я хочу как-то максимально просто отделаться, и у меня какие-то, фантомные, возможно, воспоминания, что что-то для этого было несложное. По сути два набора биномиальных распределений и надо, видимо, как-то, отношения средних вероятностей сравнить, или типа того. Задача вообще вот такая:
Reply
Бутстреп вполне подойдет. Есть пары фонем для которых считается распределение разницы вероятностей их выпадения в перевыборках с возвращением. Перевыборки идут на оригинальных выборках фонем взятых из конкретного текста. Потом набор таких распределений сравнивается с эталоном и всё ). Заодно бонусом "уверенность о достаточности размера выборки пар фонем в конкретном тексте" получается.
Все выливается в сравнение наборов распределений.
Можно "отбор характерных попарных разниц частот фонем" устроить на корпусе эталонных текстов.
Reply
только учтите, что выпадение орла/решки - это не совсем случайный процесс.
за это только что премию дали.
шнобелевскую.
Reply
Шутки шутками, а можно прямо у них метод и стащить наверное. Хотя, вероятно, нет, у них там немного другая задача.
Reply
Reply
Где наврало?
Reply
Leave a comment