Comments | jemmybutton: Разные монеты

jemmybutton

Разные монеты

Oct 01, 2024 01:11

Что-то я туплю. Допустим, есть два набора монет: M золотых и N серебряных. Все монеты поподбрасывали и записали сколько было орлов и сколько решек. Подбрасывали разное количество раз.

Какой критерий надо использовать, чтобы оценить, насколько серебряные монеты падают чаще орлом вверх, чем золотые?

затупил

Comments 16

kobak October 1 2024, 06:27:26 UTC

Критерий - в смысле критерий стат. значимости? https://en.wikipedia.org/wiki/Fisher%27s_exact_test.

jemmybutton October 1 2024, 07:23:51 UTC

Но я не хочу складывать все монеты в одну кучу, может, среди серебряных монет одна падает не так, как остальные, и ее просто подбросили от удивления намного больше раз, так что она представлена в выборке чрезмерно.

ezh_morskoj October 1 2024, 20:40:06 UTC

Я бы сначала проверил Фишером или хи-квадратом, насколько золотые и серебряные монеты однородны внутри себя по отдельности, и если да, то таки смешал бы в кучу и дальше считал снова Фишера/хи-квадрат и отношение шансов в табличке 2х2.

jemmybutton October 1 2024, 20:47:08 UTC

В моём случае монеты - это фонемы, и золотые они или серебряные - это есть они в таком-то языке или нет. А подбрасывания монет - это ошибки в этих фонемах при письме (грубо говоря). То есть они в одной куче не по тому признаку, что они непременно ведут себя одинаково (они точно ведут себя по-разному), а по другому, внешнему признаку. А надо мне понять, насколько разные доли ошибок в фонемах того и другого сорта.

Thread 8

p2004r October 1 2024, 10:52:24 UTC

Можно конечно использовать "z-критерий для сравнения двух пропорций", но тогда потребуется провести анализ-выбор "размера эффекта" доступного для собранной выборки.
Я бы в лоб построил бутстрепом "прямой ответ на вопрос" - в виде доверительного интервала (вернее распределения) для разницы выборочных вероятностей золота и серебра. И сразу закрыл оба вопроса и с мощностью - размером выборки и с распределением в генсовокупности.

jemmybutton October 1 2024, 21:28:34 UTC

Я хочу как-то максимально просто отделаться, и у меня какие-то, фантомные, возможно, воспоминания, что что-то для этого было несложное. По сути два набора биномиальных распределений и надо, видимо, как-то, отношения средних вероятностей сравнить, или типа того. Задача вообще вот такая:

p2004r October 1 2024, 22:08:37 UTC

Бутстреп вполне подойдет. Есть пары фонем для которых считается распределение разницы вероятностей их выпадения в перевыборках с возвращением. Перевыборки идут на оригинальных выборках фонем взятых из конкретного текста. Потом набор таких распределений сравнивается с эталоном и всё ). Заодно бонусом "уверенность о достаточности размера выборки пар фонем в конкретном тексте" получается.
Все выливается в сравнение наборов распределений.
Можно "отбор характерных попарных разниц частот фонем" устроить на корпусе эталонных текстов.

oude_rus October 1 2024, 13:11:26 UTC

только учтите, что выпадение орла/решки - это не совсем случайный процесс.

за это только что премию дали.

шнобелевскую.

jemmybutton October 1 2024, 21:12:40 UTC

Шутки шутками, а можно прямо у них метод и стащить наверное. Хотя, вероятно, нет, у них там немного другая задача.

oude_rus October 2 2024, 06:17:37 UTC

Можно посчитать, сколько респондентов наврало по приколу

jemmybutton October 4 2024, 19:34:12 UTC

Где наврало?

Thread 5