Сравнение средних значений в неравных группах с большим числом наблюдений

Sep 30, 2014 03:14

Коллеги, есть вопрос, который на первый взгляд показался мне тривиальным, но чем дольше я над ним думаю, тем больше "запариваюсь ( Read more... )

Leave a comment

Comments 23

alexandre_putt September 30 2014, 01:48:14 UTC
Достаточно просто построить и сравнить распределения переменной для группы A и наложить распределение для группы Б. Это будет исчерпывающе характеризовать разницу между ними. ggplot2 такие штуки позволят быстро делать.

Либо просто посчитать среднее, стандартное отклонение, медиану и другие характеристики и сравнить. Разное число наблюдений тут не играет никакой роли. От бутстрапа тут толку нет, если только посчитать доверительные интервалы для медианы, что Ваш код и делает.

Reply

simmons_fan September 30 2014, 04:26:33 UTC
Честно говоря, я с самого начала так и думал сделать (konhis не даст соврать), т.к. мы же не с выборками имеем дело, как в статистике, социологии и психологии, а с данными "во всей полноте" и сравнение целевых/нецелевых групп должно быть достаточно. Но что-то дёрнул меня бес усомниться в такой простоте задачи и я полез в какие-то дебри. Например сейчас я отвлёкся на написание данного коммента от классификации целевых данных с помощью Random Forest ( ... )

Reply

alexandre_putt September 30 2014, 04:46:16 UTC
В ggplot2 нарисовать можно так: ggplot(data=df, aes(x=variable, fill=grpcol)) + geom_density(), где grpcol - колонка в data.frame df, содержащая группу, а variable - величина. Он подхватит через fill группу и нарисует два непараметрических распределения.
Можно и стандартной графикой обойтись, в принципе, просто так быстрее.

Вообще примеры см. www.cookbook-r.com/Graphs/Plotting_distributions_%28ggplot2%29/

Reply

simmons_fan September 30 2014, 04:52:33 UTC
Спасибо за рецепт, но он выдал ошибку:
Error in unit(tic_pos.c, "mm") : 'x' and 'units' must have length > 0

Reply


p2004r September 30 2014, 06:37:48 UTC
да, бутстреп даст исчерпывающую оценку распределения интересующего параметра (причем любого :)

Reply

simmons_fan September 30 2014, 09:10:38 UTC
А какой в нём смысл, если мы по сути работаем с генеральной совокупностью?

Reply

p2004r September 30 2014, 09:41:27 UTC
1) В случае измерения генеральная совокупность в принципе бесконечна.

2) Тогда (если так уверены в генсовокупности) то задавайте таблицу кумулятивного числа случаев с данным уровнем измеренного значения и считайте из неё всю вероятность :)

PS ну вот ваш случай "в лоб":

Есть две выборки и нужно узнать не принадлежат ли они одной. Смешиваем выборки вместе и делаем из этой смеси кучу выборок размера выборки оцениваемой на принадлежность. Получаем доверительный интервал для среднего, дисперсии (или просто для перцентилей расперделения).

Задача решена :)

Reply

simmons_fan September 30 2014, 11:38:17 UTC
Т.е. "бутстрепить" не только фрагмент выборки с "нецелевой" группой а всю таблицу? Однако! Сейчас попробую.

Reply


kovla September 30 2014, 08:58:06 UTC
Для начала я бы задался вопросом, не годится ли простейший t-test с коррекцией Welch'a, раз уж речь идет о таких громадных выборках: http://stats.stackexchange.com/questions/15664/how-to-test-for-differences-between-two-group-means-when-the-data-is-not-normall

Вторая линия (в дополнение к уже имеющимся от других комментаторов) - Байесовский подход: http://sumsar.net/best_online/ или http://www.r-bloggers.com/bayesian-first-aid-one-sample-and-paired-samples-t-test/

Reply

simmons_fan September 30 2014, 09:09:40 UTC
Тут прежде всего надо определиться, нужна ли здесь вообще статистическая значимость или нет?

T-test, вроде как предполагает нормальность и не любит больших выборок, а тут всё как раз обратное.

В общем, я поигрался разными классификаторами, и ничего путного не получил. 3 модели Random Forest получились с out-of bag error в 26-29 %. Логистическая регрессия постоянно выдаёт признаки "perfect split'a", а первое же дерево решений сделало какую-то неинтерпретируемую хрень.

К Байесовским штучкам пока решил не притрагиваться.

Reply

kovla September 30 2014, 09:17:25 UTC
Ну вот в англоязычном посте как раз по первому пункту и написано, и про нормальность и про размер выборки. По-моему вы слишком заморачиваетесь, в то время как проблема и способы ее решения элементарны.

Reply

simmons_fan September 30 2014, 09:24:27 UTC
По-моему вы слишком заморачиваетесь, в то время как проблема и способы ее решения элементарны.
Ну вот и я к тому пришёл.

Reply


alexwin1961 September 30 2014, 13:21:05 UTC
на мой взгляд полезнее (для заказчика так уж точно) привести данные не о различии групп и его статистической значимости, а о практической - сколько денег на нем можно заработать, экономить времени и ресурсов и т.п.

Reply

simmons_fan September 30 2014, 13:26:46 UTC
Дело в том, что задача стояла как раз как "найти зависимости, которые отличают группу А, от группы Б".

Хотя за идею спасибо! Данные по деньгам (сумма, кол-во) там есть.

Reply

p2004r September 30 2014, 13:49:29 UTC
но суммы денег надо приводить с оценкой P(сумма_денег) :)

Reply

alexwin1961 September 30 2014, 14:51:51 UTC
совершенно верно. И, как Вы правильно отметили выше, вероятностное моделирование можно использовать и для того, чтобы оценить ошибку измерения, а не только выборочную ошибку

Reply


Leave a comment

Up