Comments | r_statistics: Сравнение средних значений в неравных группах с большим числом наблюдений

simmons_fan in r_statistics

Сравнение средних значений в неравных группах с большим числом наблюдений

Sep 30, 2014 03:14

Коллеги, есть вопрос, который на первый взгляд показался мне тривиальным, но чем дольше я над ним думаю, тем больше "запариваюсь ( Read more... )

Comments 23

alexandre_putt September 30 2014, 01:48:14 UTC

Достаточно просто построить и сравнить распределения переменной для группы A и наложить распределение для группы Б. Это будет исчерпывающе характеризовать разницу между ними. ggplot2 такие штуки позволят быстро делать.

Либо просто посчитать среднее, стандартное отклонение, медиану и другие характеристики и сравнить. Разное число наблюдений тут не играет никакой роли. От бутстрапа тут толку нет, если только посчитать доверительные интервалы для медианы, что Ваш код и делает.

simmons_fan September 30 2014, 04:26:33 UTC

Честно говоря, я с самого начала так и думал сделать (konhis не даст соврать), т.к. мы же не с выборками имеем дело, как в статистике, социологии и психологии, а с данными "во всей полноте" и сравнение целевых/нецелевых групп должно быть достаточно. Но что-то дёрнул меня бес усомниться в такой простоте задачи и я полез в какие-то дебри. Например сейчас я отвлёкся на написание данного коммента от классификации целевых данных с помощью Random Forest ( ... )

alexandre_putt September 30 2014, 04:46:16 UTC

В ggplot2 нарисовать можно так: ggplot(data=df, aes(x=variable, fill=grpcol)) + geom_density(), где grpcol - колонка в data.frame df, содержащая группу, а variable - величина. Он подхватит через fill группу и нарисует два непараметрических распределения.
Можно и стандартной графикой обойтись, в принципе, просто так быстрее.

Вообще примеры см. www.cookbook-r.com/Graphs/Plotting_distributions_%28ggplot2%29/

simmons_fan September 30 2014, 04:52:33 UTC

Спасибо за рецепт, но он выдал ошибку:
Error in unit(tic_pos.c, "mm") : 'x' and 'units' must have length > 0

Thread 6

p2004r September 30 2014, 06:37:48 UTC

да, бутстреп даст исчерпывающую оценку распределения интересующего параметра (причем любого :)

simmons_fan September 30 2014, 09:10:38 UTC

А какой в нём смысл, если мы по сути работаем с генеральной совокупностью?

p2004r September 30 2014, 09:41:27 UTC

1) В случае измерения генеральная совокупность в принципе бесконечна.

2) Тогда (если так уверены в генсовокупности) то задавайте таблицу кумулятивного числа случаев с данным уровнем измеренного значения и считайте из неё всю вероятность :)

PS ну вот ваш случай "в лоб":

Есть две выборки и нужно узнать не принадлежат ли они одной. Смешиваем выборки вместе и делаем из этой смеси кучу выборок размера выборки оцениваемой на принадлежность. Получаем доверительный интервал для среднего, дисперсии (или просто для перцентилей расперделения).

Задача решена :)

simmons_fan September 30 2014, 11:38:17 UTC

Т.е. "бутстрепить" не только фрагмент выборки с "нецелевой" группой а всю таблицу? Однако! Сейчас попробую.

Thread 6

kovla September 30 2014, 08:58:06 UTC

Для начала я бы задался вопросом, не годится ли простейший t-test с коррекцией Welch'a, раз уж речь идет о таких громадных выборках: http://stats.stackexchange.com/questions/15664/how-to-test-for-differences-between-two-group-means-when-the-data-is-not-normall

Вторая линия (в дополнение к уже имеющимся от других комментаторов) - Байесовский подход: http://sumsar.net/best_online/ или http://www.r-bloggers.com/bayesian-first-aid-one-sample-and-paired-samples-t-test/

simmons_fan September 30 2014, 09:09:40 UTC

Тут прежде всего надо определиться, нужна ли здесь вообще статистическая значимость или нет?

T-test, вроде как предполагает нормальность и не любит больших выборок, а тут всё как раз обратное.

В общем, я поигрался разными классификаторами, и ничего путного не получил. 3 модели Random Forest получились с out-of bag error в 26-29 %. Логистическая регрессия постоянно выдаёт признаки "perfect split'a", а первое же дерево решений сделало какую-то неинтерпретируемую хрень.

К Байесовским штучкам пока решил не притрагиваться.

kovla September 30 2014, 09:17:25 UTC

Ну вот в англоязычном посте как раз по первому пункту и написано, и про нормальность и про размер выборки. По-моему вы слишком заморачиваетесь, в то время как проблема и способы ее решения элементарны.

simmons_fan September 30 2014, 09:24:27 UTC

По-моему вы слишком заморачиваетесь, в то время как проблема и способы ее решения элементарны.
Ну вот и я к тому пришёл.

Thread 7

alexwin1961 September 30 2014, 13:21:05 UTC

на мой взгляд полезнее (для заказчика так уж точно) привести данные не о различии групп и его статистической значимости, а о практической - сколько денег на нем можно заработать, экономить времени и ресурсов и т.п.

simmons_fan September 30 2014, 13:26:46 UTC

Дело в том, что задача стояла как раз как "найти зависимости, которые отличают группу А, от группы Б".

Хотя за идею спасибо! Данные по деньгам (сумма, кол-во) там есть.

p2004r September 30 2014, 13:49:29 UTC

но суммы денег надо приводить с оценкой P(сумма_денег) :)

alexwin1961 September 30 2014, 14:51:51 UTC

совершенно верно. И, как Вы правильно отметили выше, вероятностное моделирование можно использовать и для того, чтобы оценить ошибку измерения, а не только выборочную ошибку