Достаточно просто построить и сравнить распределения переменной для группы A и наложить распределение для группы Б. Это будет исчерпывающе характеризовать разницу между ними. ggplot2 такие штуки позволят быстро делать.
Либо просто посчитать среднее, стандартное отклонение, медиану и другие характеристики и сравнить. Разное число наблюдений тут не играет никакой роли. От бутстрапа тут толку нет, если только посчитать доверительные интервалы для медианы, что Ваш код и делает.
Честно говоря, я с самого начала так и думал сделать (konhis не даст соврать), т.к. мы же не с выборками имеем дело, как в статистике, социологии и психологии, а с данными "во всей полноте" и сравнение целевых/нецелевых групп должно быть достаточно. Но что-то дёрнул меня бес усомниться в такой простоте задачи и я полез в какие-то дебри. Например сейчас я отвлёкся на написание данного коммента от классификации целевых данных с помощью Random Forest
( ... )
В ggplot2 нарисовать можно так: ggplot(data=df, aes(x=variable, fill=grpcol)) + geom_density(), где grpcol - колонка в data.frame df, содержащая группу, а variable - величина. Он подхватит через fill группу и нарисует два непараметрических распределения. Можно и стандартной графикой обойтись, в принципе, просто так быстрее.
Вообще примеры см. www.cookbook-r.com/Graphs/Plotting_distributions_%28ggplot2%29/
1) В случае измерения генеральная совокупность в принципе бесконечна.
2) Тогда (если так уверены в генсовокупности) то задавайте таблицу кумулятивного числа случаев с данным уровнем измеренного значения и считайте из неё всю вероятность :)
PS ну вот ваш случай "в лоб":
Есть две выборки и нужно узнать не принадлежат ли они одной. Смешиваем выборки вместе и делаем из этой смеси кучу выборок размера выборки оцениваемой на принадлежность. Получаем доверительный интервал для среднего, дисперсии (или просто для перцентилей расперделения).
Тут прежде всего надо определиться, нужна ли здесь вообще статистическая значимость или нет?
T-test, вроде как предполагает нормальность и не любит больших выборок, а тут всё как раз обратное.
В общем, я поигрался разными классификаторами, и ничего путного не получил. 3 модели Random Forest получились с out-of bag error в 26-29 %. Логистическая регрессия постоянно выдаёт признаки "perfect split'a", а первое же дерево решений сделало какую-то неинтерпретируемую хрень.
К Байесовским штучкам пока решил не притрагиваться.
Ну вот в англоязычном посте как раз по первому пункту и написано, и про нормальность и про размер выборки. По-моему вы слишком заморачиваетесь, в то время как проблема и способы ее решения элементарны.
на мой взгляд полезнее (для заказчика так уж точно) привести данные не о различии групп и его статистической значимости, а о практической - сколько денег на нем можно заработать, экономить времени и ресурсов и т.п.
совершенно верно. И, как Вы правильно отметили выше, вероятностное моделирование можно использовать и для того, чтобы оценить ошибку измерения, а не только выборочную ошибку
Comments 23
Либо просто посчитать среднее, стандартное отклонение, медиану и другие характеристики и сравнить. Разное число наблюдений тут не играет никакой роли. От бутстрапа тут толку нет, если только посчитать доверительные интервалы для медианы, что Ваш код и делает.
Reply
Reply
Можно и стандартной графикой обойтись, в принципе, просто так быстрее.
Вообще примеры см. www.cookbook-r.com/Graphs/Plotting_distributions_%28ggplot2%29/
Reply
Error in unit(tic_pos.c, "mm") : 'x' and 'units' must have length > 0
Reply
Reply
Reply
2) Тогда (если так уверены в генсовокупности) то задавайте таблицу кумулятивного числа случаев с данным уровнем измеренного значения и считайте из неё всю вероятность :)
PS ну вот ваш случай "в лоб":
Есть две выборки и нужно узнать не принадлежат ли они одной. Смешиваем выборки вместе и делаем из этой смеси кучу выборок размера выборки оцениваемой на принадлежность. Получаем доверительный интервал для среднего, дисперсии (или просто для перцентилей расперделения).
Задача решена :)
Reply
Reply
Вторая линия (в дополнение к уже имеющимся от других комментаторов) - Байесовский подход: http://sumsar.net/best_online/ или http://www.r-bloggers.com/bayesian-first-aid-one-sample-and-paired-samples-t-test/
Reply
T-test, вроде как предполагает нормальность и не любит больших выборок, а тут всё как раз обратное.
В общем, я поигрался разными классификаторами, и ничего путного не получил. 3 модели Random Forest получились с out-of bag error в 26-29 %. Логистическая регрессия постоянно выдаёт признаки "perfect split'a", а первое же дерево решений сделало какую-то неинтерпретируемую хрень.
К Байесовским штучкам пока решил не притрагиваться.
Reply
Reply
Ну вот и я к тому пришёл.
Reply
Reply
Хотя за идею спасибо! Данные по деньгам (сумма, кол-во) там есть.
Reply
Reply
Reply
Leave a comment