И этот человек запрещает мне ковыряться в носу!..
(из беседы ЛОРа с проктологом)
В конце апреля сего года уважаемый lost_kritik сообщил, что к нему на огонек зашел широко известный в исторических кругах доктор исторических наук, профессор, руководитель Центра экономической истории Института российской истории РАН Виктор Викторович Кондрашин.
(
Read more... )
Вот описанный пример - автор выдвигает тезис, что в области был чудовищный голод, который привел к десяткам тысяч смертей. И приводит аргумент в виде шести актовых записей с этим диагнозом по одному району. Факт голода подтверден? Да. Шесть человек умерло от голода в отдельно взятом районе области. А вот чудовищность и десятки тысяч потерь по области - нет, не подтвердил.
Пример из реальной жизни, в гастроэнтерологическое отделение городской больницы российского города в течение 2023 года поступило несколько человек с диагнозом "истощение". Подтверждает ли это факт чудовищного голода во всем регионе и десятки тысяч потерь от голода в этом регионе?
По "бюрократической причине" - это не наука и вообще не должно появляться в научном ваковском издании. Пускай в "Спид-Инфо" публикуется по бюрократическим причинам.
Он именно так и утверждает - чудовищный голод приведший к демографической катастрофе в виде десятков тысяч смертей. С аргументацией - полный швах. И методическая часть, мягко говоря, ниже плинтуса.
Reply
1. Насколько я понимаю, даже в научных статьях не принято публиковать полностью все сырые данные. Вы хотите, чтобы автор прямо в статье раскрыл сырые данные по всем 85 сельсоветам? Ну такое. Тем более, что автор ссылается на собственную монографию, в которой, вероятно, про это сказано больше.
2. Вы высказываете сомнения в репрезентативности выборки. А какова альтернативная гипотеза? Что, в исследованных районах люди с голоду пухли, а в остальных в это время был порядок? Есть ли хоть какие-то аргументы в пользу того, что выборка, предложенная автором статьи, не репрезентативна? Автор не приводит полный список сельсоветов, но приводит список районов. Что не так с этим списком? Если у Вас есть основания полагать, что автор тенденциозен, и что он специально отобрал самые неблагополучные сельсоветы, скажите прямо.
3. Вы пишете: "Рассмотренные 85 сельсоветов составляют около 3%. И это полагается представительным?". А в чём, собственно, проблема? Размер выборки в данном случае - не 85 сельсоветов, а все жители соответствующих сёл, т.е. многие тысячи человек. Выборка такого размера, если она репрезентативна, позволяет давать достаточно точную оценку, и размер генеральной совокупности мало что меняет.
Можно было написать статью лучше? Да, можно было. Ну, например, население России в указанные годы было сравнительно молодым (вследствие первого демографического перехода), смертность по естественным причинам должна была быть низкой, и поэтому декларируемый автором "рост смертности в 2.6 раза" в абсолютных цифрах (в душах/головах) может выглядеть не так впечатляюще (иначе говоря, речь может идти об эффекте низкой базы). Автору следовало вычислить абсолютное увеличение смертности в сельсоветах, вошедших в его выборку, а потом пересчитать эти данные на всю Пензенскую область, чтобы обосновать свои "десятки тысяч человек". И то, что автор, имея для этого все возможности, этого не сделал, порождает некоторые сомнения в его добросовестности.
Но вот именно претензии к репрезентативности и размеру выборки - не разделяю.
Reply
1. При чем тут сырые данные? Общее число записай дать можно? Сумму рождений и смертей можно? Простенькая сводная таблица на 14 строк (сверху заголовок, снизу - сумма). И где? Неужели эти данные "не то" покажут? Или что-то другое? Ну так и не печатал бы отдельно статью, если в монографии уже "все есть". Да и монография - метсного издания, а научная статья - она в общероссийскую базу сразу же попадает. И, наконец, положения в статье есть, а вот аргументация почему-то "где-то там", полагаете это корректно?
2. Откуда я знаю? Альтренативную гипотезу автор выдвигать должен, а не я ;-) Уважаемый, это не я должен аргументы приводить в пользу нерепрезентативности (кстати, я их, отчасти, привел ;-), это автор должен доказать, что она репрезентативна, раз он ее приводит. Со списком - все так, не так с тем, как выборку делали из этих районов. Я предпочитаю, чтобы читатель сам делал выводы. Прямо я могу сказать только глядя в глаза автора этой статьи ;-)
Проблема в том, что обычно принимаемый в статистических исследованиях уровень значимости 0,05 предполагает 5% ошибку, а тут число сельсоветов - 3%. Проблема в том, что это - малая выборка, для которой есть своои методики оценки репрезентативвности, которых тут нет. Достаточно или дальше продолжать? Автор указыввает сельсовееты, а не людей - это раз. Если брать людей, то нужно приводить число просмотренных актовых записей (это и будет выборка, а нне "все жители соответствующих сел" ;-), общее число умерших (это и будет генеральная совокупность ;-) и численность населения этих районов, чтобы дать оценку выборке - это два-три-четыре. Ничего из этого автором не сделано.
Не разделяете - ну и ладно, Ваше право.
Reply
> уровень значимости 0,05 предполагает 5% ошибку
Вообще-то нет. Уровень значимости 0.05 предполагает, что с вероятностью 0.05 фактическое значение находится за границами доверительного интервала. При этом ширину доверительного интервала позволяет вычислить статистический калькулятор, и там может быть вовсе не 5%.
Ну, например, у нас есть население России в 145 млн человек и примерно 100 млн избирателей. Мы проводим репрезентативный опрос 1000 человек (т.е. 0.001% от всей генеральной совокупности), и на основании этого опроса можем с вероятностью 0.95 узнать количество голосов, полученных кандидатами, с точностью примерно 3.1% (для простоты предположим, что выборка репрезентативна, избиратели честны и открыты, а опрашиваем мы тех, кто уже проголосовал).
Теперь возвращаемся к статье.
1. Данные районных архивов - это агрегированные данные по многим тысячам человек. Со статистической значимостью всё в порядке.
2. Распространять эти данные на другие районы мы можем только в той мере, в какой считаем, что в этих районах творилось то же самое. И это больше вопрос к добросовестности исследователя, чем к чему-то другому: либо исследователь ездил в случайные архивы, либо подбирал их тенденциозно.
Reply
Насчет второго абзаца вот это Ваше в скобках "для простоты предположим, что выборка репрезентативна" у меня вызвало просто дикий хохот. Объясняю, чтобы Вы не обиделись. Некоторые методики социологических опросов заточены под то, что малая выборка 1000 человек будет репрезентативной. Но вот какая методика использовалась, что бы эта самая 1000 была показательной для генеральной совокупности 100 млн. - указывается в обязательном порядке, в том числе и какими методами обрабатывались эти 1000 опросов, чтобы результат был достоверным с уровнем значимости 0.05.
Если этого не укзано в статье, монографии или на интернет-страничке - моежет данные результаты использховать в качестве туалетной бумаги либо ненаучной фантастики. И именно об этом идет речь в данном посте ;-)
И, кстати, здесь не социологические, а демографические исследования, в демографии свои методики формирования выборки.
Теперь по статье.
1. Да с чего Вы это взяли? Но вопрос не в этом, а в том, как выбирали конкретный район и конкретный сельсовет, чтобы книги учета по нему анализировать. Посвторюсь, в демографии есть методики, как это делается (при чем несколькими способами ;-) А воот в статье об этом нет ни слова.
2.Вот-вот, вопрос к добросоветсности исследователя. Об что и речь ;-) Проблема в том, что мы вообще не знаем, чем руководствовался исследователь и как что подбирал. Он об этом воообще не написал ни-че-го.
Reply
Reply
Так вы границы ДИ рассчитываете для предполагаемого верного значения генеральной совокупности (здесь, видимо, подразумевается, что представляемая Кондрашиным смертность -- это среднее, по региону). Генеральная совокупность у нас часто предполагается похожей на нормально распределенную: или само нормальное распределение, или хи-квадрат, или Стьюдента (для средней чаще Стьюдент, т.к. стандартное отклонение ГС неизвестно, чаще всего), или логнормальное, или что-то такое. Что в жизни часто не так, но и это еще как посмотреть - количество статей и монографий по вопросу таково, что несколько лет подряд читать можно - и Чебышев с Ляпуновым и Колмогоровым.
И промблема получается как раз в том, что с выборкой в 3%, но достаточно большой, на сотни и тысячи, вы её почти всю можете уместить в левый-правый хвост распределения (тут, видимо, правый, где будет экстремальное количество смертей, относительно среднего ГС), которые у нормального распределения за 2 стандартных отклонения, т.е. 95%, и у прочих распределений, подобных нормальному, где-то примерно также.
В результате чего у вас, на малой выборке, ДИ будет довольно конский. И ограничения-условия на репрезентативность выборки никто не отменял.
Reply
Reply
> большой, на сотни и тысячи, вы её почти всю можете уместить в левый-правый
> хвост распределения
И что, теперь вообще никакие выборки не годятся, и всегда надо исследовать всю генеральную совокупность? А то вдруг негодяй-исследователь смухлевал и сделал тенденциозную выборку?
Reply
Reply
А любая не случайная выборка всего лишь приведёт к обвинениям в тенденциозности. Выберешь первые районы по алфавиту - "Конечно, у них забирали хлеб в первую очередь, поэтому там самая высокая смертность". Выберешь с конца - "Конечно, этим районам оказывали помощь в последнюю очередь, поэтому там самая высокая смертность".
Вот Вы бы как предложили выборку делать?
Reply
Кстати, тогда появляется второй вопрос - что за числа ииспользовались в этом генераторе? :-)
Уважаемый, еще раз, бремя доказывания лежит на том, кто выдвинул положение. Тут же вообще непонятно, как выбирались районы и сельсоветы. Соответвенно - не доказано. А недоказанное - смысл опровергать-то? ;-)
Почему в тенденциозности? Автор вполне мог сказать, что в результате обстоятельств неодолимой силы, часть архивных документов была утрачена (как вариант - к ним не было свободного доступа), поэтому мы пользовались только тем, что смогли найти. Вполне рядовая ситуация. Кстати, вот у меня в регионе в госархиве вообще нет данных за 1930-е годы, поэтому лично я вынужден ждать, когда их передадут из архива облуправления загсов, если они там воообще есть (пока непонятно, что там есть, чего нет и за какие годы). После чего автор мог еще и проверить найденное, например, на нормальность или на сооответствие какому другому распределению. Делается это несложно и даже специальные статистические программы не обязвательно использовать для этого - можно в том же Экселе посчитать.
Я бы предложил взять в руки учебник по экономической или демографыической статистике и посмотреть как там это предлагается делать ;-)
Reply
> генераторе? :-)
Аппаратный генератор: монетка, кубик, радиоактивный распад.
> Уважаемый, еще раз, бремя доказывания лежит на том, кто выдвинул положение.
Использование ГСЧ невозможно доказать или опровергнуть, а презумпцию добросовестности никто не отменял. Авторы научных статей, вообще говоря, не обязаны тратить силы на доказывание своей добросовестности: все желающие могут повторить исследование на своей выборке и сравнить результаты. И только если у какого-то автора более 5% проверенных результатов оказываются недостоверными, должны возникать вопросы к его репутации.
А вот если ты какой-нибудь криптографический алгоритм на конкурс выдвинул, там стандарты уже совсем другие, и добросовестность придётся доказывать (см).
Reply
Это указано в методике? Нет? Тгда методически работа не обоснована и "презумпция добросовестнсти" идет в мусорную корзинку. Объясняю. Авторы именно ОБЯЗАНЫ это делать, раздел методики исследований - это важнейшая часть любой научной работы, поскольку позволяет эту работу или подтвердить (правильно посчитал) или опровергнуть (накосячил). Т.е. имеется такие признаки научности как верифицируемость и фальсифицируемость (привет поклолнникам К. Поппера ;-). Если методика не указана - остается только верить или не верить, а это уже не наука, с этим к служителю культа нужно ;-)
И не надо мне тут публиковать ссылки на какие-то интернет-помойки
Reply
Reply
Reply
Leave a comment