Если занимаешься наукой - одного куража недостаточно (снова листая Кондрашина)

Dec 26, 2023 13:51


И этот человек запрещает мне ковыряться в носу!..

(из беседы ЛОРа с проктологом)

В конце апреля сего года уважаемый lost_kritik сообщил, что к нему на огонек зашел широко известный в исторических кругах доктор исторических наук, профессор, руководитель Центра экономической истории Института российской истории РАН Виктор Викторович Кондрашин. Read more... )

голод

Leave a comment

nazar_rus December 26 2023, 17:26:13 UTC
Вы разницу межджу "подтвердить" и "отрицать" понимаете? Автор выдвинул аргумент, доказательная база лежит на авторе. Разбор показывает, что доказательная база ниже плинтуса и указывает только на то, что ничего автор не доказал и не подтвердил.
Вот описанный пример - автор выдвигает тезис, что в области был чудовищный голод, который привел к десяткам тысяч смертей. И приводит аргумент в виде шести актовых записей с этим диагнозом по одному району. Факт голода подтверден? Да. Шесть человек умерло от голода в отдельно взятом районе области. А вот чудовищность и десятки тысяч потерь по области - нет, не подтвердил.
Пример из реальной жизни, в гастроэнтерологическое отделение городской больницы российского города в течение 2023 года поступило несколько человек с диагнозом "истощение". Подтверждает ли это факт чудовищного голода во всем регионе и десятки тысяч потерь от голода в этом регионе?
По "бюрократической причине" - это не наука и вообще не должно появляться в научном ваковском издании. Пускай в "Спид-Инфо" публикуется по бюрократическим причинам.
Он именно так и утверждает - чудовищный голод приведший к демографической катастрофе в виде десятков тысяч смертей. С аргументацией - полный швах. И методическая часть, мягко говоря, ниже плинтуса.

Reply

sergey_cheban December 27 2023, 00:51:39 UTC
0. Критикуя статью, логично было бы дать ссылку на неё, чтобы все могли ознакомиться. Вот она.

1. Насколько я понимаю, даже в научных статьях не принято публиковать полностью все сырые данные. Вы хотите, чтобы автор прямо в статье раскрыл сырые данные по всем 85 сельсоветам? Ну такое. Тем более, что автор ссылается на собственную монографию, в которой, вероятно, про это сказано больше.

2. Вы высказываете сомнения в репрезентативности выборки. А какова альтернативная гипотеза? Что, в исследованных районах люди с голоду пухли, а в остальных в это время был порядок? Есть ли хоть какие-то аргументы в пользу того, что выборка, предложенная автором статьи, не репрезентативна? Автор не приводит полный список сельсоветов, но приводит список районов. Что не так с этим списком? Если у Вас есть основания полагать, что автор тенденциозен, и что он специально отобрал самые неблагополучные сельсоветы, скажите прямо.

3. Вы пишете: "Рассмотренные 85 сельсоветов составляют около 3%. И это полагается представительным?". А в чём, собственно, проблема? Размер выборки в данном случае - не 85 сельсоветов, а все жители соответствующих сёл, т.е. многие тысячи человек. Выборка такого размера, если она репрезентативна, позволяет давать достаточно точную оценку, и размер генеральной совокупности мало что меняет.

Можно было написать статью лучше? Да, можно было. Ну, например, население России в указанные годы было сравнительно молодым (вследствие первого демографического перехода), смертность по естественным причинам должна была быть низкой, и поэтому декларируемый автором "рост смертности в 2.6 раза" в абсолютных цифрах (в душах/головах) может выглядеть не так впечатляюще (иначе говоря, речь может идти об эффекте низкой базы). Автору следовало вычислить абсолютное увеличение смертности в сельсоветах, вошедших в его выборку, а потом пересчитать эти данные на всю Пензенскую область, чтобы обосновать свои "десятки тысяч человек". И то, что автор, имея для этого все возможности, этого не сделал, порождает некоторые сомнения в его добросовестности.

Но вот именно претензии к репрезентативности и размеру выборки - не разделяю.

Reply

nazar_rus December 27 2023, 03:16:46 UTC
0. Я ссылку и дал, как оно в науке полагается, на печатное издание. Кому нужно, в е-лайбрерри легко найдет.
1. При чем тут сырые данные? Общее число записай дать можно? Сумму рождений и смертей можно? Простенькая сводная таблица на 14 строк (сверху заголовок, снизу - сумма). И где? Неужели эти данные "не то" покажут? Или что-то другое? Ну так и не печатал бы отдельно статью, если в монографии уже "все есть". Да и монография - метсного издания, а научная статья - она в общероссийскую базу сразу же попадает. И, наконец, положения в статье есть, а вот аргументация почему-то "где-то там", полагаете это корректно?
2. Откуда я знаю? Альтренативную гипотезу автор выдвигать должен, а не я ;-) Уважаемый, это не я должен аргументы приводить в пользу нерепрезентативности (кстати, я их, отчасти, привел ;-), это автор должен доказать, что она репрезентативна, раз он ее приводит. Со списком - все так, не так с тем, как выборку делали из этих районов. Я предпочитаю, чтобы читатель сам делал выводы. Прямо я могу сказать только глядя в глаза автора этой статьи ;-)
Проблема в том, что обычно принимаемый в статистических исследованиях уровень значимости 0,05 предполагает 5% ошибку, а тут число сельсоветов - 3%. Проблема в том, что это - малая выборка, для которой есть своои методики оценки репрезентативвности, которых тут нет. Достаточно или дальше продолжать? Автор указыввает сельсовееты, а не людей - это раз. Если брать людей, то нужно приводить число просмотренных актовых записей (это и будет выборка, а нне "все жители соответствующих сел" ;-), общее число умерших (это и будет генеральная совокупность ;-) и численность населения этих районов, чтобы дать оценку выборке - это два-три-четыре. Ничего из этого автором не сделано.
Не разделяете - ну и ладно, Ваше право.

Reply

sergey_cheban December 30 2023, 16:23:33 UTC
> Проблема в том, что обычно принимаемый в статистических исследованиях
> уровень значимости 0,05 предполагает 5% ошибку
Вообще-то нет. Уровень значимости 0.05 предполагает, что с вероятностью 0.05 фактическое значение находится за границами доверительного интервала. При этом ширину доверительного интервала позволяет вычислить статистический калькулятор, и там может быть вовсе не 5%.

Ну, например, у нас есть население России в 145 млн человек и примерно 100 млн избирателей. Мы проводим репрезентативный опрос 1000 человек (т.е. 0.001% от всей генеральной совокупности), и на основании этого опроса можем с вероятностью 0.95 узнать количество голосов, полученных кандидатами, с точностью примерно 3.1% (для простоты предположим, что выборка репрезентативна, избиратели честны и открыты, а опрашиваем мы тех, кто уже проголосовал).

Теперь возвращаемся к статье.
1. Данные районных архивов - это агрегированные данные по многим тысячам человек. Со статистической значимостью всё в порядке.
2. Распространять эти данные на другие районы мы можем только в той мере, в какой считаем, что в этих районах творилось то же самое. И это больше вопрос к добросовестности исследователя, чем к чему-то другому: либо исследователь ездил в случайные архивы, либо подбирал их тенденциозно.

Reply

nazar_rus December 30 2023, 17:48:45 UTC
Вы написали очень умными словами ровно то же, что и я. И, извините за совет, меньше читайте интернеты - там еще и не такие бредовые куркуляторы выкладывают.
Насчет второго абзаца вот это Ваше в скобках "для простоты предположим, что выборка репрезентативна" у меня вызвало просто дикий хохот. Объясняю, чтобы Вы не обиделись. Некоторые методики социологических опросов заточены под то, что малая выборка 1000 человек будет репрезентативной. Но вот какая методика использовалась, что бы эта самая 1000 была показательной для генеральной совокупности 100 млн. - указывается в обязательном порядке, в том числе и какими методами обрабатывались эти 1000 опросов, чтобы результат был достоверным с уровнем значимости 0.05.
Если этого не укзано в статье, монографии или на интернет-страничке - моежет данные результаты использховать в качестве туалетной бумаги либо ненаучной фантастики. И именно об этом идет речь в данном посте ;-)
И, кстати, здесь не социологические, а демографические исследования, в демографии свои методики формирования выборки.
Теперь по статье.
1. Да с чего Вы это взяли? Но вопрос не в этом, а в том, как выбирали конкретный район и конкретный сельсовет, чтобы книги учета по нему анализировать. Посвторюсь, в демографии есть методики, как это делается (при чем несколькими способами ;-) А воот в статье об этом нет ни слова.
2.Вот-вот, вопрос к добросоветсности исследователя. Об что и речь ;-) Проблема в том, что мы вообще не знаем, чем руководствовался исследователь и как что подбирал. Он об этом воообще не написал ни-че-го.

Reply

nazar_rus December 30 2023, 17:53:14 UTC
ПыСы. Открыл одну методическую статью. Почитал. Малая выборка около 1000 может быть представительной для однного миллиона респондентов в соцопросах, но никак для сотни миллонов. Но опять встает вопрос, как эту тысячу выбирали-то ;-)

Reply

credo_liberum December 31 2023, 03:05:45 UTC
>Вообще-то нет. Уровень значимости 0.05 предполагает, что с вероятностью 0.05 фактическое значение находится за границами доверительного интервала. При этом ширину доверительного интервала позволяет вычислить статистический калькулятор, и там может быть вовсе не 5%.

Так вы границы ДИ рассчитываете для предполагаемого верного значения генеральной совокупности (здесь, видимо, подразумевается, что представляемая Кондрашиным смертность -- это среднее, по региону). Генеральная совокупность у нас часто предполагается похожей на нормально распределенную: или само нормальное распределение, или хи-квадрат, или Стьюдента (для средней чаще Стьюдент, т.к. стандартное отклонение ГС неизвестно, чаще всего), или логнормальное, или что-то такое. Что в жизни часто не так, но и это еще как посмотреть - количество статей и монографий по вопросу таково, что несколько лет подряд читать можно - и Чебышев с Ляпуновым и Колмогоровым.

И промблема получается как раз в том, что с выборкой в 3%, но достаточно большой, на сотни и тысячи, вы её почти всю можете уместить в левый-правый хвост распределения (тут, видимо, правый, где будет экстремальное количество смертей, относительно среднего ГС), которые у нормального распределения за 2 стандартных отклонения, т.е. 95%, и у прочих распределений, подобных нормальному, где-то примерно также.

В результате чего у вас, на малой выборке, ДИ будет довольно конский. И ограничения-условия на репрезентативность выборки никто не отменял.

Reply

nazar_rus December 31 2023, 04:42:50 UTC
А Вами описываемое - это уже очередной уровень вопросов к статье ;-)

Reply

sergey_cheban January 2 2024, 13:45:29 UTC
> И промблема получается как раз в том, что с выборкой в 3%, но достаточно
> большой, на сотни и тысячи, вы её почти всю можете уместить в левый-правый
> хвост распределения
И что, теперь вообще никакие выборки не годятся, и всегда надо исследовать всю генеральную совокупность? А то вдруг негодяй-исследователь смухлевал и сделал тенденциозную выборку?

Reply

nazar_rus January 2 2024, 14:06:25 UTC
Нет, нужно объяснять, как делалась выборка. Чтобы не было подозрений в мухлеже.

Reply

sergey_cheban January 3 2024, 01:05:42 UTC
Ну, допустим, автор заявит, что использовал генератор случайных чисел. Законно? Вполне. Можно ли доказать, что автор генератор случайных чисел не использовал, а взял заведомо нерепрезентативную выборку? Нет.

А любая не случайная выборка всего лишь приведёт к обвинениям в тенденциозности. Выберешь первые районы по алфавиту - "Конечно, у них забирали хлеб в первую очередь, поэтому там самая высокая смертность". Выберешь с конца - "Конечно, этим районам оказывали помощь в последнюю очередь, поэтому там самая высокая смертность".

Вот Вы бы как предложили выборку делать?

Reply

nazar_rus January 3 2024, 04:48:57 UTC
Вполне себе нормально. Только автор не заявил ничего подобного ;-)
Кстати, тогда появляется второй вопрос - что за числа ииспользовались в этом генераторе? :-)
Уважаемый, еще раз, бремя доказывания лежит на том, кто выдвинул положение. Тут же вообще непонятно, как выбирались районы и сельсоветы. Соответвенно - не доказано. А недоказанное - смысл опровергать-то? ;-)
Почему в тенденциозности? Автор вполне мог сказать, что в результате обстоятельств неодолимой силы, часть архивных документов была утрачена (как вариант - к ним не было свободного доступа), поэтому мы пользовались только тем, что смогли найти. Вполне рядовая ситуация. Кстати, вот у меня в регионе в госархиве вообще нет данных за 1930-е годы, поэтому лично я вынужден ждать, когда их передадут из архива облуправления загсов, если они там воообще есть (пока непонятно, что там есть, чего нет и за какие годы). После чего автор мог еще и проверить найденное, например, на нормальность или на сооответствие какому другому распределению. Делается это несложно и даже специальные статистические программы не обязвательно использовать для этого - можно в том же Экселе посчитать.
Я бы предложил взять в руки учебник по экономической или демографыической статистике и посмотреть как там это предлагается делать ;-)

Reply

sergey_cheban January 3 2024, 14:44:20 UTC
> Кстати, тогда появляется второй вопрос - что за числа ииспользовались в этом
> генераторе? :-)
Аппаратный генератор: монетка, кубик, радиоактивный распад.

> Уважаемый, еще раз, бремя доказывания лежит на том, кто выдвинул положение.
Использование ГСЧ невозможно доказать или опровергнуть, а презумпцию добросовестности никто не отменял. Авторы научных статей, вообще говоря, не обязаны тратить силы на доказывание своей добросовестности: все желающие могут повторить исследование на своей выборке и сравнить результаты. И только если у какого-то автора более 5% проверенных результатов оказываются недостоверными, должны возникать вопросы к его репутации.

А вот если ты какой-нибудь криптографический алгоритм на конкурс выдвинул, там стандарты уже совсем другие, и добросовестность придётся доказывать (см).

Reply

nazar_rus January 3 2024, 15:11:55 UTC
Я не о том - какие именно объекты, сколько и как будем в генератор случайных чисел вводить ;-)
Это указано в методике? Нет? Тгда методически работа не обоснована и "презумпция добросовестнсти" идет в мусорную корзинку. Объясняю. Авторы именно ОБЯЗАНЫ это делать, раздел методики исследований - это важнейшая часть любой научной работы, поскольку позволяет эту работу или подтвердить (правильно посчитал) или опровергнуть (накосячил). Т.е. имеется такие признаки научности как верифицируемость и фальсифицируемость (привет поклолнникам К. Поппера ;-). Если методика не указана - остается только верить или не верить, а это уже не наука, с этим к служителю культа нужно ;-)
И не надо мне тут публиковать ссылки на какие-то интернет-помойки

Reply

sergey_cheban January 3 2024, 18:10:46 UTC
Ой. А можете дать ссылку на какую-нибудь научную статью по похожей теме, написанную "как надо"?

Reply

nazar_rus January 4 2024, 06:19:36 UTC
Я Вам лучше дамс ссылку на официальную методику Росстата, где описываются рекомендуемые варианты формирования выборок https://rosstat.gov.ru/storage/subblock/subblock_document/2018-06/28/tez.pdf

Reply


Leave a comment

Up