Антропометрия: метод минимального правдоподобия профессора Миронова(2)

Nov 20, 2014 18:09

как нетрудно заметить профессор очень любит усреднения по пятилеткам. Возникает вопрос зачем? почему не дать данные по годам? я конечно не собираюсь догадываться мотивациями совестливого историка, но вот к чему это может привести, если "забыть" данные по погодовой динамике показать легко.
итак у нас есть неудачный год. Мелковаты людишки, рождённые в нём (здесь я использую интерпретацию привязки итогового роста к дате рождения, дефективность такого подхода я показал в предыдущем посте)..
А). Неудачный год по росту, можно сдвинуть шаманя по границам пятилеток. Метод работает если в пределах четырёх лет от неудачного года есть удачные. Т.е. вот ряд 165 166 165 166 165 162 166 167 166 165... если у нас 162 (т.е. год провала аж на 2-3 см) отнести к 1-й пятёрке то получим
ряд по пятилеткам 164.8, 166, как видно разница стала меньше но всё равно заметно и может повлечь вопросы.. поэтому мы сдвинем окно на один год назад и вот чудо: 165.4 и 165.2.. Провала в 3 см по росту как и не было.. всё вполне культурно, совестливо и французскобулочно..
Б). Аналогично, но с точностью до наоборот можно занизить удачные годы.. Ну чтоб не объяснять почему на фоне относительно стабильных данных выскакивают пики граждан лейб-гренадёрских статей.
В). При этом отметим, что крайне странно, привязывать рост к дате рождения с точностью до года, но при этом, сами погодовые данные лепить в пятилетки..

Теперь одно из самых занимательных решений профессора. Метод наибольшего правдоподобия..
В параграфе 2.3. Рассматриваются методологические проблемы антропометрии в частности цензурированные выборки. Это выборки в которые не попало по каким-то причинам некоторое число граждан с параметром ниже или выше определённого. Применительно к нашей задаче - часть слишком мелких граждан не призвали на воинскую службу.. Как же решить эту задачу.
Со ссылкой на уважаемых людей миронов предлагает метод максимального правдоподобия. Название действительно удачно. вот так кто на конференциях усомниться в правильности результатов- на него можно посмотреть так презрительно, и сказать "вы что это любезный против максимального правдоподобия?" и пристыженный гуманитарий замолчит.. Мы же как люди разбирающиеся в предмете покажем как можно изящно изменить средние значения. итак к нас есть кривая распределения, но обрезанная с одного конца.. Мы можем достроить её пользуясь необрезанной частью..Вроде всё логично. Но характер её построения, точнее рассчёта среднего на основе достроенной кривой распределения зависит от функции правдоподобия, которая должна быть максимизирована. Не вдаваясь в математические загоны скажем, что для каждого распределения СВОЯ функция правдоподобия(ну или свои параметры этой функции).. Очевидно, что если мы не правильно выберем функцию правдоподобия, то и тут возникает вопрос - а нормальные ли распределения у миронова? вроде на глаз нормальные, да и написано везде что рост распределён нормально. но мерить на глаз - это не дело. есть чёткие математические критерии того или иного типа распределения. Например, нормальное распределение должно быть симметрично. Для этого рассчитывается асимметрия. в идеале она равно нулю. а если она не ноль а например 0.001 это что? асимметричность? для этого используется ошибка асимметрии. Если она по модулю больше самой асимметрии, т.е. отрезок ассиметрия+-ошибка включает в себя ноль, то мы не можем заявить что выборка ассиметрична.. Интересно что ошибка асимметрии будет зависеть только от числа наблюдений и ни от чего больше..
взяв например отсюда http://math.semestr.ru/group/forms-distribution.php или https://lib.nspu.ru/umk/8f7ba3361b55c669/t6/ch4.html
как видно, при заявленном числе наблюдений в 62000 даже асимметрия в 0.13(см рис 1 гл.4) будет значимой... Т.е. выборка ассиметрична, и следовательно использовать предполождение о нормальности распределения для достройки цензурированной выборки НЕЛЬЗЯ... Но таки используется..
Почему же получается что вроде бы чем больше выборка тем хуже?? не совсем так. На небольших выборках мы получим большой диапазон асимметрии а следовательно эта выборка может быть отнесена по асимметрии к нормальному. Но это не значит что нет других распределений к которым мы можем отнести полученные результаты по выборке.. Но это ещё не всё.. Чем больше выборка, тем больше "тонких" моментов распределения будет выявляться и тем дальше от нормального будет выборка в нашем случае.. получается, что большая выборка не позволила увидеть за счёт большей детализации собственно сами средние значения, ибо, повторюсь - метод максимального правдоподобия чувствителен к выбору функции зависящей от характера распределения. А распределения у Миронова (по крайней мере то, что заявлены как пример) нельзя отнести к нормальным. Соответственно рассчитанные на их основе выборочные средние при предположении о нормальности распределения некорректны..

продолжение следует.

история, антропометрия

Previous post Next post
Up