Предположим, у меня есть какая-то система, которая измеряет некое физическое значение, и я намерил много сэмплов x_1, x_2, ... x_n, разумеется с какими-то ошибками. Я хочу использовать "среднее" значение в качестве наилучшего приближения к истинному, какое я пока что смог найти. Я знаю, что среди моих данных могут быть выбросы (outliers) и помехи.
(
Read more... )
Comments 57
В самом вашем вопросе много неявных допущений: есть такие процессы, у котороых никакое среднее не является никаким хорошим приближением к никакому истинному значению, которого может и не быть. Медиана может существовать и отражать какую-то особенность распределения, а среднее арифметическое может и нет.
Контроль допущений - первый шаг.
Второй шаг - это знать, для чего, собственно, нужно это самое среднее. Из назначения можно выяснить какие trade-offs важны, и как их обыгрывать в конкретной ситуации.
***
В стандартных текстах по статистике ничего этого, разумеется, нет. Там, как книжка про секс, сразу начинают с "Введения", то есть со статистик.
Reply
Я бы взял седьмое
Reply
Reply
Видимо, эти числа (да и вообще способ усреднения) зависит от априорных представлений о характере возможных ошибок, а эти представления изначально субъективны и, можно сказать, берутся с потолка.
А ещё меня удивляет популярность варианта "среднее арифметическое". Ведь если предположить, что ошибка, скажем, в полтора раза в большую или в меньшую сторону равновероятна (вроде бы, предположение довольно правдоподобное), то, беря среднее, мы получим больше, чем истинное значение, и кажется, что правильнее брать среднее геометрическое (т.е. среднее арифметическое в логарифмическом, а не линейном масштабе).
Reply
Reply
Но если, скажем, измеряем массу электрона, то можем ошибиться в пять раз в большую или в меньшую сторону, эта масса меньше нуля быть не может, и априорное распределение логарифмично. Поэтому и нормальное распределение будет не для самих измерений, а для их логарифмов (хотя, конечно, это зависит от методики измерения). Ведь то, что мы массу электрона решили измерять в таких единицах, а не в логарифмических - это наш свободный выбор, и то, что закон больших чисел применим именно к этому масштабу величин, а не к другому - не следует из математической теоремы.
Думается, что если мы имеем дело с заведомо неотрицательной величиной, для которой применимо понятие "отличие в два раза", то нужно сначала перейти к логарифмическому масштабу, а потом уже ожидать нормальное распределение и считать среднее арифметическое.
Reply
https://en.wikipedia.org/wiki/Law_of_large_numbers
The weak law of large numbers (also called Khinchin's law) states that given a collection of independent and identically distributed (iid) samples from a random variable with finite mean, the sample mean converges in probability to the expected value[20]
Reply
Кстати, в списке не совсем понятно, в чём разница между 3 и 5. Ну и медиана данных в интервале 25-75% равна, кончено, просто медиане.
Reply
Leave a comment