хочу все знать: усреднение

Nov 11, 2024 14:47

Предположим, у меня есть какая-то система, которая измеряет некое физическое значение, и я намерил много сэмплов x_1, x_2, ... x_n, разумеется с какими-то ошибками. Я хочу использовать "среднее" значение в качестве наилучшего приближения к истинному, какое я пока что смог найти. Я знаю, что среди моих данных могут быть выбросы (outliers) и помехи. ( Read more... )

наука, хочу все знать

Leave a comment

Comments 57

enbrailled November 11 2024, 13:24:43 UTC

В самом вашем вопросе много неявных допущений: есть такие процессы, у котороых никакое среднее не является никаким хорошим приближением к никакому истинному значению, которого может и не быть. Медиана может существовать и отражать какую-то особенность распределения, а среднее арифметическое может и нет.

Контроль допущений - первый шаг.

Второй шаг - это знать, для чего, собственно, нужно это самое среднее. Из назначения можно выяснить какие trade-offs важны, и как их обыгрывать в конкретной ситуации.

***

В стандартных текстах по статистике ничего этого, разумеется, нет. Там, как книжка про секс, сразу начинают с "Введения", то есть со статистик.

Reply


home_lynxy November 11 2024, 13:27:43 UTC

Я бы взял седьмое

Reply


RANSAC ? ext_6659208 November 11 2024, 13:36:51 UTC
мы пользовались алгоритмом RANSAC когда было много шумных выбросов (outliers?)

Reply


gul_kiev November 11 2024, 13:44:52 UTC
Из ответов я понял, что нет обоснованной формулы, а есть непонятно откуда взятые "magic numbers". "Если выбросов примерно 25%, то можно среднее арифметическое 25%-75% персентилей" - почему именно 25%, а не, скажем, 22%? Чем определяется это число?
Видимо, эти числа (да и вообще способ усреднения) зависит от априорных представлений о характере возможных ошибок, а эти представления изначально субъективны и, можно сказать, берутся с потолка.

А ещё меня удивляет популярность варианта "среднее арифметическое". Ведь если предположить, что ошибка, скажем, в полтора раза в большую или в меньшую сторону равновероятна (вроде бы, предположение довольно правдоподобное), то, беря среднее, мы получим больше, чем истинное значение, и кажется, что правильнее брать среднее геометрическое (т.е. среднее арифметическое в логарифмическом, а не линейном масштабе).

Reply

mi_b November 11 2024, 14:02:53 UTC
Нет, беря среднее для такого распределения, мы не получим "больше, чем истинное значение". Если ошибки распределены одинаково и независимо и если математическое ожидание у их распределения вообще существует, то среднее популяции сойдется к математическому одиданию, какое бы ни было распределение. Это называется "закон больших чисел". Если еще существует вариация у распределения, то отклонение среднего большой выборки от математического ожидания будет нормально распределено.

Reply

gul_kiev November 11 2024, 14:50:48 UTC
Опять же, существуют разные случаи, и разное априорное ожидание. Если мы стреляем по мишени, то можем ошибиться в любую строну равновероятно, и там имеет смысл среднее арифметичнское.
Но если, скажем, измеряем массу электрона, то можем ошибиться в пять раз в большую или в меньшую сторону, эта масса меньше нуля быть не может, и априорное распределение логарифмично. Поэтому и нормальное распределение будет не для самих измерений, а для их логарифмов (хотя, конечно, это зависит от методики измерения). Ведь то, что мы массу электрона решили измерять в таких единицах, а не в логарифмических - это наш свободный выбор, и то, что закон больших чисел применим именно к этому масштабу величин, а не к другому - не следует из математической теоремы.

Думается, что если мы имеем дело с заведомо неотрицательной величиной, для которой применимо понятие "отличие в два раза", то нужно сначала перейти к логарифмическому масштабу, а потом уже ожидать нормальное распределение и считать среднее арифметическое.

Reply

mi_b November 11 2024, 14:56:38 UTC
Вы спорите с математической теоремой. Это довольно бессмысленное занятие.
https://en.wikipedia.org/wiki/Law_of_large_numbers
The weak law of large numbers (also called Khinchin's law) states that given a collection of independent and identically distributed (iid) samples from a random variable with finite mean, the sample mean converges in probability to the expected value[20]

Reply


z_a9_0 November 11 2024, 13:49:41 UTC
В моей практике выбор обычно между средним и медианой. Медиана, конечно, лучше, если есть выбросы, но у среднего чуть получше ожидаемое отклонение (по-моему, процентов на 20, если данные распределены по Гауссу) и аналитически его гораздо проще смоделировать. Но, конечно, как и другие комментаторы написали, зависит от того, какой именно сигнал и шум. Скажем, если это случайный телеграфный сигнал, то среднее обычно имеет больше смысла чем медиана. В идеале, если прямо серьёзно этим заниматься, то лучше написать генератор случайных данных с похожей статистикой и на нём проверять.

Кстати, в списке не совсем понятно, в чём разница между 3 и 5. Ну и медиана данных в интервале 25-75% равна, кончено, просто медиане.

Reply


Leave a comment

Up