хочу все знать: усреднение

Nov 11, 2024 14:47

Предположим, у меня есть какая-то система, которая измеряет некое физическое значение, и я намерил много сэмплов x_1, x_2, ... x_n, разумеется с какими-то ошибками. Я хочу использовать "среднее" значение в качестве наилучшего приближения к истинному, какое я пока что смог найти. Я знаю, что среди моих данных могут быть выбросы (outliers) и помехи. ( Read more... )

наука, хочу все знать

Leave a comment

Comments 57

buddha239 November 11 2024, 12:52:57 UTC

Вроде бы, при работе с ускорителями интересуются как раз выбросами.:) В общем, должно сильно зависеть от сути решаемой задачи (и данных, конечно же).

Reply


mi_b November 11 2024, 13:01:24 UTC
Понятно, что нет универсального способа, который бы не зависел от явных и неявных предположений о процессе, сгенерировавшем данные. В твоей формулировке есть точечное распределение истинного значения и распределение ошибки измерения. Вопрос в том, что мы предполагаем про это распределение ошибки. Может быть, мы думаем, что это распределение - смесь нескольких распределений, некоторые из которых имеют существенно более высокую вариацию или сдвиг. Например, ты меряешь отрезок времени, засекая его на часах, но с некоторой маленькой вероятностью записываешь не секунды, а дату. В этом случае точно стоит отфильтровать "выбросы". Если же ты меряешь число проезжающих по дороге, считая, сколько человек проезжает каждую секунду, то медианное наблюдение будет 0, а общее число будет сильно зависеть от тех двух выбросов в час, когда по дороге проезжает троллейбус. В этом случае и медиану брать не стоит, и выбросы лучше не отфильтровывать ( ... )

Reply


muh2b November 11 2024, 13:04:31 UTC
Медиана, как учили в школе, робастая оценка среднего.
Остальное зависит от Вашего априорного знания сигнала. К примеру, если выбросов примерно 25%, то можно среднее арифметическое 25%-75% персентилей. Я, если знания нет, обычно использую последний вариант, с подбираемым множителем (вместо 3).

Reply


ivanoff272 November 11 2024, 13:07:49 UTC
The process is ergodic and there is no structural breaks?
if n is sufficiently large and light tails -- use the mean
if n is sufficiently large and heavy tails -- use the median

Reply

mi_b November 11 2024, 13:16:35 UTC
This recipe does not work at all for asymmetric heavy tailed distributions. The sample median will be very far from the true mean and will not converge.

Reply

ivanoff272 November 11 2024, 13:19:41 UTC
correct, I assumed that the measurement error distribution is symmetric one.

Reply

muh2b November 11 2024, 15:22:06 UTC
Ну если хвосты толщиной с ляжку - то да. А если нет - то нет.Будет отклонение медианы, но маленькое. Меньше, чем отклонение наблюдаемого среднего от истинного значения.

Reply


shultz_flory November 11 2024, 13:10:37 UTC
Вы удивитесь, сколько существует средних у полимерщиков и работающих с дисперсиями :)

Reply


Leave a comment

Up