Oct 02, 2016 18:11
Иногда сталкиваюсь с тем, что пользователи статистики путаются в данных. То есть - принимают данные одного типа за другой, что не всегда безопасно.
Причем путаться можно начать уже на этапе описания выборок, вычисляя центральную тенденцию, выражаемую средним, медианой или модой. Путаница тут в том, что не все эти функции можно применять к каждой выборке.
Данные,т.е. оцениваемые вами признаки, с точки зрения статистики бывают трех типов: количественные, порядковые и качественные*. Разница между ними - в количестве содержащейся информации.
Количественные - самые "информативные", их можно упорядочить и для них осмыслен вопрос "на сколько одно значение больше другого?". Это всякие "измеримые признаки": длины, массы, отношения, коэффициенты, количества... В них содержится информация о различии значений (6 см и 3 см - разные значения), о порядке различий (5 см больше 3 см) и о размере различий (6 см в два раза больше, чем 3 см).
Порядковые можно упорядочить, но нельзя сказать, насколько одно значение больше другого. Это обычно всякие балльные оценки: моим любимым примером тут являются школьные оценки, которые даже в идеальном мире не будут количественным признаком, ибо нельзя сказать, что получивший "пять" знает на 2/3 больше, чем получивший "три". То есть тут теряется информация о размере различий, но сохраняется о самих различиях и их порядке: "пять" в любом случае больше "трех", а "четыре" распологается между; такая же ситуация - с медицинскими состояниямми легким, средней тяжести, тяжелым и критическим. Часто за порядковым признаком скрывается недостаточное разрешение при взгляде на количественный признак (но не всегда - не уверен, что в медицинском примере можно заменить во всех случаях оценку состояния измерением какого-то параметра).
Наконец, качественные признаки несут только информацию о различии, их нельзя упорядочить. В биологии это могут быть виды, биотопы или цветовые морфы. Кстати, насчет последних. Если мы просто выделяем, например, масти коней - то это качественный признак. Если же мы выделяем оттенки внутри одной цветовой гаммы - черные, серые и белые, то это уже может быть и порядковый признак. Наконец, исхитрившись измерить альбедо, мы можем получить и количественный признак.
При этом ничто не запрещает трактовать признак как менее информативный: количественный как порядковый (так, например, происходит при использовании непараметрческих методов), порядковый как качественный. В этом случае вы теряете часть информации - и не более того. Но если двигаться в обратном направлении, то вы добавляете информацию, которой в исходных данных нет. Встречал я, например, такое: исследователь закодировал значения качественного признака числами, а потом начал работать с ними, как с настоящими числами, а не просто с обозначениями.
Эта неравноценность в количестве содержащейся информации хорошо заметна и на применении вышеупомянутых мер центральной тенденции: среднего арифметического, медианы и моды.
Среднее арифметическое в своем расчете использует информацию о размере различий - иначе расчет суммы значений лишен смысла. Соответственно, его можно применять только к количественным признакам.
Медиана использует информацию только о порядке различий - на то это и середина упорядоченного ряда значений. При этом насколько именно различаются соседние значения - не важно. Можно ее применять к количественным (с потерей части информации) и порядковым признакам.
Ну и мода, представляющая собой просто наиболее часто встречающееся значение, требует только информацию о том, что значения различаются. А как и насколько - неважно. Так что ее можно применять ко всем трем типам признаков.
Не страшно применить моду к количественному признаку и узнать, что больше всего в популяции собак с длиной хвоста 20 см (оставим за скобками точность измерения). Страшно занумеровать собачьи масти числами и узнать, что средняя масть равна 4,32 (или медианная - 4), а потом сравнить это с другой популяцией критерием Стьюдента - а я подобное встречал...
Итак, тип признака зависит не только от его сущности, но и от вашего интереса, но последний может только "убавлять" информацию, но не "добавлять" - потому что это добавление мнимо, ибо новой информации тут неоткуда взяться.
_________________________
*у них бывают и иные названия. Например - интервальные, шкальные и номинальные. Кроме того, иногда в отдельный тип можно выделять бинарные данные (да-нет, наличие-остутствие).
матстат и теорвер,
наука