Нормализация - перевод в стены

Mar 14, 2008 07:54

Есть ли какое-то готовое средство для перевода сырых данных по выборке в нормализованную шкалу типа стенов? Сейчас я делаю это сперва через Frequencies высчитав соответствующие процентили, затем через Recode расставляя эти процентили для каждой шкалы. Задача редкая, но когда с ней сталкиваюсь - злюсь почему-то. Не знаете ли какого-нибудь скрипта ( Read more... )

Данные: категоризация/дискретизация, Выбросы/атипичные данные, Конструкт/шкала теста, Данные: стандартизация/нормирование, Данные: пересчет на заданное распред.

Leave a comment

Comments 20

balabanas March 14 2008, 08:52:11 UTC
Я не силён в психометрии, но, может, это похоже на то, что надо?
* Сгенерируем кривые данные, преобладают малые значения.
DATA LIST FREE /v1.
BEGIN DATA.
2 2 2 2 2 2 3 3 3 3 3 2 2 1 11 1 1 1 3 3 3 4
5 6 8 9 10 11 12 11 4 4 4 4 3 3 3 10 10 22 21
25 28 30 30 31 3 3 3 3.4 2.1 4.4 5.9 5 6 3.2
2.1 2.11 1.11 0.5 0.9 0.8 1 0.1 3.9 4.2 5.3 6.1
2.4 2.5 2.7 2.9 2.8
END DATA.

* Зададим желаемые параметры нормализованной шкалы (среднее 5.5 ,ст. откл. 2 (это я в Википедии прочитал :)).
comp m=5.5.
comp dev=2.

* Собственно, преобразование.
RANK
VARIABLES=v1 (A) /PROPORTION /FRACTION=BLOM .
COMPUTE T=IDF.NORMAL(pv1,0,1)*dev+m.

* Смотрим, что было и что получилось.
FREQ v1 T /HIST.
NPAR TESTS /K-S(NORMAL)= v1 T.

Reply


businda March 14 2008, 14:17:40 UTC

А соответствующие процентили - это 10, 20, 30 и т.д.?
Если да, то в 11 версии это делает Transform Categorize variables , далее сырые баллы в одно окно, 10 в другое

Reply

volokhonsky March 14 2008, 16:37:33 UTC
Нет, это другие процентили, увы. На 10 равных групп разбить не проблема...

Reply


alexwin1961 March 14 2008, 14:21:08 UTC
я ответил на этот вопрос в Вашем ЖЖ, однако полагаю, что инфомация может быть полезна и другим психологам, поэтому повторяю ее и здесь

Сначала конвертируем переменную в нормалихованные баллы (это делается несколько проще и на основании иного метода вычисления пропорции, чем указал Антон). в примере переменная N переводится в ZN:

RANK VARIABLES = N(A)
/NORMAL INTO ZN
/PRINT=NO
/TIES=MEAN
/FRACTION=RANKIT .

потом нормализованные баллы перекодируются в стены:

recode ZN
(LO thru -2.0 = 1)
(LO thru -1.5 = 2)
(LO thru -1.0 = 3)
(LO thru -0.5 = 4)
(LO thru 0.0 = 5)
(LO thru 0.5 = 6)
(LO thru 1.0 = 7)
(LO thru 1.5 = 8)
(LO thru 2.0 = 9)
(LO thru HI = 10) into N.STAN.

Reply

(The comment has been removed)

alexwin1961 January 2 2016, 14:20:24 UTC
Если судить по тексту сообщения об ошибке, который Вы привели, Вы ошиблись с именем переменной, которую собрались проанализировать. Если у Вас, к примеру, есть три переменные с именами O1 O2 O3, для которых нужно подсчитать нормализованные баллы и сохранить их в трех новых переменных с именами ZO1 ZO2 ZO3, то команда должна выглядеть вот так:

RANK
VARIABLES = O1 O2 O3 (A) / NORMAL INTO ZO1 ZO2 ZO3
/TIES=MEAN /FRACTION=RANKIT.

Убедитесь, что переменные O1 O2 O3 действительно есть в файле данных (откройте его сначала), проверьте, чтобы новых переменных было указано такое же количество и они отсутствовали до выполнения команды.

Reply


businda March 14 2008, 14:36:56 UTC
А вот вопрос, почему психологи пользуются стенами, а не просто стандартизированными (нормализованными) значениями??

Reply

alexwin1961 March 15 2008, 08:48:13 UTC
исключительно по соображениям практического удобства. Как и в случае с процентами и коэффициентами корреляции, человеку проще интерпретировать значение показателя тогда, когда его соотносят с некоторым привычным диапазоном, для которого у людей выработаны когнитивные навыки сравнения. Зет-баллы таким свойством не обладают -- границы не установлены точно, диапазон от -3 до 3 интуитивно не очень удобен. Во-вторых, труднее запоминать и сравнивать дробные числа со знаком, даже хранение информации в электронном виде менее удобно (на каждый балл потребуется не 1 байт, а несколько). Кроме того, кажущаяся более высокая "точность" зет-баллов (они чаще всего сообщаются с точностью до 2 позиций после запятой) толкает на неоправданные выводы о различиях, тогда как надежность и различающая сила психологических инструментов этого не позволяет сделать.

Reply


businda March 15 2008, 19:17:42 UTC
Спасибо, я то могла это объяснить только как атавизм докомпьютерной эпохи, но, ведь в социологии, например, этого вроде нет. Ну а в порядке защиты z- значений, знак- это хорошо, отрицательный- хуже среднего, положительный - лучше, опять же не затушевываются выбросы.
Количество знаков после запятой - сколько зададите в описании переменной, столько и будет показывать, ну а значимость различий- разве критерии не решают проблемы, хотя Ваша последняя фраза (про инструмент) меня несколько смущает.
Короче - традиция и ,возможно, специфика.

Reply

специфика и еще раз специфика alexwin1961 March 15 2008, 20:51:36 UTC
психолог-диагност анализирует поведение конкретного человека в отличие от социолога. Ему приходится удерживать в памяти и соотносить значения порой десятка факторов у конкретного испытуемого (а иногда и нескольких одновременно). Именно в этом контексте я и говорил о различиях: например, более ли выражена экстраверсия чем тревожность у испытуемого Х, можно ли говорить, что исп. Х более тревожен, чем У, если у первого зет-балл 1.13123, а у второго 1.151122 при надежности шкалы 0.65? Если знаков много (а -1.5 -- это уже немало для запоминания), то уже при нескольких параметрах оперативная память диагноста может давать сбои. У социологов (понимающих) также есть полезная традиция не указывать проценты с излишней точностью, так как это, по сути, вводит читающего в заблуждение относительно точности измерений ( ... )

Reply

Не идти на поводу у неподготовленного читателя businda March 15 2008, 23:36:53 UTC
психолог-диагност анализирует поведение конкретного человека в отличие от социолога ( ... )

Reply

Re: Не идти на поводу у неподготовленного читателя adn1 March 16 2008, 01:27:32 UTC
Господа ( ... )

Reply


Leave a comment

Up