Доброго времени суток, уважаемые участники сообщества.
При проведении разведочного факторного анализа возник ряд вопросов:
1. Можно ли одновременно использовать метод главных компонент (Principal Components) и неортогональное вращение (напр. метод Direct Oblimin)?
2. Можно ли для определения "значимости" факторов для респондентов найти средние
(
Read more... )
(1) о числе необходимых и достаточных факторов для объяснения дисперсии данных (компонентный анализ) или для восстановления корреляционной матрицы (методы собственно факторного анализа);
(2)о простоте факторной структуры, к которой приводит вращение.
Если же нам так повезёт, за каждой компонентой будет стоять фактор, а все латентные переменные будут ортогональны, тогда обычным компонентным анализом, безо всяких вращений, мы разом вскроем факторную структуру данных. Видимо об этом и писала Митина. Но это не метод подразумевает, это то - как мы относимся к его результатам.
То, что интерпретируемая картина получается только при косоугольном вращении для меня странно, хотя не исключаю какой-то присущей Вашему набору данных специфики. У моих данных всегда очень отчётливые результаты даёт варимакс, а прямой облимин (дельта = 0) почти ничем от него не отличается (проверял на нескольких наборах данных когда интересно было), по крайней мере интерпретация одинакова. Может быть дело именно в количестве выделяемых факторов? - когда их число избыточно и начинается свистопляска с результатами вращений. Какими методами Вы выделяете их количество?
2. Второй вопрос и уточнение к нему не понятны. В математической статистике под "значимостью" обычно подразумевается статистическая значимость, а "актуальность" это - современность, злободневность. Если речь идёт о важности фактора для респондента, то связь если и есть - косвенная и зависит от качества анкеты. 90% вопросов несбалансированной анкеты может дать дать нагрузку на 1 фактор, 10% - на другой, а самый важный для респондента вопрос вообще не будет присутствовать. Т.е. доля объясняемой фактором дисперсии важна для конкретного набора данных, но не для респондента. Если же речь идёт о значении данного фактора для конкретного респондента, то нужно смотреть factor scores. Полезно также посмотреть распределение таких шкал - полимодальность укажет на гетерогенность выборки по данному фактору.
Reply
Спасибо, что написали это, т.к. это сплошь и рядом не понимают.
-->Факторы - латентные переменные.
И компоненты, и факторы подпадают под понятие "латенты", несмотря на их различие.
-->Проводя анализ главных компонент [ГКА] ... в этом случае любые вращения бессмысленны.
Не сказал бы. Выделите все p (число переменных) гл. компонент, оставьте из них m первых (или даже любых по желанию, или даже оставьте все p) компонент и вращайте как хотите. Если это приведет к "простой структуре", позволяющей интерпретировать, то почему - нет? Так что вращения в ГКА используются. Правда, они бывают нужны редко, т.к. в ГКА, в отличии от ФА, нечасто нужна интерпретация.
-->относиться к нескольким первым компонентам как к проявлению стоящих за ними факторов.
Довольно загадочная и даже заблуждающая читателя фраза. Я бы не сказал, что за одними латентами (гл. компонентами) стоят другие латенты (факторы). Просто это 2 теоретически разных вида латент.
-->анализ главных компонент ... с числом компонент менее числа переменных и с последующим вращением является уже факторным анализом.
Нет. Мы как были в рамках главнокомпонентной парадигмы, так в ней и остались; только повращали часть компонент. Вращение вообще не связяно с различием между ГКА иФА.
-->на исходную корреляционную матрицу дважды накладывается некая модель.
"Дважды" на корреляционную матрицу ничего не накладывается. Мы выбираем один раз и одно: делать ли с данной матрицей ГКА или ФА.
Фундаментальное различие между ГКА и ФА такое: ГКА имеет целью объяснить (=учесть) первыми m компонент побольше суммарной многомерной изменчивости переменных. ФА имеет целью объяснить первыми m факторов побольше по-парной связности, соизменчивости между переменными, т.е. имеет целью "воссоздать" корреляции. ГКА тоже может воссоздать корреляции - но только всеми p компонентами. Как правило (бывают особые исключения) m первых компонент - в отличии от m первых факторов - не в состоянии сколько-нибудь точно объяснить парные корреляции (по формуле факторной теоремы). Эти различия между ГКА и ФА выражаются тем фактом, что ГКА не признает разбивки изменчивости каждой переменной на 2 рода - общность (является частью соизменчивости переменных) и характерность (уникальная изменчивость данной переменной). А ФА на этой разбивке и зиждется. А т.к. такая разбивка предполагает моделирование неизвестного, то ФА - это статистико-моделирующий метод, требующий заранее знать число полагаемых латент, и от этого числа m зависят их нагрузки. Тогда как ГКА - упрощенческо-описательный метод; латент всегда p, мы оставляем себе ради упрощения данных первые m, и нагрузки их не зависят от m. В ГКА нагрузки, хотя и являются корреляциями между компонентами и переменными, являются однако нечистыми, содержа в себе подлинную общность с примесью характерности. Поэтому факторная теорема обычно и не «сходится». Поэтому также сами гл. компоненты, в отличии от факторов, являют собой смесь общности (со-изменчивости переменных) с характерностями переменных. Все это происходит оттого, что ГКА, исходно игнорируя факт существования характерностей, не пытается достигнуть (напр. итеративно) их сепарации от общностей.
Reply
1).
N: Главные компоненты и факторы-[в узком смысле] - разные вещи.
G: Спасибо, что написали это, т.к. это сплошь и рядом не понимают.
В моей фразе такой штучки «-[в узком смысле]» не было. Если Вы перечитаете мой пост внимательнее, то увидите, что вообще речи о факторах «в узком смысле» в нём не было и быть не могло - я ведь писал о компонентном анализе. Напротив, речь шла только о факторах в самом широком смысле. Изначально приписав зачем-то узость моей трактовке фактора Вы далее вступаете в полемику. Что это как не Imago К. Чапека?
2).
N: Факторы - латентные переменные.
G: И компоненты, и факторы подпадают под понятие "латенты", несмотря на их различие.
Неверно. Латентные переменные - только факторы. В литературе между ними ставят знак равенства, в википедии, например, пишется об «unobserved variables called factors». Главные же компоненты (ГК) - геометрическое понятие в статистике. Сродни диагонали прямоугольника в геометрии. Если есть прямоугольник - можно найти в нём диагональ, если есть корреляционный эллипсоид - можно найти в нём главные компоненты. От того, что мы их пока не нашли ни диагонали, ни ГК латентами не становятся. Конечно исследователь может предполагать, что за ГК стоят какие-то латенты, но это уже его личные проблемы, от этого ГК не становятся латентами тем более.
3).
N: Проводя анализ главных компонент [ГКА] ... в этом случае любые вращения бессмысленны.
G: Не сказал бы. Выделите все p (число переменных) гл. компонент, оставьте из них m первых (или даже любых по желанию, или даже оставьте все p) компонент и вращайте как хотите.
Речь шла пока только о вращении всего количества выделенных компонент (см. текст). Я не писал что это невозможно - вращать «как хотите» можно, я писал что это бессмысленно. Бессмысленно в утилитарном плане - в плане редукции данных с обобщением. Попробуйте выделить ГК и оставив в анализе их все повернуть решение. Много ли смысла Вы сможете вложить полученное таким образом решение?
4).
N: относиться к нескольким первым компонентам как к проявлению стоящих за ними факторов.
G: Довольно загадочная и даже заблуждающая читателя фраза. Я бы не сказал, что за одними латентами (гл. компонентами) стоят другие латенты (факторы). Просто это 2 теоретически разных вида латент.
Действительно фраза может ввести в заблуждения читателя, который понимает всё очень узко: либо в силу общей узости, либо в силу приверженности школам с узкой трактовкой терминов. Я бы тоже не сказал, что за одними латентами стоят другие латенты. А то что за главными компонентами (геометрическими осями) могут стоять факторы (латентные переменные) сказал бы. И, собственно, уже сказал. Почему я настаиваю на в первую очередь широкой трактовке фактора? Помимо отмеченного в (2) такого использования термина в литературе, этому есть и историческое объяснение. Как известно, сам метод факторного анализа получил своё название благодаря психологам, искавшим фактор(ы), определяющие способности человека. Таким образом, под фактором ИЗНАЧАЛЬНО понималась латентная переменная, определяющая коррелированное поведение переменных реальных. И только затем, с развитием философии и методов факторного анализа появилось узкое значение этого термина. Но разве оно отменило широкое?
Reply
-->Напротив, речь шла только о факторах в самом широком смысле.
В "широком смысле" и главные компоненты, и факторы - это одно: так называемые "факторы"; но это затемняет различия между ними, кои вы - как я понял - и хотели подчеркнуть ("Главные компоненты и факторы - разные вещи"). Так что без узкого смысла понятия "факторы", "факторный анализ с собственном смысле" - не обойтись.
-->Латентные переменные - только факторы.
В общем, неверно. Главные компонеты тоже можно назвать латентами. Достаточно будет привести аналогию, что никто не возражает против того, что дискриминанты - полноценные латентные переменные (а ведь дискриминантный анализ не подразумевает характерностей, как не подразумевает и ГКА). И т.д. Диагональ прямоугольника, в конце концов - это латента по отношению к его длине и высоте, почему нет?). Конечно, это дело вкуса и вопрос схоластический, как называть, и все же компоненты формально тоже подпадают под понятие "латентные переменные". Кстати сказать, факторы, в собственном смысле - столь же геометрические понятия, как и компоненты, только подразумевают более сложную геометрию.
-->Попробуйте выделить ГК и, оставив в анализе их все, повернуть решение. Много ли смысла Вы сможете вложить полученное таким образом решение?
А почему нет? Вращение делается только ради более легкой интерпретации. Могу вообразить, что можно повернуть все p компонент так, что они (или часть из них) покажутся более интерпретабельными, чем без вращения. Это будет эквивалентно некоторому довороту исходных p переменных ради лучшей интерпретации. Чего тут обсуждать?
На ваш пункт 4 я не стану, если позволите, отвечать как на философичный, историцистский и резонерский. Он скорее есть саморазмышления, чем возражения мне.
Reply
N: анализ главных компонент ... с числом компонент менее числа переменных и с последующим вращением является уже факторным анализом.
G: Нет. Мы как были в рамках главнокомпонентной парадигмы, так в ней и остались; только повращали часть компонент.
Вы приписываете мне то, что я не говорил. Я не утверждал, что какой-либо вариант ГКА является факторным анализом как Вы неполно процитировали, я говорил, что такой вариант ГКА является факторным анализом ПО СУТИ (см. текст). Т.е., - в контексте повествования, - по способности выявлять латентные переменные (факторы в широком смысле). Почему важна имена эта суть - далее в (6). О том, что я не одинок именно в такой опять-таки широкой трактовке но теперь уже факторного анализа говорит хотя бы то, что метод анализа ГК рассматривается во всех пособиях по факторному анализу и включается в модуль факторного анализа ведущими производителями статистического ПО, и SPSS - в том числе.
6).
N: на исходную корреляционную матрицу дважды накладывается некая модель.
G: "Дважды" на корреляционную матрицу ничего не накладывается. Мы выбираем один раз и одно: делать ли с данной матрицей ГКА или ФА.
Соглашусь, что на матрицу ничего не накладывается, неудачно выразился. А то что выбираем мы несколько раз и несколько раз принимаем принципиальные решения - это так. И пожалуй даже не 2, а 3-4. Если Вы выбираете «только один раз и одно» значит недопонимаете насколько далеко можно уйти от реальности играясь многомерными техниками.
ПЕРВОЕ и главное решение - привносить в решение субъективизм или не привносить.
ВТОРОЕ решение - если привносить, то сколько латент выделять.
ТРЕТЬЕ решение - ГКА или ФА
ЧЕТВЕРТОЕ решение как вращать и вращать ли вообще.
ГКА позволяет не привносить в решение никакого субъективизма, т.к. является исключительно ординационной техникой. Дайте корреляционную матрицу тысяче исследователей и поставьте задачу «найти главные компоненты» - все получат одно и то же решение. Если же поставить задачу «найти факторы», решения будут кто во что горазд. Этот мысленный эксперимент доказывает, что любой метод факторного анализа уже изначально содержит в себе субъективное начало. Для науки это не так страшно (если учесть что даже выбор порогового уровня значимости для принятия решений в 0,05 является не более чем договорённостью), но безусловно принципиально. И куда принципиальнее выбора философии ГКА или ФА.
Если мы берём на себя ответственность привнести в результаты анализа субъективизм, то первое с чем столкнёмся - с выбором числа латентных переменных. Это - первый источник субъективизма, т.к. мы можем выбирать его исходя из своих теоретических построений или полагаясь на готовые технологии, но опять-таки разные. На этом этапе ГКА на первых компонентах в последующим вращением находится в равном положении с методами ФА и принципиально ближе к ним, чем к ГКА на всех компонентах. Именно поэтому я и написал, что такой анализ ГКА по сути уже является факторным анализом, т.к. мы отказались от объективного но по разным причинам менее интересного для нас классического ГКА в пользу субъективной попытки найти факторы в широком смысле. И лишь только на третьем этапе мы делаем выбор в пользу философии и техники дальнейшего анализа, различия между которыми Вы столь подробно осветили. Поскольку полученное решение почти всегда вращается, 4-ый этап можно объединить с 3-им, но и он привносит порцию субъективизма в виде ограничений для обеспечения простоты структуры, умозрительных построений о природе факторов и личных предпочтений исследователя.
Надеюсь, я доступно изложил свою позицию по всем шести пунктам, вызвавшим у Вас протест. По большому счёту это - терминологический спор, а используемая Вами терминология видится мне механистической. Хотя бы один раз ответить был вынужден, но как таковая дискуссия мне не интересна. Если мне что-то непонятно - я спрашиваю на форумах, а если знаю или предполагаю ответ - отвечаю. Обидно что меня не услышал автор темы, т.к. иначе бы ответил на единственный, но кардинальный вопрос - о способе выделения числа компонент для последующего вращения, а не стал бы задавать новые вопросы.
Reply
Вы изрядно запутали свою позицию нечеткими общерассуждениями (а также пропуском запятых кое-где). Я согласен с тем, что понимающий статистику человек должен обязательно уметь поднимать свои выводы до философского уровня. Но - лишь если он сначала усвоил "механистический" уровень. Философия вырастает из понимания относительности механики.
-->любой метод факторного анализа уже изначально содержит в себе субъективное начало.
Как и большинство статистико-моделирующих методов. Это вас смущает?
-->ГКА на первых компонентах и последующим вращением находится в равном положении с методами ФА и принципиально ближе к ним, чем к ГКА на всех компонентах.
Нет. И я уже сказал, почему.
Считаю, что дальнейшее обсуждение бессмысленно, т.к. лучше мы друг друга уже вряд ли поймем.
Reply
Reply
Имея набор из p коррелирующих переменных, мы можем захотеть заменить их производным от него набором из m (m
Reply
m факторов-резюме опишут вам с минимальными (насколько - зависит от m) потерями наблюдаемые многомерные данные как они есть, т.е. позволят вам вместо p переменных иметь m переменных таких, что взаимоположение точек-наблюдений, их евклидовы расстояния между друг-другом, - исказятся незначительно.
m-факторов-сущностей опишут вам с минимальными (насколько - зависит от m) потерями картину взаимокорреляций между переменными. Теория постулирует, что переменные проявляют соизменчивость потому, «внутри» переменных или «за» ними стоят одни и те же свойства, управляющие, в определенной степени, этими переменными одновременно, т.е. согласованным варьированием наблюдений по ним. Отчасти же варьирование у каждой переменной зависит и от уникальных свойств ее самой.
Что касается интерпретации смысла и вращения - эти вещи делаются и с компонентами, и с факторами (со вторыми - чаще). Ни интерпретация, ни вращение не должны затемнять исследователю рефлексию относительно разной природы, неодинаковых целей латент, резюмирующих данные-как-эллипсоидные и латент, сущностных для переменных-как-коррелирующих. Подробнее о фундаментальном различии между факторами и компонентами я писал в одном из комментов выше.
Reply
Теперь хочу показать, как эти различия возникают из их сходства. Обе модели - главнокомпонентная (ГКА) и собственно-факторная (ФА), суть одинаковые обычные линейно-регрессионные модели. Пусть имеем переменные V1 V2…V5 и решили выделить m=2 фактора/компоненты, I и II. Тогда имеем регрессию переменных по латентам:
V1 = a1I*FI + a1II*FII + E1
V2 = a2I*FI + a2II*FII + E2
…
V5 = …
где коэффициент a это нагрузка, переменная F это фактор или компонента, переменная E это регрессионные остатки.
Так вот, ФА отличается от ГКА только тем, что накладывает требование: E1, E2,…, E5 между собой все должны некоррелировать (эти остатки E ФА называет «характерностями» переменных). Тогда как в ГКА остатки от предсказания разных переменных могут свободно коррелировать (эти остатки суть тот «шлак», за который мы приняли отброшенные p-m последних компонент). Различие, казалось бы, небольшое, но - с «катастрофическими» последствиями. ФА, в отличии от ГКА, отныне не может быть описательным методом, но является жестко-моделирующим. В ФА факторы предсказывают переменные, но не наоборот; в то время как в ГКА модель проходима в обоих «направлениях», и мы можем переписать систему уравнений , чтобы факторы были зависимыми, а переменные - независимыми членами.
Наконец, о геометрии. Факторы можно тоже корректно нарисовать, как и компоненты, в виде осей или же векторов. Но рисунок будет посложней, чем в случае компонент.
Reply
Leave a comment