Это типичная ситуация -- с добавлением Latitude у вас теперь новая модель, в которой всё другое, включая коэффициенты и, следовательно, их p-values. Чтобы понять больше, рекомендуют cross-validation -- разбивать исходный набор данных на несколько частей, оценивать модель на этих частях, и сравнивать результаты (в вашем случае - две конкурирующие модели, одна с Latitude, другая без). Если данных много, можно разбивать на непересекающимися части. Если мало, можно хотя бы выбрасывать каждый раз по одному наблюдению - тоже получаются разные наборы, и вы увидите, что все коэфиициенты тоже каждый раз меняются (в тяжёлом случае - до неузнаваемости). Но какие-то будут оставаться значимыми в большинстве случаев или даже всегда -- их можно с некоторой уверенностью признать "настоящими" (естественно, всё это в сочетании с вашей интуицией в предметной области).
Да, спасибо, но у меня такое чувство, что вряд ли это поможет. Моя математическая (не предметная) интуиция подсказывает, что, быть может, здесь фатально плохая зависимая переменная. Она слишком дискретная. Попробую, для начала, взять другие исходные данные (менее редуцированные) и сконструировать другую переменную.
Логистическая же если только два значения... Скорее дискриминантный анализ. Но это по смыслу не подходит к данным: здесь должны быть не "группы", а, скорее, некая градация - между случаем, когда все клещи сидят у мыши в ухе, и когда все - под хвостом.
Ну, там, похоже, изначально неудачно были организованы сборы - допустим, одни виды мышей собирали только в более южных местах и зимой, а другие - только в северных и летом. Да, Latitude сильно связана с Host и Season:
Общий ответ: если у вас сильно коррелированные величины, вы можете получить всё что угодно. Конкретно здесь: а что вас удивляет, если можно описать ту же связь одной переменной, а не двумя, это всегда лучше, вы уменьшаете сложность модели, она оказывается лучше.
Как уже сказали выше, добавление новой переменной меняет всю модель,так как изменчивость может по иному паспределяться. Помимо кросс-валидации или пошаговой регрессии, еще можно предложить выбор лучшей модели по AIC. В Статистике реализовано не в модуле General Linear Model, а в модуле Generalized Linear/Nonlinear Model.
Да, я уже делал логистическую регрессию с помощью этого модуля, как мне выше предложили, в.т.ч. и best subset по AIC. В общем, пока все плохо - очень разнообразные и неустойчивые результаты.
Сейчас думаю, что проблема может быть не в структуре зависимой переменной, а в характере предикторов. Дело в том, что высота, долгота и широта взяты в качестве непрерывных величин, но на самом-то деле это константные характеристики мест сбора, которых несколько десятков. Просто включить переменную "место сбора" невозможно, т.к. получится слишком много мелких групп. Надо попробовать взять карту и ввести категориальную переменную со значениями вроде "к северу от Эльбурса", "к югу от Эльбурса" и "Северный Хорасан".
Я бы, со своей дилетантсеой колокольни посоветовал построить карты и посмотреть глазами, как географически распределены образцы по разным параметрам. Может быть, там картина не очень запутанная.
Возможно, дело выборе модели MANOVA. Если вы использовали Модель I, то она придаёт вес факторам согласно их положению в списке: первому наибольший, прочим в убывающем порядке. Лучше пользоваться Моделью III и обязательно включить взаимодействие (корреляцию) факторов. Если корреляция факторов даёт значимый эффект, имеет смысл вычислить обобщённый фактор (напр., с помощью непараметрического PCA) и работать с ним.
У вас под боком в Питере живёт и работает зоолог "с математическим уклоном" Андрей Пузаченко. Возможно, вы его знаете. Обратитесь к нему - он очень грамотно поможет (на всякий случай его "мыло" andreypuzak@gmail.com). ИП
Спасибо: я сейчас более-менее разобрался - там проблема была не в выборе метода, а в том, что 1) данные вообще не позволяли нормально изучать какие-то зависимости, 2) некоторые предикторы были по-дурацки представлены (как набор непрерывных переменных вместо одной категориальной).
Comments 18
Reply
Reply
Reply
Reply
Reply
( ... )
Reply
Конкретно здесь: а что вас удивляет, если можно описать ту же связь одной переменной, а не двумя, это всегда лучше, вы уменьшаете сложность модели, она оказывается лучше.
Reply
Reply
Помимо кросс-валидации или пошаговой регрессии, еще можно предложить выбор лучшей модели по AIC. В Статистике реализовано не в модуле General Linear Model, а в модуле Generalized Linear/Nonlinear Model.
Reply
Сейчас думаю, что проблема может быть не в структуре зависимой переменной, а в характере предикторов. Дело в том, что высота, долгота и широта взяты в качестве непрерывных величин, но на самом-то деле это константные характеристики мест сбора, которых несколько десятков. Просто включить переменную "место сбора" невозможно, т.к. получится слишком много мелких групп. Надо попробовать взять карту и ввести категориальную переменную со значениями вроде "к северу от Эльбурса", "к югу от Эльбурса" и "Северный Хорасан".
Reply
Я бы, со своей дилетантсеой колокольни посоветовал построить карты и посмотреть глазами, как географически распределены образцы по разным параметрам. Может быть, там картина не очень запутанная.
Reply
Reply
У вас под боком в Питере живёт и работает зоолог "с математическим уклоном" Андрей Пузаченко. Возможно, вы его знаете. Обратитесь к нему - он очень грамотно поможет (на всякий случай его "мыло" andreypuzak@gmail.com).
ИП
Reply
Reply
Leave a comment