Статистика

May 30, 2021 17:12

Френды, кто разбирается в статистике?
Почему возникает вот такая фигня? Первая картинка (метод - General Linear Models):


Read more... )

Иран, научная практика, убиться веником, клещи-краснотелки, математика

Leave a comment

Comments 18

birdwatcher May 30 2021, 15:18:47 UTC
Это типичная ситуация -- с добавлением Latitude у вас теперь новая модель, в которой всё другое, включая коэффициенты и, следовательно, их p-values. Чтобы понять больше, рекомендуют cross-validation -- разбивать исходный набор данных на несколько частей, оценивать модель на этих частях, и сравнивать результаты (в вашем случае - две конкурирующие модели, одна с Latitude, другая без). Если данных много, можно разбивать на непересекающимися части. Если мало, можно хотя бы выбрасывать каждый раз по одному наблюдению - тоже получаются разные наборы, и вы увидите, что все коэфиициенты тоже каждый раз меняются (в тяжёлом случае - до неузнаваемости). Но какие-то будут оставаться значимыми в большинстве случаев или даже всегда -- их можно с некоторой уверенностью признать "настоящими" (естественно, всё это в сочетании с вашей интуицией в предметной области).

Reply

trombicula May 30 2021, 15:26:32 UTC
Да, спасибо, но у меня такое чувство, что вряд ли это поможет. Моя математическая (не предметная) интуиция подсказывает, что, быть может, здесь фатально плохая зависимая переменная. Она слишком дискретная. Попробую, для начала, взять другие исходные данные (менее редуцированные) и сконструировать другую переменную.

Reply

birdwatcher May 30 2021, 15:44:49 UTC
Для дискретных подходит логистическая регрессия, но от этого эффекта не избавишься,что добавляешь переменную, и всё остальное радикально меняется.

Reply

trombicula May 30 2021, 15:50:29 UTC
Логистическая же если только два значения... Скорее дискриминантный анализ. Но это по смыслу не подходит к данным: здесь должны быть не "группы", а, скорее, некая градация - между случаем, когда все клещи сидят у мыши в ухе, и когда все - под хвостом.

Reply


micliva May 30 2021, 18:50:59 UTC
Переменная Latitude сильно коррелирует с Host и Season и может их в модели заменить.

Reply

trombicula May 30 2021, 19:10:12 UTC
Ну, там, похоже, изначально неудачно были организованы сборы - допустим, одни виды мышей собирали только в более южных местах и зимой, а другие - только в северных и летом. Да, Latitude сильно связана с Host и Season:

... )

Reply

micliva May 31 2021, 00:57:03 UTC
Общий ответ: если у вас сильно коррелированные величины, вы можете получить всё что угодно.
Конкретно здесь: а что вас удивляет, если можно описать ту же связь одной переменной, а не двумя, это всегда лучше, вы уменьшаете сложность модели, она оказывается лучше.

Reply

micliva May 31 2021, 01:00:55 UTC
И вообще, извините если я давлю знаниями, но правильнее добавлять переменные по одной, а не пихать все сразу.

Reply


polenadisto May 31 2021, 02:58:56 UTC
Как уже сказали выше, добавление новой переменной меняет всю модель,так как изменчивость может по иному паспределяться.
Помимо кросс-валидации или пошаговой регрессии, еще можно предложить выбор лучшей модели по AIC. В Статистике реализовано не в модуле General Linear Model, а в модуле Generalized Linear/Nonlinear Model.

Reply

trombicula May 31 2021, 08:59:53 UTC
Да, я уже делал логистическую регрессию с помощью этого модуля, как мне выше предложили, в.т.ч. и best subset по AIC. В общем, пока все плохо - очень разнообразные и неустойчивые результаты.

Сейчас думаю, что проблема может быть не в структуре зависимой переменной, а в характере предикторов. Дело в том, что высота, долгота и широта взяты в качестве непрерывных величин, но на самом-то деле это константные характеристики мест сбора, которых несколько десятков. Просто включить переменную "место сбора" невозможно, т.к. получится слишком много мелких групп. Надо попробовать взять карту и ввести категориальную переменную со значениями вроде "к северу от Эльбурса", "к югу от Эльбурса" и "Северный Хорасан".

Reply


uri_ben_cephas June 1 2021, 08:28:16 UTC

Я бы, со своей дилетантсеой колокольни посоветовал построить карты и посмотреть глазами, как географически распределены образцы по разным параметрам. Может быть, там картина не очень запутанная.

Reply

trombicula June 1 2021, 08:29:57 UTC

polnaya_hernyz June 14 2021, 08:15:28 UTC
Возможно, дело выборе модели MANOVA. Если вы использовали Модель I, то она придаёт вес факторам согласно их положению в списке: первому наибольший, прочим в убывающем порядке. Лучше пользоваться Моделью III и обязательно включить взаимодействие (корреляцию) факторов. Если корреляция факторов даёт значимый эффект, имеет смысл вычислить обобщённый фактор (напр., с помощью непараметрического PCA) и работать с ним.

У вас под боком в Питере живёт и работает зоолог "с математическим уклоном" Андрей Пузаченко. Возможно, вы его знаете. Обратитесь к нему - он очень грамотно поможет (на всякий случай его "мыло" andreypuzak@gmail.com).
ИП

Reply

trombicula June 14 2021, 08:53:07 UTC
Спасибо: я сейчас более-менее разобрался - там проблема была не в выборе метода, а в том, что 1) данные вообще не позволяли нормально изучать какие-то зависимости, 2) некоторые предикторы были по-дурацки представлены (как набор непрерывных переменных вместо одной категориальной).

Reply


Leave a comment

Up