Comments | trombicula: Статистика

trombicula

Статистика

May 30, 2021 17:12

Френды, кто разбирается в статистике?
Почему возникает вот такая фигня? Первая картинка (метод - General Linear Models):

( Read more... )

Иран, научная практика, убиться веником, клещи-краснотелки, математика

Comments 18

birdwatcher May 30 2021, 15:18:47 UTC

Это типичная ситуация -- с добавлением Latitude у вас теперь новая модель, в которой всё другое, включая коэффициенты и, следовательно, их p-values. Чтобы понять больше, рекомендуют cross-validation -- разбивать исходный набор данных на несколько частей, оценивать модель на этих частях, и сравнивать результаты (в вашем случае - две конкурирующие модели, одна с Latitude, другая без). Если данных много, можно разбивать на непересекающимися части. Если мало, можно хотя бы выбрасывать каждый раз по одному наблюдению - тоже получаются разные наборы, и вы увидите, что все коэфиициенты тоже каждый раз меняются (в тяжёлом случае - до неузнаваемости). Но какие-то будут оставаться значимыми в большинстве случаев или даже всегда -- их можно с некоторой уверенностью признать "настоящими" (естественно, всё это в сочетании с вашей интуицией в предметной области).

trombicula May 30 2021, 15:26:32 UTC

Да, спасибо, но у меня такое чувство, что вряд ли это поможет. Моя математическая (не предметная) интуиция подсказывает, что, быть может, здесь фатально плохая зависимая переменная. Она слишком дискретная. Попробую, для начала, взять другие исходные данные (менее редуцированные) и сконструировать другую переменную.

birdwatcher May 30 2021, 15:44:49 UTC

Для дискретных подходит логистическая регрессия, но от этого эффекта не избавишься,что добавляешь переменную, и всё остальное радикально меняется.

trombicula May 30 2021, 15:50:29 UTC

Логистическая же если только два значения... Скорее дискриминантный анализ. Но это по смыслу не подходит к данным: здесь должны быть не "группы", а, скорее, некая градация - между случаем, когда все клещи сидят у мыши в ухе, и когда все - под хвостом.

Thread 7

micliva May 30 2021, 18:50:59 UTC

Переменная Latitude сильно коррелирует с Host и Season и может их в модели заменить.

trombicula May 30 2021, 19:10:12 UTC

Ну, там, похоже, изначально неудачно были организованы сборы - допустим, одни виды мышей собирали только в более южных местах и зимой, а другие - только в северных и летом. Да, Latitude сильно связана с Host и Season:

( ... )

micliva May 31 2021, 00:57:03 UTC

Общий ответ: если у вас сильно коррелированные величины, вы можете получить всё что угодно.
Конкретно здесь: а что вас удивляет, если можно описать ту же связь одной переменной, а не двумя, это всегда лучше, вы уменьшаете сложность модели, она оказывается лучше.

micliva May 31 2021, 01:00:55 UTC

И вообще, извините если я давлю знаниями, но правильнее добавлять переменные по одной, а не пихать все сразу.

Thread 5

polenadisto May 31 2021, 02:58:56 UTC

Как уже сказали выше, добавление новой переменной меняет всю модель,так как изменчивость может по иному паспределяться.
Помимо кросс-валидации или пошаговой регрессии, еще можно предложить выбор лучшей модели по AIC. В Статистике реализовано не в модуле General Linear Model, а в модуле Generalized Linear/Nonlinear Model.

trombicula May 31 2021, 08:59:53 UTC

Да, я уже делал логистическую регрессию с помощью этого модуля, как мне выше предложили, в.т.ч. и best subset по AIC. В общем, пока все плохо - очень разнообразные и неустойчивые результаты.

Сейчас думаю, что проблема может быть не в структуре зависимой переменной, а в характере предикторов. Дело в том, что высота, долгота и широта взяты в качестве непрерывных величин, но на самом-то деле это константные характеристики мест сбора, которых несколько десятков. Просто включить переменную "место сбора" невозможно, т.к. получится слишком много мелких групп. Надо попробовать взять карту и ввести категориальную переменную со значениями вроде "к северу от Эльбурса", "к югу от Эльбурса" и "Северный Хорасан".

uri_ben_cephas June 1 2021, 08:28:16 UTC

Я бы, со своей дилетантсеой колокольни посоветовал построить карты и посмотреть глазами, как географически распределены образцы по разным параметрам. Может быть, там картина не очень запутанная.

trombicula June 1 2021, 08:29:57 UTC

Ну вот я тоже так думаю: https://trombicula.livejournal.com/399235.html?thread=4396931#t4396931

polnaya_hernyz June 14 2021, 08:15:28 UTC

Возможно, дело выборе модели MANOVA. Если вы использовали Модель I, то она придаёт вес факторам согласно их положению в списке: первому наибольший, прочим в убывающем порядке. Лучше пользоваться Моделью III и обязательно включить взаимодействие (корреляцию) факторов. Если корреляция факторов даёт значимый эффект, имеет смысл вычислить обобщённый фактор (напр., с помощью непараметрического PCA) и работать с ним.

У вас под боком в Питере живёт и работает зоолог "с математическим уклоном" Андрей Пузаченко. Возможно, вы его знаете. Обратитесь к нему - он очень грамотно поможет (на всякий случай его "мыло" andreypuzak@gmail.com).
ИП

trombicula June 14 2021, 08:53:07 UTC

Спасибо: я сейчас более-менее разобрался - там проблема была не в выборе метода, а в том, что 1) данные вообще не позволяли нормально изучать какие-то зависимости, 2) некоторые предикторы были по-дурацки представлены (как набор непрерывных переменных вместо одной категориальной).