Этот пост скорее технический, для личных нужд.
Возникла потребность написать инструкцию к ресурсы vahaduo. Не все понимают, как им пользоваться. На этом ресурсе удобно сравнивать близость генетических образцов современных и древних людей. В общем-то, это больше технический пост, ссылку на который я дам людям не из жэжэчки. Но мне удобней написать раз здесь, чем каждый раз расписывать по-новому.
Итак, первым делом открываем ссылку:
https://vahaduo.github.io/vahaduo/ Здесь мы сразу замечаем разделы с надписью на английском. В основном, нам потребуются вот эти три.
Обозначил их разными цветами для удобства.
Для начала нам потребуется раздел Source, источник. Его я обозначил красным. Этот раздел - база, с которой мы будем сравнивать. Соответственно, туда надо вставлять координаты. Если современных людей - то современных, если древних, то древних.
Вопрос - откуда взять эти координаты. Тут несколько вариантов. Самый простой - нажать на правый верхний угол. Вот сюда.
Нас выведет на страницу с координатами, которые можно скачать. Для этого кликните на следующей странице вот сюда.
Затем выбираем раздел Scaled. Здесь, собственно, базы.
Modern scaled - генетические координаты индивидов, отдельных людей, из академических работ разных лет по генетике. Куча народов и этнических групп по алфавиту от абазинов до чжуанов.
Modern scaled averages - средние данные по группам, а не по индивидам. Для современных людей рекомендую использовать в Source именно её.
Ancient scaled - древние индивиды.
Ancient scaled average - средние данные по древним группам.
Нажимаем на ту, которая нам нужна - скачиваем обычный текстовый файл txt.
Вот на примере средних значений современных людей. Выглядит довольно просто. Куча строк с названием той или иной группы и ряд цифр. Выделяем и копируем весь текст, вставляем в Source.
Итак, мы определились с источником, с базой. Теперь нас интересует раздел Target, который я выделил синим. Сюда следует вставить то, что мы будем сравнивать. Это может быть, что угодно - и древние образцы,и современные, и вы сами, если у вас есть координаты.
Пойдем самым простым путем. Скажем, нам надо понять, к кому ближе всего современные румыны. Мы уже вставили координаты из базы в Source. Там находим румын и выделяем всю строчку.
Копируем её, нажимаем на Target и вставляем туда. Теперь переходим в раздел Distance, выделял синим. В этом разделе в поле справа мы увидим кнопку с румынами.
Нам надо её нажать, чтобы увидеть дистанции румын к другим народам и группам из Source. Жмем и видим результат.
Столбик показывает нам топ-25 самых близких к румынам групп. Можно отобразить и большее количество. Для этого в разделе Max output number просто меняем цифру как в меньшую, так и в большую стороны, как удобно.
Что обозначают цвета и цифры? Чем больше близость, тем цвет более насыщенно-зелёный. Чем дальше, тем он больше меняет цвет. Очень близкими можно считать расстояния до 0.025-0.025. Cобственно, это видно и визуально, верхушка столбика более зеленая. О чем говорит результат. О том, что к румынам очень сильно близки черногорцы, болгары, сербы, македонцы, молдоване, гагаузы, боснийцы и даже северо-восточные итальянцы. Это практически один генофонд, очень близких друг к другу групп. Более желтая часть столбика, где можно увидеть разные выборки от итальянце до австрийцев и французов с венграми, обозначают близость, но более далекую. Ориентируйтесь на цифры.
Вот и вся премудрость. Точно также можно сравнить и древние образцы с современными. Например, мы можем залезть в файлик с древними индивидами (Ancient scaled), скопировать оттуда строчку с одним из образцов позднемайкопской культуры энеолита. Вставляем её в Target и проделываем все вышеуказанные действия, чтобы узнать, к кому же близок этот образец из современных народов. Видим результат, который нам показывает очень большую близость к современным грузинам и близким к ним народам.
Другой пример. Попробуем сравнить мезолитического Чеддарского человека из британского среднего каменного века (мезолита). Проделываем все вышеуказанные действия и получаем результат.
Здесь мы наблюдаем яростно-холодные синие оттенки и огромные цифры, на порядки больше тех, что мы наблюдали ранее. Да, нам высветились латыши, литовцы, эстонцы и т.д. Но учитывайте цифры. Судить надо по ним. А они нам говорят, что хоть латыши и ближе всего к чеддарскому человеку, расстояния между ними просто гигантские. Какой-нибудь испанец или грек будет к латышам куда ближе, чем Чеддарский человек.
Я бы рекомендовал скачать еще несколько файликов для Source. Это мой файлы, в которые я добавлял то, чего нету в стандартных. Там больше и современных групп, и древних индивидов.
Скачать можно здесь
https://disk.yandex.ru/d/IDwlKU-Cs8cjqA Есть там и файлик с названием "базовые компоненты". Для чего он нужен? Vahaduo может представить тот или иной образец, как смесь других компонентов из базы. Чаще всего для этого используются максимально далекие друг от друга древние образцы типа мезолитических охотников-собирателей, неолитических земледельцев и т.д. Открываем файлик базовые компоненты и копируем в Source вариант "Стандартный". Выделил его в файле.
Скажем, я хочу посмотреть, из чего состоит один из ранних образцов польской культуры шнуровой керамики. Вставляю его координаты в Target. А затем перехожу навкладку Single. Здесь сначала жмем на обозначение нашего образца (1). Затем видим сам результат. Генофонд человека ранней польской культуры шнуровой керамики на 94,4% состоял из генофонда, схожего с генофондом ямников, на 4.6% от западноевропейских охотников-собирателей (WHG - Western Hunter Gatherers), на 0,8% из генофонда, похожего на генофонд неолитических земледельцев из Турции (TUR_Barcin_N). Правда, значения менее 1% лучше стоит рассматривать как информационный шум. Обратите внимание на красную цифру 3. Она показывает дистанцию до этой нашей модели. Здесь такие же расстояние, как и в обычном сравнении. Цифра 0.026 показывает, что модель относительно точно определила состав ранних шнуровиков. А вот если увидим какие-нибудь 0.060.. или еще больше, значит что-то не так и нам нам просто не хватает древних образцов для сравнения. Когда-нибудь еще накопают)).
Вот, собственно и всё.
Можно еще использовать метод главных компонент, который покажет нам пространственное расположение образцов на РСА. Для этого проходим по ссылке.
https://vahaduo.github.io/g25views/#NorthEurope Здесь я выбрал PCА Северной Европы, но вы можете выбрать и другое, нажав раздел Choose PCA. В поле правее него вставляете интересные вам координаты и смотрите, как они расположатся.