У меня выходит довольно много постов про исследования образцов ДНК древних людей. Тем не менее, современная популяционная генетика мне тоже интересна. Как-то я писал
о своем опыте генетического тестирования. А сегодня хочу рассказать о, пожалуй, лучшем сервисе интерпретации генетических тестов. Это
Familio DNA (бывш. ExpertDNA).
Этот пост рассчитан, в первую очередь, на людей в теме, поэтому я не буду разъяснять почему "сырые" интерпретации от генетических лабораторий зачастую бывают неудовлетворительны для новичков. Иначе это заняло бы слишком большой объем. Этот текст для тех, кто хочет выжать максимум из своего аутосомного теста и получить наиболее подробную информацию о своем геноме в сравнении с современными популяциями. В общем, это попытка простым языком объяснить, что происходит во время подготовки такого отчета, и что он может показать. Но сперва немного общей информации.
Familio DNA предлагает профессиональную интерпретацию результатов генетических тестов в виде отчета. Отчеты бывают трех типов: Базовый, Базовый Плюс и Расширенный. Чем они отличаются?
1) Базовый - самый простой. Большую часть работы над ним выполняет специальный автоматический алгоритм. В результате данные проходят несколько этапов и формируются в виде отчета. Этот вид отчета полезен для людей, чьи предки происходят из одного/двух регионов или этнических групп. Также это будет полезно для тех, кто вообще ничего не знает о своих предках, даже места рождения хотя бы одного из родителей. Базовый отчет покажет вероятный ареал происхождения ближайших предков, тип происхождения - несмешанный или несколько вариантов смешанных из 2-х или 3-х компонентов. Кроме того, базовые предковые компоненты покажут вклад более древних предков, раскрывая древнюю историю предковых популяций. Отчет сопровождается схемами, картами и иллюстрациями.
2) Базовый плюс - более сложный вид отчета. В этом случае учитывается известное генеалогическое происхождение заказчика, а получившиеся результаты сравниваются с ожидаемыми. Этот отчет требует довольно вдумчивой интерпретации получившихся отклонений от ожидаемых результатов. Если такие отклонения есть, в отчете описывается вероятная причина. Такой отчет пригодится людям со сложным смешанным происхождением, либо тем, кто хочет проверить насколько у него типичные результаты для представителя своей популяции. Пожалуй, особенно полезен такой отчет тем, у кого есть вероятные предки во 2-4 поколении из татар, евреев, жителей Балкан или Ближнего Востока.
Кроме того, в таком отчете тип (модель) происхождения будет выбран не автоматически, а экспертом, исходя из известных генеалогических данных. Это позволяет соотнести конкретные выделившиеся компоненты с вкладом тех или иных родственников. Такой отчет дополняется экспертным заключением на 1-2 страницы, а также добавляются некоторые схемы.
3) Расширенный - наиболее трудоемкий отчет. Помимо всего того, что делается Базовый Плюс, этот тип отчета предполагает экспертный подбор оптимальной модели происхождения с учётом известного происхождения предков, моделирование неизвестных или сомнительных предков. По сути, в таком отчете эксперт тестирует множество моделей, чтобы выяснить, какие популяции дают те или иные отклонения и насколько велик их вклад. Такой тип отчета нужен не всем. Он потребуется для раскрытия более тонких вопросов - например, выяснить вероятный источник одной из предковых линий. Скажем, известно про двух бабушек, но про одного деда. Полезно будет для тех, кто хочет проверить какие-нибудь семейные легенды (например, про прадеда турка/цыгана/еврея) и т.д. Кроме того, такой тип отчета будет полезен, если предки человека происходят из нескольких (больше двух) далеких друг от друга популяций.
После этого небольшого введения стоит перейти к самому главному, ради чего и пишется этот пост. Расскажу вкратце о том, как происходит работа над отчетом.
Часть ее автоматизирована. Специальный алгоритм анализирует исследуемые данные в несколько этапов и формирует первичный отчет, который содержит необходимые для интерпретации результаты. При этом исследуемый геном описывается с помощью одной из моделей - несмешанной или нескольких вариантов смешанных. Алгоритм выбирает наиболее подходящую модель, исходя из особенностей генома.
Анализ можно разбить на три важных этапа, которые описывают геном с помощью трех разных методов.
1. Пространство генофондов. Этот этап определяет положение в так называемом «пространстве генофондов». По сути, это график РСА, в котором применяется метод главных компонентов. Если совсем просто - это "карта" генофондов Евразии. На пространстве генофондов народы Евразии располагаются согласно особенностям их ДНК и тяготеют к противоположным краям евразийского континента в зависимости от того, какие варианты преобладают в составе их генома - «северные», «восточные», «южные» или «западные».
Для примера приведу график пространства генофондов моей знакомой, которая делала отчет.
Сам исследуемый геном отмечен красным ромбом. Вокруг него два концентрических круга. В самом первом, ближнем к ромбу отражаются популяции, в которые с 50% вероятностью попадает исследуемый геном. Второй, дальний круг, очерчивает популяции, в которые наш образец попадает с 40% вероятностью. В сумме это дает 90% вероятность попадания генома в ту или иную группу. Рассмотрим пример на изображении. В ближнем кругу расположена цифра 1, в которую входят схожие между собой группы русских Московской, Тверской областей, окрестностей Мурома и рязанская мещёра. Во втором круге больше цифр и больше групп. Там, в основном группы центральных и южных русских, а также часть белорусов.
Красным квадратом отображается положение генома, исходя из известных данных. Как можно увидеть, красный квадрат расположен за пределами 90% вероятности предковых групп для нашего генома. Т.е. результаты нашего образца отличаются от ожидаемых и не выглядят типично для представителей региона, в котором проживает человек, чей геном исследуется. Предки девушки, которой принадлежит этот отчет, проживали на территории Воронежской области. Как можно увидеть, результаты оказались не слишком типичными, что в конечном итоге подтверждается историческими данными (переселения из Центральной России).
В зависимости от моделей, геном на графике может выглядеть по-разному. Другой пример принадлежит моему товарищу. Он наполовину мокша, наполовину русский из Рязанской области. Что интересно, даже автоматический отчет как наиболее предпочтительную модель выбирает 50 на 50. Это мы можем увидеть и на пространстве генофондов. Ниже на графике расположены два заштрихованных круга, которые обозначают предковые компоненты и связанные с ними популяции. Один круг - мордва, мокша с эрзей, второй - русские, среди которых группа русских Рязанской области. Как раз между этими кругами расположился квадрат с предполагаемым происхождением, исходя из генеалогических данных, а рядом с ним - ромб с фактическим положением генома. Т.е. очень точное совпадение, попадание в яблочко.
Бывают и другие модели, в которых соотношение компонентов иное. В этом случае один круг больше, а второй меньше. Кроме того, есть модель с тремя предками и тремя заштрихованными кружками. На практике такая модель мало кому подходит, в основном, людям со сложным происхождением от далеких друг от друга популяций. Знаю случай, где у человека были три довольно разные популяции - русские, итальянцы и евреи. В итоге именно модель трех предков всех их успешно выделила.
2. Уровни сходства на географических картах. Второй этап подразумевает применение более сложного алгоритма. Он выявляет уровни сходства образца с различными популяциями и отрисовывает эти уровни на географических картах. Группы, оказавшиеся достаточно близко друг к другу на предыдущей схеме, на карте могут отдалиться, что укажет на более тонкие различия в их ДНК.
Вот так, к примеру выглядит моя карта Восточной Европы для несмешанной модели.
Согласно легенде, зоны с наиболее интенсивным красным цветом отражают группы с наиболее высоким сходством с исследуемым образцом. На практике, можно сказать, что и группы с высоким сходством тоже информативны. Группы со средним уровнем сходства скорее показывают близкие группы в силу тех или иных исторических процессов, а не генеалогического сходства.
Кроме того, отрисовывается и карта Евразии, где можно оценить уровне сходства на большем масштабе. В целом, я довольно типично выгляжу на фоне групп южных и центральных русских, а также восточных украинцев. Но бывают случаи, когда ареал сходства намного меньше. На примере ниже очень высокое сходство выделилось для жителей Тамбовской области и южных украинцев.
Если наиболее подходит смешанная модель, карта может выглядеть иначе. Тут мы увидим несколько цветов. Можно привести карты из отчета того самого товарища (мокша+Рязань). Здесь зеленый компонент охватывает довольно широкий круг групп, среди которых есть и рязанцы. Красный компонент охватил мокшу с эрзей, а также генетически близкие к ним группы русских от Кадома до Вологды. Это вполне соответствует фактическому происхождению.
3. Третий этап
Третий этап разбивает геном на т.н. предковые компоненты. Генофонды современных народов формировались длительное время в процессе миграций и смешений. В современной Евразии почти не найти людей, которые будут идеально похожи по своей ДНК на какое-нибудь из племён каменного века. Однако существуют алгоритмы, позволяющие вычислить древние предковые источники ДНК для любого современного генома. Хотя математическая модель содержит долю условности, сравнение с настоящими древними геномами подтверждает её работоспособность. Определив базовые компоненты, можно выявить более общие и масштабные источники формирования генофондов, чем при сравнении с современными популяциями. В отчёте для этого используется алгоритм Admixture. Показательна модель, где геном раскладывается на девять компонентов: семь из них наиболее характерны для народов Евразии, один для американских индейцев, и один - для африканцев.
Полученный результат отображается в виде диаграммы, где указаны проценты тех или иных компонентов.
Однако для отчетов Базовый плюс и Расширенный на этом же этапе можно сравнить полученные значения с ожидаемыми при том или ином происхождении. Например, еще один отчет моего знакомого. На этот раз белорусы. Синим цветом на диаграмме отображается ожидаемое значение, а красные полосы показывают значение фактические. Ниже по оси Х отмечены градации процентов. Можно увидеть, что наиболее важные, мажорные компоненты, такие как европейский, средиземноморский, кавказско-пакистанский практически совпали с ожидаемыми значениями. Отклонения - крайне минимальны. Для менее значимых компонентов отклонения более заметны (например, превышен восточносибирский), но в этом случае речь идет об 1-2%, и этим можно пренебречь. Таким образом, диаграмма ниже отображает довольно типичные результаты, совпадающие с ожидаемыми значениями.
Другой пример и вторая диаграмма - можно увидеть обратную ситуацию. Здесь отклонения главных компонентов заметны и достаточно велики, чтобы ими нельзя было пренебречь. Наиболее показательны - увеличение европейского и уменьшение средиземноморского компонентов. Это явно будет оттягивать геном к более северным группам, что также было заметно и на других этапах анализа.
В конечном итоге, интерпретация зависит от всех трех этапов и той картины, которую они показывают. Немаловажны при этом генеалогические данные. Они, собственно и позволяют сделать выбор между моделями. Предустановленные генеалогические данные не влияют на сам результат, они нужны лишь для сравнения ожидаемого и фактического и конечного выбора модели. Кроме того, в случае значимых отклонений они помогают подбирать оптимальные выборки для прогнозирования предполагаемых примесей.
Сам подбор модели требует довольно глубоких знаний популяционной картины современных народов или этнических групп, исторических процессов, специфики этногенеза. В команде Familio работают люди и с биологическим, и с историческим образованием, что позволяет успешно справляться с задачами интерпретации.
В свое время я заказывал отчеты для себя, для друзей и родственников, рекомендовал знакомым. И результаты полностью меня удовлетворили. В моем случае, кстати, удалось потом на генеалогических данных прояснить некоторые особенности своего результата.
В общем, это хороший сервис, чтобы "добить" свой аутосомный тест до максимума в плане популяционной генетики.