Одним из основных следствий открытия «Двойной Спирали» было понимание того, что, жизнь (и смерть!) живых организмов изначально закодирована в последовательности четырёх азотистых оснований, сокращённо обозначаемых как A, T, G и C (в РНК U вместо T, но этот пост только о ДНК). Естественно, одной из главных задач молекулярной биологии (и многих смежных дисциплин) стало определение последовательности нуклеотидов в ДНК - секвенирование ДНК (DNA sequencing).
Поначалу прогресс в этой области был довольно медленным - первый полный геном (бактериофага PhiХ174) был секвенирован лишь в 1977г. Длина этого секвенса «всего» 5386нт и понадобилось 24 года от появления модели Уотсона-Крика чтобы его расшифровать.
Первые полные геномы были «штучным товаром», но технологии совершенствовались. Пожалуй, наибольший вклад в это внесли дважды нобелевский лауреат Frederick Sanger (его метод секвенирования, за разработку которого он получил вторую Нобелевскую премию, использовался повсеместно очень долго) и Leroy Hood (изобретатель автоматического секвенирования ДНК). В какой-то момент возможности секвенирования стали расти взрывообразно, а его цена сильно упала. Сейчас индивидуальный геном человека (длина - около 3 миллиардов пар оснований) в продвинутых специализированных центрах может быть секвенирован менее, чем за день, и стоит это несколько сот долларов.
За это время сменилось несколько «поколений» технологий секвенирования (после 3-го я сбился со счёта) и этот процесс продолжается. В его детали вдаваться не буду. Это представляет интерес только для специалистов (каковым в этой области я не являюсь, хотя в «старые добрые времена» с секвенированием и анализом секвенсов дело имел).
Каковы бы ни были конкретные технологии, в конечном итоге, они сводятся к следующему:
1) многократному «прочтению» более или менее длинных участков секвенса ДНК, в результате чего генерируется огромное количество «частичных секвенсов», которые в большей или меньшей степени перекрываются. В современных методах секвенирования количество «частичных секвенсов» огромно т.к. процесс их генерации запараллелен
2) Дедуцирование полногеномного секвенса путём «сшивания» этих фрагментов, используя участки их наложения. С такой работой хорошо справляются компьютеры. Разумеется, для этого нужно соответствующее программное обеспечение.
Каков размер генерируемых частичных «прочтений» (их так и называют - reads) важно. «Short read» вполне адекватны для секвенирования вирусных геномов, но в сложных геномах типа человеческого есть участки - множественные повторы - для прочтения которых «short reads» не подходят. Несколько лет назад стало возможным секвенирование с генерацией «long reads». Cобственно, только после этого, спустя 20 лет после объявления о расшифровке человеческого генома в «первом приближении» (first draft), человеческий геном был «прочитан» полностью.
Для секвенирования ДНК с использованием long reads необходимо её большое количество (микрограмы). Из-за этого «long read» секвенирование ДНК индивидуальных клеток было невозможно (к клетке человека всего 6 пикограмм ДНК).
И вот сейчас, впервые, это удалось сделать (препринт здесь:
https://www.biorxiv.org/content/10.1101/2021.04.13.439527v2 ). Как это было сделано, выходит за рамки «ликбеза».
Но важнее другое: «приоткрыта дверь» в область, которая пока почти совсем не исследована - какова генетическая вариабельность на уровне индивидуальных клеток организма человека, накапливающаяся после зачатия? Где здесь проходит граница между нормой и патологией и насколько она размыта?
Проф_АФВ
Дополнение 11-5-2023. По-настоящему полный секвенс генома человека (причем, большей частью, одного человека) был определён лишь чуть более года назад (
https://www.science.org/doi/10.1126/science.abj6987 ). Ключевую роль в этом сыграли технологи «long-read» секвенирования. А вчера был впервые опубликован первый вариант «эталонного пангенома» человека (human pangenome reference) (
https://www.nature.com/articles/s41586-023-05896-x). В нём аккумулирована информация об индивидуальных вариациях геномов 47 человек различной этничности, включающая данные об участках, которые прочитываются только «long-read» секвенированием. Предполагается, что пангеном станет «условно завершённым» (т.е. в нём будет учтена бОльшая часть генетической вариабельности Homo sapience) когда будут просеквенированы полностью геномы 350 человек из различных этнических групп.