немного о симметрии в ДНК

Feb 01, 2021 17:18

Вчера я прочитал ветку в Твиттере, в которой рассказывалось о симметрии в ДНК, и она мне показалась удивительной и поразительной.

В ней рассказывается о "правилах Чаргаффа" - закономерностях о числе нуклеотидов в нитях ДНК.

ДНК это две длинных нити нуклеотидов, каждый из них один из четырех видов - AGCT.

Далее, эти нити отражают друг друга - там, где в одной нити A, в другой T, и наоборот. Там, где в одной C, в другой G, и наоборот. Поэтому во всей ДНК, в двух нитях вместе, количество A равно количеству T, а количество C равно количеству G. Это очевидно следует из этого "отражения". Например, на диаграмме ниже есть пять T и пять A, их количество равно друг другу. И по-другому быть не может.



Это известно, как "первое правило Чаргаффа". Когда оно было открыто в 40-х, структура ДНК еще не была известна, но после того, как поняли, что нуклеотиды на двух нитях соединены попарно по такому правилу, это стало очевидным фактом.

Но есть и "второе правило Чаргаффа": а именно, что даже если только на одну нить посмотреть, то в ней тоже количество A почти точно равно T, а C почти точно равно G.

На диаграмме выше в левой нити есть два T и три A. Теперь представьте, что она была бы длиной в миллион нуклеотидов, часть генома человека. В ней будет несколько сотен тысяч T и несколько сотен тысяч A, но их число будет почти равно - с точностью до малых долей одного процента. И между C и G будет почти равенство. А вот количество C+G в сравнении с A+T может быть разным у разных организмов и кусков генома.

Это "второе правило Чаргаффа".

И более того!

Если взять даже пары или тройки нуклеотидов, и посчитать, сколько их во всей длинной ДНК данного организма - В ОДНОЙ НИТИ - то получится, что "отраженной и перевернутой" пары или тройки почти точно столько же! Например, в человеческом геноме сколько-то раз встречается CCT, и AGG встречается примерно столько же раз!

CCT -> поменять местами C/G, A/T, получается GGA, и потом еще прочитать это от конца к началу -> получается AGG.

А вот если только отразить, а не перевернуть - GGA - оно может совсем другое число раз встречаться. Или если только перевернуть - нет равенства. А и то, и другое сделать - есть равенство (примерное, но с высокой точностью). Между любой строкой и ее "отраженным-перевернутым" двойником. И то же самое верно про пары, четверки итд.

И самое удивительное, что утверждается в этой ветке - это что в отличие от первого правила, про вот это равенство внутри одной нити - никто не знает, почему это так. То есть вообще. Есть куча всяких гипотез, но ничего супер-убедительного, чтобы все соглашались, что вот наверное поэтому.

ОДНАКО.

Когда я вчера написал об этом на другой платформе - о том, что мне это кажется удивительным и замечательным - мне быстро ответили два комментатора (один из них a_shen) в том духе, что не понимают, почему это не может легко объясняться инверсиями во время репликации ДНК. Я стал пытаться разбираться и вот что пока что понял (сразу отмечу, что я ничего в этом не понимаю, с трудом помнил в общих чертах, как устроена ДНК, и то с ошибками, как выяснилось).

Иногда ДНК разрывается в двух местах, сразу в обоих нитях, и получается "свободный" кусок, а потом он встраивается обратно на место; если перед тем, как встроиться, он перевернется на 180 градусов, это называется "инверсия" (я не вполне понял, может ли это также случиться при обычной репликации ДНК во время деления клетки). При этом генетический материал меняется нитями. На примере диаграммы выше, представим, что оторвались и перевернулись первые три "буквы" снизу.

До инверсии это выглядело так (считываю снизу вверх):

5' -> AGT ACTGA -> 3'
3' <- TCA TGACT <- 5'

Если теперь кусок с первыми тремя буквами оторвался и перевернулся, то буквы AGT не могут встроиться обратно в свою нить в порядке TGA, потому что у них есть "направленность" (стрелки от 5' к 3'). Они только могут встроиться в порядке AGT в нижнюю нить, а их двойники со второй нити перейдут на первую, вот так:

5' -> ACT ACTGA -> 3'
3' <- TGA TGACT <- 5'

Если мы теперь посмотрим на то, как произошло изменение внутри одной нити, то видим, что AGT сменилось на ACT - в точности ее "отраженную и перевернутую" тройку. Отражение произошло из-за смены нитей, переворачивание навязано тем, что вторая нить идет в обратно порядке!

Представим теперь, что у нас есть геном, который не выполняет второе правило Чаргаффа, и например троек AGT в нем намного больше, чем "отраженных и перевернутых" троек ACT. Если во время эволюции будут достаточно часто происходить достаточно длинные инверсии, они будут переворачивать тройки AGT внутри каждой инверсии в ACT и наоборот; если это будет происходить случайным образом, скоро наступит эквилибриум и количество ACT и AGT во всем геноме будет примерно равно. То же верно насчет всех других троек, всех пар, отдельных нуклеотидов, итд. Инверсии, если их достаточно много, создают симметрию.

Эта идея встречается в литературе еще с 80-х, но конкретные оценки и симуляции приведены в этой статье 2006 года: Asymptotically increasing compliance of genomes with Chargaff's second parity rules through inversions and inverted transpositions

И ВМЕСТЕ С ТЕМ.

Вместе с тем, "второе правило Чаргаффа" до сих пор упоминается обычно как "в целом необъясненное, хоть есть много гипотез", и в числе этих гипотез приводят инверсии. Это касается например:

- статьи в Википедии: "The basis for this rule is still under investigation, although genome size may play a role... The biological basis for Szybalski's rule, like Chargaff's, is not yet known..." etc.

- самой вышеупомянутой статьи 2006 года, хотя это неудивительно

- предыдущих ей статьях, это тоже неудивительно, но любопытно, что вот эта статья 2002 года, скажем, утверждает, что доказывает, что одними инверсиями не обойтись. Я не понял, почему.

- но и последующих статьях, включая например эту статью 2020 года, которая была фокусом внимания твиттер-ветки, которая собственно привлекла меня вчера к теме.

Цитата оттуда:
"After 50 years from the discovery of Chargaff’s second parity rule, there is not a generally accepted justification for its emergence, although several explanations have been proposed based on different models and hypothesis, such as statistical [5, 6, 7, 20, 21], stem-loops [22], tandem duplications [23], duplication followed by inversions [24], inverted transpositions [25, 26] and non-uniform substitutions [27]."

Этот абзац в первую очередь создал у меня впечатление вчера, что считается, что удовлетворительного объяснения нет. И наверное это так, хотя в свете вышесказанного не вполне понимаю, почему. При этом новое объяснение в статье 2020 года, через термодинамику и энтропию, показалось мне после двух попыток разобраться в ней сущей ерундой, хотя вполне возможно я так ничего и не понял.

=======

В итоге мне остается непонятным, насколько удивительным и требующим объяснения все-таки следует считать симметрию относительно "отражения-переворачивания" числа нуклеотидов, пар, троек итп. Интуитивно объяснение через инверсии мне кажется логичным, но почему-то оно, если я верно понял, не признано удовлетворительным в биологии. Возможно, требуется больше данных или убедительные оценки числа инверсий в реальных геномах. Если биологи или другие знающие люди захотят мне объяснить, буду рад.

P.S. Еще несколько подробностей для тех, кто осилил запись до этого момента, и интересно узнать еще.

Еще несколько мелочей насчет объяснения n-gram симметрии исключительно через инверсии:

1. Guenter Albrecht-Buehler в статье 2006 года использует в симуляции несколько гротескный размер инверсии в 0.1 длины всего генома (он упоминает, что делает это для облегчения вычислений; все вычисления он сам написал на C++ в windows и предлагает выслать .exe файл желающим 😊). Но с другой стороны ему и надо в итоге очень малое число инверсий для достижения симметрии. Я думаю, что с намного меньшим размером инверсий все равно относительно небольшого их числа хватит. Я не очень разобрался в том, каков типичный размер инверсий в ДНК, если кто-то знает, сообщите. Может, я попробую скачать пару геномов и написать собственный код, если не поленюсь.

2. Есть двунитевые геномы, в которых нет этой симметрии, редко, но встречается; как я понял, главные примеры - довольно маленькие по размеру, а также митохондриальные геномы млекопитающих. В последнем случае это пытаются объяснять тем, что особые обстоятельства там мешают инверсиям во время эволюционного процесса (некоторые особенности процесса репликации, малое число некодирующих промежутков между генами итп.)

3. Часто говорят о duplication+inversion как о механизме, но эта статья 2007 года
в целом повторяющая идеи статьи 2006-го, указывает, и логично, что одних инверсий достаточно, они должны выравнивать вероятности последовательностей между нитями; дупликация+инверсия это просто удобная картинка, чтобы это представить на конкретной последовательности.

наука

Previous post Next post
Up