Тема IXa
ГЕНЕТИЧЕСКАЯ ИНФОРМАЦИЯ (продолжение)
Пока гены считались белками, все было относительно просто. Белок представляет собой линейную цепочку аминокислот, которые могут чередоваться в любом порядке. Двадцать аминокислот (а на самом деле даже больше) - это количество, вполне сравнимое с количеством букв в греческом или финикийском алфавите. На таком носителе можно сохранить какую угодно информацию. "Белок является как бы длинным предложением, записанным с помощью двадцати букв" (
Крик, Ниренберг, 1964).
Надо, правда, заметить, что до открытия двойной спирали практически никто из биологов в таких понятиях не рассуждал. Перейти с привычного "аналогового" языка традиционной биологии на "цифровой" язык новой биологии, изучающей информационные процессы, им было очень непросто; многим даже крупным ученым, профессионально сложившимся до 1953 года, это так никогда и не удалось. А когда двойная спираль была открыта, сразу же оказалось, что общая схема тут несколько сложнее, чем можно было бы ожидать. Стало понятно, что "базой данных", хранящей последовательности белков, служит совсем другой полимер, резко отличающийся от белка химически и к тому же содержащий всего четыре типа мономеров вместо двадцати. Так возникла проблема перекодировки, или, в более привычной нам всем терминологии, - проблема генетического кода.
Тут нужно пояснение. В Сети и публицистике попадается мнение, будто генетический код - примерно то же самое, что генетическая информация. Так вот, это совершенно неправильно. Код - это не сама информация, а словарь, с помощью которого ее можно прочитать. Или более строго: генетический код - это способ перевода друг в друга текстов, записанных с помощью двух разных алфавитов - нуклеотидного и аминокислотного. Своего рода шифровальный ключ. Последнее - даже не метафора: первые теоретики, писавшие о генетическом коде, сразу предложили использовать для его расшифровки математический аппарат криптографии.
Итак, чего можно ожидать от генетического кода? Рассуждения ученых, занявшихся этим вопросом, были следующими.
● Протеиногенных аминокислот 20, а нуклеотидов в ДНК всего 4. Значит, каждая аминокислота должна кодироваться не одним нуклеотидом, а неким их сочетанием. Примерно так, например, вводятся с помощью клавиш китайские иероглифы.
● Двоек нуклеотидов (дублетов) возможно всего 16, для кодирования всех аминокислот этого не хватит. Значит, генетический код должен быть как минимум триплетным (
Gamow, Ycas, 1955).
● Троек нуклеотидов (триплетов) возможно 64, то есть их намного больше, чем аминокислот. Значит, каждая аминокислота скорее всего кодируется не одним триплетом, а несколькими. Генетический код - избыточный (иногда это называют "вырожденный").
Человека, который первым опубликовал эти соображения, звали Георгий Антонович Гамов (George Gamow). Это был крупный физик-теоретик, причастный к созданию теории Большого взрыва. Занятия биологией для него были эпизодом, но очень плодотворным. Гамов вычислил "на кончике пера" основные параметры генетического кода, и вскоре эксперименты показали, что предсказал он их правильно.
Почти одновременно с Гамовым (похоже, что даже немного раньше) очень похожие выкладки совершенно независимо подготовил другой ученый - эмбриолог Александр Александрович Нейфах. Но его статью не приняли к публикации! "Редакция "Известий Академии наук. Серия биологическая" отклонила статью, сославшись на то, что формальные математические соображения неприменимы к такой самобытной науке, как биология" (
Аспиз, 2001). Эта история как нельзя лучше показывает, насколько трудно было большинству биологов переключиться с "аналогового" мышления на "цифровое". А Нейфах в результате остался без приоритета; после Гамова публиковать статью с теми же расчетами было уже бессмысленно.
“Самым трудным в проблеме кода было понять, что код существует, - писал соавтор Гамова Мартинас Ичас (Martynas Ycas). - На это потребовалось целое столетие. Когда это поняли, то для того, чтобы разобраться в деталях, хватило каких-нибудь десяти лет”.
Вот так выглядит полный генетический код. Каждая тройка нуклеотидов, кодирующая определенную аминокислоту, называется кодоном. Генетический код состоит из 61 кодона, кодирующего аминокислоты, и трех стоп-кодонов, на которых синтез полипептидной цепи останавливается. Всего кодонов 64, как и предсказывал Георгий Гамов.
Правила пользования таблицей генетического кода следующие. На левой оси нужно выбрать первую "букву" кодона, на верхней - вторую, и на правой третью. Например, кодон ТТТ (три тимина подряд) кодирует аминокислоту фенилаланин, и кодон ТТЦ (тимин-тимин-цитозин) - тоже. Кодоны, кодирующие одну и ту же аминокислоту, называются синонимичными. Довольно часто (но не всегда!) бывает, что синонимичные кодоны отличаются друг от друга только последней "буквой", как мы это и видим в случае с фенилаланином. Вместо тимина в этой таблице можно везде поставить урацил: эти два основания в данном контексте взаимозаменяемы (урацил, так же как и тимин, может комплементарно спариваться с аденином).
Молекулярная машина, синтезирующая белок, то есть сшивающая аминокислоты в нужном порядке - рибосома - представляет собой комплекс нескольких молекул рибосомной РНК (рРНК) с несколькими десятками молекул особых белков. У эукариот, например, молекул рибосомной РНК в каждой рибосоме четыре. Рибосомная РНК обычно составляет около 70% всей РНК клетки, потому что рибосом очень много.
Сам процесс синтеза белка на рибосоме называется трансляцией. Прежде чем вникать в ее механизм, выделим два общих момента. Во-первых, аминокислота, которую надо присоединить к белку, поступает в рибосому не в свободном виде, а будучи связанной с неким специально адаптированным для этой реакции переносчиком. Во-вторых, нуклеиновая кислота, с которой рибосома считывает транслируемую последовательность - как ни странно, отнюдь не ДНК. Прямо с ДНК трансляция в живой природе не идет никогда; это редкий в биологии случай, когда можно сделать категоричное утверждение без всяких оговорок.
А с чего же тогда трансляция идет? Молекулярно-биологические исследования быстро выявили два факта:
● Для синтеза белка совершенно необходима РНК, причем не только рибосомная, но и какая-то еще.
● У эукариот ДНК находится в ядре, в то время как синтез белка всегда идет в цитоплазме.
Было логично предположить, что в ядре синтезируется некая молекула-посредник (messenger), копирующая нуклеотидную последовательность того участка ДНК, который нужно транслировать. Потом эта молекула-посредник перемещается к месту синтеза белка и дает “инструкцию” рибосоме.
Такая молекула-посредник действительно существует. Она называется информационной РНК (иРНК). Иногда ее еще называют мРНК - от слова “матричная”, и заодно это копирует английское сокращение mRNA (messenger RNA). Но сокращение "иРНК" в современном русском языке используется куда чаще, так что мы примем его.