Тема IX
ГЕНЕТИЧЕСКАЯ ИНФОРМАЦИЯ
Начнем с того, что есть два способа записи информации - аналоговый и цифровой. При аналоговой записи кодирующий параметр может меняться сколь угодно постепенно: например, форма дорожки на грампластинке повторяет форму звуковой волны, которую нужно записать. При цифровой записи кодирующий параметр может принимать всего несколько строго определенных значений без всяких промежутков между ними. Предельный случай цифровой записи - двоичный код, где кодирующий параметр может принимать только два значения: или 0, или 1.
В XVIII веке Пьер Луи Моро де Мопертюи (Pierre Louis Moreau de Maupertuis) впервые догадался, что система записи наследственной информации - цифровая. Через сто лет это экспериментально подтвердил Грегор Мендель (Gregor Johann Mendel). Правда, ни Мопертюи, ни Мендель не знали таких терминов, но у меня лично нет сомнений, что с нашей формулировкой они были бы согласны.
На этой картинке мы видим слова, наиболее распространенные в знаменитом романе Герберта Уэллса “Остров доктора Моро”, герой которого, скорее всего, получил свое имя в честь Пьера Луи Моро де Мопертюи (
Roberts, 2001). Чем крупнее слово набрано, тем чаще оно встречается в тексте романа. Технология записи текстовой информации - типично цифровая: есть строго определенный набор букв, промежуточные состояния между которыми не предусматриваются.
В рассказе Станислава Лема "Одиссей из Итаки" рассказывается о вымышленном (к сожалению) ученом, который пришел к идее цифровой записи наследственной информации еще в начале эпохи Возрождения:
"...Есть среди них увесистый том некоего Мираля Эссоса из Беотии, который изобретательностью превзошел Леонардо да Винчи; после него остались проекты логической машины из спинного мозга лягушек; задолго до Лейбница он додумался до идеи монад и предустановленной гармонии; он применил трехценностную логику к некоторым физическим феноменам; он утверждал, что живые существа рождают подобных себе потому, что в их семенной жидкости содержатся письма, написанные микроскопическими буковками, и комбинации таких "писем" определяют строение взрослой особи; все это - в XV веке".
Итак, наследственная информация действительно записана в некотором смысле буквами. Только этих "букв" не 2 (как в двоичном коде) и не 26 (как в латинском алфавите), а 4. Мономеры ДНК могут находиться в четырех состояниях - А, Т, Г или Ц. А целая цепочка ДНК вполне подобна тексту, где записана некая информация четырехбуквенным алфавитом. Дублирование цепочки за счет комплементарности повышает надежность системы (если одна цепь разрушится - есть вторая), но ничего не прибавляет к самому содержанию записанных нуклеотидным текстом сообщений.
Но что же это за сообщения? Уже к середине XX века биологи догадались, что гены, скорее всего, несут информацию о структуре белков - молекул, делающих в клетке, попросту говоря, почти все. Множество генов (геном) каким-то образом определяет собой множество белков (протеом). Правда, на самом деле в состав генома входят не только гены, но пока что мы можем это проигнорировать и смело двинуться дальше.
Тут пригодятся наши знания о белках. Мы знаем, что первичная структура белка, то есть аминокислотная последовательность, как правило, однозначно предопределяет все остальные уровни его структуры. Поэтому линейный нуклеотидный текст вполне может задавать все свойства сколь угодно сложной белковой молекулы. Тогда, однако, возникает следующий вопрос: каким образом нуклеотидный “алфавит” переводится в аминокислотный?