Лишь символ - все бренное, что в мире сменяется

Jul 11, 2018 10:00



Сколько информации содержит молекула ДНК, состоящая из 10 нуклеотидов? Большинство из вас, вероятно, ответит, воспользовавшись формулой Шеннона h(E) = -log2P{E}: 20 бит. Но я думаю, этот ответ неверен, и вот почему.

Стремленье смиренное лишь здесь исполняется )

информация

Leave a comment

Comments 132

affidavid July 11 2018, 16:34:01 UTC
Нет, вычисления вполне годятся, если мы используем ДНК для кодировки каких-то сообщений (про это довольно много статей). Разумеется, это не имеет никакого отношения к биологической роли ДНК, там все совершенно по-другому.

Reply

egovoru July 11 2018, 22:55:11 UTC
Конечно, если мы хотим использовать ДНК для записи некоего сообщения, как показано в этом видео, то вопрос, сколько ДНК нужно, чтобы закодировать его, вполне осмысленный. В этом случае мы заранее договариваемся, что будем использовать разные нуклеотиды для передачи четырех разных символов (а можно задействовать и только два нуклеотида для более привычного бинарного кода или изобрести какой-то более сложный код для передачи, скажем, всех букв алфавита). Эта ситуация ничем не отличается от той, когда мы используем лампы или транзисторы для той же цели.

Меня смущает не это, а разговоры о том, что, дескать, такой-то физический объект "содержит столько-то бит информации". Мне кажется, подобные утверждения начисто лишены смысла. А Вы что думаете?

Reply

affidavid July 12 2018, 01:09:56 UTC
Ну биты это это всегда абстракция - когда-то полезная, когда-то нет. В биологии очень не полезная, потому как в любом организме на много порядков больше информации, чем в его ДНК.

Reply

egovoru July 12 2018, 11:29:46 UTC
"биты это это всегда абстракция"

Амперы или там джоули - это все тоже абстракции; тем не менее, силу тока и энергию всегда можно однозначно измерить и/или рассчитать. А информацию?

Reply


evgeniirudnyi July 11 2018, 17:07:30 UTC
Физики нашли по этому поводу крайне простое решение. У них в настоящее время информация вселенной сохраняется.

Reply

egovoru July 11 2018, 22:57:15 UTC
В том-то и беда, что мне совершенно непонятно, как можно говорить об "информации вселенной" или даже атома - и вообще любого физического объекта. А Вы понимаете, что именно при этом имеется в виду? Как именно предполагается подсчитывать количество информации, содержащееся в том или ином физическом объекте?

Reply

evgeniirudnyi July 12 2018, 17:19:39 UTC
Я не смотрел подробно. Насколько я понял, речь идет про особенности квантовой механики. В целом, информация - это многозначное слово. Соотвественно, разговор про информацию должен начинаться с того, про что идет речь.

Reply

egovoru July 13 2018, 12:04:16 UTC
"информация - это многозначное слово"

Меня занимают не значения слова "информация", а ее количественное выражение. Мой вопрос: применимо ли определение количества информации, введенное Шенноном, не только к последовательностям символов, но и к физическим телам?

Reply


marigranula July 11 2018, 17:35:28 UTC
Информацонное содержание чего либо само по себе вряд ли имеет какой-либо смысл. Как в случае и с близким к информации понятию энтропии. Какой-либо смысл имеет говорить не об абсолютном значении энтропии, а об разнице между энтропиями двух состояний. В случае с информацией, обьем информации зависит и от носителя информации и от взаимодействующей с ней системой (например, прибором). Если у нас например есть синтезатор ДНК, то на вопрос "Сколько бит нужно, чтобы синтезировать ДНК из 10 оснований," ответ - 20 бит. А вот если у нас есть прибор синтезирующий ДНК или из С14 или из С13, то нам потребуется уже 30 бит. Но при этом стандартный анализатор ДНК все равно будет выдавать по 2 бита на основание для нашей последовательности. А вот если мы приделаем к анализатору масс-спектрометр, то он уже будет выдаст 30 бит. А если мы добудем atomic force микроскоп, то будем определять положение нуклеотидов, и информации будет ещё больше. Я к тому, что тут прям по анекдоту ( ... )

Reply

egovoru July 11 2018, 23:22:00 UTC
"Информацонное содержание чего либо само по себе вряд ли имеет какой-либо смысл ( ... )

Reply

marigranula July 12 2018, 05:02:24 UTC
"Если мы имеем дело с последовательностью символов, то говорить о ее информационном содержании очень даже можно"
Последовательность символов - это все таки не физический обьект. Это абстрактное понятие.

"Верно, но, заметьте, это ведь ответ на вопрос, обратный тому, какой я задала в посте"
Я демонстрирую в примере то что на вопрос "сколько информации содержит молекула ДНК, состоящая из 10 нуклеотидов" нужно отвечать, зная еще и аппарат. Можно спросить "сколько информации сможет записать синтезатор в ДНК из 10 нуклеотидов"

" Мне кажется, все это начисто лишено смысла, или нет?"
Э... это зависит более конкретно от того, что автор имеет ввиду. Например, если мы примем модель вселенной как клеточного автомата, то можно. Можно посчитать общее количество клеток во вселенной и умножить на количество возможных состояний каждой клетки.... Принципиально уточнять, что имеется ввиду. Но вообщем, согласен что заявление "такой-то физический объект содержит столько-то информации" бессмысленно.

Reply

egovoru July 12 2018, 11:38:38 UTC
"Последовательность символов - это все таки не физический обьект. Это абстрактное понятие"

Да, я именно это и хочу сказать: похоже, говорить о том, что нечто "содержит столько-то информации" можно только в случае последовательности символов, а не физических тел.

"заявление "такой-то физический объект содержит столько-то информации" бессмысленно"

А между тем, мне все чаще попадаются рассуждения о том, что, дескать, "все состоит из информации" - то есть, если мы будем копать все глубже и глубже, дробить все мельче и мельче, в конечном счете упремся в "голую информацию". Этот взгляд не укладывается у меня в голове.

Reply


a_gorb July 11 2018, 17:56:45 UTC
”Большинство из вас, вероятно, ответит, воспользовавшись формулой Шеннона”
Как во всякой формуле, сначала надо более-менее понять, к чему она относится. (Например, формула 2+2=4 не всегда является верной, как показал в своей диссертации Менделеев, 2 литра воды + 2 литра спирта = 3,86 литров напитка.) Так и здесь. Говоря о информации, Шеннон начинает со следующего:
Система связи по существу состоит из пяти частей:
Источник информации - создает сообщение
Передатчик - перерабатывает в некий сигнал
Канал передачи
Приемник - восстанавливает сообщение по сигналу
Адресат.

Reply

egovoru July 11 2018, 23:28:45 UTC
К Шеннону-то нет никаких претензий: его формула совершенно четко определяет способ подсчета количества информации, содержащейся в данном сообщении (оцифрованном сигнале) - иными словами, в данной последовательности символов. Но как приложить эту формулу к физическим телам, которые ведь вовсе не представляют собой последовательность символов? А между тем, таки сплошь и рядом прилагают и даже говорят об "информационном содержании Вселенной" :)

Reply

mns2012 July 12 2018, 10:00:26 UTC
В теории Колмогорова это прилагается через язык описания, обладающий определенными свойствами. Если имеется такой язык, то можно сравнивать программы, производящие строки описания чего-либо (назовем это Х) на данном языке. Длина самой короткой программы, выводящей такую строку, есть по определению колмогоровская сложность Х. Хорошо, что к.с. отображает сложность объекта Х, поскольку доказано, что к.с. практически не зависит от языка описания (константа). Плохо то, что к.с. вычислить невозможно.

Reply

egovoru July 12 2018, 11:50:06 UTC
"строки описания чего-либо (назовем это Х) на данном языке"

В этом случае никаких вопросов не возникает, поскольку мы опять же говорим не о физических объектах, а о последовательностях символов. Мне кажется, можно говорить "информационном содержании" только описаний, но не самих физических объектов. А?

Reply


riftsh July 12 2018, 03:18:31 UTC
> Если мы подсчитаем, сколько информации содержит такая запись (а именно так и строят структурные модели молекул), то получим число, существенно большее, чем 20 бит.

Это не обязательно так. Для иллюстрации правильнее рассматривать белки, потому что у ДНК структура вообще простая. "Последовательное" информационное содержание белка из 100 аминокислот - 600 бит. Теоретически возможное число конформаций такого белка в приближении Левинталя (3 стабильные конформации на торсионный угол) - 3^198 (мы знаем, что это число на десятки порядков больше реального пространства конформационного поиска, см. парадокс Левинталя). И вот это вот сильно завышенное "структурное" информационное содержание - log2(3^198)=314 бит - прекрасно вписывается в наши 600 бит из последовательности.

Важно иметь ввиду, что такие расчеты предполагают доступность полного структурного "алфавита". Построить белок ab initio обойдется немножко дороже, чем 314 бит ;)

Reply

egovoru July 12 2018, 11:35:48 UTC
"такие расчеты предполагают доступность полного структурного "алфавита"

Вот именно. То есть, эти 314 бит нужны будут нужны в дополнение к 600 (да и то, 600 - это какой-то уж очень коротенький белок). Не говоря уже о том, что тут мы решаем обратную задачу - подсчитываем, сколько информации нам будет нужно, чтобы построить заданный белок. А эта задача предполагает предварительную договоренность о том, как именно мы будем расшифровывать заданную нам информацию, что, очевидно, тоже имеет свое информационное содержание. Вопрос же об информационном содержании физического тела остается неопределенным.

Reply


Leave a comment

Up