О редкости сложной функции в пространстве строк: biosemiotics

mns2012 in biosemiotics

О редкости сложной функции в пространстве строк

Sep 21, 2024 20:14

От дарвинистов часто можно слышать, что пространство, в котором определена фитнес-функция, кишит функциональными пиками. В этой записке я постараюсь показать, почему это не так для относительно сложных функций. Причём редкость/разрежённость (sparsity) сложных функций, определённых в дискретном пространстве строк (combinatorial sequence space), составленных из символов фиксированного алфавита, есть следствие сложности строковых функций, с необходимостью вытекающее из самого понятия функциональной сложности. А поэтому надежды неодарвинистов на то, что эволюционное блуждание* по пространству строк, обязательно набредёт на сложную функцию (что ни кинь -- всё клин), не просто беспочвенны, но вскрывают недостаток осознания дарвинистами феномена сложной функции как такового.
----------
* Следует обратить внимание на то, что подавляющее большинство мутаций нейтральны, поэтому эволюционные движения в подавляющем большинстве случаев -- это случайное блуждание по соответствующему пространству параметров без оценивания качества состояний. Нейтральная мутация не видна отбору по определению, а значит в большинстве случаев мы имеем фитнес-плато. Отбор впрягается только в окрестности относительно редких пиков фитнес-функции. Но даже в случае полезной мутации для того, чтобы отбор начал действовать, должно быть обеспечено условие селективного преимущества особей с данной мутацией, то есть она должна присутствовать в определённой доле популяции. См. здесь.

Сложная функция, определённая в пространстве Ω дискретных строк символов фиксированного алфавита A, по необходимости является разрежённой (sparse). Причём степень разрежённости тем больше, чем выше сложность функции.

Функциональная сложность строки s ∈ Ω измеряется количеством функциональной информации в ней*:

If(s) = -log2(|Tf|/|Ω(A)|),

где:

Ω(A) -- пространство возможных строк символов алфавита А.
Tf -- целевое подпространство, включающее лишь строки, доставляющие функцию f.
|X| -- число элементов некоторого множества Х.

----------
* Физический смысл дроби в приведённой формуле заключается в вероятности попадания в целевое подпространство случайным поиском: достаточно сложная функция соответствуют достаточно малой вероятности случайного попадания в целевое подпространство. Почему, собственно, в распознавании дизайна и интересны сложные функции: при определённых условиях они позволяют отбросить нулевую гипотезу о неинтеллектуальности поискового процесса.

Почему сложная функция, определённая в таком пространстве, по необходимости разрежена?

Это видно из определения сложной функции. Относительно большое количество функциональной информации, по определению, соответствует относительной редкости функции в пространстве строк. В свою очередь, редкость соответствует малому числу синонимов функциональной строки. Простые функции имеют большое число синонимов. Интуитивно это понятно, потому что для простой функции размер целевого подпространства относительно велик, так как существует множество способов обеспечить функцию. Например, функцию пресс-папье обеспечивает любой достаточно тяжёлый предмет. Напротив, в случае сложных функций число синонимов и размер целевого подпространства малы. Например, функцию извлечения квадратного корня обеспечивает сравнительно малое число конфигураций материи: логарифмическая линейка, калькулятор, персональный компьютер, и, наконец, конфигурация синапсов коры головного мозга человека, вычисляющего корни либо вручную с помощью бумаги и карандаша, либо в уме, если этот человек математически одарён.

Проиллюстрируем эти соображения на простом примере, который мы позаимствуем из замечательной лекции Стивена Майера.

Велосипедный замок позволяет установить кодовую комбинацию цифр, которая его открывает.

Итак, функция кодовой комбинации цифр -- открывать замок. В данном случае:

А = {0,1,...,9}, |A| = 10.
|Ω| = 104.
|Tf| = 1.
If = 4 log210 ≈ 13.3 бит.

А теперь представим, что мы увеличили длину L строк на 1 символ, не меняя алфавита. То есть мы купили новый замок, длина кодовой комбинации которого не 4, а 5 цифр. Теперь у нас такая картина:

|Ω| = 105.
|Tf| = 1 (число функциональных комбинаций не изменилось).
If = 5 log210 ≈ 16.6 бит (количество функциональной информации возросло).

Число функциональных комбинаций осталось тем же самым, а размер пространства увеличился в |A| = 10 раз.

В случае сложных функций размер |Tf| целевого подпространства (число синонимов функциональной строки s) с ростом длины строки L растёт медленнее, чем взрывается размер |Ω| пространства возможных строк:

O(|Tf(L)|) < O(|Ω(L)|).

Попросту говоря, при фиксированной функции f с увеличением длины строки экспоненциально растет число нефункциональных ("сбойных") строк.

Кстати, Douglas Axe во время оно показал, что для белкового домена средних размеров (если не ошибаюсь, ~150 АА) отдельно взятого белкового семейства (фермент β-лактамаза), редкость функциональных строк оценивается отношением в 1 функциональную строку на каждые 1077. Причём максимальное число организмов, когда-либо живших за всю историю биосферы, в предположениях, благоприятных для эволюционной парадигмы, Майер оценивает как 1040 ≈ 2133 ( более оптимистичная для эволюции оценка, предложенная Джузеппе Пуччио, в 2140 организмов превышает оценку, которую приводит Майер, в 27 = 128 раз). Если использовать оценку Майера, то получается, что доля состояний, которые теоретически могли быть просмотрены эволюцией, за всю её славную и неповторимую историю, в процессе поиска функциональной аминокислотной строки лишь для β-лактамазы, составляет 1040/1077 = 10-37. Для осознания масштаба стоящих перед эволюцией задач надо иметь в виду, что размер протеома одноклеточной E. coli оценивается в 1620-2260 различных типов белков.

Escherichia coli (E. coli)

Как-то многовато для незатейливой схемы RV+NS...

функциональная информация, функция, функциональная сложность, блуждание, intelligent design