Когда говорят об эволюции, то обычно отделяют процесс образования некоего генетического фактора от его изменения во времени. Эволюция обычно имеет дело именно со вторым (тем не менее любимым аргументом креационистов является взять некий кусок ДНК и посчитать "вероятность" его случайного возникновения, но речь сейчас не об этом). Но все-таки откуда же берутся новые гены? Чаще всего они появляются путем дупликации - ошибка при копировании генома приводит к тому, что вместо одной копии гена в геноме получается две. Одна из них при этом может выполнять старую функцию, а вторая может мутировать и приобретать новые функции.
А может ли ген возникнуть ниоткуда, совершенно на новом месте?
Предположим, что может. Как мы определим, что ген возник именно ниоткуда? Можно сравнить ДНК нескольких родственных организмов и если у большинства организмов в некотором месте в геноме лишь мусор, а у одного организма там некий ген, то это будет достаточным аргументом в пользу возникновения гена de novo. Насколько мне известно, таких случаев еще найдено не было. Но их особенно и не искали. Пока что секвенируют геномы организмов, стоящих достаточно далеко друг от друга в эволюционном плане.
Тут на выручку в очередной раз приходят вирусы. Они имеют достаточно гибкие геномы и часто близкородственные вирусы имеют разное количество генов. Но с вирусами иная проблема - они могут приобретать гены захватывая их у собственных хозяев или у других вирусов. Так что появление нового гена в вирусе вполне может быть объяснено тем, что он подхватил его где-нибудь в уже готовом виде.
Есть однако особый случай, в котором возникновение гена на новом месте не вызывает никакого сомнения.
В "словаре" ДНК четыре буквы, из которых составляются трехбуквенные слова-кодоны. Математически-одаренные могут посчитать и убедиться, что "слов" таких ровно 64. Пробелов в ДНК-языке не предусмотрено и слова просто читаются по-порядку и разделение слов происходит просто отсчетом "раз-два-три"-"раз-два-три". То есть поток информации вроде:
ATGTGATGCGCGGACACCCTCGATGAT
автоматически разбивается на слова:
ATG TGA TGC GCG GAC ACC CTC GAT GAT
Но отсутствие пробелов означает, что информация может начать считываться с любой буквы, и вышеприведенная строчка может быть разбита тремя разными способами (они называются рамками считывания). Кроме уже указанного, она может быть разбита так:
A TGT GAT GCG CGG ACA CCC TCG ATG AT
или так:
AT GTG ATG CGC GGA CAC CCT CGA TGA T
Слова при этом получаются совершенно разные! Более того, информация может читаться и в обратную сторону, так что вариантов ее прочтения даже не три, а все шесть! В генах обычно лишь один из таких вариантов несет осмысленную информацию и кодирует белок, в других же пяти информация не содержится. Давайте проиллюстрирую это на таком примере:
Фраза ВОТ КТО КОТ - имеет (некий) смысл
Фразы В ОТК ТОК ОТ и ВО ТКТ ОКО Т и ТОК ОТК ТОВ - смысла не имеют.
Но это обычно. Вирусы же, как обычно :), умудряются и тут выдать неожиданность. У тимовирусов, лютеовирусов и у лентивирусов (сюда, кстати, относится HIV) бывает так, что внутри одного гена расположен другой. Помимо считывания информации в одной из рамок, можно также считать ее в одной из альтернативных рамок и тоже получить функциональный белок с совершенно иной функцией. Так, в примере выше, в третьей рамке считывания есть слово ОКО а во второй и в обратной - ТОК. В случае перекрещивающихся генов размер кусков имеющих смысл намного больше, но принцип тот же.
У близкородственных вирусов бывает так, что у одного вируса этот ген есть, а у другого - нет. То есть этот внутренний ген появился сравнительно недавно. Откуда же он взялся? Тот факт, что он перекрывается с уже существующим геном отметает возможность того, что он был просто захвачен и встроен в вирусный геном. Следовательно, он там возник и возник именно из ничего - из шума, который обычно появляется если считать ген в неправильной рамке.
Как может такой ген возникнуть? Ну, предположительно, сначала просто возникает нарушение в геноме, которое ведет к тому, что в дополнение к нормальному считыванию гена, считывается так же и "шум" альтернативной рамки. Если полученный таким образом случайный белок не мешает вирусу реплицироваться, то он так и будет продолжать считываться и мутировать. В какой-то момент может так случиться, что этот случайный белок мутирует в нечто, что представляет некоторую выгоду для вируса, улучшает его репликацию. В таком случае он будет подхвачен естественным отбором и будет зафиксирован в ходе эволюции.
Действительно, у HIV три таких белка несут именно вспомогательные функции. Без них вирус может размножаться, но намного хуже. Эти белки сравнительно молодые - они существенно различаются у разных видов HIV, а один из них и вовсе отсутствует у ближайшего родственника HIV - SIV. С тимовирусами и лютеовирусами я знаком хуже, но, насколько я могу судить, у них ситуация схожая.
Нет никаких причин для того, чтобы считать, что схожие процессы не могут вести к образованию новых генов и в других организмах. Перекрещивающиеся гены известны в бактериях и в дрожжах и в митохондриях и даже в некоторых эукариотах. Новые гены не обязаны перекрещиваться со старыми - я привел их в пример лишь потому, что в их случае возникновение гена de novo не вызывает сомнений. Вполне логично предположить, что новые гены возникали в ходе эволюции многократно в самых разных организмах.