Два года назад у меня был пост о прорыве в предсказании 3-D структуры белков по их первичной последовательности (
https://prof-afv.livejournal.com/87693.html?page=2 ). Для тех, кто совсем не в теме, повторяю этот пост, с минимальными изменениями и коротким дополнением о впечатляющем прогрессе в этой области (см. «переносимся в настоящее...»).
Начну с короткого ликбеза о белках и их структуре. Белки - это полимеры аминокислот. Аминокислот, «задействованных» в белках двадцать. В белке они связаны друг с другом однотипной («пептидной») связью наподобие бус, в которых бусинки 20-ти цветов сцеплены друг с другом идентичными «крючочками». В каждом белке своя неповторимая последовательность «бусинок»-аминокислот, по-научному, это первичная структура белка или аминокислотная последовательность (amino acid sequence). Но в естественных условиях в виде линейной последовательности (незапутанных бус) белки не существуют. Каждая цепочка из аминокислот причудливым образом свёртывается и образует уникальную 3-D структуру («конформацию»). В 1973 году шведский биохимик, лауреат Нобелевской премии, Христиан Анфинсен сформулировал постулат, который называют «догмой Анфинсена». Этот постулат звучит так: конформация белка полностью определяется его первичной структурой. Вообще-то известно исключение - это прионы, но отставим эту загадку в сторону. Применимость догмы Анфинсена к подавляющему большинству белков сомнению не подвергается. Однако предсказывать достаточно точно конформацию белка по его первичной структуре (которую, благодаря секвенированию геномов, сейчас определить относительно просто) долгое время не удавалось. Исследователи, пытающиеся это сделать, каждые два года устраивали «турнир», в котором соревновались их «программы-предсказатели» (
https://www.predictioncenter.org/index.cgi ). Эти программы становились всё более совершенными, но, до недавнего времени, им было далеко до точности, обеспечиваемой экспериментальными методами определения 3-D структуры белков. Однако экспериментальные методы очень сложны, дорогостоящи, и главное, до получения конечного результата проходят месяцы (в среднем 6 месяцев на один белок). В геноме человека закодировано около 20 тысяч белков (это протеом человека). Несколько десятилетий работы позволили установить 3-D структуру приблизительно 17% из них.
Прорыв обозначился в декабре 2020 года на очередном «турнире» (14-м по счёту). Система ИИ AlphaFold, разработанная британской компанией DeepMind, продемонстрировала беспрецедентную точность предсказаний - выше 90%. Причём, на решения задачи (из первичной последовательности в 3D-структуру) у AlphaFold на один белок уходило 2-3 минуты. Спустя несколько месяцев в Nature была опубликована статья с детальной информацией о 3-D структурах приблизительно 350 тысяч белков человека и других организмов, предсказанных с помощью AlphaFold (
https://www.nature.com/articles/s41586-021-03828-1 ). При этом покрытие протеома человека составило около 98%.
Переносимся в настоящее…
DeepMind сообщила, что с помощью AlphaFold предсказана 3-D структура 214 миллионов белков приблизительно миллиона организмов (подробнее здесь:
https://www.nature.com/articles/d41586-022-02083-2 ). Фактически это все белки, первичные последовательности которых имеются в соответствующих базах данных. В тех случаях, когда структуру, предсказанную AlphaFold, можно было сравнить со структурой, определённой экспериментально, в 35% было выявлено полное соответствие. Ещё в 45% случаев соответствие было достаточно хорошим для различных прикладных нужд. База данных структур белков, предсказанных AlphaFold, общедоступна. Хотя загрузить её непросто (это 23 терабайта).
Значение открывшихся возможностей для понимания молекулярных механизмов различных физиологических и патологических процессов, для разработки новых лекарств, вакцин, биотехнологий, переоценить трудно.
Проф_АФВ