Прашант Прадхан, Ашутош Кумар Пандей, Ахилеш Мишра, Парул Гупта, Правин Кумар Трипати, Маной Балакришнан Менон, Джеймс Гомес, Перумал Вивеканандан и Бишваджит Кунду, школа биологических наук Кусума, Индийский технологический институт, Нью-Дели-110016, Индия. Acharya Narendra Dev College, Университет Дели, Нью-Дели-110019, Индия
Примечание: авторы «сверхъестественного» препринта 2019-nCoV добровольно отозвали препринт: «Это не было нашим намерением кормить теории заговора...мы ценим критику... и вернемся с пересмотренной версией»
Абстрактный
В настоящее время мы являемся свидетелями крупной эпидемии, вызванной новым коронавирусом 2019 года (2019-nCoV). Эволюция 2019-НКО остается неуловимой. Мы обнаружили 4 инсерции в спайковых гликопротеинах, которые являются уникальными для 2019-nCoV и не присутствуют в других коронавирусах. Важно отметить, что аминокислотные остатки во всех 4 вставках имеют идентичность или сходство с таковыми в Gag ВИЧ-1 gp120 или ВИЧ-1. Интересно, что несмотря на то, что вставки прерываются на первичной аминокислотной последовательности, 3D-моделирование 2019-nCoV предполагает, что они сходятся, чтобы образовать сайт связывания рецептора. Обнаружение 4 уникальных вставок в 2019-nCoV, все из которых имеют идентичность /сходство с аминокислотными остатками в ключевых структурных белках ВИЧ-1, вряд ли будет случайным по своей природе. Эта работа предоставляет пока неизвестные представления о 2019-nCoV и проливает свет на эволюцию и патогенность этого вируса с важными последствиями для диагностики этого вируса.
Коронавирусы (ков)-это одноцепочечные РНК-вирусы положительного смысла, которые заражают животных и людей. Они классифицируются на 4 рода в зависимости от их специфичности для хозяина: Альфакоронавирус, Бетакоронавирус, Дельтакоронавирус и Гаммакоронавирус (Snijder et al., 2006). Существует семь известных типов ков, которые включают 229E и NL63 (род Alphacoronavirus), OC43, HKU1, MERS и SARS (род Betacoronavirus). В то время как 229E, NL63, OC43 и HKU1 обычно заражают людей, вспышка торс и БВРС в 2002 и 2012 годах, соответственно, произошла, когда вирус перешел от животных к людям, вызвав значительную смертность (J. Chan et al., n. d.; J. F. W. Chan et al., 2015). В декабре 2019 года была зарегистрирована еще одна вспышка коронавируса из Уханя, Китай, которая также передавалась от животных к людям. Этот новый вирус был временно назван новым коронавирусом 2019 года (2019-nCoV) Всемирной организацией здравоохранения (ВОЗ) (J. F.-W. Chan et al., 2020; Zhu et al., 2020). Хотя существует несколько гипотез о происхождении 2019-nCoV, источник этой продолжающейся вспышки остается неуловимым.
Паттерны передачи 2019-nCoV аналогичны паттернам передачи, зафиксированным в предыдущих вспышках, в том числе при телесном или аэрозольном контакте с лицами, инфицированными вирусом. Случаи легкой и тяжелой болезни, а также смерти от инфекции были зарегистрированы из Уханя. Эта вспышка быстро распространилась на отдаленные страны, включая Францию, Австралию и США среди других. Число случаев заболевания в Китае и за его пределами резко возрастает. Наше сегодняшнее понимание ограничено последовательностями генома вируса и скромными эпидемиологическими и клиническими данными. Всесторонний анализ доступных последовательностей 2019-nCoV может дать важные подсказки, которые могут помочь продвинуть наше текущее понимание для управления текущей вспышкой болезни.
Спайковый гликопротеин (ы) кукурузного вируса расщепляется на две субъединицы (S1 и S2). Субъединица S1 помогает в связывании рецепторов, а субъединица S2 облегчает слияние мембран (Bosch et al., 2003; Li, 2016). Спайковые гликопротеины короновирусов являются важными детерминантами тканевого тропизма и диапазона хозяина. Кроме того, спайковые гликопротеины являются важнейшими мишенями для разработки вакцин (Du et al., 2013). По этой причине спайковые белки являются наиболее широко изученными среди коронавирусов. Поэтому мы стремились исследовать спайковый гликопротеин 2019-nCoV, чтобы понять его эволюцию, последовательность новых признаков и структурные особенности с использованием вычислительных инструментов.
Методология
Извлечение и выравнивание последовательностей нуклеиновых кислот и белков
Мы извлекли все доступные последовательности коронавируса (n=55) из базы данных вирусного генома NCBI и мы использовали GISAID (Elbe & Buckland-Merrett, 2017 для получения всех доступных полнометражных последовательностей (n=28) 2019-nCoV по состоянию на 27 января 2020 года. Множественное выравнивание последовательностей всех геномов коронавируса было выполнено с помощью программного обеспечения MUSCLE (Edgar, 2004)на основе метода Neighborhood joining. Из 55 геномов коронавирусов 32 репрезентативных генома всех категорий были использованы для развития филогенетического дерева с помощью программного обеспечения MEGAX (Kumar et al., 2018). Самым близким родственником оказался торс ков. Гликопротеиновая область SARS CoV и 2019-nCoV была выровнена и визуализирована с помощью программного обеспечения Multalin (Corpet, 1988). Идентифицированные аминокислотные и нуклеотидные последовательности были выровнены с базой данных всего вирусного генома с использованием BLASTp и BLASTn. Сохранение нуклеотидных и аминокислотных мотивов в 28 клинических вариантах генома 2019-nCoV было представлено путем выполнения множественного выравнивания последовательностей с помощью программного обеспечения MEGAX. Трехмерная структура гликопротеина 2019-nCoV была получена с помощью Swiss-MODEL online server (Biasini et al., 2014), а структура была отмечена и визуализирована с помощью PyMol (DeLano, 2002).
Результаты
Сверхъестественное сходство новых вставок в Спайк-белке 2019-nCoV с ВИЧ-1 gp120 и Gag
Наше филогенетическое древо полноценных коронавирусов предполагает, что 2019-nCoV тесно связано с SARS CoV [Рис.1]. Кроме того, другие недавние исследования связали 2019-nCoV с SARS CoV. Поэтому мы сравнили спайковые гликопротеиновые последовательности 2019-nCoV с последовательностями SARS CoV (номер присоединения NCBI: AY390556.1). При тщательном изучении выравнивания последовательности мы обнаружили, что спайковый гликопротеин 2019 - nCoV содержит 4 инсерции (Рис.2).2]. Для дальнейшего исследования того, присутствуют ли эти вставки в любом другом коронавирусе, мы провели множественное выравнивание последовательностей аминокислотных последовательностей спайкового гликопротеина всех доступных коронавирусов (n=55) [см. таблицу S. File1] в NCBI refseq (ncbi.nlm.nih.gov) это включает в себя одну последовательность 2019-nCoV[илл.S1]. Мы обнаружили, что эти 4 вставки [вставки 1, 2, 3 и 4] являются уникальными для 2019-nCoV и не присутствуют в других проанализированных коронавирусах. Другая группа из Китая задокументировала три инсерции, сравнивая меньшее количество последовательностей спайковых гликопротеинов коронавирусов . Другая группа из Китая задокументировала три инсерции, сравнивая меньшее количество последовательностей спайковых гликопротеинов коронавирусов (Zhou et al., 2020).
Генеалогия максимального правдоподобия показать эволюцию 2019-nCoVFigure 1: генеалогия максимального правдоподобия показать эволюцию 2019-nCoV: эволюционная история была выведена с помощью метода максимального правдоподобия и модели на основе матрицы JTT. Показано дерево с наибольшей вероятностью логарифма (12458,88). Исходные деревья для эвристического поиска были получены автоматически путем применения алгоритмов Neighbor-Join и BioNJ к матрице попарных расстояний, оцененных с помощью модели JTT, а затем выбора топологии с более высоким значением логарифмического правдоподобия. Этот анализ включал в себя 5 аминокислотных последовательностей. В конечном наборе данных было в общей сложности 1387 позиций
. Эволюционный анализ был проведен в MEGA X.
Выравнивание множественной последовательности между спайковыми белками 2019-nCoV и SARSFigure 2: выравнивание множественной последовательности между спайковыми белками 2019-nCoV и SARS. Последовательности спайковых белков 2019-nCoV (Wuhan-HU-1, присоединение NC_045512) и SARS CoV (GZ02, присоединение AY390556) были выровнены с помощью программного обеспечения MultiAlin. Места различия выделены в полях.
Затем мы проанализировали все доступные полнометражные последовательности (n=28) 2019-nCoV в GISAID (Elbe & Buckland-Merrett, 2017) по состоянию на 27 января 2020 года для наличия этих вставок. Поскольку большинство этих последовательностей не аннотированы, мы сравнили нуклеотидные последовательности спайкового гликопротеина всех доступных последовательностей 2019-nCoV с использованием BLASTp. Интересно, что все 4 вставки были абсолютно (100%) сохранены во всех доступных последовательностях 2019 - nCoV, проанализированных [Рис.2].S2, Рис.S3].
Затем мы перевели выровненный геном и обнаружили, что эти вставки присутствуют во всех вирусах Wuhan 2019-nCoV, за исключением 2019-ncov вируса летучих мышей в качестве хозяина [Fig.S4]. Заинтригованные 4 сильно сохраненными вставками уникальными к 2019-нков мы хотели понять их происхождение. Для этого мы использовали локальное выравнивание 2019-nCoV с каждой вставкой в качестве запроса против всех геномов вирусов и рассматривали хиты со 100% покрытием последовательности. Удивительно, но каждая из четырех вставок совмещена с короткими сегментами белков вируса иммунодефицита человека-1 (ВИЧ-1). Аминокислотные позиции вставок в 2019-nCoV и соответствующие остатки в GAG ВИЧ-1 gp120 и ВИЧ-1 приведены в Таблице 1. Первые 3 вставки (вставка 1,2 и 3) выровнены по коротким сегментам аминокислотных остатков в ВИЧ-1 gp120. Вставка 4 совмещена с кляпом ВИЧ-1. Вставка 1 (6 аминокислотных остатков) и вставка 2 (6 аминокислотных остатков) в спайковом гликопротеине 2019-nCoV на 100% идентичны остаткам, сопоставленным с ВИЧ-1 gp120. Вставка 3 (12 аминокислотных остатков) в 2019 году ncov сопоставляется с ВИЧ-1 gp120 с зазорами [см. таблицу 1]. Вставка 4 (8 аминокислотных остатков) соответствует Кляпу ВИЧ-1 с зазорами.
Хотя эти 4 вставки представляют собой разрозненные короткие отрезки аминокислот в спайковом гликопротеине 2019-nCoV, тот факт, что все три из них имеют общую аминокислотную идентичность или сходство с ВИЧ-1 gp120 и ВИЧ-1 Gag (среди всех аннотированных вирусных белков), говорит о том, что это не случайное случайное открытие. Другими словами, можно спорадически ожидать случайного совпадения для участка из 6-12 непрерывных аминокислотных остатков в несвязанном белке. Однако маловероятно, что все 4 вставки в Спайк-гликопротеин 2019-nCoV случайно совпадают с 2 ключевыми структурными белками неродственного вируса (ВИЧ-1). Аминокислотные остатки вставок 1, 2 и 3 спайкового гликопротеина 2019-nCoV, которые были сопоставлены с ВИЧ-1, входили в состав доменов V4, V5 и V1 соответственно в gp120 [табл.1]. Поскольку вставки 2019-nCoV были сопоставлены с переменными областями ВИЧ-1, они не были повсеместными в ВИЧ-1 gp120, но были ограничены выбранными последовательностями ВИЧ-1 [ см.S. File1] главным образом из Азии и Африки.
Gag-белок ВИЧ-1 обеспечивает взаимодействие вируса с отрицательно заряженной поверхностью хозяина (Murakami, 2008), и высокий положительный заряд на Gag-белке является ключевым признаком для взаимодействия хозяина и вируса. При анализе значений пи для каждой из 4 вставок в 2019-nCoV и соответствующих участков аминокислотных остатков из белков ВИЧ-1 мы обнаружили, что а) значения пи были очень похожи для каждой анализируемой пары б) большинство этих значений пи были 10±2 [см.табл. 1]. Следует отметить, что, несмотря на пробелы в вставках 3 и 4, значения пи были сопоставимы. Это единообразие в значениях pI для всех 4 вставок заслуживает дальнейшего изучения.
Поскольку ни одна из этих 4 вставок не присутствует ни в одном другом коронавирусе, геномная область, кодирующая эти вставки, представляет собой идеальных кандидатов для разработки праймеров, которые могут отличать 2019-nCoV от других коронавирусов.
Таблица 1: выровненные последовательности 2019-nCoV и gp120 белка ВИЧ-1 с их позициями в первичной последовательности белка. Все вставки имеют высокую плотность положительно заряженных остатков. Удаленные фрагменты во вставках 3 и 4 увеличивают отношение положительного заряда к площади поверхности. *пожалуйста, смотрите Supp. Таблица 1 для номеров присоединения
Чтобы получить структурные представления и понять роль этих инсерций в гликопротеине 2019-nCoV, мы смоделировали его структуру на основе имеющейся структуры спайкового гликопротеина SARS (PDB: 6ACD.1.Ля). Сравнение смоделированной структуры показывает, что хотя вставки 1,2 и 3 находятся в несмежных местах в первичной последовательности белка, они складываются, чтобы составить часть сайта связывания гликопротеина, который распознает рецептор хозяина (Kirchdoerfer et al., 2016) (Рисунок 4). Вставка 1 соответствует NTD (N-концевой домен), а вставки 2 и 3 соответствуют CTD (C-концевой домен) субъединицы S1 в спайковом гликопротеине 2019-nCoV. Вставка 4 находится на стыке SD1 (субдомен 1) и SD2 (субдомен 2) субъединицы S1 (Ou et al., 2017). Мы предполагаем, что эти инсерции обеспечивают дополнительную гибкость сайту связывания гликопротеина, формируя гидрофильную петлю в структуре белка, которая может облегчить или усилить взаимодействие вируса с хозяином.
Рисунок 3. Смоделированный гомо-тримерный спайковый гликопротеин вируса 2019-nCoV. Вставки от ВИЧ обволакивают протеин показаны с покрашенными шариками, присутствующими на связующем месте протеина.
Эволюционный анализ 2019 года-nCoV
Было высказано предположение, что 2019-nCoV является вариантом коронавируса, полученного из животного источника, который был передан людям. Учитывая изменение специфичности для хозяина, мы решили изучить последовательности спайкового гликопротеина (s-белка) вируса. Белки S-это поверхностные белки, которые помогают вирусу распознавать и прикреплять хозяина. Таким образом, изменение этих белков может быть отражено как изменение носительской специфичности вируса. Чтобы узнать изменения в гене белка S 2019-nCoV и его последствия в структурных перестройках, мы провели анализ in-sillico 2019-nCoV по отношению ко всем другим вирусам. Множественное выравнивание последовательностей между аминокислотными последовательностями белка S 2019-nCoV, Bat-SARS-Like, SARS-GZ02 и MERS показало, что белок S эволюционировал с наибольшим значительным разнообразием от SARS-GZ02 (Рисунок 1)
Инсерции в области спайкового белка 2019 года-nCoV
Поскольку белок S 2019-nCoV имеет самое близкое происхождение с SARS GZ02, последовательность, кодирующую спайковые белки этих двух вирусов, сравнивали с помощью программного обеспечения MultiAlin. Мы обнаружили четыре новые вставки в белке 2019-nCoV - "GTNGTKR “(IS1),” HKNNKS “(IS2),” GDSSSG “(IS3) и” QTNSPRRA" (IS4) (Рис.2). К нашему удивлению, эти последовательные вставки не только отсутствовали в белке S SARS, но и не наблюдались ни у одного другого члена семейства Coronaviridae (дополнительный рисунок). Это поразительно, поскольку весьма маловероятно, что вирус приобрел такие уникальные вставки естественным путем за короткий промежуток времени.
Вставки имеют общее сходство с ВИЧ
Было отмечено, что инсерции присутствуют во всех геномных последовательностях вируса 2019-nCoV, доступных из последних клинических изолятов (дополнительный рисунок 1). Чтобы узнать источник этих вставок в 2019-nCoV локальное выравнивание было сделано с BLASTp, используя эти вставки в качестве запроса со всем геномом вируса. Неожиданно все инсерции совпали с вирусом иммунодефицита человека-1 (ВИЧ-1). Дальнейший анализ показал, что выровненные последовательности ВИЧ-1 с 2019-nCoV были получены из поверхностного гликопротеина gp120 (аминокислотные позиции последовательности: 404-409, 462-467, 136-150) и из белка Gag (366-384 аминокислоты) (табл.1). Гаг-белок ВИЧ участвует в связывании мембраны хозяина, упаковке вируса и образовании вирусоподобных частиц. Gp120 играет решающую роль в распознавании клетки-хозяина путем связывания с первичным рецептором CD4.Это связывание индуцирует структурные перестройки в GP120, создавая высокоаффинный сайт связывания для хемокинового ко-рецептора, такого как CXCR4 и/или CCR5.
Обсуждение
Нынешняя вспышка 2019-nCoV требует тщательного расследования и понимания ее способности заражать людей. Имея в виду, что произошло явное изменение предпочтения хозяина от предыдущих коронавирусов к этому вирусу, мы изучили изменение спайкового белка между 2019-nCoV и другими вирусами. Мы обнаружили четыре новых вставки в белке S 2019-nCoV по сравнению с его ближайшим родственником, SARS CoV. Последовательность генома из последних 28 клинических изолятов показала, что последовательность, кодирующая эти вставки, сохраняется среди всех этих изолятов. Это указывает на то, что эти вставки были предпочтительно приобретены 2019-nCoV, обеспечивая ему дополнительное преимущество выживания и зараженности. Копаясь глубже, мы обнаружили, что эти вставки были похожи на ВИЧ-1. Наши результаты подчеркивают удивительную связь между gp120 и Gag-белком ВИЧ, с 2019-ncov spike glycoprotein. Эти белки имеют решающее значение для вирусов, чтобы идентифицировать и закрепиться на своих клетках-хозяевах и для вирусной сборки (Beniac et al., 2006). Поскольку поверхностные белки отвечают за тропизм хозяина, изменения в этих белках предполагают изменение специфичности хозяина вируса. Согласно сообщениям из Китая, произошло усиление специфичности хозяина в случае 2019-nCoV, поскольку изначально было известно, что вирус заражает животных, а не людей, но после мутаций он также приобрел тропизм к людям.
Продвигаясь вперед, 3D-моделирование структуры белка показало, что эти вставки присутствуют в месте связывания 2019-nCoV. В связи с наличием мотивов gp120 в 2019-nCoV spike glycoprotein в его связывающем домене мы предполагаем, что эти инсерции мотивов могли бы обеспечить повышенное сродство к рецепторам клетки-хозяина. Кроме того, это структурное изменение может также увеличить диапазон клеток-хозяев, которые 2019-nCoV может заразить. Насколько нам известно, функция этих мотивов все еще не ясна в ВИЧ и нуждается в изучении. Обмен генетическим материалом между вирусами хорошо известен, и такой критический обмен подчеркивает риск и необходимость изучения отношений между внешне неродственными вирусными семьями.
Выводы
Наш анализ спайкового гликопротеина 2019-nCoV выявил несколько интересных результатов: во-первых, мы идентифицировали 4 уникальных вставки в спайковый гликопротеин 2019-nCoV, которые не присутствуют ни в одном другом коронавирусе, о котором сообщалось до настоящего времени. К нашему удивлению, все 4 вставки в 2019-nCoV сопоставлены с короткими сегментами аминокислот в ВИЧ-1 gp120 и Gag среди всех аннотированных вирусных белков в базе данных NCBI. Это сверхъестественное сходство новых вставок в Спайк-белке 2019-nCoV с ВИЧ-1 gp120 и Gag вряд ли будет случайным. Кроме того, 3D-моделирование позволяет предположить, что по крайней мере 3 уникальных вставки, которые не являются смежными в первичной последовательности белка спайкового гликопротеина 2019-nCoV, сходятся, чтобы составлять ключевые компоненты сайта связывания рецептора. Следует отметить, что все 4 вставки имеют значения pI около 10, что может облегчить взаимодействие вируса с хозяином. Вместе взятые, наши выводы предполагают нетрадиционную эволюцию 2019-nCoV, что требует дальнейшего исследования. В нашей работе освещаются новые эволюционные аспекты НКО 2019-нов и их влияние на патогенез и диагностику этого вируса.