Многие из них необычны и обитают в соленых озерах, гидротермальных источниках и других экстремальных условиях.
Исследователи использовали искусственный интеллект (ИИ) для обнаружения 70 500 вирусов, ранее неизвестных науке, многие из которых были странными и не похожими на известные виды. РНК-вирусы были идентифицированы с помощью метагеномики, в которой ученые берут образцы всех геномов, присутствующих в окружающей среде, без необходимости культивировать отдельные вирусы. Метод показывает потенциал ИИ для исследования «темной материи» вселенной РНК-вирусов.
Вирусы — это вездесущие микроорганизмы, которые заражают животных, растения и даже бактерии, однако лишь малая их часть была идентифицирована и описана. По словам Артема Бабаяна, вычислительного вирусолога из Университета Торонто в Канаде, существует «по сути бездонная яма» вирусов, которые предстоит открыть. Некоторые из этих вирусов могут вызывать заболевания у людей, а это значит, что их характеристика может помочь объяснить загадочные болезни, говорит он.
Предыдущие исследования использовали машинное обучение для поиска новых вирусов в данных секвенирования. Последнее исследование, опубликованное в Cell на этой неделе, продвигает эту работу на шаг дальше и использует ее для изучения предсказанных структур белков.
Модель ИИ включает в себя инструмент прогнозирования белков, называемый ESMFold, который был разработан исследователями из Meta (ранее Facebook, со штаб-квартирой в Менло-Парке, Калифорния). Похожая система ИИ, AlphaFold, была разработана исследователями из Google DeepMind в Лондоне, которые получили Нобелевскую премию по химии на этой неделе.
Пропущенные вирусы
В 2022 году Бабаян и его коллеги исследовали 5,7 миллиона геномных образцов, заархивированных в общедоступных базах данных, и выявили почти 132 000 новых РНК-вирусов. Другие группы проводили аналогичные исследования.
Но РНК-вирусы быстро эволюционируют, поэтому существующие методы идентификации РНК-вирусов в данных геномной последовательности, вероятно, пропускают многие из них. Распространенный метод заключается в поиске части генома, которая кодирует ключевой белок, используемый в репликации РНК, называемый РНК-зависимой РНК-полимеразой (RdRp). Но если последовательность, кодирующая этот белок в вирусе, сильно отличается от любой известной последовательности, исследователи не узнают ее.
Ши Ман (Shi Mang), эволюционный биолог из Университета Сунь Ятсена (Sun Yat-sen University) в Шэньчжэне (Shenzhen), Китай, и соавтор исследования Cell, вместе со своими коллегами занялся поиском ранее неизвестных вирусов в общедоступных геномных образцах.
Они разработали модель под названием LucaProt, используя архитектуру «трансформатора», лежащую в основе ChatGPT, и снабдили ее данными секвенирования и прогнозирования белков ESMFold. Затем они обучили свою модель распознавать вирусные RdRps и использовали ее для поиска последовательностей, кодирующих эти ферменты — доказательств того, что эти последовательности принадлежали вирусу — в большом объеме геномных данных. Используя этот метод, они идентифицировали около 160 000 РНК-вирусов, включая некоторые, которые были исключительно длинными и встречались в экстремальных условиях, таких как горячие источники, соленые озера и воздух. Чуть меньше половины из них ранее не были описаны. Они обнаружили «небольшие очаги биоразнообразия РНК-вирусов, которые действительно находятся далеко в глубинке эволюционного пространства», — говорит Бабаян.
«Это действительно многообещающий подход к расширению виросферы», — говорит Джеки Махар (Jackie Mahar), эволюционный вирусолог из Австралийского центра готовности к болезням CSIRO в Джилонге (Geelong). Характеристика вирусов поможет исследователям понять происхождение микробов и то, как они эволюционировали у разных хозяев, говорит он.
А расширение пула известных вирусов облегчает поиск большего количества похожих вирусов, говорит Бабаян. «Внезапно вы можете увидеть то, чего раньше просто не замечали».
Команда не смогла определить хозяев вирусов, которые они идентифицировали, что следует исследовать дальше, говорит Махар. Исследователи особенно заинтересованы в том, заражают ли какие-либо новые вирусы археи, целую ветвь дерева жизни, для которой не было явно показано, что её заражают РНК-вирусы.
Ши сейчас разрабатывает модель для прогнозирования хозяев этих недавно идентифицированных РНК-вирусов. Он надеется, что это поможет исследователям понять роли, которые вирусы играют в своих экологических нишах.