Дата публикации: 02 февраля 2022
Международное сотрудничество ученых СПбГУ (Центр биоинформатики и алгоритмической биотехнологии), Института Пастера (Франция), Университета Британской Колумбии (Канада), Калифорнийского университета в Беркли (США), Гейдельбергского института теоретических исследований (Германия) и других исследователей по всему миру позволило обнаружить в недрах существующих открытых геномных данных более 130 000 новых, ранее неизвестных вирусов.
По мнению ученых, в природе существуют триллионы до сих пор неизвестных вирусов, многие из которых могут быть смертельными и потенциально способными спровоцировать следующие пандемии. Однако далеко не все они столь опасны.
Опубликованная в журнале Nature работа может служить основой так называемой петабайтной геномики, оперирующей ранее непостижимым количеством данных ДНК и РНК (в опубликованном исследовании проанализировано 16 петабайт геномных последовательностей). Единица измерения количества информации петабайт равна 1015 (квадриллиону) байт.
«Чтобы справиться с такими объемами информации, была создана платформа Serratus, содержащая целый набор компьютерных инструментов, специально предназначенных для эффективной работы с данными в облаке, — отметил участник международного проекта, ведущий сотрудник Центра биоинформатики и алгоритмической биотехнологии СПбГУ Антон Коробейников. — Однако без созданного в Центре совместно с моим коллегой Дмитрием Мелешко сборщика РНК-вирусов coronaSPAdes качественно "пересобрать" геномные вирусные данные было бы гораздо сложнее».
«Главная задача коллаборации Serratus заключалась в том, чтобы создать мощное, очень точное и чувствительное "сито" для обработки огромных количеств данных, отобрать данные, относящиеся к РНК-вирусам, сузив масштабы от петабайтов до гигабайтов, доступных для относительно быстрой обработки с применением обычных вычислительных мощностей. Созданный же сборщик coronaSPAdes — наш кирпичик в уникальной конструкции Serratus, каждый из участников которой занимался своим делом, которое хорошо знает, поэтому у нас все и получилось», — считает сотрудник Центра алгоритмической биотехнологии СПбГУ Дмитрий Мелешко.
Несмотря на то что далеко не всегда удавалось собрать полный геном всех вирусов, даже частичные последовательности позволили построить генеалогические деревья, которые показывают, как разные вирусы связаны между собой и как они развиваются.
«Созданная в результате совместных усилий платформа способна обрабатывать один миллион наборов данных в день при вычислительных затратах менее одного цента на набор данных. Это ли не мечта всех генетиков — быстро и качественно!» — отметил Антон Коробейников.
В ходе исследования было обнаружено более 250 гигантских вирусов, поражающих бактерии и похожих на вирусы, обнаруженные ранее в водорослях. Близкие родственники этих «огромных фагов» были обнаружены, например, у человека из Бангладеш, а также у кошек и собак в Соединенном Королевстве.
До появления Serratus ученым было известно порядка 13 500 РНК-вирусов (это примерно треть от общего количества различных существующих вирусов), а проект позволил увеличить это количество почти в десять раз.
«Созданный на данный момент общедоступный репозиторий разработанных инструментов и уже полученных результатов таит в себе множество новых открытий, особенно с учетом того, что количество облачных общедоступных последовательностей ДНК и РНК растет экспоненциально изо дня в день. Мы бы хотели идентифицировать к концу десятилетия более 100 миллионов РНК-вирусов», — отметил Дмитрий Мелешко.