Блог

Вернуться назад

Как мутирует коронавирус и насколько это плохо?

Для тех, кто в детстве читал научно-популярные книги 1970-х годов по техническим дисциплинам, давно уже настали скучные времена: про бозон Хиггса или особенности горизонта событий заряженной вращающейся чёрной дыры можно было прочитать ещё полвека назад. Сегодня областью, за прогрессом в которой сложно уследить, является биология. И если рунет заполнен материалами по техническим дисциплинам, что традиционно для России, то биология и биоинформатика представлены крайне слабо.

За последние 18 лет стоимость секвенирования человеческого генома упала в сто тысяч раз до $1000. При этом длина генома человека это три миллиарда нуклеотидов, а геном коронавируса SARS-CoV-2 состоит из всего 30 тысяч нуклеотидов. Учитывая дешевизну и актуальность, множество геномов коронавируса уже секвенировано и выложено в открытый доступ.


Геном коронавируса настолько короткий, что его можно открыть как текстовый файл в блокноте, а различия в нуклеотидной последовательности двух разных геномов видны невооружённым взглядом. 

Скачать геномы одной кнопкой можно в GenBank'e , там же есть и начальный, референсный геном от декабря 2019 года из китайского Уханя. Геном это последовательность из всего четырёх типов нуклеотидов - А/Г/Т/Ц, то есть аденин, гуанин, тимин, цитозин. Соответственно, кроме минимальной описательной части и кучи букв A/G/T/C там ничего и нет. Пожалуй, это один из тех редчайших случаев, когда сбор данных для анализа занимает меньше времени, чем сам анализ.

Геномы коронавируса. Слева "начальный" геном из китайского Уханя от 2019 года, справа от 24 марта 2020 года, взятый у одного из инфицированных в США. Начало первого гена в геноме выделено синим цветом. Для удобства просмотра последовательность делят на столбцы одной ширины.


Что есть что?

К счастью, уже построена карта генома и известны нуклеотидные последовательности всех генов коронавируса. Например, первый ген кодирует белок orf1a, его первые 21 нуклеотида такие: ATGGAGAGCCTTGTCCCTGGT - как раз найдены и выделены на скриншоте. Зная начальные и конечные участки генов, не говоря уже о генах целиком, несложно разметить геном и понять что есть что в данном экземпляре коронавируса.


"Мусорная" ДНК

Какие-то участки генома не входят ни в один ген - это мусорная ДНК (РНК), которая не несёт наследственной информации и может мутировать (изменяться) как ей вздумается без вреда и пользы для вируса. Мусорной ДНК сформированы промежутки между генами, а также самое начало и конец генома. На картинке выше первые несколько строк как раз представляют из себя мусорную ДНК, и, например, первая строка не совпадает.


S-протеин

Так как геном во всех своих частях по сути одинаковый набор букв А/Г/Т/Ц, то для простоты анализа можно сфокусироваться на участке генома - на каком-нибудь одном гене.

За проникновение вируса в клетку отвечают белки (s-protein), выглядящие как шип на поверхности, в совокупности образующие ту самую "корону", давшую название этому типу вирусов. Именно на эти белки направлены создающиеся сейчас вакцины, которые должны остановить распространение эпидемии.

Если s-протеин мутирует быстро и сильно, то вакцины не будут поспевать за новыми мутациями, как в случае сезонного гриппа, Если медленно, то одна вакцина избавит человечество от проблем надолго.

Мутации гена, отвечающего за кодирование s-протеина мы и рассмотрим.

а

Схематичное изображение коронавируса. S-протеин отмечен вверху справа


От слов к нуклеотидам

Весь геном коронавируса это около 30'000 "букв". Последовательность нуклеотидов гена s-протеина известна, их всего 3822 штуки. Вот, например, первые пятьдесят:

ATGTTTGTTTTTCTTGTTTTATTGCCACTAGTCTCTAGTCAGTGTGTTAA

Вот последние пятьдесят:

АAGACGACTCTGAGCCAGTGCTCAAAGGAGTCAAATTACATTACACATAA

Если, как Микеланджело, в каждом геноме отрезать всё что до этих первых пятидесяти букв и после последних пятидесяти, то останется ген s-протеина. Поместив каждый ген в строку экселя удобно подмечать мутации. Например, на скриншоте ниже у некоторых гонконгских инфицированных на 22-й позиции стоит G вместо обычного T:


Скриншот с общими данными по геному и начальной частью гена s-протеина. Стрелками отмечены мутации (замены) Т -> G


Мутации

Геном или один ген это просто наследственная информация. По этой информации производится то, что уже в дальнейшем будет функционировать - белок (1 ген -> 1 белок). Мутация в гене это, обычно, и в нашем случае, замена одной "буквы" на другую. Некоторые мутации в гене приводят к изменению белка, некоторые нет. Некоторые слабо изменяют белок, некоторые сильно, что скорее всего приведёт к недееспособности вируса, так как сделанный по сильно мутированному гену белок будет неправильным и не сможет выполнять свои функции. С другой стороны, против изменённого белка может не подействовать вакцина, спроектированная под предыдущую "версию".

Пройтись циклом по всем геномам, найти ген s-протеина и поискать замены относительно начальной версии от 2019 года это несколько десятков строк простого программирования.


Визуализация

Традиционные линейные или столбчатые диаграммы не подходят для отображения 3822 нуклеотидов и их замен. Для наглядности удобнее расположить последовательность нуклеотидов как текст, слева направо, сверху вниз, а наличие мутации и их количество заменить цветом поля:

Wake up, Neo...

Цветами обозначено количество вариантов для данной "буквы" среди проанализированных геномов. Например, жёлтый цвет означает, что для данного нуклеотида существуют все три возможных варианта мутации и каждый из которых приводит к немного другой белковой молекуле. Если для "буквы" существует только одна мутация, и та безобидная, то цвет - ближайший к начальному фиолетовому. 

Анимация по дням:

Мутации, мягко говоря, присутствуют, не одна и не две, и большинство несинонимичные. То есть те, которые изменяют белок "шипа" коронавируса. Но много это или мало в контексте мутации вируса и вакцин?

Исследователи говорят, что коронавирус SARS-CoV-2 мутирует относительно медленно. Например, сезонный грипп  мутирует  в разы быстрее. То есть можно рассчитывать, что вакцины, которые уже  проходят  клинические испытания на людях в семи лабораториях, будут актуальны и эффективны продолжительный период времени.  Раз так, ждём вакцину! =)

Упрощённый код с базовыми моментами и диаграммой тут .

Вячеслав Лактюшкин, Андрей Крамаренко

Другие статьи по этой теме

Прогноз пика заболеваний Covid в Москве

На основе статистики построили модель дальнейшего хода развития пандемии

Селадо. Цифровой завод

Сквозная цифровая технология - Селадо. Цифровой завод

Контакты

г. Москва, метро Павелецкая, Павелецкая набережная д. 2 стр 3, офис 106, БЦ LoftVille

+7 (495) 003-91-37
Свяжитесь с нами: