Нуклеотидные тетрамеры TCGA и CTAG: вирусные ДНК и генетический код (гипотеза)
- Авторы: Филатов Ф.П.1,2
-
Учреждения:
- Научно-исследовательский институт вакцин и сывороток им. И.И. Мечникова
- Национальный исследовательский центр эпидемиологии и микробиологии имени почетного академика Н.Ф. Гамалеи
- Выпуск: Том 99, № 4 (2022)
- Страницы: 478-493
- Раздел: ОРИГИНАЛЬНЫЕ ИССЛЕДОВАНИЯ
- Дата подачи: 25.09.2022
- Дата принятия к публикации: 25.09.2022
- Дата публикации: 25.09.2022
- URL: https://microbiol.crie.ru/jour/article/view/1305
- DOI: https://doi.org/10.36233/0372-9311-275
- ID: 1305
Цитировать
Аннотация
Введение. Литературные и наши собственные данные показывают, что в частотных профилях (ЧП) герпесвирусных ДНК тетрануклеотиды CTAG и, в меньшей степени, TCGA выделяются среди других полных, билатерально симметричных тетрануклеотидов заметно более низкими значениями концентраций.
Цель работы — сравнительный анализ ЧП тетрануклеотидов CTAG и TCGA в вирусных ДНК.
Материалы и методы. Проанализированы ЧП и другие особенности указанных двух тетрамеров в ДНК не менее одного вида вирусов каждого рода (или субсемейства, если оно не классифицировано по родам) в соответствии с ограничениями по размеру (не ниже 100 000 пар оснований) — всего свыше 200 видов вирусов. Для анализа использованы инструменты GenBank.
Результаты. Описаны две группы формальных особенностей тетрамеров TCGA и CTAG. Одна из них относится к результатам анализа ЧП этих тетрануклеотидов в вирусных ДНК и показывает, что в ДНК с GC:AT > 2 имеют место определённые симметрии ЧП nCGn при частом нарушении таких симметрий в ЧП nTAn из-за недопредставленности CTAG. Другая группа особенностей этих тетрамеров демонстрирует различия их ЧП в полных ДНК вирусов и в их геномах (кодирующей части, которая у некоторых исследованных вирусов достигает 80%, делая анализ их ДНК более убедительным, нежели анализ ДНК клеточных форм жизни) и указывает на возможную роль этих тетрамеров в происхождении универсального генетического кода.
Обсуждение. Предполагается, что генетический код первоначально формировался на основе некоторого преобладания C+G в «до-кодовых» ДНК-полимерах с последующей эволюцией стартовых форм кода до конечной фиксированной структуры, в которой тетрамеры TCGA и CTAG занимают центральное место, отражая исходные этапы этой эволюции. Симметрии ЧП nCGn, характерные для «полной» ДНК герпесвирусов рода Simplex, исчезают в цепи вторых кодонных букв генома этих вирусов, косвенно указывая на отличия их функций от функций других букв и подчёркивая целесообразность представления генетического кода в формате каллиграммы, в которой вторая строка не симметрична.
Полный текст
ВВЕДЕНИЕ
Ранее мы описали частоту встречаемости билатерально симметричных, полных (состоящих из 4 оснований) тетрануклеотидов (ТН) в геномах герпесвирусов [1]. Обнаружив тогда, что частотные профили (ЧП) двух ТН — CTAG и, в меньшей степени, TCGA — герпесвирусных ДНК выделяются заметно низкими значениями концентраций, на что указывают и данные литературы [2–4], мы более внимательно проанализировали другие особенности этих двух ТН и вывели такой анализ за пределы герпесвирусов.
Предполагается, что действие CTAG связано с нарушением оптимальной структуры стволовых петель нуклеиновой кислоты, что приводит к торможению репликации ДНК («термодинамическая модель»). Кроме того, последовательность CTAG более подвержена химическим воздействиям [5][6]. Пониженная концентрация TCGA связана с его центральным димером CpG, который часто метилируется и отличается высокой частотой мутаций [7–10].
Мы приводим здесь многочисленные ссылки на источники (на самом деле работ, посвящённых этой теме, намного больше), чтобы показать разнообразие последствий наличия обсуждаемых олигонуклеотидов в ДНК и геномах живых организмов [11]. Нежелательное ингибирование биологических синтезов компенсируется снижением концентрации в ДНК обоих ТН. Нас в данной работе интересовали в первую очередь формальные характеристики обоих ТН, которые, в отличие от остальных, обладают биологическими функциями, какими бы ни были функции и механизмы, их определяющие. Эти характеристики демонстрируют неожиданные особенности, объяснение которых изложено здесь в порядке весьма предварительной гипотезы.
Цель работы — сравнительный анализ ЧП CTAG и TCGA в вирусных ДНК и в геномных участках этих ДНК.
Мы анализировали ближайший контекст центральных пар CG и TA нуклеотидных тетрамеров, среди которых — TCGA и CTAG, в ДНК вирусов различных классификационных групп. Такой подход несколько уравнивает оценку сравнения ЧП динуклеотида CG и CTAG, сближая их размеры и рассматривая их одновременно и как тетрамеры, и как димеры (тем более что в литературе отмечаются также сходные по функции, пусть и в значительно меньшей степени, характеристики центрального димера CTAG [12][13]). Минус этого подхода заключается в значительно меньшем различии плотности симметричных пар тетрамеров с общей функцией (TCGA и ACGT) по сравнению с существенной разницей плотности симметричных пар тетрамеров, имеющих (CTAG) и практически не имеющих (GTAC) такую функцию.
МАТЕРИАЛЫ И МЕТОДЫ
Анализу подвергались физически несегментированные ДНК, полноразмерный сиквенс которых представлен в GenBank1 на 2021 г. Третий ограничивающий фактор — размер ДНК, который в первом приближении должен быть не ниже 100 т.п.н., как и в случае со Вторым правилом Чаргаффа [5][14][15], и не выше 300–400 т.п.н. ДНК последних отличает слишком сложные вирусы и содержит преимущественно А+Т. Самые большие известные вирусные РНК — геномы коронавирусов — составляют не более 32–35 т.п.н.
Указанным выше условиям удовлетворяют геномы вирусов только двух больших доменов общего надцарства Vira: Duplodnaviria (царство Heunggongvirae) и Varidnaviria (царство Bamfordvirae). Мы проанализировали ДНК не менее одного вида вирусов каждого рода (или субсемейства, если оно не классифицировано по родам); всего таких родов — свыше 200 (20 семейств). Исследованные нами вирусы первого домена принадлежат к типам Uroviricota царства Heunggongvirae (отряд Caudoviirales) и Peploviricota того же царства (отряд Herpesvirales). Исследованные вирусы второго домена принадлежат к типу Nucleocytoviricota классов Megaviricetes и Pokkesviricetes. Кроме того, мы проанализировали ДНК вирусов без установленных промежуточных доменов: 9 представителей семейств Baculoviridae, Nudiviridae и суперсемейства Nimaviridae, а также 6 представителей неклассифицированных видов вирусов архей и 3 неклассифицированных вида семейств Pytho- и Hytrosaviridae (Приложение).
В качестве инструментов анализа использовали пакеты программ GenBank.
Графики частотного распределения изучаемых ТН строили перебором вариантов ближайшего контекста центральных пар nTAn и nCGn (CTAG) с последовательным повышением молекулярной массы n [16][17]:
[C→T]Y → [A→G]R,
где C, T — пиримидины (Y); A, G — пурины (R).
РЕЗУЛЬТАТЫ
ПЛОТНОСТЬ МИНИМАЛЬНЫХ NTAN И NCGN В ВИРУСНЫХ ДНК
Общий анализ плотности nTAn и nCGn показал, что в ДНК большей части (75 из 128) исследованных представителей типа Uroviricota минимальный ТН — это CTAGmin. Минимальным мы называем здесь полный самокомплементарный тетрамер, плотность которого ниже, чем плотность симметричного ему по контекстным основаниям тетрамера в общем ЧП вирусной ДНК. В нашем случае CTAGmin < GTAC и TCGAmin < ACGT.
ДНК ни одного вида типа Uroviricota не содержит TCGA в качестве минимального тетрамера. В ДНК вирусов типа Nucleocytoviricota, вирусов неуточнённой классификации (Baculoviridae, Nudiviridae и Nimaviridae) и вирусов архей TCGAmin, хотя и встречается, но редко и без видимой связи с классификационными группами.
Один из иридовирусов — альфа-иридовирус, а также вирус инфекционного некроза селезёнки и почек человека содержат в своей ДНК оба названных ТН в качестве минимальных и примерно в равных концентрациях (CTAGmin~TCGAmin). Та же особенность относится и к вирусу Ranid 1 семейства Alloherpesviridae. ДНК значительной части альфа-герпесвирусов человека рода Simplex содержит эти тетрамеры в качестве минимальных при CTAGmin < TCGAmin.
TCGA не является минимальным в ДНК розеоловирусов. В то же время большая часть герпесвирусных ДНК (26 из 35) — кроме гамма-герпесвирусов — имеет в качестве минимального CTAG. Раздел 2 детализирует особенности ЧП nTAn и nCGn в ДНК герпесвирусов.
Минимальной концентрацией CTAG отличаются все исследованные Nucleocytoviricota — за исключением поксвирусов, среди которых только 3 xордопоксвируса (из 19 анализированных) имеют CTAGmin. Поксвирусы, как было сказано, отличаются также ДНК с преобладающим типом A+T и с высоким (> 2) соотношением [T+A] : [G+C].
Подытоживая эту часть работы, отметим следующее:
1) ДНК герпесвирусов выделяется среди ДНК других исследованных здесь вирусов соотношением [G+C] > [A+T];
2) среди изученных вирусных ДНК тетрамер TCGA характерен как минимальный, почти исключительно для ДНК герпесвирусов — с более чем двойным преобладанием G+C над A+T. Это в первую очередь герпесвирусы рода Simplexviruses субсемейства Alpha и частично рода Lymphocriptoviruses субсемейства Gamma. ДНК многих герпесвирусов имеют в качестве минимального тетрамер ACGT, но он не уникален, т.е. встречается в этом качестве в ДНК других классификационных групп вирусов.
ЧАСТОТНЫЙ ПРОФИЛЬ ТЕТРАНУКЛЕОТИДОВ В ВИРУСНЫХ ДНК
Яркой характеристикой количественного распределения геномных тетрамеров nCGn некоторых вирусов типа Peploviricota является симметрия их ЧП. Рисунок 1 демонстрирует её для вируса простого герпеса-1, чей геном организован по типу D [18]. При этом ЧП nTAn асимметричен в силу «минимальности» CTAG (CTAGmin). Более строгим, чем симметрия, но также её отражающим является соотношение CTAG : GTAC и TCGA : ACGT. Для ДНК вируса простого герпеса-1 — это CTAGmin < GTAC (21%) и TCGAmin < ACGT (86%).
Рис. 1. ЧП тетрануклеотидов nTAn (синий цвет) и nCGn (красный цвет) в Human Simplexvirus 1 DNA. а — абсолютные значения, приведено процентное соотношение симметричных по шкале пар двух полных тетрамеров — TCGAmin : ACGT и CTAGUNP : GTAC (окрашены зелёным и выделены жирным шрифтом); б, в — графическое выражение абсолютных значений; в — ЧП nTAn, больший масштаб по вертикали.
Достаточно заменить центральный димер тетрамера CTAG на обратный — CАТG, как симметрия соответствующего ЧП восстанавливается. Асимметрия ЧП nCGn выражена намного слабее, хотя для ЧП многих симплексвирусов соотношение TCGA < ACGT весьма характерно. Любые замены центрального димера CG приводят к сильной деформации и нарушению симметрии ЧП.
На рис. 2 показаны ЧП ТН nTAn и nCGn в Human Cytomegalovirus (HHV5) ДНК, организованной, как и в случае герпесвирусов рода Simplex, по типу D. Здесь симметрии обоих ЧП практически не выражены, однако соотношения CTAGmin : GTAC и TCGAmin : ACGT вполне отчётливы (36 и 52% соответственно). Очевидно, что симметрия ЧП nCGn связана с GC-типом ДНК герпесвируса рода Simplex.
Рис. 2. Частотные профили тетрануклеотидов nTAn (синий цвет) и nCGn (красный цвет) в Human Cytomegalovirus (HHV5) DNA.а — абсолютные значения; б — их графическое выражение. Показано процентное соотношение симметричных по шкале пар двух полных тетрамеров, ACGT : TCGA и GTAC : CTAG (окрашены зелёным и выделены жирным шрифтом).
Количественное выражение GC : АТ и связь его с симметриями ЧП герпесвирусных ДНК иллюстрирует таблица. Выраженные симметрии ЧП nCGn обеспечивает соотношение GC : АТ > 2, что характерно в первую очередь для ДНК герпесвирусов рода Simplex. Соотношения пар TCGA < ACGT и CTAG < GTAC характерны в основном также для ДНК вирусов рода Simplex. АТ-тип вирусных ДНК при соотношении AT : GC > 2 (поксвирусы) тоже придаёт симметрию ЧП обсуждаемых ТН.
Характеристики 1-х (А) и 3-х (G) строк вирусных (в основном герпесвирусных) геномов с соотношением GC : AT > 1
Characteristics of the 1st (A) and 3rd (G) lines of virus (mainly herpesvirus) genomes with ratio GC : AT > 1
Примечание. Минимальные тетрануклеотиды ЧП nCGn показаны как ACGT или TCGA. Наличие симметрии ЧП обозначено серым цветом ячеек (пояснения в тексте).
Note. Tetra-nucleotides (nCGn) of the minimum concentration are shown as ACGT or TCGA. The FP symmetry is shown in grey color (see the explanation in the text).
Рисунок 3 показывает ЧП CTAG и TCGA в ДНК Ranid herpesvirus 1, (Batrachovirus), в которой оба ТН находятся в минимальных позициях своих ЧП, а геном организован по типу В Ройзмана. ЧП обоих ТН в ДНК этого вируса симметрий не демонстрируют, но весьма отчётливо выделяют снижением плотности так называемые неполные тетрамеры — тримеры CTA/TAG и CCG/CGA. В определённой мере это характерно и для ряда других вирусных ДНК. Плотность таких тринуклеотидов, как правило, не достигает значений полных CTAG или TCGA.
Рис. 3. Частотные профили тетрануклеотидов nATn и nGCn в ДНК Ranid herpesvirus 1. а — абсолютные значения, зелёным цветом и жирным шрифтом выделены 3’-тримеры TAG и CGA, подчёркнуты 5’-тримеры CTA и CCG, ниже — процентное соотношение пар двух полных тетрамеров: ACGT : TCGA и GTAC : CTAG; б, в — графическое выражение абсолютных значений; в — nTAn, больший масштаб по вертикали.
Подытоживая эту часть работы, отметим две выраженные, не упоминавшиеся прежде формальные особенности CTAG и TCGA. ЧП nCGn в ДНК [G+C] : [A+T] > 2 отличаются определённой симметрией, в то время как симметрия ЧП nATn в таких ДНК часто нарушена (CTAG < GTAC). Эта симметрия не тождественна Второму правилу Чаргаффа, которое, по крайней мере, не имеет таких ограничений и даже не является следствием этого правила, как это может показаться на первый взгляд. Она также отлична от типа симметрий ДНК-последовательностей, описаного в работах [19–21].
Не только CTAG, но и его тринуклеотидные взаимоперекрывающиеся участки nTAG и CTAn имеют, как правило, более или менее выраженную тенденцию к снижению плотности в ЧП соответствующих тетрамеров (рис. 2). Тенденцию к снижению плотности демонстрируют также тримеры nCGA и TCGn. Если учитывать в качестве минимальных тримеры nTAG или CTAn, перекрывающие 5’- или 3’-участки CTAGmin, то упомянутое в разделе 1 в отношении ДНК исследованных представителей типа Uroviricota число 75 CTAGmin из 128 исследованных увеличивается до 93. Такие тринуклеотиды также имеют тенденцию к снижению частоты, которая, как правило, не достигает минимальных значений полного CTAGmin. На наш взгляд, это требует некоторого уточнения упомянутой выше гипотезы термодинамической модели, которая относится к полному ТН CTAG.
Для этих четырех тринуклеотидов (CTA/TAG, частично перекрывающих CTAG, и TCG/CGA, частично перекрывающих TCGA) характерна ещё одна совершенно неожиданная особенность, которая, на первый взгляд, не связана с их известными функциями; фактически она относится к следующему разделу и здесь используется лишь как переход к нему: рассматриваемые как взаимно перекрывающиеся кодоны, эти 4 тримера полностью исчерпывают избыточность универсального генетического кода (выделено жирным шрифтом; римские цифры указывают на группу их вырожденности): CTAIV = TTRII(L) и TAGII = TGAIII(stop); TCGIV = AGYII(S) и CGAIV = AGRII(R). При этом группа их вырожденности всегда выше группы вырожденности альтернативных кодонов той же аминокислоты.
Альтернативные кодоны составляют симметричную центральную строку A-T-T-T-A (первые буквы) или SII-stop-LII-stop-RII (продукты кодирования) так называемой матрицы кода [17]. Другой такой, как TCGA и CTAG, пары полных самокомплементарных ТН, которые перекрывались бы тринуклеотидами, обладающими подобными свойствами, в генетическом коде нет. Эта их особенность, возможно случайная, тем не менее заставляет внимательнее пересмотреть в описанном контексте структуру универсального генетического кода и поделиться столь же неожиданными наблюдениями, не всегда объяснимыми, но на наш взгляд, заслуживающими интереса.
УНИВЕРСАЛЬНЫЙ ГЕНЕТИЧЕСКИЙ КОД И ГЕНОМНЫЕ СИММЕТРИИ ТЕТРАНУКЛЕОТИДОВ TCGA И CTAG
Генетический код имеет помехоустойчивую структуру, основой чего является, в частности, симметрия его элементов. Один из наиболее демонстрационных вариантов такой симметрии (исторически первый) представляет таблица Ю.Румера [22, 23], позднее преобразованная В. Щербаком в каллиграмму, которая связывает симметрией первые буквы кодирующих триплетов и упорядоченные по молекулярной массе продукты кодирования [16]. Такая связь до сих пор не имеет внятного объяснения. В представленной здесь несколько модифицированной таблице (каллиграмма А; рис. 4, а) мы отдали приоритет этапам формирования кода — в противовес уже сформированным, фиксированным группам вырожденности, которые показывает исходная каллиграмма. Это подчёркивает преимущественное содержание G+C в первом октете, вероятно, отражающем преимущественное содержание более термостабильных пар G≡C в «до-кодовом» наборе полинуклеотидов, и A+T — во втором, в котором закреплены также направление чтения генов и другие особенности, которые делают второй октет более сложным, т.е., скореевсего, эволюционно более поздним. В нашей версии октет 2 каллиграммы (рис. 4, б) «уплотнён» за счёт того, что в основу последовательности аминокислот положена общая масса продуктов, кодируемых триплетами с третьим пиримидином Y или пурином R. Этот октет обозначен как октет А (рис. 4, а) — по преимущественному суммарному содержанию нуклеотидов А в 1-й и 2-й кодирующих строках. На том же основании октет 1 каллиграммы обозначен здесь как октет C. Количество всех четырех нуклеотидов в первых строках каждого октета равно и подчёркивает таким образом межоктетную симметрию.
Рис. 4. Каллиграмма А универсального генетического кода (а) и октет 2 калиграммы универсального генетического кода ([16]; б). Третий нуклеотид кодона представлен пурином (R) или пиримидином (Y). Стартовый кодон ATG и стоп-кодон ТАR выделены серым по вертикали. Центральные тетрануклеотиды первых букв кодонов каждого октета выделены жирным шрифтом. Тетрануклеотид стыка октетов А и С также выделен серым. Последовательное нарастание молекулярной массы продуктов кодирования (АС, аминокислоты) показано нарастанием плотности фона клеток от белого к чёрному и стрелками. Римские цифры — группы вырожденности кода, dg. Три пары продуктов кодирования, часть которых может нести заряд (отчего их позиции в строке неустойчивы и фиксированы по доминирующему правилу — симметрии первых букв кодонов), выделены общим светло-серым фоном.
Основу организации октета C каллиграммы А составляет последовательное изменение (нарастание) значений молекулярных масс кодируемых аминокислот, которое придаёт октету симметрию нуклеотидов верхней строки (первых букв кодонов). Центром этой симметрии является тетрамер TCGA (выделен жирным шрифтом на сером фоне). Мы опускаем здесь значения молекулярных масс продуктов кодирования, их можно найти в работах [15][16]. Октеты C и 1 обеих каллиграмм полностью совпадают.
Основу организации октета А нашей каллиграммы также составляет последовательное изменение (но убывание) значений молекулярных масс кодируемых аминокислот, которое придаёт этому октету симметрию нуклеотидов верхней строки (первых букв кодонов). Некоторую неопределённость весьма близким значениям масс аминокислот, составляющим три пары — R+S, E–D– и K+N (на рис. 4 выделены общим светло-серым цветом), придаёт их колебание за счёт способности нести заряд (протонирования). Однако доминирующий принцип организации октетов, а именно симметрия первых букв кодирующих триплетов, фиксирует центральный тетрамер CTAG в составе верхней строки октета А, помещая в четвертую позицию тетрамера глутаминовую кислоту. Возможно, некоторую роль играет здесь симметрия зарядов гистидина (H+) и глутамина (D–) при нейтральном рН, в кодонах которых третьи буквы — пиримидины. Два эти фактора — последовательное изменение молекулярной массы кодируемых продуктов и симметрия первых букв кодонов — определяют направление чтения этого октета и направление чтения генов — от триплета AТG (старт-кодон) к триплетам TGA и ТАR (стоп-кодоны).
Оба октета генетического кода могут отражать также его предполагаемую эволюцию [7] — от случайных старт/стоп-кодонов октета C к фиксированным (октет А) кодонам и от преобладания в октете С нуклеотидов G и С к выравниванию их наличия за счёт доминирования нуклеотидов А и Т в кодонах октета А и к общему усложнению этого октета.
Подход, упомянутый в конце предыдущего раздела, т.е. взаимное перекрывание тетрамеров тримерами, делает каллиграмму несколько более информативной, выделяя также нечётные группы вырожденности. Линейный четырехнуклеотидный «стык» первых строк октетов А и C, т.е. AT|GG, можно рассматривать как частично перекрывающийся кодонами ATG и TGG группы вырожденности I (обозначено серым на рис. 4, а). Наличие такого стыка подчёркивает разнонаправленность организации октетов А и Cght, формирующей их симметрию — снижение или нарастание нуклонных масс продуктов кодирования при однонаправленных центральных октетных тетрамерах.
Анализ ЧП тетрамеров nCGn и nTAn в условных цепях 1, 2 и 3-х строк вирусных геномов указывает на определённое сходство с симметриями этих ЧП в 1, 2 и 3-х строках генетического кода. Первая из этих цепей начинается с нуклеотида А, вторая — с Т, третья — с G, а гены следуют один за другим без промежутков, независимо от того, в какой цепи вирусных ДНК они локализуются, перекрывают ли друг друга и содержат ли интроны. Примеры этого анализа показаны только для геномов тех же вирусов, что и в предыдущем разделе: HHV1 (рис. 5), HHV5 (рис. 6) и HV Ranid 1 (рис. 7).
Рис. 5. ЧП тетрамеров nCGn (а) и nTAn (б) в цепочках 1, 2 и 3-х нуклеотидов генома Herpes simplex virus 1.Здесь и на рис. 6, 7: слева — абсолютные значения, справа — их графическое выражение в цепочках 1, 2 и 3-х нуклеотидов, представленное для демонстрации пропорций профиля (но не его масштабов, которые читатель может представить самостоятельно, пользуясь абсолютными значениями цифровой части рисунка).
Рис. 6. ЧП тетрамеров nCGn (а) и nTAn (б) в цепочках 1, 2 и 3-х нуклеотидов генома Human сytomegalovirus (HHV5).
Рис. 7. ЧП тетрамеров nCGn (а) и nTAn (б) в цепочках 1, 2 и 3-х нуклеотидов генома Ranid herpesvirus 1.
Рисунок 5, а демонстрирует результат такого анализа, а именно симметрию профиля цепи первых нуклеотидов генома HHV1, в котором тетрамер TCGA остается минимальным, уступая тетрамеру ACGT. Симметрия вторых нуклеотидов отсутствует, как и во 2-й строке каллиграммы кода. Оба этих факта соответствуют функциям 1-х и 2-х нуклеотидов кодона, а их характер (наличие и отсутствие симметрии) следует организации универсального генетического кода. Выраженная симметрия профиля цепи 3-х нуклеотидов генома, которая, на первый взгляд, не является необходимой, поскольку выбор нуклеотидов для неё произволен, наводит на мысль о необходимой компенсации симметрии ЧП цепи первых нуклеотидов генома и ЧП nCGn реальной ДНК HHV1 (рис. 1). Кроме того, сходной симметрией могли характеризоваться нуклеотидные полимеры на этапе, предшествующем формированию генетического кода, или отобранные для его формирования. Анализ полной герпесвирусной ДНК, разделённой на три цепочки по тому же принципу, что и геном, возвращает ЧП nCGn статистический характер, т.е. сходную симметрию по изучаемым тетрамерам для всех 3 цепочек, не привязанных к генам.
Рисунок 5, б показывает сильно искажённую симметрию ЧП nTAn цепочки 1-х букв кодонов — явно в силу небольшого числа тетрамеров nТАn. В принципе то же можно было бы сказать и о TCGA,но его функциональный димер (CG) даже в прерывистой цепи встречается намного чаще, чем функциональный тетрамер CTAG, и может сохранять иллюзию функции в случае тетрамера скорее, чем в случае декамера CnnTnnAnnG. Надо отметить, что минимальное значение сохраняет и декамер TnnCnnGnnA. Дефицит CTAG в цепочке 1-х букв кодирующих триплетов исчезает, хотя значение CTAG несколько уступает симметричному по шкале GTAC. Как и в случае nCGn (рис. 5, а), ЧП nТАn вторых букв не показывает симметрии, а значения перебираемых тетрамеров 3-й цепочки настолько низки, что ими можно было бы пренебречь, тем не менее они следуют порядку значений 1-х букв и, возможно, тоже участвуют в формировании общей симметрии ЧП nTAn реальной ДНК HHV1.
Рисунок 6 показывает, что ЧП цепочки 1-х и 3-х букв тетрамера nCGn (в меньшей степени nATn) генома бета-герпесвируса HHV5 «восстанавливают» симметрию, отсутствующую в реальной ДНК этого вируса, но теряют характеристики CTAG и TCGA как минимальных. Как и в геноме HHV1, в геноме HHV5 ЧП 2-х букв обоих тетрамеров несимметричен.
Рисунок 7 демонстрирует ЧП обсуждаемых тетрамеров в цепочках 1, 2 и 3-х букв генома аллогерпесвируса Ranid herpesvirus 1. В какой-то мере и здесь мы видим «восстанавление» симметрии ЧП цепочек 1-х и 3-х букв тетрамера nCGn и в меньшей степени — nATn генома по сравнению с этими характеристиками в реальной вирусной ДНК. Характеристики тетрамеров CTAG и TCGA как минимальных при этом сохраняются, хотя их значения сильно снижены.
Полученные данные мы свели в итоговую таблицу с обобщёнными данными по ЧП nCGn в ДНК вирусов, у которых соотношение [G+C] : [A+T] > 1,0. В первую очередь это герпесвирусы. Выделены две характеристики: род герпесвирусов Simplex, для ДНК вирусов которого характерен TCGAmin, и симметрия соответствующего профиля. В значительно большей мере эти характеристики отличают геномы симплексов, точнее цепочки их 1-х (и 3-х) кодонных нуклеотидов.
Возникает вопрос о ДНК с типом АТ и с подобным высоким соотношением [A+T] : [G+C]. Среди исследованных нами вирусов такое соотношение большей частью относится к ДНК и геномам поксвирусов. Сходство с герпесвирусами обнаружено только у рисунка симметрий ЧП анализируемых тетрамеров, да и то только когда порядок перебора краевых оснований четвёрки меняется с CTAG на TCGA.
Подытоживая эту часть работы, отметим несколько формальных особенностей тетрамеров TCGA и CTAG в связи со структурой генетического кода.
Центральными тетрамерами 1-х строк октетов каллиграммы А являются TCGA (октет С) и CTAG (октет А).
ЧП тетрамеров nCGn и nTAn в случае GC-типа генома демонстрирует билатеральную симметрию 1-х и 3-х строк нуклеотидов геномов ряда вирусов и отсутствие такой симметрии в строках 2-х нуклеотидов. Такая построчная особенность характерна и для самого генетического кода. При этом ЧП 3-х строк (G) геномов демонстрируют симметрию при меньших ограничениях [G+C] : [A+T] > 1. ЧП 1, 2 и 3-й цепей полной (не ограниченной геномом) ДНК, гены которой не выделены, нивелирует отмеченное различие между цепями генома.
Построчный ЧП nCGn герпесвирусных ДНК выделяет тетрамер TCGA (напомним, что он не является ТН в конечной версии кода) в качестве минимального в строках А и G в большей части исследованных случаев, а построчный ЧП nTAn не выделяет герпесвирусы среди других как группу, уникальную по CTAGmin.
При естественном равенстве размеров всех трех строк вирусного генома (GC тип ДНК) сумма числа тетрамеров nCGn ЧП 1-й и 2-й строк примерно равна числу таких тетрамеров в 3-й строке.
Таким образом, особенности обеих групп функциональных ТН TCGA и CTAG, описанных в разделах 2 и 3, объединяет общее свойство — симметрия, выявляемая как в полных вирусных ДНК, так и в отдельных кодонных строках геномов этих вирусов. В первом случае она относится к ДНК «сегодняшних» вирусов, во втором — к их геномам и к самому генетическому коду. Обе группы симметрий — и самый их набор — ставят вопрос о происхождении вирусов или хотя бы некоторых из них.
ОБСУЖДЕНИЕ
Жизнь на Земле начиналась с гликозилирования и фосфорилирования пуринов и пиримидинов с последующим отбором однотипных оптических изомеров и их нематричной полимеризацией. Ни один из этих этапов — в известных нам сегодняшних естественных условиях на поверхности нашей планеты — практически невозможен без участия ферментов, хотя на ранних этапах абиогенеза в качестве замены такого фермента могли использоваться, например, различные глины [24]. Какое событие и какие условия подготовили здесь (или даже за пределами Земли), запустили и масштабировали этот абиогенетический процесс свыше 4 млрд лет назад — этот вопрос, который остаётся предметом многочисленных спекуляций; вопрос, могло ли это быть случайностью, также пока не имеет ответа [25][26]. Дальнейшая эволюция могла определяться формированием кластеров микроскопических компартментов (также при участии упомянутых глин), внутри которых происходила конкуренция растущих гетерополимеров за ограниченные ресурсы. «Проигравшие» разрушались и использовались «победителями» либо вытеснялись за пределы компартмента через его полупроницаемую мембрану. И если они успевали, не разрушившись в агрессивной внешней среде, внедриться в ближайший компартмент или оказаться в нём после слияния, то продолжали борьбу за ресурс с новыми конкурентами, которую могли и выиграть. Относительно компартмента поведение этих конкурентов практически не отличалось от поведения сегодняшних вирусов, хотя сам компартмент значительно больше отличался от современной клетки. Преимущество «победителя» определялось в первую очередь скоростью роста, ограниченного допустимым размером, а также формирующейся в этих условиях матричной репликацией, катализируемой рибозимами, продуктами РНК-мира [27][28], протометаллополипротеинами [29] или случайными факторами.
Описываемые события уже на этом этапе имели две выраженные характеристики жизни: жёсткую конкуренцию участников за ресурсы роста и эволюцию системы, которой требовала такая конкуренция. Устойчивость полимеров могла поддерживать их структура, которая в межрепликационный период делала цепь минимум двойной [30], что — при сохранении её общей длины — укорачивало более чувствительные к повреждениям одноцепочечные участки и формировало множественные повторы, придававшие этой цепи элементы симметрии. Возможно, такая система возникала ненадолго и неоднократно в различных местах планеты, но в конечном счёте она подошла к фундаментальному эволюционному скачку — созданию трансляционной машинерии и генетического кода, которые фиксировали кооперацию нуклеотидных и аминокислотных гетерополимеров и существенно снизили случайность дальнейших процессов на молекулярном уровне.
В нуклеотидных полимерах, способных к росту и репликации, возникла информация, определяющая аминокислотные последовательности, способные катализировать синтетические и репликационные процессы намного эффективней, чем случайные факторы предшествующих этапов.
Генетический код стабилизировал химию жизни и многократно ускорил её эволюцию, приведшую к организации первых клеток и разделившую позиции геномных нуклеиновых кислот на клеточные и внеклеточные и, таким образом, закрепившую два первых центральных биологических звена, способных к эффективному взаимодействию (конкуренции или кооперации) — клетку и вирус, размеры которых получили возможность существенно вырасти. Вирусы, скорее всего, продолжали образовываться и позднее, и другими путями [31–34].
По мнению некоторых специалистов, генетический код формировался поэтапно [35–38]. Мы предполагаем, что первоначально код сохранял характеристики «до-кодовых» гетерополимеров, именно некоторый избыток G и C, а также элементы симметрии (за счет повторов), придававшие ему помехоустойчивость. В основу симметрии кода легла не только комплементарность, но и другой простой параметр, объединявший кодоны и кодируемые продукты — молекулярная масса (размер) участников. Димер CpG, который, благодаря распространённости, вероятнее всего, стал исходным структурным элементом кода, характеризуется комплементарностью C≡G и соотношением C˂G (Y˂R) молекулярных масс мономеров. Вероятно, наличие определённых уникальных функций этого динуклеотида в синтезе биополимеров выделяло его среди других и было как-то причастно к выбору его в качестве исходного. По некоторым предположениям, первые кодоны и были дуплетными [35]. Позднее соотношение Y˂R было сохранено, а набор первых нуклеотидов кода был расширен до полной четвёрки — TCGA.
Соотношение Y˂R несколько позднее легло в основу сборки другого тетрамера — CTAG, который (уже как ТН) также обладает уникальной биологической функцией. Этот тетрамер детализировал однонаправленность соотношения нуклеотидов с пиримидин-пуринового уровня до уровня нуклеотидов (C˂T˂A˂G).
Эволюция размера кодонов привела к возможной на первых этапах взаимной перекрываемости, которая позднее сменилась триплетностью кода с различием функций 1, 2 и 3-х букв кодона. Первые стали обеспечивать стабильность кода на основе симметрии, основанной на последовательном изменении молекулярной массы продуктов кодирования. Аминокислоты, имеющие общий путь биосинтеза, как правило, имеют и общую первую позицию кодонов [25]. Вторые буквы кодирующих триплетов контролируют функции аминокислот на основе их полярности; кодоны аминокислот со схожими физико-химическими свойствами также, как правило, похожи, что смягчает последствия точечных мутаций и нарушений трансляции. Третьи буквы кодонов разделяют кодирующие дуплеты пуринами или пиримидинами (октет А) либо произвольным выбором тех или других (октет С) [23]. Bсё это закрепило за обоими тетрамерами принадлежность к различным группам вырожденности, которая сохранялась при расширении за пределы тетрамеров.
Результатом эволюции кода стал предшественник октета C (преобладание C и G), а позднее (или одновременно), когда в код были введены дополнительные характеристики — направление чтения гена и различие кодонов по третьим буквам, пурину или пиримидину, сформировался октет А (компенсаторное преобладание А и Т; рис. 4).
Сегодняшние «живые» одноцепочечные нуклеиновые кислоты (отдельные цепи геномов) также отличаются определённой симметрией, включая симметрию описываемых нами ЧП функциональных ТН. Вирусные ДНК — хороший предмет для изучения этой симметрии, поскольку их геном, т.е. набор собственно генов, кодирующих последовательностей, занимает бóльшую часть ДНК (у герпесвирусов, например, свыше 80%).
Мы показали, что в геноме герпесвирусов с большим содержанием GC ЧП nCGn в цепочках 1-х и 3-х нуклеотидов имеет тот же характер симметрий, что и в цепочках 1-х и 3-х нуклеотидов генетического кода. При этом ЧП nCGn в цепочке 2-х кодонных нуклеотидов такой симметрии нет, хотя они имеют те же общие характеристики, что и остальные две цепи, а также общую неразделенную цепь ДНК: тип GC и соотношение [G+C] : [A+T] > 2. Различия ЧП nCGn в цепочках 1, 2 и 3-х букв генома соответствуют функциям нуклеотидов кодона и формальной структуре генетического кода. Общее число тетрамеров нЦГн 3-й цепочки в геноме вирусов с большим содержанием GC приблизительно равно сумме общего числа тетрамеров нЦГн 1-й и 2-й цепочек (кодоны октета С — это выбор из 2 в случае первых двух нуклеотидов и выбор из 4 — в случае третьего).
Всё это подчёркивает функциональную характеристику каллиграмм генетического кода, делая их более содержательными, нежели стандартная таблица, варианты которой используются всеми учебниками.
Мы предполагаем, что симметрия ЧП nCGn нуклеотидов третьей цепи — как и общей симметрии ЧП nCGn — может являться атавистической характеристикой «до-кодового» пула полинуклеотидов. С другой стороны, характеристика третьей цепи может требоваться как некий «резерв» для обеспечения симметрии первой. Разумеется, описанные здесь симметрии могли формироваться любыми, даже сгенерированными, как случайные, полимерами ДНК достаточной длины. Однако в таком случае разделение их на три цепочки по описанным выше принципам не могло выделять по таким симметриям вторую цепочку.
Сохранение симметрии ЧП nCGn хотя бы в одной из трех цепочек вирусного генома при его разделении означает, что ограничение на размер генома может — в определённых условиях — быть снижено примерно в 2–3 раза относительно того, которое мы приняли в начале данной работы (100 т.п.н.).
Разумеется, акцент на герпесвирусах в нашем сообщении (и на аденовирусах также) не означает, что именно с этих вирусов начиналась жизнь на Земле. Для такого предположения эти вирусы, их компоненты (и их хозяева) слишком сложны в структурном и фукциональном отношении [18], а их ДНК слишком велика, что показывает, что они прошли длительную эволюцию, которая должна была касаться в том числе их типа (GC) и высокого соотношения GC/AT [39]. Эта эволюция относилась не только к ДНК, но и к продуктам кодирования — белкам, более стабильным компонентам жизни [40][41]. Именно отдельные белки при сравнении их у различных вирусов показывают эволюционную близость герпесвирусов и хвостатых фагов [42] — при серьёзном эволюционном расхождении структуры ДНК по обсуждаемым здесь параметрам. Роль концевых или внутренних повторов этих ДНК не так очевидна для формирования симметрий, но и они также могут носить атавистический, реликтовый характер.
Симметрии генетического кода обсуждались и прежде, к этой теме исследователи — с самых разных позиций (не только с упомянутых выше) — возвращаются вновь и вновь [43][44]. Мы рассматриваем здесь частную, но не менее интересную сторону этих симметрий.
Публикуя приведённые данные, мы хотели обратить внимание читателя на характеристики и сходство двух биологических объектов, казалось бы, далеких друг от друга, но обладающих общим весьма выразительным маркером — тетрамерами TCGA и CTAG и общим свойством ЧП этих тетрамеров — симметриями. Первый такой объект — вирусные (в нашем случае) ДНК, второй — универсальный генетический код. С точки зрения представленных здесь данных, предполагается эволюционная связь между этими объектами, в основе которой лежат не до конца изученные биологические функции этих тетрамеров. Хотя эти функции в биосинтезе ДНК и в процессе формировании кода, на первый взгляд, очень различны, такие различия могут определяться условиями их проявления на различных этапах биологической эволюции.
1. URL: https://www.ncbi.nlm.nih.gov/genomes/GenomesGroup.cgi?taxid=10239&sort=taxonomy
Об авторах
Феликс Петрович Филатов
Научно-исследовательский институт вакцин и сывороток им. И.И. Мечникова; Национальный исследовательский центр эпидемиологии и микробиологии имени почетного академика Н.Ф. Гамалеи
Автор, ответственный за переписку.
Email: felix001@gmail.com
ORCID iD: 0000-0001-6182-2241
д.б.н., в.н.с. лаб. молекулярной биотехнологии отдела вирусологии; в.н.с. отдела эпидемиологии
Россия, Москва; МоскваСписок литературы
- Филатов Ф.П., Шаргунов А.В. Тетрануклеотидный профиль герпесвирусных ДНК. Журнал микробиологии, эпидемиологии и иммунобиологии. 2020; 97(3): 216-26. https://doi.org/10.36233/0372-9311-2020-97-3-3
- Tang L., Zhu S., Mastriani E., Fang X., Zhou Y.J., Li Y.G., et al. Conserved intergenic sequences revealed by CTAG-profiling in Salmonella: thermodynamic modeling for function prediction. Sci. Rep. 2017; 7: 43565. https://doi.org/10.1038/srep43565
- Lundberg P., Welander P., Han X., Cantin E. Herpes simplex virus type 1 DNA is immunostimulatory in vitro and in vivo. J. Virol. Oct. 2003; 77(20): 11158-69. https://doi.org/10.1128/JVI.77.20.11158-11169.2003
- Sharawy M., Louyakis A., Gogarten J.P., May E.R. CTAG vs. GATC: structural basis for representational differences in reverse palindromic DNA tetranucleotide sequences. Biophys. J. 2021; 120(3): 222a.
- Albrecht-Buehler G. Asymptotically increasing compliance of genomes with Chargaff's second parity rules through inversions and inverted transpositions. Proc. Natl Acad. Sci. USA. 2006; 103(47): 17828-33. https://doi.org/10.1073/pnas.0605553103
- Albrecht-Buehler G. The three classes of triplet profiles of natural genomes. Genomics. 2007; 89(5): 596-601. https://doi.org/10.1016/j.ygeno.2006.12.009
- Zhang S.H., Wang L. A novel common triplet profile for GCrich prokaryotic genomes. Genomics. 2011; 97(5): 330-1. https://doi.org/10.1016/j.ygeno.2011.02.005
- Stevens M., Cheng J., Li D., Xi M., Hong C., Maire C., et al. Estimating absolute methylation levels at single-CpG resolution from methylation enrichment and restriction enzyme sequencing methods. Genome Res. 2013; 23(9): 1541-53. https://doi.org/10.1101/gr.152231.112
- Krieg A.M, Yi A.K., Matson S., Waldschmidt T.J., Bishop G.A., Teasdale R., et al. CpG motifs in bacterial DNA trigger direct B-cell activation. Nature. 1995; 374(6522): 546-9. https://doi.org/10.1038/374546a0
- Fatemi M., Pao M.M., Jeong S., Gal-Yam E.N., Egger G., Weisenberger D.J., et al. Footprinting of mammalian promoters: use of a CpG DNA methyltransferase revealing nucleosome positions at a single molecule level. Nucleic. Acids Res. 2005; 33(20): e176. https://doi.org/10.1093/nar/gni180
- Woellmer A., Hammerschmidt W. Epstein-Barr virus and host cell methylation: regulation of latency, replication and virus reactivation. Curr. Opin. Virol. 2013; 3(3): 260-5. https://doi.org/10.1016/j.coviro.2013.03.005
- Burge C., Campbell A.M., Karlin S. Over- and under-representation of short oligonucleotides in DNA sequences. PNAS. 1992; 89(4) 1358-62. https://doi.org/10.1073/pnas.89.4.1358
- Duret L., Galtier N. The covariation between TpA deficiency, CpG deficiency, and G+C content of human isochores is due to a mathematical artifact. Mol. Biol. Evol. 2000; 17(11): 1620-5. https://doi.org/10.1093/oxfordjournals.molbev.a02621.
- Gori F., Mavroeidis D., Jetten M.S.M., Marchiori E. The importance of Chargaff’s second parity rule for genomic signatures in metagenomics. bioRxiv. Preprint. https://doi.org/10.1101/146001
- Rudner R., Karkas J.D., Chargaff E. Separation of B. subtilis DNA into complementary strands, 3 Direct Analysis. Proc. Natl Acad. Sci. USA. 1968; 60(3): 921-2. https://doi.org/10.1073/pnas.60.3.921
- Makukov M.A., Shcherbak V.I. The “Wow! signal” of the terrestrial genetic code. Icarus. 2013; 224(1): 228-42. https://doi.org/10.1016/j.icarus.2013.02.017
- Filatov F. A molecular mass gradient is the key parameter of the genetic code organization. In: Blaho J., Baines J., eds. From the Hallowed Halls of Herpesvirology: A Tribute to Bernard Roizman. World Scientific Publishing Co.; 2012: 155-68. https://doi.org/10.1142/9789814338998_0006
- Pellett P., Roizman B. Herpesviridae. In: Knipe D.M., Howley P.M., eds. Fields Virology. Philadelphia: Lippincott Williams & Wilkins; 2013: 1802-2
- Prabhu V.V. Symmetry observations in long nucleotide sequences. Nucleic Acids Res. 1993; 21(12): 2797-800. https://doi.org/10.1093/nar/21.12.2797
- Forsdyke D.R. Symmetry observations in long nucleotide sequences: a commentary on the discovery note of Qi and Cuticchia. Bioinformatics. 2002; 18(1): 215-7. https://doi.org/10.1093/bioinformatics/18.1.215
- Baisnee P.F., Hampson S., Baldi P. Why are complementary strands symmetric? Bioinformatics. 2002; 18(8): 1021-33. https://doi.org/10.1093/bioinformatics/18.8.1021
- Румер Ю.Б. О систематизации кодонов в генетическом коде. Доклады Академии наук СССР. 1966; 167(6): 1393-4.
- Волькенштейн М.В., Румер Ю.Б. О систематике кодонов. Биофизика. 1967; 12(1): 10-3.
- Kim H.Y., Cheon J.H., Lee S.H., Min J.Y., Back S.Y., Song J.G., et al. Ternary nanocomposite carriers based on organic claylipid vesicles as an effective colon-targeted drug delivery system: preparation and in vitro/in vivo characterization. J. Nanobiotechnology. 2020; 18(1): 17. https://doi.org/10.1186/s12951-020-0579-7
- Koonin E.V., Novozhilov A.S. Origin and evolution of the genetic code: the universal enigma. IUBMB Life. 2009; 61(2): 99-111. https://doi.org/10.1002/iub.146
- Marlaire R., ed. Ames Research Center. NASA Ames Reproduces the Building Blocks of Life in Laboratory. Moffett Field, CA: NASA; 2015.
- Herbert K.M., Nag A. A tale of two RNAs during viral infection: how viruses antagonize mRNAs and small non-coding RNAs in the host cell. Viruses. 2016; 8(6): 154. https://doi.org/10.3390/v8060154
- Tjhung K.F., Shokhirev M.N., Horning D.P., Joyce G.F. An RNA polymerase ribozyme that synthesizes its own ancestor. Proc. Natl Acad. Sci. USA. 2020; 117(6) 2906-13. https://doi.org/10.1073/pnas.1914282117
- Kim J.D., Senn S., Harel A., Jelen B.I., Falkowski P.G. Discovering the electronic circuit diagram of life: structural relationships among transition metal binding sites in oxidoreductases. Philis. Trans. R Soc. Lond. B. Biol. Si. 2013; 368(1622): 20120257. https://doi.org/10.1098/rstb.2012.0257
- Yakovchuk P., Protozanova E., Frank-Kamenetskii M.D. Basestacking and base-pairing contributions into thermal stability of the DNA double helix. Nucleic Acids Res. 2006; 34(2): 564-74. https://doi.org/10.1093/nar/gkj454
- Forterre P. The origin of viruses and their possible roles in major evolutionary transitionsa. Review. Virus Res. 2006; 117: 5-16.
- Mughal F., Nasir A., Caetano-Anollés G. The origin and evolution of viruses inferred from fold family structure. Arch. Virol. 2020; 165(10): 2177-91. https://doi.org/10.1007/s00705-020-04724-1
- Brussow H., Kutter E. Genomics and evolution of tailed phages. In: Kutter E., Sulakvelidze A. eds. Bacteriophages: Biology and Applications. Boca Raton, London, New York, Washington: CRC press; 2005: 129-64.
- Abedon S.T. Phage evolution and ecology. Adv. Appl. Microbiol. 2009; 67: 1-45. https://doi.org/10.1016/s0065-2164(08)01001-0
- Altstein A.D. The progene hypothesis: the nucleoprotein world and how life began. Biol. Direct. 2015; 10: 67. https://doi.org/10.1186/s13062-015-0096-z
- Di Giulio M. The origin of the genetic code: theories and their relationships, a review. Biosystems. 2005; 80(2): 175-84. https://doi.org/10.1016/j.biosystems.2004.11.005
- Gilis D., Massar S., Cerf N.J., Rooman M. Optimality of the genetic code with respect to protein stability and amino-acid frequencies. Genome Biol. 2001; 2(11): RESEARCH0049. https://doi.org/10.1186/gb-2001-2-11-research0049
- Wetzel R. Evolution of the aminoacyl-tRNA synthetases and the origin of the genetic code. J. Mol. Evol. 1995; 40(5): 545-50. https://doi.org/10.1007/bf00166624
- McGeoch J., Rixon F.J., Davison A.J. Topics in herpesvirus genomics and evolution. Virus Res. 2006; 117(1): 90-104. https://doi.org/10.1016/j.virusres.2006.01.002
- Wang N., Baldi P.F., Gaut B.S. Phylogenetic analysis, genome evolution and the rate of gene gain in the Herpesviridae. Mol. Phylogenet. Evol. 2007; 43(3): 1066-75. https://doi.org/10.1016/j.ympev.2006.11.019
- Wertheim J.O., Smith M.D., Smith D.M., Scheffler K., Kosakovsky Pond S.L. Evolutionary origins of human herpes simplex viruses 1 and 2. Mol. Biol. Evol. 2014; 31(9): 2356-64. https://doi.org/10.1093/molbev/msu185
- Baker M.L., Jiang W., Rixon F.J., Chiu W. Common ancestry of herpesviruses and tailed DNA bacteriophages. J. Virol. 2005; 79(23): 14967-70. https://doi.org/10.1128/JVI.79.23.14967-14970.2005
- Гупал А.М., Гупал Н.А., Островский А.В. Симметрия и свойства записи генетической информации в ДНК. Проблемы управления и информатики. 2011; 5(3): 120-7.
- Сергиенко И.В., Гупал А.М., Вагис А.А. Симметричный код и генетические мутации. Кибернетика и системный анализ. 2016; (2): 73-80.