Древний геном из Владимиро-Суздальской Руси и миграции славян в Восточной Европе (Автор Сергей Козлов)

Проведен аутосомный анализ первого появившегося в открытом доступе полногеномного сиквенса образца из захоронения домонгольской эпохи с территории Северо-Восточной Руси. Захороненный кластеризуется с северными славянами (под таким условным названием принято объединять в одну группу основную часть восточнославянских и польских популяций), в первую очередь с их юго-западным вариантом. Это позволяет предположить в нем переселенца из одного из южнорусских княжеств, либо потомка таких переселенцев. Анализ Y-хромосомы, проведенный специалистами YFull, хорошо согласуется с подобным предположением. Автор приводит размышления о вероятной корреляции результатов анализа с теми особенностями генофондов восточноевропейцев, которые могут быть связаны с экспансией славян в первом тысячелетии нашей эры.

5 октября 2017 года на сайте журнала Science была размещена новая статья (обзор на Генофонде), посвященная геномам, полученным при секвенировании образцов из верхнепалеолитического захоронения со стоянки Сунгирь. Однако при ее подготовке неожиданно выяснилось, что один из образцов (Сунгирь 6, фрагмент нижней челюсти) относится вовсе не к палеолиту, а к гораздо более близкой эпохе согласно радиоуглеродной датировке, время захоронения помещается между 1100 и 1220 годами нашей эры. Видимо, по случайности его похоронили точно на том же месте, а отдельная датировка образца ранее не производилась (возможно, из-за крайне плохой сохранности останков). Разумеется, для достижения целей статьи этот геном оказался бесполезен и почти не анализировался. Вскоре все пять удачных сиквенсов, включая Сунгирь 6, были размещены в открытом доступе на сайте ENA (европейский нуклеотидный архив), что и позволило сообществу любителей провести собственное исследование этого крайне интересного образца. Среднее покрытие прочтением для генома Сунгирь 6 составило 4.19 не лучшее, однако приемлемое для большинства видов анализа значение. Обработка утилитой BAM Analysis Kit от Феликса Чандракумара позволила преобразовать полногеномную информацию в широкогеномную.

Стоянка Сунгирь расположена на восточной окраине города Владимира, у места впадения одноименного ручья в реку Клязьму. В непосредственной близости находится село Боголюбово, основанное в середине XII века как резиденция князя Андрея Боголюбского фактическая столица северо-восточной Руси в ту эпоху. Археологи отмечают в регионе интенсивный рост количества и размеров поселений, начавшийся во второй половине X в. и достигший наивысшего подъема в XII первой половине XIII вв. (Макаров Н.А., доклад Археологическое изучение Северо-Восточной Руси: колонизация и культурные традиции). Вероятно, причинами были как увеличение численности потомков участников славянской колонизации X-XI века, так и приток новых переселенцев на весьма благоприятную для земледелия территорию Владимирского Ополья. Мы не знаем, был ли Сунгирь 6 потомком старожилов или недавним переселенцем (а может, он вообще не был жителем здешних мест?), не знаем причину и обстоятельства его смерти. Однако некоторые выводы о сунгирце сделать все же можно.

Методы, примененные для аутосомного анализа, и описание выборок.

Методики, используемые для формирования выборок и проведения аутосомного анализа, были описаны в статье Структура генофонда населения Русского Севера по аутосомным данным, ранее опубликованной на Генофонде . Специфика методик обусловлена тем, что в первую очередь они используются для обработки результатов лиц, тестирующихся на коммерческой основе в лабораториях компаний 23andMe, FTDNA и других.

Первый из применяемых методов называется Оракул. Для его использования необходимо выделить предковые компоненты Admixture и подсчитать усредненные значения их содержания в современных выборках. Доля содержания этих же компонентов выводится и для исследуемого генома, после чего проводится подсчет среднеквадратичных отклонений от результатов исследованных популяций либо их комбинаций (второе необходимо для геномов людей смешанного происхождения). Для этого разности значений по каждому из компонентов возводятся в квадрат и суммируются, после чего из полученной величины извлекается квадратный корень. Математически этот процесс полностью аналогичен вычислению расстояния между двумя точками с известными координатами в прямоугольной сетке, где роль координат играет процентовка содержания предковых компонентов. Чем отклонение ниже, тем меньше условное расстояние между образцом и выборкой, используемой для сравнения. Визуализация же этих расстояний на карте служит хорошей заменой применению метода главных компонент (PCA).

Второй метод это подсчет сумм достаточно длинных общих сегментов ДНК исследуемого генома с геномами из современных выборок (IBD-анализ). Сегменты длиной менее 3 сантиморганид отбрасываются, как слишком распространенные (это родство общеевропейского уровня), длины оставшихся сегментов в сантиморганидах суммируются для каждой выборки и затем делятся на количество образцов в ней. Специфика метода заключается в том, что на этот показатель сильно влияет популяционная история каждой выборки родство с популяциями, ранее испытавшими сильный дрейф генов (как евреи-ашкенази или народы Севера) проявляется заметно легче.

Вкратце опишу использованные выборки, относящиеся к кластеру северных славян. Выборка поляков для Admixture-оракула состоит из 13 образцов, взятых из научных исследований. Образцы из польской выборки от Эстонского Биоцентра, часть из которых вызывала сомнения, сюда не включены. Украинцы представлены 18 коммерческими образцами (Карпаты-1, Чернигов-4, Львов-2, Полтава-6, Слобожанщина-3, Винница-2). Белорусы представлены 21 коммерческим образцом (Гомель-5, Минск-6, северо-восток-5, юго-запад-5). Южные, центральные и западные русские представлены 65 коммерческими и научными образцами (Андераполь-3, Арзамас-3, Брянск-7, Дон-1, Иваново-2, Кубань-4, Курск, Орел и Белгород-7, Липецк и Воронеж-5, Мещера-6, Подмосковье-3, Муром-2, Рязань и Тула-5, Саратов-4, Смоленск-2, Тамбов-7, Тверь-3, Углич-2). Ограничение на использование большинства научных выборок связано с тем, что они применялись непосредственно для выведения предковых компонентов Admixture и поэтому будут искажать результаты оракула (так называемый эффект калькулятора).

Выборки для IBD-анализа составлены как из научных, так и из коммерческих образцов. Поляки 24 человека (выборка Эстонского Биоцентра исключена и в этом случае), правобережные украинцы 18 человек, левобережные украинцы 17 человек, белорусы 27 человек, русские (юг) 26 человек, русские (центр и запад) 26 человек.

Сунгирь 6, результат которого выделен красной рамкой, наилучшим образом вписывается в кластер северных славян, включающий здесь в себя восточнославянские и польскую выборки. Единственным значимым отличием следует признать снижение доли компонента Baltic-Finnic. Оно близко к нормальному отклонению для основных компонентов (2-3 пункта) и, как мне кажется, объясняется случайностью. Но не исключен и вариант, что подобное типично для древних славян. Думаю, что прояснить этот вопрос мы сможем после появления новых образцов ДНК времен славянской экспансии.

Под аббревиатурой ЛЛК скрывается усреднение по трем хорошо прочитанным древним геномам представителей культуры линейно-ленточной керамики, результаты которых понадобятся нам далее.

Наименьшее среднеквадратичное отклонение от пропорций компонентов Admixture сунгирца показывает польская выборка, но в целом результаты выборок в полосе от Польши до Кубани примерно равнозначны (об этом далее). Приведу список первых двадцати выборок с наименьшим отклонением (оно указывается после значка @):

Поляки @ 4,45
Украинцы (Слобожанщина) @ 4,54
Белорусы (юго-запад) @ 4,57
Украинцы (Полтава) @ 5,40
Украинцы (Винница) @ 5,40
Украинцы (Чернигов) @ 5,62
Русские (Кубань) @ 5,73
Белорусы (Гомель) @ 7,06
Русские (Брянск) @ 7,30
Русские (Курск, Орел и Белгород) @ 7,39
Русские (Муром) @ 7,43
Белорусы (Витебск и Могилев) @ 7,56
Русские (Тверь) @ 7,61
Русские (Дон) @ 7,74
Украинцы (Львов) @ 7,75
Русские (Смоленск) @ 7,84
Русские (Рязань и Тула) @ 7,87
Белорусы (Минск) @ 7,94
Русские (Липецк и Воронеж) @ 8,06
Русские (Андреаполь) @ 8,46

При движении на северо-восток степень схожести с сунгирцем постепенно спадает, при этом хорошо заметно, что у славянских популяций она всегда выше, чем у соседей-неславян. Среди последних относительно близки к нему лишь представители схожих с северными славянами популяций литовцы, эрзя и мокша, однако разница видна и для них, пусть и в меньшей степени. В направлении же на юго-запад мы быстро упираемся в природный разделитель между Восточноевропейской равниной и Балканами Карпаты, за которыми отличия в генофонде заметно растут.

Распространение южноевропейских аутосомных компонентов в популяциях Восточной Европы.

Почему же вместо компактного красного пятна области наибольшего сходства с сунгирцем мы наблюдаем длинную полосу? Дело в том, что ввиду крайней генетической схожести северных славян (например, см. Кушняревич и др., 2015, обзор на Генофонде ), основное отличие между ними идет по уровню южных, или южноевропейских аутосомных компонентов. На вышеприведенной диаграмме Admixture они представлены компонентами South-West-European и Caucasian-Near-Eastern. Благодаря исследованиям древней ДНК мы знаем, что эти компоненты были характерны для генофондов первых земледельцев, заселивших в неолите юг и запад Европы. Например, при обработке геномов представителей культуры линейно-ленточной керамики я усреднённо получил 49,1% South-West-European и 40,4% Caucasian-Near-Eastern. Если же вернуться к современности, оба компонента распространены среди южных и западных европейцев. Второй из них типичен не только для Южной Европы, но и для Кавказа, Ближнего Востока и Средней Азии, однако там он идет всегда в паре с компонентом Gedrosia-Caucasian, при очень близком содержании. Чтобы грубо отделить влияния с юго-востока, среди восточноевропейцев, особенно заметные у татар и удмуртов, я вычел Gedrosia-Caucasian из общей суммы, получив показатель, которых условно можно назвать индексом распространения южноевропейских аутосомных компонентов. Например, для выборки западных украинцев усреднённые значения компонентов South-West-European, Caucasian-Near-Eastern, Gedrosia-Caucasian составили 15,91%, 13,61% и 5,2%. Следовательно, значение индекса для них 15,91 + 13,61 5,2 = 24,33. Для выборки украинцев Черниговской области значения перечисленных компонентов составляют соответственно 14,40%, 10,93% и 4,23%, значение индекса 14,4 + 10,93 4,23 = 21,11. Таким образом, северо-восточные украинцы чуть дальше от неолитических земледельцев Европы, чем западные.

Если подобный метод подсчета вызывает сомнения, распространение компонента неолитических земледельцев Европы в современных популяциях можно увидеть на графиках Admixture в ряде недавних работ по древней ДНК. Здесь же я использую индекс, выводимый для применяемой в статье модели.

Для славянских популяций заметна клинальная изменчивость с постепенным падением при движении с юго-запада на северо-восток. В результате выборки из северно-славянского кластера, где доля южноевропейских компонентов наиболее близка к показателям сунгирца, расположились перпендикулярно этой линии. Любая из них подходит примерно в одинаковой степени. Для выборок же, не относящихся к этому кластеру, значимый вклад внесли и расхождения по другим компонентам.

Южноевропейские аутосомные компоненты в Восточной Европе как вероятный маркер славянских миграций.

То, что эти компоненты были в заметной степени принесены славянами, можно проиллюстрировать, попарно сравнив соседние славянские и неславянские популяции от польско-литовской границы до Поволжья. Из сравнения исключена выборка арзамасских русских, поскольку известно, что она составлена из потомков исторически недавних переселенцев в регион. Кроме того, не проводится сравнение украинцев с молдаванами, румынами и венграми, поскольку это область перехода к другой, балканской закономерности.

Разница явственна везде, кроме крайнего северо-востока (Мезень). В то же время, нельзя сказать, что южноевропейские компоненты наличествуют исключительно у славян. Это не удивляет, ведь Восточная Европа отнюдь не является изолированным от всех влияний островом. Хотя какая-то доля южных компонентов могла попасть к соседям славян уже в ходе взаимодействия генофондов в результате совместного проживания рядом, не сомневаюсь, что компоненты частично присутствовали в регионе и до прихода славян.

Таким образом, я предполагаю, что экспансия славян заметно повысила долю южноевропейских компонентов в восточноевропейских генофондах (в своих работах я обычно не отношу к Восточной Европе Балканы), однако считать их наличие только результатом влияния славян нельзя.

IBD-анализ.

IBD-анализ потребовал для своего проведения внесения некоторых изменений в методику. Для частичной компенсации недостаточного качества прочтения образца при сравнении сегментов на каждые 100 снипов допускалось одно полное расхождение (условно принималось, что в этом месте нужный аллель просто не прочитался), и лишь второе расхождение приводило к обрыву IBD-сегмента. При анализе же современных образцов принималось, что к разрыву сегмента приводит первое же полное расхождение. Поэтому напрямую сравнить результаты IBD-анализа наших современников с полученным для сунгирца нельзя.

Первые места делят между собой выборки правобережных украинцев и белорусов. Чуть меньше пересечений с польской, балтийской (высокий уровень IBD-пересечений с которой типичен для славян) центрально-западной и южной русскими выборками. Слегка отстала левобережная украинская выборка, но это нормальный разброс для IBD-метода. Первая десятка при этом выглядит следующим образом (названия выборок приводятся в том же виде, как они размещены на карте):

Ukrainian-West-and-Center 95,77

Belarusian 95,5

Polish 90,57

Balt 90,4

Montenegrian 88,66

Russian-West 87,97

Serbian 87,8

Estonian 87,17

Slovenian 86,42

Russian-South 86,29

Как упоминалось выше, прямое количественное сравнение с результатами наших современников провести нельзя. Однако можно провести сравнение качественное. При IBD-анализе современных представителей кластера северных славян на первом месте наиболее часто оказывается балтийская выборка Balt. Думаю, что не случайно пик распространения основного восточноевропейского компонента Admixture North-European-Baltic приходится именно на балтийские популяции. Далее обычно идут выборки собственно северных славян и эстонцы (думаю, что у последних это объясняется высокой долей балтийского генофонда). В следующем круге располагаются ближайшие соседи северных славян северные русские, словаки, эрзя, мокша и прибалтийские финны.

Например, первая десятка для выборки современных украинцев (все регионы):

Balt 65,71

Belarusian 62,27

Ukrainian-West-and-Center 61,33

Ukrainian-East-and-Center 60,74

Polish 59,99

Russian-West 58,82

Russian-South 58,76

Estonian 57,28

Russian-North-Kargopol 56,75

Slovak 56,33

Результаты сунгирца в целом схожи с этим паттерном, однако обращает на себя внимание подъём в его рейтинге именно славянских выборок. Отдельно стоит отметить присутствие в первой десятке трех славянских выборок с Балкан черногорцев, сербов и словенцев. К сожалению, на карте их пятнышки плохо видны из-за небольшого размера. Думаю, объяснять их наличие следует в первую очередь тем, что время жизни сунгирца гораздо ближе к эпохе экспансии славян, чем наши дни, поэтому в его геноме сохранилось большее число относительно длинных IBD-сегментов, связанных именно с этим событием.

По моему опыту, для твердой уверенности в итогах IBD-анализа следует сформировать выборку из 4-5 геномов отличного качества прочтения. Пока же у нас в наличии один геном среднего качества прочтения, поэтому

5 Replies to “Древний геном из владимиро-суздальской”

Leave a Reply

Your email address will not be published. Required fields are marked *