Современная электронная библиотека ModernLib.Net

Логика случая. О природе и происхождении биологической эволюции

ModernLib.Net / Биология / Евгений Кунин / Логика случая. О природе и происхождении биологической эволюции - Чтение (Ознакомительный отрывок) (Весь текст)

Автор:

Евгений Кунин

Жанр:

Биология

Читать ознакомительный отрывок полностью (299 Кб)

Страницы:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10

Евгений Кунин

Логика случая. О природе и происхождении биологической эволюции

«The Logic of Chance. The Nature and Origin of Biological Evolution»

Все права защищены. Никакая часть электронной версии этой книги не может быть воспроизведена в какой бы то ни было форме и какими бы то ни было средствами, включая размещение в сети Интернет и в корпоративных сетях, для частного и публичного использования без письменного разрешения владельца авторских прав.

©Электронная версия книги подготовлена компанией ЛитРес ()

Предисловие автора к русскому переводу

Сообщение о том, что группа энтузиастов, самоорганизовавшаяся через LiveJournal, начала работу над переводом этой книги, было для автора полной неожиданностью, конечно же приятной. В XXI веке вопрос о необходимости перевода научной литературы с английского на какие-либо другие языки, мягко говоря, неоднозначен. Научные тексты теперь публикуются по-английски, и умение их читать на этом языке – элементарное требование профессиональной пригодности. Научно-популярная литература – дело, конечно, совершенно иное. Эта книга не популярная, но и не типичная специализированная монография. В идеале этот текст рассчитан на широкие круги ученых разных специальностей, включая аспирантов и студентов старших курсов. Было бы, конечно, прекрасно, если бы вся эта читательская аудитория могла свободно прочесть оригинал, однако пока что это вряд ли реалистично. Самым же главным аргументом в пользу перевода стал для автора сам факт, что немалый коллектив переводчиков собрался в считаные дни. В этой ситуации автор считал своей почетной обязанностью прочесть и отредактировать весь текст перевода, конечно следя в первую очередь за фактической точностью.

Оригинал этой книги был опубликован осенью 2011 года, за два года до русского издания. Биологические исследования в наше время прогрессируют в беспрецедентном темпе, и за эти годы, естественно, накопилось множество важных новых результатов и было опубликовано немало серьезных статей, проливающих свет на фундаментальные проблемы эволюционной биологии, обсуждаемые в книге. Разумеется, новые соображения, только частично опубликованные, появились и у автора. Более того, многие читатели, включая переводчиков, и сам автор при редактировании перевода отметили неточности и неясности в изложении (к счастью, насколько автору известно, ни одна из них не может считаться серьезной ошибкой). Учесть все это в русском переводе было невозможно, но автор сделал попытку отразить наиболее важные уточнения и некоторые самые интересные научные новости в примечаниях к русскому изданию. Таких новых примечаний в итоге оказалось куда больше, чем ожидалось в начале работы над редактированием перевода (а могло быть и еще больше – автор высказывался только тогда, когда уж совсем не мог молчать). Автора это очень радует, поскольку наглядно иллюстрирует скорость прогресса современной эволюционной биологии. Несколько примечаний относятся скорее к переводу, поясняя те места в тексте, где английскую игру слов не удалось точно передать по-русски. Разумеется, эти примечания не могут претендовать на то, чтобы сделать книгу «вторым изданием», это именно перевод, но все же автор надеется, что эти небольшие дополнения повышают его ценность.

С точки зрения автора, основные идеи книги пока выдерживают проверку временем (пусть коротким в астрономическом исчислении, но не пренебрежимым, учитывая поразительную скорость накопления новых данных); во всяком случае, потребности что-либо радикально пересмотреть до сих пор не возникло. Более того, автору представляется, что прошедшее время только усилило потребность в концептуальном обобщении информации о разнообразии организмов и их геномов и об эволюционных процессах. Новый эволюционный синтез на основе данных геномики и системной биологии кажется важным и актуальным, как никогда раньше. Без такого обобщения как-либо осмыслить море наблюдений становится просто невозможным.

Конечно, важно подчеркнуть, что эта книга ни в коем случае не может претендовать на роль такого нового синтеза. Это всего лишь некий эскиз, попытка угадать контуры будущего здания. Даже оставляя в стороне принципиальную открытость науки и считая, что какие-то этапы завершенности и подведения итогов в ней действительно существуют, по мнению автора, завершение нового синтеза эволюционной биологии – дело как минимум двух научных поколений. Слишком много еще остается неясного, и слишком много надо сделать, чтобы уложить гигантские массивы данных, производимые геномикой и системной биологией, в рамки стройных и обоснованных теорий и концепций. Пожалуй, главной задачей этой книги и было выявить те области эволюционной биологии, где традиционные представления не работают, наметить возможные пути к решениям и только в некоторых случаях предложить сами решения, конечно же предварительные. Насколько все это удалось, судить читателям.

Благодарности учителям, сотрудникам и многочисленным коллегам, с которыми довелось обсуждать рассматриваемые в книге проблемы, приведены в конце книги. Здесь же приятный долг автора – выразить искреннюю благодарность Георгию Юрьевичу Любарскому за идею коллективного перевода и его организацию, всем переводчикам и редакторам издательства за работу над русским вариантом и персонально одному из переводчиков, Валерию Анисимову, за ценные комментарии, в значительной степени учтенные в авторских примечаниях к переводу.

Моим родителям

Введение. На пути к новому синтезу эволюционной биологии[1]

Название настоящей работы связано с четырьмя замечательными книгами: романом Пола Остера «Музыка случая» (Auster, 1991), знаменитым трактатом Жака Моно по молекулярной биологии, эволюции и философии «Случай и необходимость» (Monod, 1972), книгой Франсуа Жакоба «Логика жизни» (Jacob, 1993) и, конечно, «Происхождением видов» Чарльза Дарвина (Darwin, 1859). Каждая из этих книг в своем роде затрагивает одну и ту же всеохватную тему: взаимосвязь произвола и порядка, случайности и необходимости в жизни и эволюции.

Лишь после того, как эта работа была завершена и находилась уже на последней стадии редактирования, я узнал o книге Джона Венна, выдающегося логика и философа из Кембриджа, который в 1866 году опубликовал труд «Логика случая: эссе об основах и структуре теории вероятности» (Venn, 1866). В этой работе Венн вводит частотную интерпретацию вероятности, остающуюся основой теории вероятности и статистики по сей день. Более всего Джон Венн известен, естественно, вездесущими диаграммами, им изобретенными. Я смущен тем, что не знал о работе Венна, когда начал эту книгу. С другой стороны, мне трудно представить более достойного предшественника.

Основным толчком к написанию этой книги было мое убеждение в том, что сейчас, через 150 лет после Дарвина и 40 лет после Моно, мы собрали достаточно данных и идей, чтобы выработать более глубокое и, вероятно, более удовлетворительное толкование принципиально важной взаимосвязи между случаем и необходимостью. Мой главный тезис состоит в том, что ограниченная различными факторами случайность лежит в самой основе всей истории жизни.

К работе над этой книгой автора подтолкнуло множество событий. Самым непосредственным стимулом для того, чтобы описать возникающий новый взгляд на эволюцию, была революция в исследовании геномов, которая началась в последней декаде XX века и продолжается по сей день. Возможность сравнивать последовательности нуклеотидов в геномах тысяч организмов самых разнообразных видов качественно изменила ландшафт всей эволюционной биологии. Наши выводы о вымерших, предковых формах жизни – уже не те смутные догадки, какими они были раньше (по крайней мере для организмов, окаменелости которых не были обнаружены). Сравнение геномов выявляет разнообразные гены, сохраненные в основных группах ныне живущих существ (в некоторых случаях, даже во всех или большинстве из них), и таким образом приносит нам невообразимое прежде богатство достоверной информации о предковых формах. К примеру, не будет преувеличением заявить, что у нас есть достаточно полное понимание основного генетического состава последнего общего предка всех бактерий, который, вероятно, жил около 3,5 миллиарда лет назад. Более древние предки видятся менее ясно, но определенные черты расшифрованы даже для них. Геномная революция не просто позволила осуществить уверенную реконструкцию генных наборов древних форм жизни. Еще важнее то, что она буквально перевернула центральную метафору эволюционной биологии (и, возможно, всей биологии) – древо жизни (ДЖ), показав, что эволюционные траектории отдельных генов несовместимо разные. Вопрос о том, должно ли быть ДЖ возрождено и если так, то в каком виде, остается предметом ожесточенных споров, которые являются одной из важных тем этой книги.

Я рассматриваю падение ДЖ как «метареволюцию», крупнейшее изменение всей концептуальной структуры биологии. Явно рискуя вызвать гнев многих за связь с вредоносной культурной тенденцией, я тем не менее называю эту главную перемену переходом к постмодернистскому биологическому взгляду на жизнь[2]. По существу, этот переход вскрывает множественность паттернов и процессов эволюции, центральную роль непредсказуемых событий в эволюции живых форм [ «эволюция как халтура» (evolution as tinkering)] и, в особенности, крушение панадаптационизма как парадигмы эволюционной биологии. Несмотря на наше непоколебимое восхищение Дарвином, мы должны низвести викторианский взгляд на мир (включая его обновленные версии, процветающие в XX столетии) в почтенные музейные залы, где ему самое место, и исследовать последствия смены парадигмы.

У этого переворота в эволюционной биологии есть еще один план. Сравнительная геномика и эволюционная системная биология (например, сравнительное изучение экспрессии генов, концентрации белка и других молекулярных характеристик фенотипа) выявили несколько общих закономерностей, которые проступают во всех клеточных формах жизни от бактерий до млекопитающих. Существование таких универсальных закономерностей подсказывает, что сравнительно простые молекулярные модели, сходные с теми, что используются в статистической физике, могут объяснить важные аспекты биологической эволюции; некоторые подобные модели, обладающие значительной предсказательной силой, уже существуют. Пресловутая «зависть к физикам», которая, кажется, беспокоит многих биологов (включая меня), может быть утолена недавними и предстоящими теоретическими изысканиями. Взаимодополняющие отношения между всеобщими тенденциями и непредсказуемостью конкретных результатов эволюции являются центральными для биологической эволюции и текущей революции в эволюционной биологии – и это еще одна ключевая тема настоящей книги.

Еще одна причина появления наброска новой синтетической эволюционной теории, который предлагается в этой книге, специфическая, в какой-то мере личная. Я получил высшее образование и окончил аспирантуру в Московском государственном университете (еще во времена СССР), в области молекулярной вирусологии. Моя кандидатская работа включала экспериментальное изучение репродукции полиовируса и родственных вирусов, крошечный геном которых представлен молекулой РНК. Я никогда не умел как следует работать руками, да и место и время были не лучшими для экспериментов, потому что даже простейшие реагенты было сложно достать. Сразу по завершении моей кандидатской мы с моим коллегой Александром Евгеньевичем Горбаленей принялись за иное направление в исследованиях, которое в то время казалось многим совершенно ненаучным. Это было «разглядывание последовательностей» – попытки предсказать функции белков, закодированных в крошечных геномах вирусов (это были единственные полные геномы, доступные в то время), исходя из последовательности их кирпичиков-аминокислот. Сегодня кто угодно может легко провести такой анализ, используя удобные программные средства, которые можно бесплатно загрузить из Интернета; естественно, осмысленная интерпретация результата все равно потребует обдумывания и навыка (здесь с тех пор ничего особенно не изменилось). В 1985 году, однако, практически не было ни компьютеров, ни программ. И все же с помощью наших коллег-программистов нам удалось разработать несколько довольно полезных программ (мы тогда набивали их на перфокартах). Львиная доля анализа производилась вручную (или, точнее, на глаз). Вопреки всем трудностям и невзирая на некоторые упущенные возможности, наши усилия в последующие пять лет были довольно успешны. Мы смогли превратить функциональные карты тех самых крошечных геномов из большей частью неисследованных территорий в весьма насыщенные геномные карты биологических функций. Большинство предсказаний было впоследствии подтверждено на опыте, хотя некоторые из них до сих пор еще в работе: лабораторные эксперименты занимают куда больше времени, чем компьютерный анализ. Уверен, что нашему успеху послужило раннее осознание очень простого, но удивительно мощного основного принципа эволюционной биологии: если явственно различимый мотив в последовательности белка сохраняется в течение долгой эволюции, то он функционально важен, и чем он консервативнее, тем важнее функция. Этот принцип, в сущности вытекающий из простого здравого смысла, но конечно же строго следующий из молекулярной эволюционной теории, прекрасно служил нашим целям и, уверен, сделал из меня эволюционного биолога до конца моих дней. Я склонен перефразировать известное изречение великого эволюционного генетика Феодосия Добржанского: «Ничто в биологии не имеет смысла, кроме как в свете эволюции» (Dobzhansky, 1973) – еще более прямым образом: биология есть эволюция.

В те ранние дни эволюционной геномики мы с Сашей часто говорили о возможности того, что наши любимые РНК-вирусы являются прямыми потомками древнейших форм жизни. В конце концов, это маленькие и простые генетические системы, использующие только один вид нуклеиновой кислоты, и репликация у них напрямую связана с экспрессией через трансляцию геномной РНК. Конечно, это были вечерние разговоры, вовсе не связанные с нашими дневными попытками картирования функциональных доменов вирусных белков. Сегодня, 25 лет спустя, когда изучены сотни различных геномов вирусов и хозяев, идея того, что вирусы (или сходные с вирусами генетические элементы) могли быть главными на ранних стадиях эволюции жизни, из туманных предположений выросла в концепцию, совместимую с огромным массивом экспериментальных данных. По моему мнению, это наиболее многообещающая линия размышлений и анализа в исследованиях ранних стадий эволюции жизни.

Таковы различные концептуальные линии, которые неожиданно для меня сошлись в растущем осознании того, что наше понимание эволюции, а с ней и самой природы биологии навсегда отошло от взглядов, преобладавших в XX веке, которые на сегодня выглядят скорее наивными и довольно догматичными. В определенный момент желание сплести эти линии в подобие связной картины стало непреодолимым, и отсюда появилась эта книга.

Некоторые стимулы для написания этой книги пришли вовсе не из биологии, а из поразительных достижений современной космологии. Эти открытия не только подняли космологию до уровня настоящей физики, но и полностью перевернули наши представления о мире, и особенно о природе случайности и необходимости. Когда дело доходит до границ биологии, таких как проблема происхождения жизни, этот новый взгляд на мир невозможно не принимать во внимание. Физики и космологи все чаще ставят вопрос, почему в мире существует что-то, а не ничто, – не только как философскую, но и как физическую проблему, и исследуют возможные ответы в форме определенных физических моделей. Трудно не задаться тем же вопросом о биологическом мире, причем на более чем одном уровне: почему существует жизнь, а не просто растворы ионов и маленьких молекул? И коли жизнь существует, почему есть пальмы и бабочки, кошки и летучие мыши, а не только бактерии? Уверен, что эти вопросы могут быть поставлены прямым научным образом, и мне кажется, на них уже появляются правдоподобные, пусть и предварительные, ответы.

Последние достижения в физике высоких энергий и космологии послужили вдохновением для этой книги не только в прямом научном смысле. Многие ведущие теоретические физики и космологи оказались одаренными писателями популярных и научно-популярных книг (что заставляет задуматься о связи между абстрактным мышлением на высочайшем уровне и литературным талантом), которые передают эмоциональный подъем, возникающий в связи с новейшими открытиями о строении Вселенной, с восхитительной ясностью, изяществом и пылом. Современная волна такой литературы, совпадающая с революцией в космологии, началась с классической «Краткой истории времени» Стивена Хокинга (Hawking, 1988). С тех пор появились десятки различных прекрасных книг. Одна из них, сильнее прочих изменившая мой собственный взгляд на мир, – великолепная короткая книга Александра Виленкина «Мир многих миров» (Vilenkin, 2007), но не менее важны были и работы Стивена Вайнберга (Weinberg, 1994), Алана Гута (Guth, 1998a), Леонарда Зюскинда (Susskind, 2006b), Шона Кэрролла (Carroll, 2010) и Ли Смолина (в спорной книге о «космическом естественном отборе»; Smolin, 2010). Эти книги гораздо больше, чем просто великолепные популяризации: каждая из них пытается представить связный, общий взгляд как на фундаментальную природу мира, так и на состояние науки, которая ее исследует. Каждая из этих картин мира уникальна, но во многих аспектах они идут бок о бок и дополняют друг друга. Каждая из них основана на строгой науке, но содержит и элементы экстраполяции и предположения, широких обобщений и, несомненно, противоречий. Чем больше я читал эти книги и размышлял о значении возникающего нового мировоззрения, тем сильнее мне хотелось сделать что-то подобное и в моей собственной области, молекулярной биологии. В какой-то момент, читая книгу Виленкина, я осознал, что, возможно, существует прямая и принципиально важная взаимосвязь между новыми взглядами на вероятность и случай, диктуемыми современной космологией, и происхождением жизни – вернее, происхождением биологической эволюции. Огромная роль случая в возникновении жизни на Земле, присутствующая в этой линии размышления, безусловно, неординарна и непременно многих смутит, но я чувствовал, что она не может быть оставлена без внимания, если мы хотим серьезно подойти к проблеме происхождения жизни.

Эта книга – мой собственный подход к описанию текущего состояния эволюционной биологии с позиций сравнительной геномики и системной биологии; следовательно, она неизбежно включает в себя не только установленные факты и подтвержденные теоретические модели, но и догадки и предположения. В этой книге я пытаюсь провести границу между фактами и догадками настолько четко, насколько возможно. Я хотел написать книгу в стиле вышеупомянутых превосходных научно-популярных книг по физике, но изложение заупрямилось и отказалось быть написанным таким образом. В результате текст получился гораздо более научным, чем это задумывалось поначалу, хотя он большей частью не слишком специализирован и описывает совсем немного методов, притом в весьма упрощенной манере. Одна важная оговорка: хоть книга и посвящена различным аспектам эволюции, она остается сборником глав по выбранным темам и ни в коей мере не претендует быть всеохватывающим трудом. Многие важные и популярные темы, такие как происхождение многоклеточных организмов или эволюция развития животных, совершенно осознанно не затронуты. Насколько возможно, я пытался придерживаться лейтмотива книги: взаимодействия между случаем и упорядоченными процессами. Еще один щекотливый момент связан со ссылками на литературу: попытайся я включить пусть не все, но хотя бы основные источники, библиография составила бы много тысяч ссылок. Я отказался от попытки это сделать с самого начала, и таким образом список литературы в конце книги является лишь небольшой выборкой относящихся к теме работ, и их отбор частично субъективен. Приношу мои искренние извинения коллегам, чья важная работа осталась неупомянутой.

Невзирая на все эти предостережения, я надеюсь, что обобщения и идеи, представленные здесь, будут интересны многим моим коллегам-ученым и студентам – не только биологам, но и физикам, химикам, геологам и всем интересующимся эволюцией и происхождением жизни.

Глава 1. Основы эволюции: Дарвин и синтетическая теория эволюции

В этой и следующей главах дается краткое описание современного состояния эволюционной биологии, какой она была до 1995 года, когда возникло новое направление науки – сравнительная геномика. Мягко говоря, это сложная задача – спрессовать полтора века исследований в области эволюции в две кратких главы. Тем не менее я полагаю, что мы можем начать с прямого вопроса «Какой же итог всех этих десятилетий научной работы?». Мы можем коротко и осмысленно сформулировать выводы синтетической теории до возникновения геномики, пусть и опуская большую часть подробностей.

В этих двух главах я попытался объединить историю и логику, однако мне, естественно, не удалось избежать некоторого произвола. В этой главе я прослежу развитие основ эволюционной биологии от «Происхождения видов…» Чарльза Дарвина до сформулированной в 1950-х годах синтетической теории эволюции (СТЭ). Во второй главе речь пойдет об идеях и открытиях, которые оказали влияние на понимание эволюции после окончательного оформления синтетической теории эволюции и до революции в геномике 1990-х.

Дарвин и первая синтетическая теория: величие замысла, ограничения и проблемы

Довольно странно думать о том, что мы только что отметили 150-летие со дня первой публикации «Происхождения видов…» (Darwin, 1859) и 200-летний юбилей самого Дарвина. Учитывая, какой глубокий и неизгладимый след оставило «Происхождение…» в науке, философии и человеческой мысли в целом (далеко за пределами только биологии), кажется, что 150 лет прошли очень быстро.

Что же такого исключительного и важного в том изменении миропонимания, которое вызвал труд Дарвина? Дарвин не открыл эволюцию (как иногда заявляют или чаще подразумевают, особенно в массовом сознании и публичных обсуждениях). Многие ученые до него, включая светил науки своего времени, были убеждены, что организмы изменяются во времени и эти изменения не случайны. Если не считать великих (и в некоторой степени легендарных) древнегреческих философов Эмпедокла, Парменида и Гераклита и их индийских современников, обсуждавших поразительные пророческие идеи (хоть и странным для нас образом совмещенные с мифологией) о процессах изменения в природе, у Дарвина было много предшественников в XVIII и начале XIX века. В последующих изданиях «Происхождения…» Дарвин с присущими ему непредвзятостью и великодушием признал их вклад. Его дед, Эразм Дарвин, и знаменитый французский ботаник и зоолог Жан-Батист Ламарк (Lamarck, 1809) написали толстые фолианты об эволюции[3]. Ламарк даже предложил ясное объяснение действия механизма, который, как он считал, закрепляет эволюционные изменения. Более того, знаменитый учитель и друг Дарвина, великий геолог Чарльз Лайель, писал о «борьбе за выживание», в которой всегда выигрывает более плодовитый. И конечно, общеизвестно, что в то же самое время молодой современник Дарвина, Альфред Рассел Уоллес, предложил в целом идентичную концепцию эволюции и ее механизма.

Однако, несмотря на достижения всех эволюционистов более раннего периода, именно Дарвин в «Происхождении…» заложил основу современной биологии и навсегда изменил научное представление о мире. Что же определило уникальность и исключительную значимость работы Дарвина? Рассматривая его достижение спустя 150 лет, мы можем выделить три крупных обобщения:

• Дарвин представил свой взгляд на эволюцию исключительно с позиции натуралиста и рационалиста, не привлекая к объяснению никакие телеологические силы или стремление к совершенствованию (или прямо указывая на некоего создателя), как обычно поступали теоретики того времени.

• Дарвин предложил конкретный, прямой и доходчивый механизм эволюции, представляющий собой взаимодействие между наследственной изменчивостью и естественным отбором, в целом описываемое как выживание наиболее приспособленных.

• Дарвин смело расширил идеи эволюции на всю историю земной жизни, которая, как он полагал, может быть представлена величественным древом (знаменитая единственная иллюстрация в «Происхождении…»), и даже утверждал, что все существующие формы жизни происходят от единого общего предка.

Общая и обладающая огромной предсказательной силой модель эволюции, предложенная Дарвином, явилась резким контрастом к эволюционным идеям его предшественников, особенно Ламарка и Лайеля, которые рассматривали преимущественно или даже исключительно внутривидовые эволюционные изменения. Четвертое значительное достижение Дарвина связано не столько с научным содержанием его работы, сколько с формой ее изложения. Главным образом в связи с вполне понятной срочностью, вызванной соперничеством с Уоллесом, Дарвин представил свой труд в виде небольшой и легко читаемой даже для неспециалиста книги, которая, несмотря на это, содержала скрупулезно и тщательно собранные доводы. Благодаря этим принципиальным достижениям, Дарвин не просто опубликовал очередную книгу об эволюции, но полностью изменил лицо науки. Сразу же после публикации «Происхождения…» большинство биологов и даже просто образованная часть общества признали эту работу как заслуживающее доверие естественно-научное объяснение возникновения многообразия форм жизни, и это послужило динамичной основой для дальнейших теоретических построений[4].

Рассматривая труд Дарвина с более отвлеченной позиции, которая является основной в этой книге, необходимо особо отметить, что Дарвин, похоже, первым обнаружил определяющее взаимодействие между случаем и направленностью (неизбежностью) в эволюции. В соответствии с идеей Дарвина, изменчивость почти полностью случайна, в то время как отбор является направленным и создает сложность. В этом Дарвин полностью противоположен Ламарку, который, в сущности, изгнал случайность из своей картины мира. В данной книге мы будем периодически возвращаться к этому ключевому конфликту мировоззрений.

Конечно, надо отдать должное предшественникам Дарвина – геологам и эволюционным биологам, однако Дарвин, несомненно, был первым ученым, который включил возможность эволюционных изменений (и, косвенно, происхождение) всей Вселенной в сферу явлений природы, подлежащих рациональному изучению. Другими словами, Дарвин положил начало научному изучению стрелы времени – то есть асимметричных во времени, необратимых процессов. Таким образом, он подготовил почву не только для развития биологии, но также для создания современной физики. Я полагаю, что знаменитый физик Людвиг Больцман, основатель статистической термодинамики и автор современной концепции энтропии, имел все основания назвать Дарвина «великим физиком», что может показаться парадоксальным, учитывая, что Дарвин крайне мало знал физику и математику. Пожалуй, и наш современник, философ Дэниел Деннет не так уж преувеличил, утверждая, что дарвиновская идея естественного отбора – величайшая идея в истории человечества (Dennett, 1996).

Конечно, эволюционное учение Дарвина со времени публикации «Происхождения…» и по меньшей мере до конца XIX века сталкивалось с острыми проблемами, всерьез беспокоившими Дарвина и на тот момент казавшимися непреодолимыми большинству ученых. Во-первых, значительную трудность представляло собой определение возраста Земли, который во времена Дарвина был существенно занижен. Даже не принимая во внимание религиозные мифы о сотворении мира, наиболее точно возраст Земли, по мнению физиков XIX века (в частности, лорда Кельвина), оценивался в 100 миллионов лет. Такого промежутка времени было явно недостаточно для эволюции жизни в том виде, в каком ее представил Дарвин, то есть путем постепенного накопления небольших изменений. В целом, действительно, 100 миллионов лет очень мало для эволюции жизни в ее нынешнем многообразии, хотя никто в XIX веке не мог количественно оценить скорость дарвиновской эволюции. Эта проблема разрешилась спустя 20 лет после смерти Дарвина. После открытия радиоактивности в начале XX века ученые подсчитали, что охлаждение Земли от первичного раскаленного состояния заняло миллиарды лет, то есть примерно столько, сколько, по предположению Дарвина, требовалось для эволюции с помощью естественного отбора.

Во-вторых, еще больше вопросов вызывали механизмы наследственности и так называемый кошмар Дженкина. Так как во времена Дарвина еще не существовало теории дискретных наследственных детерминант (кроме малоизвестных статей Менделя), то было неясно, каким образом полезное благоприобретение может сохраниться в поколениях и закрепиться в эволюционирующей популяции, не растворяясь и не теряясь. Очевидно, сам Дарвин не обратил внимания на эту проблему в своей теории, когда писал «Происхождение…», однако о ней сообщил Дарвину необычайно критичный читатель его работы, инженер Дженкин. Оглядываясь назад, трудно понять, почему Дарвин (или Дженкин, или Гексли) не принял в расчет решение, предлагаемое Менделем. Вместо этого Дарвин выдвинул куда более странное объяснение, так называемую теорию пангенеза, которую даже он сам, по-видимому, не принимал всерьез. Противоречие было устранено с рождением (или, вернее, повторным рождением) генетики, хотя поначалу ее значение для дарвинизма[5] было неочевидным (см. следующую главу).

Третья проблема, которую Дарвин полностью осознавал и блестяще исследовал, – это эволюция сложных структур (органов, по терминологии Дарвина), для работы которых необходимо соединение множества частей. Такие сложные органы представляли собой классическую головоломку для эволюционной биологии, которая в XX веке была выразительно названа неупрощаемой сложностью[6]. Конечно, сразу непонятно, как может происходить эволюция таких органов путем естественного отбора, если считать, что отдельные части органа или «частично укомплектованный» орган не функциональны. Дарвин решительно обратился к этой проблеме в одном из самых известных отрывков «Происхождения…», сценарии эволюции глаза. Он предложил логически безупречное, убедительное и неординарное решение: Дарвин предположил, что эволюция сложных органов идет через серию промежуточных стадий, каждая из которых частично выполняет функцию развивающегося сложного органа. Таким образом, эволюция глаза, по Дарвину, начинается с простого светочувствительного участка, через примитивные постепенно усложняющиеся структуры, подобные глазу, к полноценным, функциональным сложным глазам членистоногих и позвоночных. Необходимо отметить, что примитивные светочувствительные структуры, похожие на те, существование которых предположил Дарвин исходя из общих предположений, были впоследствии обнаружены, что по крайней мере частично подтверждает его сценарий и показывает, что в этом случае неупрощаемость сложной структуры иллюзорна. Однако, несмотря на убедительность схемы, предложенной Дарвином, к ней следует относиться трезво, как к частично подтверждаемому, но все же гипотетическому сценарию эволюции одного конкретного органа. Предположение Дарвина показало одну из возможных траекторий эволюции сложной структуры, но не решило главную проблему в целом. Эволюция сложных структур на разных уровнях является центральным вопросом биологии, поэтому мы будем возвращаться к нему много раз в этой книге.

Четвертый сложный вопрос дарвинизма является и самым глубоким. Эта главная проблема имеет непосредственное отношение к названию книги Дарвина и к подразумеваемой основной ее теме, то есть к происхождению видов, и, в общем смысле, к крупным эволюционным событиям, которые в настоящее время носят собирательное название макроэволюция. В значительном отрыве от названия книги те неоспоримые примеры эволюции, которые представил Дарвин, относились к возникновению новых внутривидовых различий, а не новых видов, не говоря уже о новых таксонах более высокого уровня. Эта проблема сохранялась долго после смерти Дарвина и существует даже сейчас, хотя частично она была решена сначала прогрессом палеонтологии, затем развитием теории видообразования при поддержке биогеографических данных, а затем, наиболее убедительно, сравнительной геномикой (см. гл. 2 и 3). К чести Дарвина и в отличие от критиков эволюции по сей день, он твердо стоял на своем перед лицом всех трудностей, благодаря своей непоколебимой вере в то, что, несмотря на возможные пробелы в его теории, ей нет никакой разумной альтернативы. Единственным слабым местом Дарвина оказалось включение неправдоподобной модели пангенеза в последующие издания «Происхождения…» как заплатки для маскировки кошмара Дженкина.

Генетика и «черный день» дарвинизма

Существует легенда, что Дарвин прочитал работу Менделя, но не нашел ее интересной (возможно, из-за ограниченного знания немецкого языка). Сложно предположить, насколько изменилась бы история биологии, если бы Дарвин использовал идеи Менделя, которые теперь нам кажутся предельно простыми. Однако этого не произошло.

Еще удивительнее, что сам Мендель, очевидно хорошо знакомый с «Происхождением…»[7], не рассматривал свое открытие в контексте теории Дарвина. Ожидать установления этой жизненно важной связи пришлось не только до возрождения генетики на заре XX века, но также до появления популяционной генетики в 1920-х годах. Повторное открытие механизма наследования и рождение генетики дало мощный толчок развитию дарвинизма, так как выявление дискретных носителей наследственности устраняло кошмар Дженкина. В связи с этим совершенно парадоксален тот факт, что первой реакцией большинства биологов на открытие генов было мнение, что генетика опровергает теорию Дарвина, хотя при этом никто из серьезных ученых не отвергал реальность эволюции. Основной причиной кажущейся несовместимости дарвинизма и генетики было то, что основатели генетики, в частности Хуго де Фриз, наиболее плодотворный ученый из трех биологов, переоткрывших законы Менделя, рассматривали мутации генов как прерывистые, скачкообразные наследственные изменения, противоречащие постепенной эволюции в теории Дарвина. Мутации с малым фенотипическим эффектом считались неотъемлемой чертой дарвинизма, в полном соответствии с «Происхождением…». Поэтому де Фриз полагал, что его теория мутаций «антидарвинистская». Таким образом, столетний юбилей Дарвина, а также 50-летие публикации «Происхождения…» в 1909 году были далеко не триумфальными, даже на фоне резкого роста генетических исследований и введения термина «ген» Вильгельмом Йогансеном в том же году.

Популяционная генетика, теорема Фишера, адаптивные ландшафты, генетический дрейф и «эволюционная тяга»

Основы крайне важного синтеза дарвинизма и генетики были заложены в конце 1920-х – начале 1930-х годов тремя выдающимися генетиками-теоретиками – Рональдом Фишером, Сьюэлом Райтом и Дж. Б. С. Холдейном. Основываясь на точных математических и статистических расчетах, они создали идеализированную модель эволюции в биологической популяции. Вероятно, великий ученый-статистик Фишер первым обратил внимание, что генетика никоим образом не противоречит дарвинизму, а, напротив, предоставляет естественный и твердый фундамент для теории дарвиновской эволюции. Фишер обобщил свои выводы в исторической работе 1930 года «Генетическая теория естественного отбора» (Fisher, 1930), пожалуй, втором по значимости для эволюционной биологии труде после дарвиновского «Происхождения…»[8]. Это стало началом блистательного возрождения дарвинизма, позже получившего название современный синтез (термин, используемый преимущественно в США), или неодарвинизм (в британской и европейских традициях)[9].

Нет ни надобности, ни практической возможности излагать здесь основы популяционной генетики[10]. Можно, однако, лаконично представить некоторые обобщения, имеющие отношение к остальной части обсуждения современной эволюционной биологии. Пусть и поверхностное, но такое резюме здесь будет существенно. По сути, основатели популяционной генетики осознали простой факт, что эволюция не действует на изолированные организмы или абстрактные виды, а направлена на конкретные группы скрещивающихся особей, называемые популяциями. Размер и структура эволюционирующей популяции в большой степени определяют направление и результат эволюции. В частности, Фишер сформулировал и доказал фундаментальную теорему естественного отбора (известную как теорема Фишера), в которой утверждается, что интенсивность отбора (и, следовательно, скорость эволюции путем отбора) пропорциональна величине генетической дисперсии по приспособленности эволюционирующей популяции, которая, в свою очередь, пропорциональна эффективному размеру популяции.

В табл. 1–1 собраны основные определения и уравнения, описывающие эффекты мутаций и давления отбора на устранение или закрепление мутантных аллелей в зависимости от эффективного размера популяции. Качественная суть этих уравнений в том, что при одинаковой скорости мутаций в популяции большего эффективного размера отбор более интенсивный. В таких популяциях даже мутации с небольшим положительным коэффициентом отбора («слегка» благоприятные мутации) закрепляются быстро. С другой стороны, мутации даже с очень маленьким отрицательным коэффициентом селекции («слегка» вредные мутации) быстро устраняются. Данный эффект был строго сформулирован в теореме Фишера.

Таблица 1–1. Фундаментальное соотношение, описывающее роль отбора и генетический дрейф в эволюции популяции

Из теоремы Фишера следует, что при эволюции, направляемой только естественным отбором, средняя приспособленность популяции не может уменьшаться (если, конечно, популяция собирается выжить). Пожалуй, наилучшим образом это можно представить с помощью образа «адаптивного ландшафта», который впервые был предложен другим отцом-основателем популяционной генетики, Сьюэлом Райтом. Райт создал этот чрезвычайно удачный образ в ответ на просьбу своего научного руководителя представить результаты математического анализа отбора в приемлемой для биологов форме. Благодаря своей простоте и изяществу это представление адаптивной эволюции сохраняет свою ценность по сей день и стимулировало многочисленные исследования, в результате которых появились более сложные и менее интуитивно понятные адаптивные ландшафты, в том числе и многомерные (Gavrilets, 2004)[11]. В соответствии с теоремой Фишера популяция, эволюция которой идет только за счет отбора (строго говоря, популяция бесконечного размера – такие популяции, естественно, не существуют, но являются удобной абстракцией, часто используемой в популяционной генетике), никогда не будет двигаться вниз по адаптивному ландшафту (см. рис. 1–1). Легко представить, что адаптивный ландшафт, как и обычный ландшафт, может иметь самую различную форму. При определенных обстоятельствах ландшафт может быть очень гладким, с единственным пиком, соответствующим глобальному адаптивному максимуму (иногда такой ландшафт образно называют «гора Фудзияма» (см. рис. 1–1а). Реальный ландшафт, однако, неровный и содержит многочисленные пики различной высоты, разделенные долинами (см. рис. 1–1б). Формально, согласно теореме Фишера (и в целом, в соответствии с теорией Дарвина), популяция, эволюционирующая с помощью отбора, может только подниматься вверх и, таким образом, достигнуть только локального пика, даже если его высота значительно меньше, чем высота глобального пика (см. рис. 1–1а). Теория Дарвина и СТЭ утверждают, что движение популяции через долины запрещено, так как неизбежно подразумевает фазу спуска. Однако развитие популяционной генетики и ее применение к эволюционным процессам изменило эту упорядоченную картину, привнеся в нее понятие «дрейфа генов», ключевую идею эволюционной биологии, которую также предложил Райт.

Рис. 1–1. Адаптивные ландшафты: а – «гора Фудзияма» с единственным (глобальным) пиком; б – «пересеченная местность» неровного адаптивного ландшафта

Как подчеркивалось ранее, Дарвин признавал важную роль случайности в эволюции, но эта роль была ограничена только одной частью эволюционного процесса: появлением изменений (в современной терминологии – мутаций). В остальном эволюция рассматривалась как строго детерминистский процесс, где отбором закрепляются выгодные мутации, а все прочие мутации устраняются без какого-либо вреда для дальнейшего существования популяции. Однако при рассмотрении популяции в динамике картина значительно меняется. Основатели количественной популяционной генетики отразили в простых формулах зависимость интенсивности отбора от размера популяции и частоты мутаций (см. табл. 1–1 и рис. 1–2). Отбор эффективен в большой популяции, и мутация, несущая незначительное преимущество, почти наверняка закрепится (в популяции бесконечного размера закрепляется мутация с бесконечно малым положительным коэффициентом отбора). Райт понял, что в малой популяции, особенно при низкой частоте мутаций, эволюционный процесс идет по-другому. В такой популяции решающую роль играет дрейф генов, с помощью которого случайным образом часто закрепляются нейтральные и даже вредные (но, конечно, не летальные) мутации. Очевидно, с помощью генетического дрейфа эволюционирующая популяция может избежать однонаправленного подъема по адаптивному ландшафту и может спускаться (см. рис. 1–2)[12]. Преимущественно это выражается в движении вниз и последующем вымирании, однако если долина, отделяющая один локальный пик от другого, возможно даже более высокого, достаточно узкая, становится возможным переход через нее и последующее восхождение на более высокую вершину (см. рис. 1–2). Введение понятия генетического дрейфа в изучение эволюции является центральным в моем рассказе. Это новый уровень проявления случая. Хотя Дарвин и его ближайшие последователи видели роль случая в появлении наследуемых изменений (мутаций), дрейф вводит случайность на следующей стадии, то есть при закреплении этих изменений, забирая у отбора часть ответственности. В этой книге я исследую, насколько значимой может быть роль дрейфа в различных ситуациях в ходе эволюции.

Рис. 1–2. Эволюционные траектории на неровном адаптивном ландшафте. Пунктирной линией обозначается эволюционная траектория при высоком значении эффективного размера популяции. Сплошной линией обозначается эволюционная траектория при низком значении эффективного размера популяции.

Джон Мейнард Смит и, позднее, Джон Гиллеспи разработали теорию и компьютерные модели для демонстрации существования особого режима нейтральной эволюции, который слабо зависит от эффективного размера популяции и актуален даже в популяции бесконечного размера с сильным отбором. Этот способ нейтрального закрепления мутаций стал известен как «генетическая тяга» и относится к ситуациям, в которых одна или несколько нейтральных или даже умеренно вредных мутаций распространяются в популяции и в конечном итоге закрепляются, будучи связанными с полезной мутацией. Иными словами, нейтральные или вредные аллели «двигаются в одной повозке» вместе с полезным аллелем (Barton, 2000). Похоже, что некоторые данные и модели популяционной генетики свидетельствуют, что «движение в одной повозке» даже важнее для эволюции популяции с половым размножением, чем дрейф. Очевидно, что эффект «езды в одной повозке» обусловлен совокупным воздействием естественного отбора и нейтральной изменчивостью в различных участках генома и, в отличие от дрейфа, может происходить даже в популяции бесконечно большого эффективного размера (Gillespie, 2000).

За счет эффекта «движения в одной повозке» даже в больших популяциях могут закрепляться умеренно вредные мутации, что, соответственно, дает этой популяции возможность пересекать долины адаптивного ландшафта.

Положительный и очищающий (отрицательный) отбор: классификация форм отбора

Дарвин думал о естественном отборе в первую очередь с точки зрения закрепления благоприятных изменений. Он понимал, что эволюцией отсеиваются вредные изменения, но не интерпретировал эту ликвидацию в одной плоскости с естественным отбором. С развитием СТЭ понятие отбора было расширено за счет включения «очищающего» (отрицательного) отбора, который в некоторых фазах эволюции оказывается более распространенным (на самом деле на порядок более распространенным), чем «дарвиновский» положительный отбор. По сути, очищающий отбор – это просто элиминация неприспособленных особей. Тем не менее выделение этого процесса в особую форму отбора представляется оправданным и важным, потому что оно подчеркивает ключевую роль элиминации в формировании (сдерживании) биологического разнообразия на всех уровнях. Проще говоря, изменение допускается, только если оно не наносит существенного вреда никаким из выживающих особей. Интересен и открыт вопрос, до какой степени эти ограничения фактически сужают пространство, доступное для эволюции, и я коснусь этого вопроса позднее (см., в частности, гл. 3, 8 и 9).

Тонкая, но важная разница существует между очищающим отбором и стабилизирующим отбором, который является еще одной из форм отбора, которая действует на распределение частот отличительных признаков. Таким образом, выделяются следующие формы отбора: стабилизирующий отбор, основанный в первую очередь на очищающем отборе, движущий отбор, обусловленный положительным (дарвиновским) отбором, и более экзотические режимы дизруптивного и балансирующего отбора, которые являются результатом сочетания многочисленных ограничений (см. рис. 1–3).

Рис. 1–3. Четыре различные формы отбора в эволюционирующей популяции: а — стабилизирующий отбор (адаптивный ландшафт представлен сплошной линией); б — движущий отбор (адаптивный ландшафт представлен сплошной линией); в — дизруптивный отбор (адаптивный ландшафт представлен сплошной линией); г — балансирующий отбор (адаптивный ландшафт периодически меняется, переключаясь между двумя пунктирными линиями)

Синтетическая теория эволюции

Объединение дарвиновской теории эволюции и генетики, состоявшееся в основополагающих исследованиях Фишера, Райта и Холдейна, подготовило почву для рождения синтетической теории эволюционной биологии. Само название идет от одноименной книги, опубликованной Джулианом Хаксли в 1942 году (Huxley, 2010), однако концептуальная структура СТЭ полностью сформировалась только в 1959 году в ходе мероприятий, посвященных 100-летнему юбилею «Происхождения…». Новая синтетическая теория стала результатом работы многих выдающихся ученых. Можно утверждать, что главными архитекторами СТЭ были экспериментальный генетик Феодосий Добржанский, зоолог Эрнст Майр и палеонтолог Джордж Гейлорд Симпсон. Экспериментальные и полевые работы Добржанского с плодовой мушкой Drosophila melanogaster принесли насущные фактические свидетельства в поддержку теории популяционной генетики и стали первой крупномасштабной экспериментальной проверкой идеи естественного отбора. Книга Добржанского «Генетика и происхождение видов» (Dobzhansky, 1951) явилась основным программным документом СТЭ, в котором он сузил понятие эволюции до «изменения частоты аллеля в генетическом пуле». Знаменита также крылатая фраза Добржанского о том, что «ничто в биологии не имеет смысла, кроме как в свете эволюции»[13] (см. больше о «смысле» в прил. I). Заслугой Эрнста Майра, как никакого другого ученого, является серьезная, крайне влиятельная попытка теоретического решения принципиальной проблемы, поставленной Дарвином, – происхождения видов. Майр сформулировал так называемую биологическую концепцию вида, согласно которой видообразование происходит, когда две популяции (размножающиеся половым путем) изолированы друг от друга достаточно долго, чтобы обеспечить необратимую генетическую несовместимость (Mayr, 1963).

Симпсон реконструировал наиболее полную (на тот момент) картину эволюции жизни на основании палеонтологической летописи (Simpson, 1983). Замечательно, что Симпсон осознал стазис (отсутствие существенных изменений) в эволюции большинства видов и резкую смену доминантных видов. Он ввел понятие квантовой эволюции, которое предвосхитило теорию прерывистого равновесия, предложенную Стивеном Джеем Гулдом и Нильсом Элдриджем (см. гл. 2).

Консолидация СТЭ в 1950-х годах была довольно странным процессом, сопровождавшимся странным «затвердеванием» (выражение Гулда) основных идей Дарвина (Gould, 2002). Так, доктрина СТЭ фактически отбросила идею Райта о случайном дрейфе генов и его эволюционной важности и стала бескомпромиссно панадаптационистской. Более того, сам Симпсон отказался от идеи квантовой эволюции, так что градуализм продолжал оставаться одним из неоспоримых столпов СТЭ. Такое «затвердевание» сделало СТЭ относительно узкой, в некотором смысле даже догматичной, системой.

Чтобы продолжить обсуждение эволюции эволюционной биологии и ее преображение в век геномики, представляется необходимым кратко резюмировать основные принципы эволюции, впервые сформулированные Дарвином, затем усовершенствованные первым поколением биологов-эволюционистов и, наконец, кодифицированные в СТЭ. Мы будем возвращаться к каждому из этих ключевых моментов на протяжении всей книги.

1. Ненаправленное случайное изменение – это главный процесс, обеспечивающий материал для эволюции. Дарвин впервые показал, что случайность является основным фактором в истории жизни, и это, несомненно, было одной из его наиболее важных идей. Дарвин также признавал роль направленной, ламарковской изменчивости и в последующих изданиях «Происхождения…» склонялся даже к более весомой роли этого механизма эволюции. Однако СТЭ твердо настаивает на том, что случайные мутации являются единственным источником эволюционно значимой изменчивости.

2. Действие эволюции заключается в фиксации редких выгодных изменений и элиминации вредных изменений. Согласно Дарвину и СТЭ, в этом состоит процесс естественного отбора, который, наряду со случайной изменчивостью, является основной движущей силой эволюции. Естественный отбор, очевидно сходный и навеянный «невидимой рукой» рынка, которая, по теории Адама Смита, управляет экономикой, был первым из когда-либо предложенных механизмов эволюции, который был прост и правдоподобен и не требовал изначально мистического подхода. Таким образом, это вторая ключевая идея Дарвина. Сьюэл Райт подчеркивал, что случайность может играть вспомогательную роль не только в возникновении, но также и в закреплении изменений в ходе эволюции с помощью дрейфа генов, в результате которого случайно сохраняются нейтральные или умеренно вредные изменения. Согласно теории популяционной генетики, дрейф генов особенно значим в небольших популяциях, проходящих через «бутылочное горлышко». «Генетическая тяга», или «езда в одной повозке», – это другая форма случайного закрепления невыгодных мутаций. Однако СТЭ в ее догматизированной форме фактически отрицает стохастические процессы в эволюции, кроме возникновения изменений, и придерживается полностью адаптационистского (панадаптационистского) взгляда на эволюцию. Такая модель неизбежно приводит к концепции «прогресса», постепенного улучшения «органов» в ходе эволюции. Дарвин поддерживал эту идею как основное направление развития, несмотря на четкое понимание, что организмы все еще далеки от совершенства в плане адаптивности, как можно прекрасно увидеть на примере рудиментарных органов, и несмотря на свое резко отрицательное отношение к любым формам ламарковского внутреннего стремления к совершенству. СТЭ уходит от прогресса как антропоморфной идеи, но тем не менее поддерживает общую концепцию эволюции от простых форм к сложным.

3. Полезные изменения, закрепляемые естественным отбором, бесконечно малы (в современной терминологии, эволюционно значимые мутации обладают бесконечно малым влиянием на приспособленность), поэтому эволюция происходит путем постепенного накопления этих слабых изменений. Дарвин был убежден, что в основе его теории лежит строгий градуализм: «Естественный отбор действует только путем сохранения и кумулирования малых наследственных модификаций, каждая из которых выгодна для сохраняемого существа… Если бы возможно было показать, что существует сложный орган, который не мог образоваться путем многочисленных последовательных слабых модификаций, моя теория потерпела бы полное крушение» («Происхождение видов…», гл. 6 [цит. по: Дарвин Ч. Сочинения. Т. 3 / Пер. с англ. К. А. Тимирязева, С. Л. Соболя. M.: Изд-во АН СССР, 1939]). Даже некоторые современники Дарвина полагали, что это излишняя, искусственная строгость теории. В частности, хорошо известны заблаговременные возражения со стороны Томаса Гексли. Еще до публикации «Происхождения…» Гексли написал Дарвину: «Вы взяли на себя ненужный груз безоговорочного следования принципу Natura non facit saltum» (http://aleph0.clarku.edu/huxley/). Несмотря на эти своевременные предостережения и даже на идею Симпсона о квантовом характере эволюции, СТЭ бескомпромиссно настаивает на градуализме.

4. Униформизм (термин был заимствован Дарвином из геологии Лайеля) – это один из аспектов классической эволюционной биологии, который связан, но в то же время отличается от принципиального градуализма. Это убеждение, что эволюционные процессы не изменялись по существу на всем протяжении истории жизни.

5. Следующий ключевой принцип логически связан с градуализмом и униформизмом: макроэволюция (происхождение видов и высших таксонов) управляется теми же механизмами, что и микроэволюция (эволюция внутри вида). Главным апологетом данного принципа был Добржанский, определивший эволюцию как изменение частоты аллелей в популяциях. Дарвин не пользовался терминами микроэволюция и макроэволюция; тем не менее достаточность внутривидовых процессов для объяснения происхождения видов и, в более широком плане, всей эволюции жизни можно считать центральной аксиомой Дарвина (или, возможно, фундаментальной теоремой, такой, однако, для которой у Дарвина не было даже и намека на доказательство). Представляется разумным говорить о данном принципе как об «универсальном униформизме»: эволюционные процессы одинаковы не только на протяжении всей истории жизни, но и на разных уровнях эволюционных изменений, включая крупные преобразования. Загадка взаимосвязи между микроэволюцией и макроэволюцией является в некотором смысле осью эволюционной биологии, поэтому мы будем постоянно возвращаться к ней в этой книге.

6. Эволюцию жизни можно адекватно представить в виде «огромного дерева», что и подчеркнуто единственной иллюстрацией в «Происхождении…» (в гл. 4). Дарвин представил древо жизни только как общую идею и не пытался исследовать фактический порядок ветвления. Древо было заселено реальными формами жизни, насколько они были известны в то время, одним из главных последователей Дарвина, знаменитым немецким биологом Эрнстом Геккелем. Основатели СТЭ не проявляли большого интереса к древу жизни, но они, несомненно, включали его в теорию как описание эволюции животных и растений, убедительно поддержанное палеонтологической летописью в XX веке. Однако микробы, определяющее значение которых в глобальной экологии становилось все более очевидным, фактически остались за пределами эволюционной биологии.

7. Концепция единого древа жизни имеет следствие, которое заслуживает статуса отдельного принципа: существующее в настоящее время разнообразие форм жизни произошло от общего предка (или нескольких форм-предшественников, в соответствии с осторожной формулировкой Дарвина в главе 14 «Происхождения…», см. Darwin, 1859). Спустя много лет он был назван «последним универсальным клеточным предком» (Last Universal Cellular Ancestor, LUCA[14]). Для создателей СТЭ существование LUCA не вызывало сомнений, но они, по-видимому, не считали реалистичной или научно важной целью прояснение его природы.

Краткий обзор главы

В своей книге «Происхождение видов…» Чарльз Дарвин тщательно собрал доказательства изменений во времени, которые охватывают мир живых существ, и впервые предложил убедительный механизм эволюции: естественный отбор. Эволюция путем естественного отбора, безусловно, является одной из самых существенных концепций, когда-либо разработанных учеными, и даже была объявлена самой важной идеей в истории человечества (Dennett, 1996). В свете этого может показаться парадоксальным, что понятие естественного отбора нередко считают простой тавтологией. Если рассуждать с точки зрения выживания наиболее приспособленных, видно, что для этого взгляда есть основания. Однако, если рассматривать весь дарвиновский сценарий эволюции в целом, его решительно не тавтологические и не тривиальные аспекты становятся очевидными. В действительности Дарвин предложил механизм преобразования случайных изменений в отнюдь не случайные адаптации, вплоть до сложнейших приспособлений, исполняющих узкоспециализированные функции и тем самым повышающих приспособленность их носителей. Если рассматривать этот процесс в терминах физики и несколько вольно следовать идеям знаменитой книги Эрвина Шредингера, дарвиновская эволюция является машиной для создания отрицательной энтропии, другими словами, порядка из беспорядка. На мой взгляд, самым главным прозрением Дарвина было осознание того, что простой механизм, лишенный какого-либо телеологического содержания, вероятно, мог только благодаря случайным изменениям привести к появлению удивительного разнообразия форм жизни, каждая из которых в совершенстве приспособлена к условиям среды своего обитания. С этой точки зрения, «невидимая рука» естественного отбора кажется почти чудесно всесильной, и нельзя не задаваться вопросом, действительно ли этого достаточно, чтобы объяснить историю жизни. Этот вопрос неоднократно использовался в качестве риторического приема креационистами всех мастей, но он также всерьез поднимался биологами-эволюционистами. В остальной части этой книги мы увидим, что разные ученые дают на него разные ответы, которые зависят от того, о каких именно ситуациях и этапах эволюции жизни идет речь.

Конечно, дарвинизм в его изначальном виде столкнулся с более значительными и непосредственными проблемами, чем вопрос о достаточности естественного отбора: Дарвин и его ранние последователи не имели представления о механизмах наследования и о том, будут ли когда-либо открыты механизмы, согласующиеся со сценарием Дарвина. В этом смысле здание теории Дарвина висело в воздухе. Повторное открытие законов генетики в начале XX века и последующее развитие теоретической и экспериментальной популяционной генетики обеспечило твердое основание для дарвиновской теории эволюции. Было показано, что, без сомнения, популяции эволюционируют посредством процесса, в котором дарвиновский естественный отбор играет важнейшую роль. СТЭ в эволюционной биологии явилась завершением работы Дарвина, последовательно объединив дарвинизм и генетику. По мере развития СТЭ заметно «окостенела», настаивая на градуализме, униформизме и, что наиболее важно, монополии естественного отбора как единственном пути эволюции. В соответствии с СТЭ все изменения, закрепляемые в ходе эволюции, являются адаптивными, по крайней мере изначально. При всех своих выдающихся достоинствах СТЭ представляет собой довольно догматичную и удручающе незаконченную теорию. Назовем три наиболее бросающиеся в глаза проблемы: СТЭ совершенно бездоказательно распространяет механизмы и закономерности, принятые в микроэволюции, на макроэволюционные процессы; она ничего не говорит об эволюции микробов, являющихся наиболее широко распространенными и многообразными формами жизни на Земле; и она даже не пытается обратиться к вопросу о происхождении жизни.

Глава 2. От синтетической теории эволюции к эволюционной геномике: различные механизмы и пути эволюции

В этой главе мы продолжим обсуждение эволюционной биологии в период до появления геномики. Многие из обсуждаемых направлений развития не являлись предшественниками синтетической теории эволюции (СТЭ). На самом деле они возникали параллельно с развитием СТЭ, но были отвергнуты «каноном» вследствие «ужесточения» СТЭ. Достижения, которые обсуждаются в этой главе, относятся к интервалу между 1930 (публикация книги Рональда Фишера, которая ознаменовала вторую, зрелую стадию развития эволюционной биологии) и 1995 годами (первые сравнения полных геномов клеточных форм жизни). Моя цель здесь – вкратце обрисовать сложную сеть эволюционных идей, теорий и наблюдений, которые дополнили достаточно жесткую структуру СТЭ и стали пусковой площадкой для нового, «геномного» подхода к изучению эволюции.

Репликация цифровых носителей информации: центральный принцип биологии и необходимое и достаточное условие эволюции

Модель структуры ДНК, представленная Джеймсом Уотсоном и Фрэнсисом Криком (очевидно, основанная на рентгеновских структурах, полученных Розалинд Франклин и другими), несомненно, является одним из главных открытий не только биологии XX века, но и всей истории биологии (Watson and Crick, 1953b). Однако этот прорыв не всегда упоминается в связи с принципами биологической эволюции.

С моей точки зрения, структура ДНК и модель ее репликации, которую Уотсон и Крик описали в своей второй классической статье как непосредственное следствие структуры (Watson and Crick, 1953a), являются важнейшим фундаментальным открытием в изучении эволюции со времени публикации «Происхождения видов…». По сути, Уотсон и Крик вывели из структуры ДНК биологическое воплощение общего принципа цифрового хранения, кодирования и передачи информации. Система биологической передачи информации, которую выявили их исследования, может рассматриваться как расширение принципа машины Тьюринга, сначала через правила комплементарности нуклеотидных оснований (в процессах репликации и транскрипции), a затем в процессе трансляции, через генетический код (см. рис. 2–1). По сути, пусть и не в историческом смысле, эти открытия вытеснили концепцию Дарвина, в том смысле, что вся дарвиновская схема эволюции является прямым следствием механизма репликации ДНК. Для всех известных форм жизни биологическая передача цифровой информации влечет за собой исполнение следующих простых фундаментальных принципов[15].

Генетический материал любого организма состоит из линейной последовательности символов, четырех оснований нуклеиновых кислот, которая, прямо или косвенно, кодирует всю информацию, необходимую для построения организма[16].

Репликация генетического материала, являющегося механической основой наследственности, осуществляется на основе принципа однозначного комплементарного соответствия между A и T(U), и G и С. (Так называемые правила Чаргафа, по имени их первооткрывателя, австрийского, a затем американского химика Эрвина Чаргаффа[17].)

Рис. 2–1. Передача информации в биологических системах и превращение естественного отбора и генетического дрейфа в эпифеномены репликации. Белые круги на схеме обозначают изменения относительно оригинальной последовательности.

Уотсон и Крик описали эти ключевые принципы генетических систем в двух своих статьях, вышедших в 1953 году. Дальнейшие исследования добавили два очень важных аспекта:

1. Принцип комплементарности используется не только во время репликации, но и во время транскрипции ДНК во все виды РНК и во время трансляции мРНК в белок с помощью адапторных молекул тРНК.

2. Те же самые принципы цифровой репликации и декодирования применимы и для генетических систем, в которых генетический материал отличается от двойной спирали ДНК, изначально описанной Уотсоном и Криком, и состоит из РНК или односпиральной ДНК (например, у многих вирусов).

Теория информации твердо стоит на том, что передача информации абсолютно без ошибок невозможна в принципе. В реальности вероятность ошибки в любом конечном сообщении может быть сведена к минимуму, но любое снижение уровня ошибок при передаче информации возможно только за счет затраты энергии. Эта связь непосредственно следует из законов термодинамики. Центральный принцип эволюции может быть сформулирован следующим образом:

Репликация цифровых носителей информации неизбежно подвержена ошибкам, что влечет за собой эволюцию этих носителей путем естественного отбора и случайного дрейфа генов при условии, что уровень ошибок репликации ниже катастрофического порога, имеющего порядок величины от одной до десяти ошибок на геном за один цикл репликации[18].

Назовем это обобщение принципом подверженной ошибкам репликации (ПОР)[19]. Этот принцип становится самоочевидным, как только мы осознаем существование и основной механизм репликации. Он был впервые описан математически в теории Манфреда Эйгена (Eigen, 1971), который также ввел понятие концепции порога ошибки (Biebricher and Eigen, 2005) – эта теория и ее применение будут рассматриваться далее в главе 12. ПОР основывается на следующих двух предположениях, которые могут показаться очевидными, но заслуживают тем не менее особого упоминания:

1. Ошибки репликации наследуются (проходят через циклы репликации).

2. Существует обратная связь между генотипом и фенотипом: некоторые ошибки репликации влияют на эффективность и точность репликации как отрицательно, так и положительно.

Это и отличает биологические репликаторы с их «неограниченной наследуемостью» от репликаторов с «ограниченной наследуемостью», таких как кристаллы или ряд химических циклов, которые реплицируются, но не передают накопленные дефекты последующим поколениям (Szathmary, 2000). Упрощенно говоря, разница в том, что в нуклеиновых кислотах замена одного нуклеотида на другой влияет только на передаваемую информацию, а не на физические или химические свойства носителя информации (во всяком случае, не значительно), как в случае небиологических систем.

В принципе должен существовать и нижний порог частоты ошибок репликации. Очевидно, что если математическое ожидание числа ошибок на цикл репликации стремится к нулю, то разнообразие становится недостаточным для эволюционного процесса. Однако необходимо заметить, что уровень ошибок репликации нуклеиновых кислот, определяемый эмпирически, в отсутствие сложных корректирующих механизмов (как, например, в РНК вирусов), не намного ниже верхнего, катастрофического порога. Таким образом, необходимым условием эволюции является достаточно низкий (а не достаточно высокий) уровень ошибок репликации[20]. Вопрос о том, в какой степени оптимизируется фактическая точность передачи информации в биологической системе (другими словами, эволюционирует ли эволюция), весьма сложен, интересен и широко обсуждается. Мы рассмотрим его подробнее в главе 9.

Несмотря на то что вся естественно эволюционировавшая жизнь основана на репликации нуклеиновых кислот, ПОР не зависит от физической природы репликаторов, как можно видеть на примере эволюции компьютерных вирусов и различных компьютерных моделей эволюции искусственной жизни (Lenski et al., 2003). Тем не менее вопрос о том, необходим ли цифровой код для эволюции или эволюция может происходить и в аналоговых системах, весьма интересен и до сих пор остается открытым.

В главе 1 был затронут вопрос o псевдотавтологичной природе естественного отбора. По сути, ПОР действительно в значительной мере тривиализирует естественный отбор и генетический дрейф (два фундаментальных принципа эволюции), как бы отбирая у них статус независимых феноменов и низводя их до эпифеноменов ПОР. Это ни в коей мере не умаляет достижения Дарвина, Райта и других выдающихся эволюционных биологов и не уменьшает важность концепций естественного отбора и генетического дрейфа для описания эволюционных процессов на абстрактном уровне. Тем не менее открытие репликации с контролируемым уровнем ошибок обнаруживает более фундаментальные принципы, которые лежат в основе классических положений эволюционной биологии.

Молекулярная эволюция и молекулярная филогенетика

Традиционные филогенетические исследования, наполнившие содержанием дарвиновскую концепцию древа жизни, были основаны на сравнении морфологических черт организмов, таких как структура скелета животных или строение цветков растений (Futuyma, 2005). Эволюционные биологи не осознавали, что сравнивать следует реальную молекулярную базу эволюции, которая подвержена действию естественного отбора, то есть гены, просто потому, что они практически ничего не знали о химической основе этой составляющей и о способе, которым гены кодируют фенотип организма. Более того, согласно парадигме панадаптационизма в эволюционной биологии, гены, на каком бы молекулярном механизме они ни основывались, должны существенно разниться в неродственных организмах, если учесть фенотипические различия между этими организмами, как подчеркивалось, в частности, Эрнстом Майром, одним из главных строителей СТЭ.

Идея того, что последовательность оснований ДНК может использоваться для эволюционной реконструкции, была, вероятно, впервые высказана в печати, пусть и мимоходом, еще Криком (в той же самой основополагающей статье, в которой он сформулировал адапторную гипотезу синтеза белка, – Crick, 1958). Эмиль Цукеркандль и Лайнус Полинг развили принципы и описали первое фактическое использование молекулярного эволюционного анализа несколько лет спустя. Они напрямую опровергли гипотезу Майра, показав, что последовательности аминокислот нескольких белков, которые в то время были известны для нескольких видов, такие как цитохром c и глобины, оказались чрезвычайно консервативными даже у дальнородственных животных (Zuckerkandl and Pauling, 1965). Цукеркандль и Полинг также предложили концепцию молекулярных часов: они предсказали, что скорость эволюции определенной последовательности белка будет неизменна (с учетом возможных флуктуаций) в течение длительных временных интервалов в отсутствие функциональных изменений. Здесь необходимо отметить, что то, что последовательности генов, кодирующих «один и тот же белок» (то есть белки с одинаковым действием и сходными свойствами), в различных организмах оказались очень сходными – и, более того, степень схожести этих последовательностей отрицательно коррелировала с филогенетическим расстоянием между данными организмами, – можно рассматривать как наилучшее и исчерпывающее доказательство реальности эволюции.

В течение последующих нескольких лет, в основном благодаря работам Маргарет Дэйхофф и ее коллег, консервативность кодирующих белки последовательностей была продемонстрирована на примерах самых различных форм жизни, от бактерий до млекопитающих (Dayhoff et al., 1983). Учитывая открытие консервативности белок-кодирующих последовательностей и гипотезу молекулярных часов, оказалось естественным перейти к конструированию филогенетических деревьев на основе (не)похожести этих последовательностей, что должно было показать примерное время возникновения расхождений в последовательностях генов (белков) от общего предка. И в самом деле, скоро были изобретены несколько методов измерения расстояний в молекулярной филогенетике, а также введен принцип наибольшей экономии (см. табл. 2–1). Последующее тестирование гипотезы молекулярных часов на все растущей базе последовательностей ДНК показало, что для большинства генов эти часы идут не с одинаковой скоростью; напротив, эти данные оказались значительно диспергированы, то есть отклонения в скорости эволюции значительно превышали среднее отклонение, которое могло быть предсказано распределением Пуассона (Bromham and Penny, 2003). Такая избыточная дисперсия молекулярных часов приводит к особенности молекулярного филогенеза, известной как притяжения длинных ветвей (ПДВ), существенно искажающей результаты молекулярного филогенетического анализа (см. табл. 2–1). Молекулярная филогенетика, таким образом, превратилась в сложную ветвь прикладной математики и статистики в основном для того, чтобы справляться с эффектами ПДВ и им подобными (Felsenstein, 2004). Но, несмотря на все артефакты, молекулярная филогенетика остается краеугольным камнем современной эволюционной биологии и использует в первую очередь методы наибольшего правдоподобия (см. табл. 2–1).

Таблица 2–1. Краткое описание филогенетических методов

Методы, основанные на секвенировании

Требуют многократного сравнения гомологичных нуклеотидов или белковых последовательностей.

Дистанционно-матричные методы

Все эти методы используют матрицы межвидовых расстояний <d_ij> (i, j соответствуют видам), рассчитанные на основе сравнений последовательностей с корректировкой на множественные замещения. Ультраметрические методы (простая иерархическая кластеризация). Достоверны только для стабильных молекулярных часов. В принципе не считаются приемлемыми филогенетическими методами, но могут быть использованы для целей классификации или генерации предварительных филогенетических деревьев.

Метод объединения ближайших соседей (neighbor-joining). Более сложный метод восходящей кластеризации, основанный на минимальном эволюционном критерии (кратчайшая суммарная длина ветвей дерева). Чувствителен к ПДВ и гораздо менее точен, чем метод наибольшего правдоподобия, однако высокоэффективен для вычислений и быстр. Не используется для исчерпывающего филогенетического анализа, но для анализа большого количества последовательностей может быть единственным практически применимым методом.

Метод наименьших квадратов, метод Фитча. Метод измерения расстояний, основанный на минимизации разностей между расстояниями на филогенетическом дереве и в соответствующей матрице расстояний. По точности и эффективности примерно равен методу объединения ближайших соседей. Считается неподходящим для исчерпывающего филогенетического анализа, но используется для построения предварительных филогенетических деревьев для метода наибольшего правдоподобия.

Принцип наибольшей экономии (maximum parsimony)

Не использует матрицы расстояний, вместо этого работает с наборами состояний признаков. Состояниями признаков, в частности, могут быть нуклеотиды или аминокислоты в определенных позициях множественных выравниваний. Принцип наибольшей экономии (НЭ), основанный на принципе наименьшего действия в физике, определяет как наиболее вероятный тот эволюционный сценарий (филогенетическое дерево), который включает в себя наименьшее количество событий (переходов состояний в наборе признаков).

Существует множество алгоритмов, вычисляющих деревья, наиболее соответствующие принципу НЭ и использующие значимые и незначимые признаки. Принцип НЭ часто ставится под сомнение, поскольку существуют деревья, лишь слегка отличающиеся от наиболее экономичного варианта, но имеющие совершенно иную топологию. Метод высоко чувствителен к ПДВ.

Метод наибольшего правдоподобия (maximum likelihood)

Аналогично методу НЭ, в методе наибольшего правдоподобия (НП) оцениваются переходы между состояниями признаков и выбираются деревья, набравшие наибольший вес. В отличие от метода НЭ, метод НП является параметрическим статистическим подходом, который использует детальную модель эволюции признака для оценки вероятности данных на основе имеющегося эволюционного дерева. Дерево, которое имеет наибольшую вероятность возникновения наблюдаемых данных, признается наиболее вероятным. Метод НП зачастую производит деревья, аналогичные тем, которые получаются методом НЭ, но теоретически он предпочтительнее, будучи (в отличие от НЭ) статистически более достоверным (то есть при наличии достаточного количества данных гарантирует получение наиболее правдоподобного дерева). На практике метод НП часто превосходит метод НЭ. Методы НП чрезвычайно затратны с вычислительной точки зрения и непрактичны при работе с большими наборами данных. Таким образом, методы НП зачастую используются для оптимизации предварительных деревьев, полученных методом объединения ближайших соседей и методом Фитча. Для тех же филогенетических исследований, где точность построения дерева важнее скорости, следует выбирать методы НП. Более того, недавние алгоритмические достижения более чем на порядок ускорили построение филогенетических деревьев методами НП без серьезных потерь точности (Price et al., 2010).

Байесовский подход

Подобно методу НП, этот подход использует функцию правдоподобия, но прибегает к теореме Байеса с целью связать апостериорную вероятность дерева с правдоподобием данных и априорную вероятность дерева с эволюционной моделью. В отличие от методов НЭ и НП, которые выводят наилучшее дерево или набор деревьев, методы байесовского вывода выбирают деревья пропорционально их правдоподобию и определяют представительный набор деревьев. Метод хорошо работает для относительно небольших объемов данных, но непрактичен для больших.

Проверка точности филогенетических методов и достоверности деревьев

Модельные деревья

Филогенетические методы постоянно проверяются на искусственно смоделированных данных, для которых известна точная история эволюции. Методы сравниваются по критерию точности реконструкции топологии для искусственно построенных деревьев. Как правило, различные методы НП и байесовские методы превосходят все остальные для небольших наборов данных. Наилучшие результаты показывают итерационные методы, которые используют исходное дерево, построенное по методу НП, чтобы выравнивать данные, перестраивать дерево и повторять так до сходимости.

Бутстреппинг

Наиболее часто используемый тест на надежность топологии филогенетического дерева, при котором рассматриваются выборки данных (колонки выравнивания) и дерево оценивается по большому числу выборок. Процент выборок (то есть репликаций), в которых реконструируется данный узел дерева, называют уровнем поддержки. Статистика бутстреппинга еще не полностью разработана, поэтому пороговые значения для «достаточно высокого» уровня поддержки определяются путем моделирования или эмпирического анализа и могут варьировать в зависимости от целей конкретного исследования (например, значения более 90 процентов, или более 70 процентов; поддержка ниже 50 процентов обычно не считается надежной).

Статистические критерии проверки филогенетических гипотез (топологий деревьев)

Для сравнения правдоподобия различных топологий деревьев, выводимых из одного и того же набора данных, разработаны статистические критерии, основанные на различных моделях правдоподобия (самые известные – критерий Кишино – Хасегавы и приблизительно несмещенный критерий).

Когда исследователь интересуется филогенетическим сродством конкретного таксона, соответствующая ветвь переносится в различные положения в дереве, при сохранении топологии остальных ветвей, и правдоподобие каждого из полученных деревьев сравнивается при помощи статистических критериев с правдоподобием исходного дерева, полученного методом НП. Разновидность этого критерия применяется к деревьям с ограничениями, используемым для проверки филогенетических гипотез, таких как монофилия определенной группы (например, архей) в определенном наборе данных. В этом случае сравнивается правдоподобие дерева с ограничениями (монофилия в данном примере) с правдоподобием исходного НП-дерева.

Часто встречающиеся аномалии филогенетического анализа

Ни один филогенетический метод не застрахован от аномалий, которые часто оказывают заметное влияние на топологию дерева. Двумя основными классами филогенетических аномалий являются гомоплазия и притяжение длинных ветвей (ПДВ). Гомоплазия включает в себя параллельные, сходящиеся и обратные мутации, которые филогенетически не информативны и неверно истолковываются филогенетическими методами. ПДВ называется чрезвычайно распространенный случай, когда длинные ветви (быстро эволюционирующие линии) в дереве кластеризуются вместе только потому, что ни одна из них не проявляет сродства к другим группам, а не потому, что они на самом деле образуют монофилетическую группу. Филогенетики также иногда говорят о притяжении коротких ветвей, то есть ошибочной кластеризации коротких ветвей дерева. Разработка новых методов филогенетического анализа в большой степени побуждается необходимостью преодолеть эти аномалии, сохраняя притом вычислительный метод приемлемым с практической точки зрения.

Общие производные признаки

Важным подходом филогенетического анализа, дополняющим традиционные молекулярные филогенетические методы, является анализ общих производных признаков (так называемых синапоморфий), которые могут быть использованы для разграничения монофилетических групп (клад). Синапоморфии суть признаки, объединяющие всех членов монофилетической группы и исключающие все другие виды. В принципе одна достоверная синапоморфия может определять кладу. Однако это верно только в отсутствие гомоплазии, которую невозможно исключить для большинства признаков. Предполагаемые синапоморфии выбираются таким образом, чтобы свести вероятность гомоплазии к минимуму, например уникальные вставки в консервативных генах, в частности вставки мобильных элементов, мутации, которые требуют нескольких нуклеотидных замен, и слияния генов. В филогеномике идет активный поиск подобных редких геномных изменений. Одних синапоморфий часто недостаточно для несомненных филогенетических выводов, но они предоставляют дополнительные свидетельства для филогений, основанных на геномных последовательностях.

Деревья, не основанные на геномных последовательностях

Филогенетические методы пригодны не только для выравнивания гомологичных последовательностей, но и для анализа дистанционных матриц, полученных полногеномным сравнением любого числа других признаков (таких как содержание общих генов или оперонная организация). Например, в случае содержания общих генов расстояние между двумя геномами определяется как D_ij = n_ij/n_i, где n_ij – число генов, общих для двух геномов, а n_i – полное число генов в меньшем геноме. Геномные деревья, полученные этим методом, обычно не являются надежными филогениями из-за обширной гомоплазии. Однако эти деревья могут быть информативными для сравнения образа жизни организмов.

Нейтральная теория молекулярной эволюции

Вероятно, важнейшим прорывом в эволюционной биологии после СТЭ стала нейтральная теория молекулярной эволюции. Как правило, ее связывают с именем Мото Кимуры (Kimura, 1983), хотя Джукс и Кинг одновременно и независимо развивали аналогичные идеи. Вначале нейтральная теория развивалась как логическое продолжение популяционно-генетических идей Райта, основанных на важности генетического дрейфа в эволюции. Согласно нейтральной теории, значительное большинство всех фиксируемых в процессе эволюции мутаций являются относительно нейтральными; таким образом, фиксация возникает на основе случайного дрейфа. Следствием этой теории, неоднократно подчеркиваемым Кимурой, является то, что геномная последовательность эволюционирует равномерно, как по часам (в подтверждение исходной гипотезы молекулярных часов Цукеркандля и Полинга), при этом полезные мутации, подверженные естественному отбору, настолько редки, что ими можно с успехом пренебречь в целях количественного описания эволюционного процесса. Естественно, нейтральная теория отнюдь не подразумевает, что естественный отбор не важен для эволюции. На самом деле теория подчеркивает, что доминирующим способом отбора является не дарвиновский позитивный отбор на основе адаптивных мутаций, а отсекающий (очищающий) отбор, который удаляет вредные мутации, в то же время допуская фиксацию нейтральных мутаций путем генетического дрейфа.

Последующие исследования довели эту теорию до более реалистичной формы: чтобы зафиксироваться, мутация должна быть не в буквальном смысле нейтральной, а всего лишь достаточно мало вредной, чтобы избежать немедленного удаления отсекающим отбором. Современная теория «почти нейтральных» мутаций была разработана в первую очередь Томоко Отой (Ohta, 2002). То, какие мутации распознаются как вредные при вычищении отбором, в большой степени зависит от величины популяции: в небольших популяциях в ходе генного дрейфа могут зафиксироваться даже существенно вредные мутации, тогда как в больших популяциях даже малого негативного эффекта будет достаточно для удаления мутантной аллели (см. табл. 1–1).

Главной эмпирической проверкой теории (почти) нейтральных мутаций является измерение постоянства скорости эволюционного процесса в семействах генов. Несмотря на то что зачастую можно наблюдать значительную дисперсию молекулярных часов, такие измерения с уверенностью показывают, что доля нейтральных мутаций среди зафиксированных и в самом деле весьма существенна (Bromham and Penny, 2003; Novichkov et al., 2004). Теория почти нейтральных мутаций является значительным отступлением от селекционистской парадигмы СТЭ, поскольку однозначно утверждает, что большинство мутаций, зафиксированных в ходе эволюции, не подвержены дарвиновскому (позитивному) отбору. Хотя Дарвин и предвидел нейтралистскую парадигму, утверждая, что для целей классификации лучше всего подходят селективно нейтральные характеристики, однако он не развил эту прозорливую идею, и она, таким образом, не стала частью СТЭ.

Важно отметить, что в ходе последующего развития «нейтральной» теории Кимура, Ота и другие осознали, что те мутации, которые были почти нейтральными во время их фиксации, не были в то же время не важными для эволюции. Напротив, такие мутации составили резервуар вариаций (почти нейтральную сеть аллелей), который может использоваться естественным отбором в свете меняющихся условий среды, – феномен, важный как для микро-, так и для макроэволюции (Kimura, 1991). Эта идея стала ключевой для некоторых позднейших открытий в эволюционной теории, мы обсудим ее более детально позднее в этой книге (в частности, в гл. 8 и 9).

Измерение естественного отбора сравнением последовательностей ДНК

Несмотря на всю свою важность, дарвиновский естественный отбор является концепцией, определенной в качественных терминах. В рамках же популяционной генетики и СТЭ отсекающий и положительный отбор оказались более конкретными и математически определенными. В описании СТЭ отбор скорее можно приравнять к силе в классической механике или потоку в классической термодинамике, то есть к феноменологически определяемому количеству. С появлением сравнения последовательностей ДНК стало возможно обнаруживать и измерять отбор в определенных механистических терминах, базируясь на подсчете различных типов замещений нуклеотидов. Для измерения отбора путем сравнения последовательностей используются две очень простые идеи (см. табл. 2–2). Эти два подхода имеют в своей основе очень много общего, поскольку оба определяют два класса сайтов, один из которых принимается в качестве фона нейтральной эволюции. Первый метод заключается в сравнении числа замен нуклеотидов в позициях, важных с точки зрения кодирования аминокислот (несинонимичные позиции), и в позициях, которые, из-за избыточности генетического кода, не имеют значения для кодирования белков (синонимичные замены). Если отношение скоростей несинонимичных и синонимичных замен (Ka/Ks, см. табл. 2–2) значительно ниже 1, то эволюция соответствующего гена в основном определяется отсекающим отбором, направленным на данную последовательность белка; напротив, в случае Ka/Ks > 1 эволюция определяется в основном положительным дарвиновским отбором (см. табл. 2–2). Второй, более точный подход использует так называемый критерий Макдональда – Крейтмана для измерения отбора, при котором соотношение Ka/Ks сравнивается для внутривидовых вариантов (полиморфизмы) и межвидовых вариантов (фиксированные мутации). Поскольку незафиксированные полиморфизмы в основном нейтральны, то межвидовое отношение Ka/Ks должно быть значительно меньше, чем Ka/Ks для полиморфизмов в случае отсекающего отбора, и значительно больше, чем значение для полиморфизмов в случае положительного отбора.

Таблица 2–2. Измерение отбора путем анализа последовательностей белок-кодирующих генов (Hurst, 2002; Li, 1997)

Белок-кодирующие последовательности состоят из двух видов сайтов:

• синонимичные, в которых замены не влияют на последовательность кодируемых аминокислот;

• несинонимичные, в которых замены ведут к заменам аминокислот.

Отношение Ka/Ks (где Ka – частота несинонимичных замен, Ks – синонимичных; обе вычисляются с коррекцией на множественные замены) является количественной мерой отбора, действующего на уровне белковых последовательностей.

Ka/Ks = 1 – нейтральная эволюция белковой последовательности (кодируемый белок не подвергается отбору).

Для большинства белок-кодирующих генов Ka/Ks << 1 – отсекающий отбор.

Для прокариот типично Ka/Ks < 0,1.

Для эукариот типично Ka/Ks ? 0,1–0,2.

• Ka/Ks > 1 – положительный отбор; достаточно редко встречается для белок-кодирующих генов, но для некоторых категорий генов, несомненно, наличествует, например для генов, участвующих в антипаразитической защите или в сперматогенезе, а также в вирусных белках, таких как гемагглютинин вируса гриппа.

• Для измерения Ka/Ks для индивидуальных сайтов используют методы наибольшего правдоподобия; большинство белоккодирующих генов содержат несколько сайтов, подверженных положительному отбору.

• Использование Ka/Ks для измерения уровня отбора предполагает нейтральность синонимичных сайтов.

• Однако Ka и Ks положительно коррелируют между собой – таким образом, отбор затрагивает и синонимичные сайты.

• Некодирующие сайты, такие как интронные последовательности, могут использоваться как фон нейтральной эволюции при измерении отбора на синонимичных сайтах (Ks/Ki, где Ki – частота замен для интронных сайтов).

• Критерий Макдональда – Крейтмана (Aquadro, 1997; McDonald and Kreitman, 1991) широко используется для измерения отбора. Он сравнивает внутривидовые вариации (частота полиморфизма, P) с межвидовыми вариациями (дивергенция, D).

• Dn/Ds = Pn/Ps – нейтральная эволюция белковой последовательности.

• Dn/Ds < Pn/Ps – отсекающий отбор.

• Dn/Ds > Pn/Ps – положительный отбор.

Появление таких количественных подходов к анализу отбора примечательно не только благодаря их технической применимости в изучении эволюции: они также являются признаком фундаментальных изменений в способах осмысления отбора биологами. Дарвиновская качественная идея, которая была выражена в абстрактной математической форме Фишером и впервые измерена с использованием генетических методов Добржанским и его учениками, теперь превратилась в прямо измеряемую статистическую характеристику ансамблей нуклеотидных сайтов. Такая трансформация концепции отбора сродни тому, как классическая термодинамика с ее абстрактными потоками превратилась в статистическую физику Больцмана и Гиббса (см. гл. 4).

Эгоистичные гены, мусорная ДНК и мобильные элементы

Хоть это и редко утверждается без обиняков, классическая генетика предполагает, что почти все части генома (все нуклеотиды, если употреблять более современные, молекулярные термины) имеют определенные функции. Это неявно выраженное утверждение также важно и с точки зрения СТЭ, с ее панадаптационистским подходом. Однако это понимание подверглось сомнению еще в 1960-х и 1970-х годах по мере накопления данных об отсутствии прямой связи между размером генома и фенотипической сложностью организма. Даже с использованием приблизительных методов, доступных в то время, становилось ясно, что организмы с примерно одинаковым уровнем фенотипической сложности зачастую имеют геномы, на порядок различающиеся по размеру (так называемый парадокс гаплоидной величины). Этот парадокс был концептуально разрешен с помощью двух связанных друг с другом фундаментальных идей: эгоистичных генов и мусорной ДНК[21]. Концепция эгоистичных генов была предложена Ричардом Докинзом в одноименной книге, изданной в 1976 году (Dawkins, 2006). Резко отступив от организм-центричной парадигмы СТЭ, Докинз приходит к выводу, что естественный отбор может действовать не только на уровне организма в целом, но и на уровне индивидуального гена. Этот взгляд, поданный в умышленно провокационной манере, представляет геномы и организмы, по сути, средствами размножения генов.

Концепция эгоистичных генов породила множество важных выводов, и некоторые из них мы рассмотрим ниже в этой книге. Один из аспектов, имеющий непосредственное отношение к парадоксу гаплоидной величины, был всесторонне рассмотрен Фордом Дулиттлом и Кармен Сапиенцей (Doolittle and Sapienza, 1980), а также Лесли Оргелом и Фрэнсисом Криком (Orgel and Crick, 1980). Они предположили, что немалая или даже основная часть геномной ДНК (по крайней мере в сложных многоклеточных организмах) состоит из различных классов повторов, которые образуются в результате амплификации эгоистичных элементов – абсолютных паразитов, говоря хлестким языком Оргела и Крика. Другими словами, с точки зрения организма, большая часть геномной ДНК должна быть признана избыточной. Такой взгляд на геном в корне отличается от панселекционистской парадигмы, присущей СТЭ, в рамках которой большинство или даже все нуклеотиды в геноме подвержены влиянию отсекающего или положительного отбора, действующего на уровне организма.

Концептуально родственным важным открытием стало обнаружение транспозонов, или «прыгающих генов», сначала Барбарой Макклинток в 1940-х годах в растениях, а затем и в животных. Эти транспозоны стали затем известны как мобильные элементы (то есть генетические элементы, которые имеют тенденцию часто менять свое место в геноме; McClintock, 1984). Демонстрация вездесущности мобильных элементов привела к концепции высокодинамичных, постоянно меняющихся геномов задолго до рождения современной геномики[22].

Эволюция путем дупликации генов и геномов: ортологи и паралоги

СТЭ в полной мере унаследовала центральное положение дарвиновской теории, провозгласившей постепенные малые изменения единственно возможным материалом для эволюции. Однако эта концепция была поставлена под сомнение альтернативной концепцией эволюции дупликацией гена, разработанной Сусуму Оно в его классической книге 1970 года (Ohno, 1970). Мысль о том, что дупликация частей хромосом может служить одной из движущих сил эволюции, восходит к основателям современной количественной генетики, в частности к Фишеру и Холдейну[23]. Однако Оно первым предположил, что дупликация генов является основой эволюции геномов и организмов, и первым подвел качественную теорию под это положение. Начав с цитогенетических свидетельств полногеномной дупликации (ПГД) в начале эволюции хордовых, Оно выдвинул гипотезу о том, что дупликация генов является важным, если не единственным, путем эволюционии новых биологических функций. Согласно гипотезе Оно, дупликация гена высвобождает одну из копий от ограничений отсекающего отбора и, таким образом, эта копия получает потенциал развития новой функции (феномен, позднее названный неофункционализацией). Очевидно, что возникновение нового гена в результате дупликации, не говоря уже о дупликации геномного участка или ПГД, является огромным отличием от дарвиновских ничтожно малых изменений. Если такие крупные события в самом деле являются ключевыми для эволюции, то парадигма постепенных изменений в опасности. Позднейшие исследования дупликации генов, обсуждаемые далее в этой книге (см. гл. 8 и 9), привели к предположению о том, что неофункционализация вряд ли является основным путем эволюции дуплицированных генов. Однако факт остается фактом: дупликация, как важнейший механизм эволюции, бросает вызов градуализму.

Примерно в то же время, когда была издана книга Оно об эволюции путем дупликации генов, Уолтер Фитч опубликовал весьма плодотворную статью, всю значимость которой стало возможным оценить лишь в свете более поздних достижений геномики. Фитч исследовал понятие гомологии (общего предка) генов и провел различие между двумя классами гомологичных генов: ортологами и паралогами (Fitch, 1970). Ортологи – это гены, которые эволюционировали вертикально от одного предкового гена, принадлежащего общему предку сравниваемых организмов, тогда как паралоги – гены, эволюционировавшие в результате дупликации. Понятия ортологии и паралогии очевидным образом тесно связаны между собой и зависят от конкретной топологии филогенетического дерева данного семейства генов, так что дупликация в определенном узле дерева порождает новый набор паралогов в поддереве-потомке (подробнее см. в гл. 3). Более того, концептуальное определение паралогии осложнено специфичными для каждой линии эволюции потерей и горизонтальным переносом генов (см. гл. 5 и 7). Тем не менее, если не принимать во внимание эти осложнения, классификация гомологов Фитча остается центральной для эволюционной геномики[24].

Прерывистое равновесие и несостоятельность градуализма

Недостача межвидовых переходных форм в палеонтологической летописи – постоянная тема эволюционной биологии. Дарвин осознавал эту проблему и традиционно считал ее (так же как и палеонтологи, следующие дарвиновским традициям) следствием драматической неполноты этой летописи. Однако обширное накопление палеонтологических данных в XX веке мало помогло (если не сказать совершенно не помогло) в решении этой проблемы, что привело к возникновению иной точки зрения, сначала с появлением концепции квантовой эволюции Джорджа Гэйлорда Симпсона, затем оформившейся в концепцию прерывистого равновесия Стивена Джея Гулда и Нильса Элдриджа (Eldredge and Gould, 1997; Gould, 2002). Гулд и Элдридж собрали обширную доказательную базу, свидетельствующую о том, что история большинства видов животных, отраженная в палеонтологической летописи, соответствует в основном состоянию покоя – то есть, фактически, отсутствия изменений. Состояние покоя (стасис) перемежается «внезапным» исчезновением видов, последовательно замещаемых новыми. Следствием такой модели является очень быстрое в сравнении с продолжительностью стасиса видообразование; возникновение новых видов в определенной области является следствием миграции из области видообразования; градуалистское видообразование (постепенная трансформация видов в новые) – довольно редкий процесс. Такая модель прерывистого равновесия кажется применимой и к эволюции высших таксонов и зачастую обобщается до несостоятельности градуализма в целом, хотя правомерность такого вывода часто подвергается критике.

Пандативы, экзаптация, эволюция как ремесленник и ошибочность панглоссианской парадигмы эволюции

Пусть и неявно, но принципу градуализма был брошен вызов гипотезой Оно об эволюции генов и геномов путем дупликации, a затем, в явной форме, концепцией прерывистого равновесия. Адаптационистская программа эволюционной биологии подверглась решительной, сметающей все на своем пути атаке в статье 1979 года «Пандативы Святого Марка» Гулда и Левонтина (Gould and Lewontin, 1979), одной из самых необычных и влиятельных статей в истории биологии. Гулд и Левонтин саркастически описали адаптационистскую картину мира как панглоссианскую парадигму, названную так в честь примечательного персонажа вольтеровского «Кандида», который утверждал, что «все к лучшему в этом мире» [пер. Ф. Сологуба] (даже катастрофы). Гулд и Левонтин подчеркивали, что вместо того, чтобы стряпать на скорую руку «сказки просто так»[25] о правдоподобных адаптациях, эволюционным биологам следовало бы искать объяснение наблюдаемых черт организации биологических организмов исходя из плюралистского подхода, который принимает во внимание не только отбор, но также и внутренние ограничения, случайный дрейф и другие факторы. Метафора пандатива означает, что многие функционально важные элементы биологической организации вовсе не эволюционировали как специальные устройства для выполнения определенных функций, но скорее являются продуктами неадаптивных архитектурных ограничений, подобно пандативам (spandrels), появляющимся в арках соборов и других зданий исключительно вследствие требований конструкции, и могут использоваться для различных целей, например для украшения собора (см. рис. 2–2). Процессу использования пандативов в биологии было дано специальное название экзаптация, и Гулд провозгласил его важным путем эволюции (Gould, 1997a). Концепция пандативов связана с почти нейтральной теорией, но в каком-то смысле идет дальше и подходит ближе к сути эволюционного мышления, показывая, что даже те фенотипические черты, которые выглядят как типичные адаптации, не обязательно эволюционировали под давлением естественного отбора.

Рис. 2–2. Один из пандативов базилики Святого Марка в Венеции. Фото Марии Шнитцмейер, Викисклад.

В более ранней статье по сходной тематике Франсуа Жакоб (один из первооткрывателей регуляции генов и автор нескольких других плодотворных идей в бактериальной генетике, см. гл. 5) ввел метафору мастера-самоучки. Отталкиваясь прежде всего от сравнительного анализа механизмов развития, Жакоб положил в основу своих рассуждений, что эволюция действует не как инженер или дизайнер, а скорее как ремесленник-самоучка, причем чрезвычайно зависимый от предыдущего опыта при решении стоящих перед ним проблем: «Сложно проводить аналогии между естественным отбором и какими-то аспектами человеческого поведения. Однако если очень хочется поиграть в сравнения, то можно сказать, что естественный отбор работает не как изобретатель или инженер. Он работает как дилетант – мастер на все руки, который не знает точно, что он собирается создать, и при этом использует все, что подвернется под руку, будь то обрывки ниток, куски дерева или старые коробки; короче, он действует как тот мастеровой, который использует все, что есть в его распоряжении, чтобы сделать хоть что-то, лишь бы работало» (Jacob, 1977).

Ключевым выводом концепции ремесленника-самоучки становится то, что итоговый результат эволюции непредсказуем, или по крайней мере его невозможно предсказать, не зная в деталях всех предшествующих событий. Другими словами, если взять и «проиграть эволюционную пластинку заново» (любимая метафора Гулда) в некоем мысленном эксперименте, то результат будет отличен от того, что мы наблюдаем в реальности, возможно до неузнаваемости; мы вернемся к этому обсуждению позднее в этой книге (см. гл. 13).

Эволюция в мире микробов и вирусов и трехдоменное древо жизни

Вероятно, в ходе развития биологии наибольшее влияние на изменение представления об эволюции оказало распространение эволюционных исследований на мир микробов, а именно одноклеточных эукариот (протист), прокариот (бактерий и архей) и вирусов. Дарвиновское представление об эволюции и все достижения эволюционной биологии нескольких последующих десятилетий базировались исключительно на исследовании животных и растений, тогда как одноклеточные эукариоты (протисты) и бактерии (монеры) были сугубо номинально размещены у корня древа жизни Эрнстом Геккелем и его последователями. Хотя к 1950-м годам генетический анализ бактериофагов и бактерий продвинулся настолько, что стало очевидным, что эти формы жизни обладают эволюционирующими геномами, СТЭ не принимала во внимание эти открытия. То, что бактерии (не говоря уже о вирусах) эволюционируют по тому же самому принципу и с использованием тех же механизмов, что и животные и растения, отнюдь не очевидно, учитывая все их разительные биологические отличия от многоклеточных организмов, и в особенности из-за отсутствия у них типичного полового размножения и репродуктивной изоляции, ключевых для видообразования среди животных и растений.

Фактически прокариоты стали «видны» эволюционным биологам в 1977 году, после выхода революционной работы Вёзе и его коллег по филогенезу рРНК (Woese, 1987)[26]. Рассмотренное в общем контексте, открытие Вёзе является эпохально важным и, возможно, даже заслуживает сравнения с открытием структуры ДНК. Вёзе установил, что в одной молекулярной структуре, а именно последовательности нуклеотидов рРНК, выявляется очевидная консервативность во всем диапазоне клеточных форм жизни. Кроме того, чрезвычайно информативным оказался и филогенетический анализ этой универсальной консервативной молекулы: он показал, что рРНК, в некотором приближении, эволюционирует с постоянной скоростью, то есть подчиняется модели молекулярных часов. Это привело к еще одному важному открытию, ставшему одним из символов эволюционной биологии конца ХХ века, – трехдоменному древу жизни (см. рис. 2–3; Woese et al., 1990). Тремя доменами являются бактерии, археи и эукариоты. Домен архей был открыт Джорджем Фоксом и Вёзе сравнительным анализом рРНК, когда в новой группе ничем, казалось бы, не примечательных «бактерий» обнаружились существенные отличия как от остальных бактерий, так и от более сложных эукариотических организмов. В дополнение к разграничению трех доменов, Вёзе и его коллеги использовали филогенетический анализ рРНК для идентификации нескольких основных ветвей архей и бактерий (Woese, 1987). Из этого следовало, что эволюция прокариот столь же доступна для изучения, как эволюция сложных эукариот, – концепция, чуждая микробиологам до работы Вёзе (Stanier and Van Niel, 1962). Благодаря достижениям Вёзе, его сотрудников и последователей появилась все усиливающаяся тенденция приравнивать филогенетическое древо рРНК, с его трехдоменной структурой, к древу жизни Дарвина и Геккеля (Pace, 2009а, 2006). В течение нескольких лет после публикации открытий Вёзе стало ясно, что топологически древо рРНК (по крайней мере, в своих основных чертах) конгруэнтно деревьям некоторых из самых консервативных белков, таких как рибосомные белки, факторы трансляции, субъ единицы ДНК-зависимой РНК-полимеразы и мембранные АТФазы.

Рис. 2–3. Трехдоменное древо жизни Вёзе.

Две группы исследователей независимо друг от друга пришли к блестящей идее о том, как определить положение корня в эволюционном дереве, которое до этого было бескорневым (рис. 2–3). Для этой цели можно использовать древние паралоги, которые представлены в (почти) всех организмах и, таким образом, можно с уверенностью заключить, возникли в результате дупликации, предшествующей последнему общему предку всех живых организмов (LUCA). Когда дерево строится совместно для двух паралогичных множеств древних ортологов, положение корня между ними определено однозначно, и таким образом корень может быть выведен для каждого из множеств ортологов (см. рис. 2–4; Gogarten et al., 1989; Iwabe et al., 1989). Результаты анализа двух пар древних паралогов, факторов трансляции и субъединиц мембранных АТФаз были полностью совместимы и поместили корень на бактериальную ветвь, установив таким образом кладу архей-эукариотов (см. рис. 2–4). Тем не менее даже в догеномную эпоху было ясно, что не все деревья белок-кодирующих генов имеют ту же топологию, что и дерево рРНК; причины этих отличий оставались неясными и, как предполагалось, включали (за исключением артефактов метода) горизонтальный перенос генов (ГПГ. Smith et al., 1992). Эти расхождения оставались лишь интересным дополнением к трехдоменному ДЖ, но все резко изменилось с наступлением эры геномики.

Рис. 2–4. Определение положения корня в трехдоменном древе жизни с помощью древних паралогов. Схематически показаны филогенетические деревья двух широко распространенных факторов инициации трансляции EF-Tu и EF-G, реконструированные независимо (верхние диаграммы) и совместно (нижняя диаграмма). Кружками обозначено вычисленное положение корня в каждом из двух деревьев.

Вирусы и рождение эволюционной геномики

Эволюционная геномика родилась более чем за десять лет до исторического заявления о секвенировании первого бактериального генома. С меньшей помпой (но и не в безвестности) было секвенировано несколько небольших (в рамках 4—100 Кб) различных вирусных геномов, и были разработаны принципы сравнения геномов, наряду с практическими вычислительными методами. Вирусы являются облигатными внутриклеточными паразитами, и вирусные геномы намного меньше и качественно отличаются от геномов клеточных форм жизни. Вирусы обычно не лишены некоторых классов генов, вездесущих и незаменимых в клеточных организмах, таких как гены компонентов системы трансляции и биогенеза мембран. Тем не менее вирусы следуют своей собственной «биологической стратегии» и кодируют все субъединицы вириона, а также по крайней мере некоторые белки, участвующие в репликации вирусного генома. (Одна из центральных тем этой книги – ключевая роль вирусов в эволюции биосферы, так что я возвращаюсь к ней достаточно подробно в гл. 10[27].) Несмотря на быструю эволюцию последовательности генома, характерную для вирусов (в особенности вирусов с РНК-геномом), эти ранние сравнительные геномные исследования успешно выявили множества генов, консервативных в больших группах вирусов (Koonin and Dolja, 1993). Возможность структурного и функционального картирования всего генома определенной формы жизни была реализована в этих исследованиях впервые, и это стало краеугольным камнем эволюционной геномики. Кроме того, было сделано непредвиденное и важное обобщение: в то время как некоторые гены консервативны для удивительно обширного разнообразия вирусов, архитектура генома, структура вириона и биологические свойства вирусов демонстрируют гораздо большую пластичность (см. гл. 5 и 10, где этот вопрос обсуждается подробнее).

Эндосимбиоз

Гипотеза о том, что некоторые органеллы эукариотических клеток, в частности хлоропласты растений, произошли от бактерий, не намного моложе «Происхождения…» Дарвина: некоторые исследователи высказали эту идею в конце XIX века на основе микроскопического исследования клеток растений, показавшего заметное структурное сходство между хлоропластами и цианобактериями (известными тогда как сине-зеленые водоросли). Концепция симбиогенетической эволюции была последовательно представлена Константином Мережковским в начале XX века[28]. Тем не менее в течение первых двух третей ХХ века гипотеза эндосимбиоза оставалась маргинальным теоретизированием. Такое восприятие изменилось вскоре после появления в 1967 году революционной статьи Линн Саган (Маргулис), где она обобщила данные о сходстве органелл и бактерий, и в особенности о совершенно неожиданно открытых незадолго до того геномах и системах трансляции органелл. Саган сделала вывод, что не только хлоропласты, но и митохондрии произошли от эндосимбиотических бактерий (Sagan, 1967). Последующие исследования, и в особенности филогенетический анализ как генов, содержащихся в митохондриальном геноме, так и генов, кодирующих белки, которые функционируют в митохондриях и, видимо, были перенесены из митохондриального в ядерный геном, превратили гипотезу эндосимбиоза в устоявшуюся концепцию с чрезвычайно прочными эмпирическими основаниями (Lang et al., 1999). Кроме того, эти филогенетические исследования убедительно продемонстрировали происхождение митохондрий от определенной группы бактерий, ?-протеобактерий. Фундаментальная роль в эволюции, которая отводится уникальным (или крайне редким) событиям, таким как эндосимбиоз, не совместима ни с градуализмом, ни с униформизмом, и является одной из основных тем в остальной части этой книги, в частности в главах 7 и 12.

Канализация и устойчивость в эволюции

Выдающийся эволюционный генетик Конрад Уоддингтон выдвинул неортодоксальную идею канализации развития, которая является частью его общей концепции эпигенетического ландшафта[29]. Эпигенетический ландшафт – это отображение решений, принимаемых развивающимся эмбрионом, так что развитие происходит за счет движения вдоль долин, по которым проходят группы сходных траекторий. Таким образом, относительно небольшие возмущения, вызванные либо факторами окружающей среды, либо мутациями, не влияют на развитие, то есть биологические системы существенно устойчивы. Согласно концепции Уоддингтона, эта устойчивость является эволюционировавшим, адаптивным свойством биологических систем. Внешнее давление может нарушить канализацию и обнаружить скрытую изменчивость, увеличивая тем самым эволюционный потенциал популяции (Waddington and Robertson, 1966). Во времена Уоддингтона эти идеи были за пределами главного русла эволюционной биологии, но в новой концепции эволюции надежность и эволюционный потенциал занимают центральное место, как обсуждается в главе 9.

Краткий обзор и перспектива

Вскоре после того, как была создана СТЭ, в эволюционной биологии произошли разительные перемены: эволюцию стало возможно проследить непосредственно к ее основе, эволюционирующему геному. На самом глубоком концептуальном уровне эволюция путем естественного отбора и дрейфа является неизбежным следствием подверженной ошибкам репликации генетической информации, кодируемой по цифровому принципу. Эволюция перестала быть несколько абстрактным процессом накопления мутаций, наблюдаемых лишь косвенно через их фенотипический эффект. Напротив, эволюция в настоящее время рассматривается как накопление конкретных изменений различного рода, больших и малых, выявляемых прямым сравнением все более доступных генных и геномных последовательностей. Наличие градиента дивергенции последовательностей от близкородственных к далеким видам само по себе является лучшим доказательством эволюции. Эта тенденция воплощается в теории (почти) нейтральной молекулярной эволюции и, на более практическом уровне, позволяет строить осмысленные филогенетические деревья. Молекулярная филогенетика достигла высшей точки с построением трехдоменного древа жизни, первоначально обнаруженного через филогении рРНК, а затем поддержанного филогениями многих белков. Анализ древних паралогов поместил корень на бактериальную ветвь трехдоменного ДЖ. Тем не менее первые выявленные расхождения между топологиями деревьев отдельных генов подсказали, что дерево рРНК не сможет рассказать всей истории эволюции жизни.

Сравнение первых секвенированных геномных последовательностей небольших вирусов положило начало эволюционной геномике. Стало ясно, что с помощью сравнительного анализа могут быть построены структурные и функциональные карты геномов, которые нельзя было охарактеризовать никаким иным способом, и что поразительная консервативность ключевых генов идет рука об руку с пластичностью архитектуры генома.

Одновременно с завершением развития СТЭ на заре молекулярной эволюции и молекулярной филогенетики эволюционная биология догеномной эпохи включала несколько концепций, таких как пандативы и канализация, выходящих за рамки неодарвинизма. В результате быстрый расцвет геномики в 1990-х годах происходил на фоне сложного, разнообразного ландшафта эволюционной теории и методологии.

Глава 3. Сравнительная геномика: эволюционирующие геномные ландшафты

Важность перехода к геномике

В догеномную эру были установлены фундаментальные принципы молекулярной эволюции и было сделано немало конкретных наблюдений, имеющих большое значение и повлиявших на основы эволюционной биологии (см. гл. 1 и 2). Но масштабные работы по расшифровке геномов, начавшиеся в середине 90-х и стремительно развивавшиеся в новом тысячелетии, качественно изменили всю эволюционную биологию. Важность обширной базы данных геномных последовательностей, имеющих различную степень расхождения, очевидна. Этот материал дает исследователям возможность изучать механизмы и отдельные события эволюции с необходимой статистической точностью и выявлять даже самые малозаметные эволюционные подвижки. Как бы то ни было, в эволюционной биологии получение разнообразных и полных геномных последовательностей чрезвычайно важно далеко не только ради накопления количества данных. Действительно, лишь полностью расшифрованный геном (в отличие от, скажем, расшифрованного лишь на 95 процентов) дает исследователю объективное и непредвзятое представление о генном репертуаре той или иной формы жизни. Иными словами, исследователь может определить присутствие в организме тех или иных генов и, что одинаково важно, их отсутствие. Таким образом, сравнение полных геномов представляет собой единственный удовлетворяющий исследователя путь к реконструкции эволюции. Открывающаяся картина во многом отличается от всего, что можно было себе представить, оставаясь в рамках традиционной эволюционной биологии.

Если мы действительно стремимся «понять» эволюцию, принципиально важно исследовать геномные образцы как вглубь (для этого необходимы геномные последовательности множества близкородственных представителей одного и того же таксона), так и вширь (для этой цели нужны последовательности как можно большего числа различных таксонов – в идеале всех таксонов). Ко времени написания этих строк, в последние дни 2010 года, собрание секвенированных геномов состояло из нескольких тысяч геномов вирусов, более чем тысячи геномов бактерий и архей, а также приблизительно сотни геномов эукариот. Ко времени издания этой книги геномная база данных почти удвоится, а благодаря новому поколению методов секвенирования в предстоящие годы ее темпы роста должны еще более ускориться[30]. Несмотря на то что не все основные таксоны должным образом охвачены, быстро пополняющееся собрание геномов все более отвечает потребностям исследований как в области микроэволюции, так и в области макроэволюции.

Успехи традиционной геномики дополняют и стремительно накапливающиеся в последнее время, обширные по объему данные по метагеномике – а именно всеобъемлющее (или, по меньшей мере, обширное) секвенирование нуклеиновых кислот форм жизни из разнообразных сред обитания. Хотя применяемые в настоящее время в метагеномике подходы обычно не обеспечивают полную расшифровку геномов, они предоставляют бесценную, объективную информацию о разнообразии жизни в различных средах.

В данной главе представлен обзор разнообразия и основных характеристик геномов. В последующих главах подробно исследуется влияние результатов сравнительных геномных исследований на развитие «постсовременной» синтетической теории эволюционной биологии.

Эволюция геномных ландшафтов

Поразительное разнообразие геномов

Геном стал первым термином с окончанием «-ом» – и до сих пор является наиболее употребительным термином этой группы[31]. Как это всегда бывает в биологии, определить, что же такое геном, нелегко. Говоря просто, геном – это генетическая информация конкретного организма во всей ее полноте. Существование стабильного ядра унаследованной генетической информации (а более конкретно, генов) вытекает из самого факта существования надежной наследственности, а в терминах более фундаментальных – из принципа подверженной ошибкам репликации (ПОР, см. гл. 2). Однако связь между «генетической информацией во всей ее полноте» и «стабильным ядром» не так уж проста. Стоит, к примеру, задать на первый взгляд невинный вопрос: «Что есть геном кишечной палочки Escherichia coli?» – как тут же возникает целый ряд серьезных затруднений. А вопрос «Что такое геном человека?» вызывает свои, не менее сложные проблемы. Вернемся мы к этому обсуждению позднее (см. гл. 5), а сейчас рассмотрим многообразие геномов, расшифрованных за последние 15 лет.

Новая эра геномики наступила на исходе лета 1995 года. Тогда лаборатория Дж. Крейга Вентера опубликовала результаты секвенирования генома условно-патогенной бактерии гемофильного гриппа Haemophilus influenzae (Fleischmann et al., 1995). В процессе расшифровки геномной последовательности H. influenzae Вентер, Гамильтон Смит и их коллеги усовершенствовали так называемый «метод дробовика». Этот подход грубого деления генома на короткие произвольные участки с расшифровкой их по частям и последующим восстановлением полной геномной последовательности быстро превратил секвенирование длинных нуклеотидных цепочек в рутинное дело. В течение года были расшифрованы геномы некоторых других бактерий, первый геном археи (Methanocaldococcus jannaschii) и первый геном эукариота (пекарские дрожжи Saccharomyces cerevisiae) (Koonin et al., 1996). К 1999 году установился стабильный экспоненциальный рост коллекции секвенированных геномов (см. рис. 3–1).

В диапазоне от вирусов до животных геномы различаются по размеру на шесть порядков – от нескольких тысяч до нескольких миллиардов нуклеотидов; для клеточных организмов, исключая вирусы, ширина диапазона составляет четыре порядка (см. рис. 3–2). По количеству генов диапазон значительно уже и составляет всего около четырех порядков, от двух-трех генов у простейших вирусов до приблизительно 40 тысяч генов у некоторых животных. Если же исключить вирусы и паразитические (симбиотические) бактерии, диапазон по числу генов становится довольно узким, немногим более одного порядка (см. рис. 3–2; Koonin, 2009a; Lynch, 2007c). Кажется весьма удивительным, что млекопитающие или цветковые растения имеют всего примерно в десять раз больше (легко идентифицируемых) генов, чем какая-нибудь средняя свободно живущая бактерия, и лишь примерно в два раза больше, чем бактерия из разряда наиболее сложных (см. рис. 3–2). Далее в книге рассматриваются всевозможные объяснения этих явных ограничений по числу генов в геномах всех форм жизни (см. гл. 5, 7 и 10).

Рис. 3–1. Экспоненциальный рост коллекции секвенированных геномов. Данные с веб-сайта Национального центра биотехнологической информации (www.ncbi.nlm.nih.gov/genome/)

Рис. 3–2. Общий размер геномов и число генов у вирусов, бактерий, архей и эукариот. Данные с веб-сайта Национального центра биотехнологической информации. Представлено в двойном логарифмическом масштабе. Стрелка указывает на точку изменения наклона кривой, соответствующую переходу от «малых» к «большим» геномам.

Грубо говоря, геномы могут быть разделены на два четко выделенных класса (Koonin, 2009а). Граница, разделяющая эти классы, находится в точке изменения наклона кривой на графике, представленном на рис. 3–2.

1. Геномы со строгим соответствием между размером генома и числом генов. К ним относятся геномы всех вирусов и прокариот, имеющие огромную плотность генов от 0,5 до 2 генов на тысячу пар оснований и очень короткие участки между генами (10–15 процентов длины генома и даже меньше), состоящие главным образом из регуляторных элементов. Иногда, говоря о таких геномах, вспоминают ковер «от стены к стене» (wall to wall genomes)[32], так как они почти полностью состоят из легко определяемых генов. Геномы большинства одноклеточных эукариот демонстрируют несколько меньшую зависимость между размером генома и числом генов, чем геномы вирусов и прокариот, тем не менее они могут быть отнесены к этому же классу.

2. Геномы, у которых нет четкой взаимосвязи между размером генома и числом генов, в частности большие геномы многоклеточных и некоторых одноклеточных эукариот. Здесь в лучшем случае наблюдается слабая корреляция между общим размером генома и числом генов. Соответственно, доля генома, занимаемая межгенными участками (а также другими некодирующими последовательностями, такими как интроны), сильно варьирует. В некоторых наиболее сложных геномах, в частности у млекопитающих, основную часть генома составляют именно некодирующие последовательности.

Вариабельность размеров генома и числа генов дополняется разнообразием в других измерениях – например, в физической организации и композиции нуклеотидов. При рассмотрении как вирусной, так и клеточной формы жизни геномы предстают во всевозможных формах нуклеиновых кислот (подробнее см. в гл. 10). Все геномы клеточных организмов состоят из двухцепочечных ДНК, однако количество геномных сегментов (хромосом) и их размеры, форма (кольцевая или линейная), а также плоидность (число наборов) широко разнятся. Азбучная истина гласит, что прокариоты имеют гаплоидные, простые кольцевые хромосомы, в то время как у геномов эукариот, сильно различающихся по плоидности, гены распределены между множеством линейных хромосом. И хотя такие геномные формы, по-видимому, действительно доминируют, на самом деле разнообразие геномов выходит далеко за рамки такого простого дихотомического разделения. В частности, у многих прокариот имеется несколько хромосом, в отдельных случаях – линейных. Более того, вопреки распространенному заблуждению, у прокариот большинство клеток не гаплоидные, то есть они содержат несколько копий генома.

Древние гены составляют в геноме большинство и имеют отчетливую эволюционную судьбу

Как уже упоминалось в предыдущей главе, Эрнст Майр, великий эволюционист XX века и один из основателей СТЭ, с уверенностью предсказывал исходя из больших фенотипических различий между организмами, что гены разных организмов, даже близкородственных, не будут иметь узнаваемого сходства. Ошибочность этого предсказания оказалась просто феерической, что само по себе делает его нетривиальным и ценным. Сравнение последовательностей даже в догеномный период выявило высокий консерватизм последовательностей у некоторых гомологичных белков и молекул некодирующих РНК по всему спектру жизни, от бактерий до млекопитающих (см. предыдущую главу). Более того, высокая степень сходства последовательностей существует у древних паралогов, которые, по-видимому, происходят от копий, ведущих свое происхождение от LUCA (Gogarten et al., 1989; Iwabe et al., 1989). Геномика позволяет перевести это общее понимание в количественное разбиение генов любого генома на классы эволюционной консервативности (см. рис. 3–3; Koonin and Wolf, 2008b).

Ключевое открытие сравнительной геномики состоит в том, что большинство генов в каждом геноме могут считаться высококонсервативными – они имеют легко обнаруживаемые гомологи в организмах, разделяемых сотнями миллионов лет эволюции (например, в случае генов человека, на уровне общего предка позвоночных; см. рис. 3–3; Wolf et al., 2009). Это открытие демонстрирует поразительную устойчивость последовательностей РНК и белков в процессе эволюции: типичное время исчезновения сходства последовательностей у гомологичных генов сравнимо со временем существования жизни на Земле. Помимо основополагающего значения, данный факт имеет огромные практические последствия: благодаря ему, прежде всего, сравнительная геномика становится крайне информативной и действенной.

Рис. 3–3. Распределение генов по эволюционному возрасту. «Эволюционный возраст» соответствует самому старому таксономическому узлу, в котором могут быть определены гомологи для белка, производимого данным геном. В частности, для человека древние всеобщие означает «гомологи, обнаруживаемые у прокариот», древние эукариотические означает «гомологи, обнаруживаемые у прокариот вне супергруппы униконтов» (см. гл. 7), царство и тип означает «гомологи, обнаруживаемые у животных вне класса млекопитающих», а класс и моложе означает «вне класса млекопитающих гомологи не обнаружены» (данные по Wolf et al., 2009)

Структуру эволюционного процесса определяют не только консервативные последовательности. На протяжении чрезвычайно длительных эволюционных периодов не просто сохраняется сходство последовательностей РНК и белков, но и гены имеют свойство сохранять свою уникальность. Иными словами, большинство генов развиваются как ортологичные линии, с редкими случаями дупликации (Koonin, 2005). Устойчивость ортологии генов становится очевидной благодаря простой процедуре, широко применяемой в сравнительной геномике и позволяющей эффективно выявлять ортологичные наборы генов. При этом ортологи обнаруживаются как «наилучшие совпадения при двунаправленном сравнении» (bidirectional best hits): все закодированные в геноме белковые последовательности сравниваются со всеми белками, закодированными в другом геноме, a затем процедура повторяется в обратном направлении (Tatusov et al., 1997). Пары генов, дающие наилучшие совпадения (те, которые демонстрируют наибольшее сходство последовательностей) при обоих направлениях сравнения, считаются возможными ортологами; нетрудно применить эту процедуру к нескольким видам путем совмещения треугольников двунаправленных совпадений, имеющих общую сторону (см. табл. 3–1). Примечательно, что такой прямолинейный подход в большинстве случаев хорошо срабатывает: к примеру, порядка 70 процентов генов организмов, разделенных приблизительно 100 миллионами лет эволюции, таких как люди и мыши, легко идентифицируются как ортологи при помощи описанной процедуры (Wolf et al., 2009). Если применить простую модификацию этого алгоритма и включить дупликации генов, характерных для одной линии наследования (дупликации, образовавшиеся после расхождения сравниваемых видов), такой подход позволяет идентифицировать наборы ортологов (известных как кластеры ортологичных генов, КОГ) во многих геномах, в том числе столь удаленных друг от друга, как археи и бактерии – представители двух доменов прокариот (см. гл. 5). Более точные и мощные способы обнаружения ортологов требуют подробного анализа филогенетических деревьев (см. табл. 3–1); впрочем, результаты такого анализа обычно близки к тем, что дают более простые методы, основанные только на сравнении последовательностей. Разумеется, для части генов история дупликаций и потерь настолько сложна, что обнаружить КОГ трудно, поэтому они становятся нечеткими кластерами с неопределенной внутренней структурой. По счастью, этих «трудных» генов в каждом геноме относительно немного.

Таблица 3–1. Классификация гомологичных связей генов: ортологи, паралоги и методы их определения.

Эволюционные связи генов:

• Гомология: гены, имеющие общее происхождение.

• Ортология: гомологичные гены, эволюционировавшие путем видообразования.

• Паралогия: гомологичные гены, эволюционировавшие путем дупликации.

• Ксенология: гомологичные гены, имитирующие ортологи, но образовавшиеся в результате горизонтального переноса гена из другой ветви.

• Паралогия, внутренняя и внешняя: паралогичные гены, возникшие в результате видоспецифической дупликации после (внутренняя) или до (внешняя) определенного события видообразования.

• Со-ортология: внутренне-паралогичные гены, совокупно ортологичные по отношению к генам другой ветви (из-за их общего происхождения в ходе видообразования).

• Ортологичная группа (КОГ): совокупность всех потомков данного предкового гена.

Изначально не вполне складная аббревиатура КОГ относилась к кластерам ортологичных групп (белков), чтобы обозначать соортологичные связи, вызванные дупликацией генов (см. табл. 3–1; Tatusov et al., 1997). Сейчас я предпочитаю расшифровывать КОГ просто как кластеры ортологичных генов, однако само по себе это сокращение остается чрезвычайно удобным для обозначения фундаментального свойства таких кластеров. Эта трехбуквенная аббревиатура широко используется в литературе, и я использую ее в данной книге в качестве сокращенного названия наборов ортологичных генов. Обычно каждый секвенированный геном более чем на 70 процентов состоит из генов, относящихся к КОГ (см. рис. 3–4). В эволюции генома, к которой мы обращаемся в этой книге неоднократно, эта величина представляется важной. Таким образом, существенное большинство генов в каждом геноме весьма консервативно, то есть представлено ортологами во многих далеко отстоящих друг от друга организмах.

Мультидоменные белки и сложность связей ортологов

В этой главе основной упор делается на рассмотрении взаимосвязи между стабильностью и изменчивостью в ходе эволюции. В настоящем разделе мы сосредоточим внимание на отдельных элементах белковой структуры, доменах и мультидоменной организации многих белков (Doolittle, 1995). Таким образом, мы заглянем по другую сторону генной эволюции, которая противостоит стабильности ортологичных линий, отмеченной ранее, и дополняет ее. Домен – центральное понятие в исследовании белков, и определение ему можно дать по меньшей мере на двух уровнях. По первому определению, домены представляют собой компактные элементы белковой структуры с характерными размерами около ста аминокислотных остатков. В этой главе нас интересуют родственные связи геномов, в частности ортология, поэтому необходимости рассматривать структурные элементы нет. Второе определение доменов относится к компактным единицам эволюции, которые могут охватывать один или несколько структурных элементов; здесь нас интересуют именно такие эволюционные домены.

Рис. 3–4. Уровень покрытия КОГ в геномах архей и бактерий. Полные наборы белков в 20 отобранных геномах бактерий (показаны черным) и 10 геномах архей (показаны серым), отнесенные к КОГ (Tatusov et al., 2003). Применялся метод COGNITOR (Makarova et al., 2007b)

Рис. 3–5. Разнообразие мультидоменной архитектуры гомологичных белков. На схеме сравнивается доменная архитектура двух паралогичных наборов древних и функционально незаменимых для всех организмов ортологичных белков: тирозил-тРНК синтетазы (TyrRS) и триптофанил-тРНК синтетазы (TrpRS). Каждый домен обозначен своей собственной геометрической формой (по Wolf et al., 1999a).

Мультидоменные белки обнаружены у всех форм жизни, но особенно характерны для сложных многоклеточных эукариот (Koonin et al., 2000a; Koonin et al., 2000b). Доменная архитектура этих белков демонстрирует различную степень эволюционной пластичности. Изменчивость особенно выражена у белковых архитектур, включающих так называемые «неразборчивые домены» (promiscuous domains), имеющие склонность к слиянию с разнообразными другими доменами (Basu et al., 2009). Разнообразная мультидоменная архитектура белков запутывает понятие ортологии. Считается, что в ходе долгой эволюции ортологичные гены сохраняют свою уникальность, в том числе функциональную (имеют одну и ту же эволюционную историю). Однако это правило нарушается в тех случаях, когда гены, казалось бы подпадающие под определение ортологии (см. табл. 3–1), меняют доменную архитектуру (см. рис. 3–5): в этих случаях лишь части соответствующих белков в разных организмах имеют одну и ту же эволюционную историю и выполняют одни и те же функции (хотя второе и не может быть гарантировано, поскольку взаимодействие доменов вполне может иметь существенные функциональные последствия).

Контраст между эволюционной пластичностью генома и стабильностью индивидуальных генов

Мы видели, что большинство генов в каждом геноме весьма консервативно: гомологи этих генов – чаще всего легко определяемые ортологи – обнаружены у организмов, эволюционно далеких друг от друга. Тем не менее эта поразительная эволюционная устойчивость генов – лишь одна сторона медали сравнительной геномики. Другая же, оборотная сторона – это «текучесть» генного набора и архитектуры геномов всех форм жизни. Геномы прокариот особенно подвержены изменчивости. Наглядным примером этого является сравнение различных штаммов классической модели бактерий, лабораторного штамма К12 и нескольких патогенных штаммов кишечной палочки Escherichia coli (Perna et al., 2001). Последовательности ортологичных генов у этих бактерий почти одинаковы, однако некоторые патогенные штаммы имеют на 30 процентов больше генов, чем штамм К12, и генные наборы патогенных штаммов радикально различаются. Неизбежно возникает заключение, что «лишние» гены, формирующие так называемые островки патогенности, одними штаммами были приобретены, а другими утеряны (в гл. 5 мы еще вернемся к этой теме).

В более общем плане можно измерить дистанцию между геномами, сравнив, с одной стороны, последовательности консервативных генов-маркеров, таких как рРНК или рибосомных (p) белков, а с другой стороны, исследовав ту часть генов, что формирует легко узнаваемые пары совпадающих ортологов (см. табл. 3–1). В отличие от постепенного, относительно медленного изменения нуклеотидной последовательности генов, наблюдается резкое несовпадение генных наборов (см. рис. 3–6). Заметим, что нет никакого противоречия между этим наблюдением и выводом о том, что для значительного большинства генов в геноме бактерии или археи имеются ортологи в некоторых эволюционно удаленных от них организмах. Здесь слово некоторых ключевое, поскольку у многих генов в любом геноме разное эволюционное происхождение и разная история, и потому их ближайшие родственники могут быть обнаружены в разных таксонах (см. гл. 5). Дистанцию между геномами, определяемую как доля общих (ортологичных) генов, можно использовать для описания «геномной вселенной», рассматриваемой далее в этой главе, а также для построения особого рода дерева эволюции (см. гл. 5).

Рис. 3–6. Расхождение порядка генов и генных составов между бактериями по сравнению с расхождением высококонсервативных последовательностей белков. Были вычислены расстояния от кишечной палочки K12, штамм MG1655, до 24 других разнообразных протеобактерий. Расстояние между последовательностями: расстояние наибольшего подобия (maximum likelihood distance) для соединенных выравниваний рибосомных белков вычислено с использованием программы PROTDIST пакета программного обеспечения филогенетического анализа Phylip (Felsenstein, 1996). Расстояние между генными порядками: – ln (JCOG), где JCOG – коэффициент подобия (коэффициент Жаккара) для набора КОГ в двух геномах. Расстояние между генными составами: – ln (JPAIR), где JPAIR – коэффициент Жаккара для множества неупорядоченных пар соседних КОГ в двух геномах. График исполнен в двойных логарифмических координатах.

Геномная архитектура, то есть расположение генов в геноме, проявляет еще большую эволюционную нестабильность, чем генный состав геномов, что контрастирует с консервативностью генных последовательностей (Koonin, 2009a; Novichkov et al., 2009). За исключением организации малых групп функционально связанных генов в оперонах, порядок генов сравнительно слабо сохраняется даже у близкородственных организмов[33]. У прокариот сохранение порядка генов на большом протяжении генов не просматривается даже в некоторых группах геномов, которые сохраняют почти однозначное соответствие ортологичных генов и в среднем более 99 процентов идентичности последовательностей ортологичных белков (см. рис. 3–6). Эукариоты демонстрируют несколько большую сохранность порядка генов. Тем не менее даже в случае эукариот имеется мало общих элементов архитектуры генома между, например, разными типами в царстве животных и вообще никаких между животными и грибами или животными и растениями.

Геномные ландшафты: распределение эволюционных ограничений по разным классам сайтов в геноме

Рис. 3–7. Схематические геномные ландшафты. Распределение эволюционных ограничений по разным сайтам в геномах прокариот и эукариот вскрывает различные принципы геномной архитектуры: а – геном прокариот; б – геном эукариот.

Любой геном может быть представлен в виде геномного ландшафта, графика, напоминающего панораму города, где каждому нуклеотидному сайту присваивается высота, пропорциональная силе влияющих на него эволюционных ограничений. Ограничения имеет смысл рассматривать как меняющиеся в диапазоне от 0 (лишенная ограничений, нейтрально эволюционирущая, функционально не значимая позиция) до 1 (полностью ограниченная, функционально важная позиция, в которой изменения недопустимы, см. рис. 3–7; Koonin and Wolf, 2010b). Распределения ограничений по геному значительно отличаются у форм жизни с различными архитектурами генома. Эти отличия проявляются особенно ярко, если говорить о сравнении, с одной стороны, вирусов и прокариот с их геномами «стена к стене», в основном состоящими из генов, кодирующих белок или РНК, и, с другой стороны, многоклеточных эукариот, в геномах которых кодирующие нуклеотиды находятся в меньшинстве (см. рис. 3–7). В пересчете на один сайт, ограничения в компактных геномах, особенно у прокариот, на несколько порядков сильнее, чем ограничения в больших геномах многоклеточных эукариот. Белок-кодирующие последовательности и последовательности, кодирующие структурные РНК, подвержены наиболее сильным ограничениям во всех геномах. Подавляющее большинство белок-кодирующих генов, особенно у прокариот, имеют низкие значения Ka/Ks, что указывает на сильное давление очищающего отбора на эти последовательности (см. рис. 3–8 и предыдущую главу). В то же время во всех группах организмов существует значительная положительная корреляция между Ka и Ks, указывающая, что даже синонимические сайты в белок-кодирующих генах ограничены примерно в пропорции к ограничениям на несинонимичные сайты (Drummond and Wilke, 2008; см. также гл. 4). Учитывая, что прокариотические геномы почти полностью состоят из белоккодирующих генов со вкраплениями генов структурных РНК и коротких межгенных промежутков, в основном занятых разно образно ограниченными регуляторными регионами, эти компактные геномы содержат мало неограниченных сайтов. Заметным исключением являются псевдогены, редкие у большинства прокариот, но распространенные у некоторых паразитических бактерий, особенно растущих внутри эукариотических клеток, например Rickettsia или Mycobacterium leprae (Harrison and Gerstein, 2002). Геномы большинства вирусов еще более компактны, чем геномы прокариот, причем почти вся последовательность генома занята белок-коди рующими генами.

Рис. 3–8. Распределение отношения Ka/Ks в геномах прокариот и эукариот. Salinispora sp.: вычислено по ортологам в S. arenicola CNS-205 и S. tropica CNB-440 (актинобактерии). Homo sapiens: вычислено по ортологам в H. sapiens и Macaca mulatta (приматы). Значения Ка и Ks оценены с использованием программного обеспечения PAML (Yang, 2007). График в логарифмических координатах по оси абсцисс; ФПВ обозначает функцию плотности вероятности.

Рис. 3–9. Схематическая сводка эволюционных ограничений, действующих на различные классы геномных сайтов.

Одноклеточные эукариоты, напоминающие прокариот общей архитектурой генома, демонстрируют примерно одинаковые распределения эволюционных ограничений, хотя доля очевидно не подверженных ограничениям некодирующих последовательностей в их геномах несколько выше. Геномы многоклеточных эукариот (растений и особенно животных) являют собою разительную противоположность. Эти организмы имеют богатые интронами геномы с длинными межгенными промежутками; существенная, хотя и переменная часть этих некодирующих последовательностей, по-видимому, эволюционирует, не подвергаясь ограничениям. Доля нуклеотидов в геноме, подверженных эволюционным ограничениям, оценивается методами, основанными на критерии Макдональда – Крайтмана (см. табл. 2–2). Полученные оценки существенно отличаются даже между животными: у Drosophila около 70 процентов нуклеотидных сайтов в геноме, в том числе 65 процентов некодирующих участков, по всей видимости, подвержены отбору (в том числе положительному), а у млекопитающих эта доля оказывается в интервале 3–6 процентов (Koonin and Wolf, 2010b). Примечательно, однако, что абсолютное число подверженных отбору сайтов в столь разных по размеру геномах этих животных довольно близко. Напротив, в Arabidopsis, растении с геномом, размером и общей архитектурой сравнимыми с таковыми Drosophila, доля некодирующих подверженных ограничениям участков, по-видимому, существенно ниже.

Резюмируя существующее понимание ограничений, влияющих на различные классы и сайты во всем известном разнообразии геномов (см. рис. 3–9), отметим, что некоторые фундаментальные простые выводы являются бесспорными. В частности, нет никаких сомнений, что несинонимичные сайты в белок-кодирующих последовательностях и последовательности, кодирующие структурные РНК, являются одними из наиболее сильно ограниченных во всех геномах и что характерное распределение ограничений (геномный ландшафт) сильно коррелирует с архитектурой генома (Koonin and Wolf, 2010b). Однако помимо этих основных принципов, и довольно неожиданно, оказывается, что эволюционные режимы сильно различаются даже для некоторых относительно близких таксонов, таких как членистоногие и позвоночные. Чтобы выработать всеобъемлющую картину эволюционных ограничений и давления, формирующих геном, требуется еще множество дополнительных исследований по различным организмам. В последующих главах рассматриваются различные проявления давления отбора, влияющие на разные части генома.

Вселенная генов

Интеграция результатов сравнительной геномики позволяет нам начать строить карту всей «вселенной генов». Глобальная эволюционная устойчивость генов, проявляющаяся прежде всего в сохранении белковых и РНК-последовательностей, стала очевидной в результате самых первых сравнений секвенированных прокариотических и эукариотических геномов: бактерии Haemophilus influenzae и Mycoplasma genitalium, археи Methanocaldococcus jannaschii и эукариотических дрожжей Saccharomyces cerevisiae (Tatusov et al., 1997). Ключевое обобщение сравнительной геномики состоит в том, что гены не просто сохраняются на различных интервалах эволюционного процесса, но и представляют собой дискретные единицы эволюции, а именно ортологичные эволюционные линии (см. табл. 3–1). В сегодняшней коллекции секвенированных геномов найдены ортологи в далеких таксонах для значительного большинства белок-кодирующих генов в каждом геноме. Ярким примером являются недавние результаты секвенирования генома примитивных животных: многочисленные гены Trichoplax и губки связаны ортологичными отношениями с генами млекопитающих и птиц (Putnam et al., 2007; Srivastava et al., 2008; Srivastava et al., 2010). Один из выводов состоит в том, что характерная продолжительность жизни животного гена в этих линиях охватывает по меньшей мере сотни миллионов лет. Многие другие группы животных, такие как насекомые, утеряли многочисленные гены (Koonin et al., 2004), так что судьба одного и того же гена в большинстве случаев отличается в разных линиях, в результате чего мы получаем «пятнистую» филетическую модель. (Как подчеркивается далее в этой главе, множество поистине универсальных генов чрезвычайно мало.) Судьбы конкретных генов в разных линиях зависят как от случайных факторов, так и от различий в давлении отбора (см. гл. 9). Результаты обширного сравнительного анализа геномов растений, грибов и прокариот полностью совместимы с этим выводом. Когда гены в геноме классифицируются по их относительному «возрасту» (то есть филогенетической глубине, на которой обнаруживаются гомологи), наблюдаемое расхождение подобно для удаленных друг от друга организмов, как показано на рис. 3–3 для генетических наборов человека и грибка Aspergillus fumigatus (Wolf et al., 2009), двух организмов, разделенных, по-видимому, миллиардами лет эволюции. Тем не менее распределения генных возрастов поразительно похожи: в каждом случае древних генов, для которых легко обнаруживаются гомологи в далеких таксонах, значительно больше, чем «молодых» генов. Несмотря на частую потерю в отдельных эволюционных линиях, гены характеризуются чрезвычайной долговечностью, и многие из них, возможно, бессмертны[34].

Как обсуждается далее в этой книге (гл. 5 и 7), пути передачи генетической информации у прокариот принципиально отличаются от таковых у эукариот. Тем не менее доли консервативных генов у них примерно равны. В настоящее время эта доля хорошо известна и очень близка у разнообразных бактерий и архей, почти как фундаментальная постоянная: для 70–80 процентов генов ортологи обнаруживаются в далеких организмах (Koonin and Wolf, 2008b; см. рис. 3–4).

Минимальные наборы генов, замещение неортологичных генов (ЗНОГ) и ускользающее незаменимое ядро жизни

Секвенирование геномов симбиотических и паразитических бактерий привело к соблазнительной идее, что их генетический репертуар может быть близок к «наименьшему возможному набору генов», то есть такому, который является необходимым и достаточным для поддержания простой (прокариотической) клетки при самых благоприятных условиях, какие только могут существовать вне других клеток (Fraser et al., 1995; Mushegian and Koonin, 1996b). Последнее условие чрезвычайно важно, поскольку «наименьшим возможным» набор генов будет лишь в отношении к окружающей среде, в которой соответствующий организм существует (или мог бы существовать, в случае «концептуальных» геномов, полученных компьютерными методами). Однако, как только появились первые два полных бактериальных генома, вторым из которых был геном Mycoplasma genitalium[35], лишенной клеточной стенки паразитической бактерии с размером генома всего около 570 генов, возникла очевидная идея, что «истинный» наименьший набор можно естественным образом вывести, сравнивая геномы этих двух существенно различно специализированных бактериальных патогенов (Mushegian and Koonin, 1996b). Точнее, можно было бы ожидать, что ортологичные гены в двух организмах будет представлять собой набор основных биологических функций, которые необходимы для выживания клетки, независимо от уникального образа жизни каждого организма.

Сравнение геномных наборов H. influenzae и M. genitalium дало 240 пар ортологичных генов, охватывающих большую часть очевидно существенных клеточных функций. Тем не менее в этом консервативном наборе несколько важных функций явно отсутствовали. До сих пор мы не говорили о «настоящей биологии», о биологических функциях, ролях генов, но теперь мы должны начать думать биологически. Определение минимального набора основных биологических функций – задача непростая. Соблазнительно, конечно, попытаться «разобрать эволюцию по винтику»: идя от сравнительной геномики, определить минимальный набор основных генов, сохраняемых во всех клеточных формах жизни. Но этот подход упускает возможность, что разные организмы могли прийти к решению одной и той же принципиальной задачи независимыми путями. Мы увидим далее в этой главе, что такая гипотетическая возможность действительно отражает важный аспект биологической реальности. Таким образом, чтобы очертить минимальный набор клеточных функций, нам необходимо обратиться к логике биохимии и клеточной биологии. Знаний в этих областях несомненно достаточно, чтобы составить разумный каталог основных функций. Само собой, это знание несовершенно, поэтому на самом деле вычисление минимального набора генов требует многократного поочередного обращения к биологическому обоснованию и сравнительному геномному анализу. Мы с Аркадием Мушегяном предположили, что принципиально важные функции, отсутствующие среди 240 ортологов H. influenzae и M. genitalium, вероятно, исполняются неродственными или отдаленно родственными белками в этих двух бактериях. Мы привлекли определенные догадки, чтобы увеличить предполагаемый минимальный набор на 16 дополнительных генов M. genitalium (см. рис. 3-10). Этот простое упражнение в получении минимального набора генов соединением сравнительной геномики и биологической логики оказалось достаточно успешным и, по-видимому, определило приближенный функциональный репертуар простейшей бактериальной клетки, способной к самостоятельному росту в наиболее благоприятных условиях. В самом деле, последующие эксперименты с нокаутом генов подтвердили, что большинство из генов, включенных в минимальный набор, необходимы для выживания бактерий и что гены из минимального набора присутствуют в большинстве (хотя и не обязательно во всех) вновь секвенированных бактериальных геномах (Delaye and Moya, 2010; Koonin, 2003).

Рис. 3-10. Выделение минимального набора генов клеточной жизни методами сравнительной геномики. G1, G2, G3 – три сравниваемых генома; С – набор консервативных генов.

Рис. 3-11. Распределение числа генов по биологическим функциям в минимальном генном наборе, полном наборе КОГ и среди экспериментально определенных незаменимых генов бактерии Bacillus subtilis. Данные по Koonin, 2003.

Поучительно провести теперь функциональную перепись минимального бактериального набора генов. В этом наборе преобладают гены, которые кодируют белки, участвующие в передаче информации в клетке (репликации, транскрипции и, прежде всего, трансляции). Метаболические ферменты и белки транспортной системы представлены куда более разреженно, что вполне ожидаемо для организма, растущего в самой богатой из возможных сред. Этим минимальный набор генов резко отличается от полного набора КОГ, но напоминает набор незаменимых бактериальных генов (нокаут которых убивает бактерию, см. рис. 3-11). Эта особая эволюционная устойчивость систем передачи клеточной информации является одним из центральных обобщений сравнительной геномики. Мы вернемся к этому вопросу позднее.

Рис. 3-12. Эволюционный сценарий замещения неортологичных генов.

По-видимому, самым весомым результатом поиска минимального набора генов было открытие, что в списке легко обнаружимых ортологов недостает нескольких важных функций. Этот результат был подтвержден и значительно усилен при сравнении бактериальных геномов с первым архейным (Methanocaldococcus jannaschii), когда в наборе консервативных необходимых функций выявилось несколько дополнительных зияющих пробелов. Эти выводы были обобщены в понятии замещения неортологичных генов (ЗНОГ), эволюционном сценарии, при котором неродственные или отдаленно родственные гены (иными словами, не ортологи) становятся ответственными за одни и те же необходимые функции в разных организмах (Koonin, 2003). Сам этот эволюционный сценарий легко представить (см. рис 3-12): чтобы произошло ЗНОГ, эволюционирующая линия приобретает альтернативный, функционально избыточный ген для некоторой незаменимой функции и таким образом проходит через промежуточное состояние, в котором присутствуют обе реализации данной функции (такая избыточность часто наблюдается у организмов с более сложными геномами), а затем теряет начальный ген (Koonin and Mushegian, 1996). С ростом коллекции секвенированных геномов обнаруживается все больше организмов, в которых оба варианта действительно представлены для разнообразных функций; таким образом, сценарий эволюции ЗНОГ, представленный на рис. 3-12, становится все более правдоподобным.

В табл. 3–2 описывается несколько примеров ключевых биологических функций, для которых два или несколько неродственных ферментов по-разному представлены в частично дополнительных, но обычно перекрывающихся группах эволюционных линий. Даже эти отдельные примеры показывают, что ЗНОГ происходит в самых различных функциональных системах и путях. В дальнейшем, с заметным увеличением числа секвенированных геномов, стало ясно, что ЗНОГ и утрата генов в отдельных линиях настолько широко распространены, что лишь малое число функций являются действительно мономорфными и вездесущими (то есть представлены ортологичными генами во всех организмах). Вместе с тем универсальное ядро жизни уменьшилось почти до исчезновения: все, что остается универсальным, – это около тридцати генов белков трансляции и три больших субъединицы РНК-полимеразы, а также примерно равное число генов структурных РНК (рРНК и тРНК).

Таблица 3–2. Примеры замещения неортологичных генов.

Даже при исключении паразитических бактерий перечень универсальных генов расширяется незначительно (Koonin, 2003). Таким образом, за исключением небольшого числа генов, участвующих в основных этапах передачи информации, не существует универсального генетического ядра жизни, в связи с повсеместными ЗНОГ и потерей генов. Концепция небольшого, универсального набора функций, необходимых для поддержания клетки, остается жизнеспособной, но, учитывая комбинаторику ЗНОГ, этот наименьший набор функциональных ниш может заполняться огромным разнообразием генных ансамблей.

Единицы эволюции и фрактальная структура генетической вселенной

Результаты сравнительной геномики приводят к ключевому обобщению, которое позволяет нам выполнять продуктивные эволюционные исследования: основные единицы эволюции могут быть довольно четко определены, и единицы эти – кластеры ортологичных генов, или эволюционные домены (КОГ), или, еще точнее, линии эволюционирующих ортологичных генов (доменов). Истории отдельных генов часто сложны (а во многих случаях даже чрезвычайно сложны) и включают в себя множественные утраты генов, дупликацию и горизонтальный перенос (ниже в настоящей книге мы обсудим эти явления подробнее, см. гл. 5 и 7). Предрасположенность генов к дупликации, утрате и переносу варьирует в широких пределах. Однако, невзирая на все эти осложнения, атомарное свойство наборов ортологичных генов твердо соблюдается: КОГ суть естественные элементы генетической вселенной.

Генетическая (геномная) вселенная (это только метафора, но удобная и, возможно, продуктивная) может быть представлена как развивающееся пространство-время, заполненное кластерами, состоящими из генов (то есть КОГ), или, точнее, эволюционирующими линиями ортологов, элементарными единицами эволюции. Ортология легче всего прослеживается между прокариотическими генами, так что здесь мы обсудим прокариотическую область геномной вселенной. Тенденции среди эукариотов в принципе похожи, но осложнены распространенной мультидоменной организацией белков и обширной паралогией. В нашем геномном пространстве заметно характерное распределение КОГ по геномам, хорошо аппроксимируемое тремя экспонентами с разными показателями, которые делят генную популяцию на три класса (см. рис. 3-13, а – в; Koonin and Wolf, 2008b).

1. (Почти) универсальные гены, те, что представлены в (почти) всех геномах клеточных форм жизни, составляют лишь малую часть генетической вселенной: это ядро клеточной жизни состоит, самое большее, из приблизительно 70 генов. В каждом конкретном геноме доля этих «ядерных» генов составляет не более 10 процентов, если говорить о самых маленьких геномах клеточных форм жизни (паразитических бактерий, таких как M. genitalium), но обычно ближе к 1 проценту или менее от общего числа генов (см. рис. 3-14).

2. Умеренно консервативная генная оболочка состоит из КОГ, представленных в самых разнообразных геномах, но не в подавляющем их большинстве. Недавний анализ имеющихся прокариотических геномов дает число КОГ оболочки около 5000. Гены оболочки составляют большую часть числа генов в любом геноме (см. рис. 3-14).

3. Малоконсервативное «облако» состоит из КОГ, встречающихся в узких группах организмов, и «генов-сирот» – генов в открытых рамках считывания (ОРС), обнаруженных пока что в одном-единственном геноме, но гомологи которых обычно обнаруживаются во вновь появляющихся геномных данных. Гены «облака» составляют переменную долю в каждом геноме, обычно в интервале 10–30 процентов от общего числа генов (см. рис. 3-14).

Примечательно, что эта структура является самоподобной, или фрактальной: те же три компонента – крошечное ядро, сравнительно большая оболочка и огромное «облако» – проявляются на любом уровне, где бы ни рассекалось генное пространство-время, от всего мира прокариот и до узких групп бактерий (см. рис. 3-14). Мы возвратимся к последствиям этой фрактальности геномного пространства-времени прокариот в главе 5. Заметим, однако, что эволюционная модель, которая объясняла бы наблюдаемую фрактальность, еще ожидает своей разработки[36].

Рис. 3-13 а. Глубокий уровень: 338 прокариот из базы данных EggNOG (Jensen et al., 2008)

Рис. 3-13 б. Средний уровень: 41 архей из базы данных arCOG (Makarova et al., 2007b)

Рис. 3-13 в. Мелкий уровень: 44 вида Escherichia, Shigella и Salmonella из базы данных COG (Tatusov et al., 2003). Регрессия данных экспоненциальными функциями на всех трех рисунках (Koonin and Wolf, 2008b) изображена пунктирными и непрерывными линиями.

Рис. 3-14. Вклад ядра, оболочки и «облака» в состав индивидуальных геномов и генной вселенной как целого. Расчет произведен по данным из базы EggNOG (Jensen et al., 2008). A. fulgidus – архея Archaeoglobus fulgidus; B. subtilis – бактерия Bacillus subtilis.

Следует обратить внимание на кажущийся парадокс в распределении КОГ в генном пространстве. Хотя в каждом геноме большинство генов относятся к оболочке, то есть являются общими с дальнородственными организмами, при рассмотрении всей генной вселенной оказывается, что гены (или, вернее, КОГ) ядра и оболочки составляют лишь незначительное меньшинство (см. рис. 3-14). Вполне очевидно, что эта разница возникает потому, что КОГ оболочки представлены во многих геномах, в то время как КОГ «облака», особенно «гены-сироты», являются редкими или уникальными. С учетом этой характерной структуры вселенной генов эволюционные реконструкции неизбежно приводят к картине динамичной эволюции генома, где многочисленные гены (в основном из «облака» и, в меньшей степени, из оболочки) утрачиваются, а многие другие приобретаются путем ГПГ (в основном у прокариот), а также в результате многочисленных дупликаций, в первую очередь у эукариот (см. ниже в этой главе).

Элементарные события геномной эволюции

Теперь, определив единицы геномной эволюции и разработав идею организации вселенной генов, мы можем осмысленно дополнить эти понятия списком основных операций, элементарных событий эволюции генома, которые можно будет сравнить с элементарными событиями эволюции отдельных генов. Алфавиты элементарных событий довольно кратки и фактически подобны (изоморфны) на соответствующих уровнях (см. табл. 3–3). Однако относительный вклад и частота различных типов событий разнятся в эволюции генов и геномов самым коренным образом. Существенное различие между эволюцией отдельных генов и целых геномов заключается в особой важности и высокой частоте дупликации генов, в отличие от много более ограниченного вклада внутригенных дупликаций. Далее, внутригенные рекомбинации редко закрепляются в эволюции, за исключением близких геномов, a важнейшие механизмы перестройки генома, такие как инверсии и транслокации, не играют особой роли в эволюции отдельных генов. В итоге различия в относительном вкладе разнообразных элементарных механизмов (см. табл. 3–2) лежат в основе значительно более динамичного характера эволюции геномов по сравнению с эволюцией отдельных генов.

Таблица 3–3. Сравнение элементарных событий эволюции гена и генома.

Краткий обзор главы

Сравнительная геномика раскрывает примечательный контраст между относительной эволюционной устойчивостью отдельных генов, многие из которых сохраняют значительное сходство на протяжении сотен миллионов или даже миллиардов лет эволюции, и пластичностью состава и архитектуры генома, которые изменяются на несколько порядков быстрее. Отсюда возникает характерное устройство вселенной генов, в котором сравнительно небольшое число плотных кластеров образуют ядро, гены которого представлены в большинстве геномов, в то время как большую часть пространства-времени занимает огромное количество все более разреженных «туманностей», состоящих из редких генов. Поразительно, что организация генетической вселенной явственно фрактальна, то есть проявляется на всех масштабах эволюционных расстояний.

Атомарная сущность генов (или, точнее, КОГ, ортологичных эволюционных линий) лежит в основе всей исследовательской программы сравнительной геномики: сравнение геномов оказывается весьма информативным, несмотря на нетривиальные отношения между отдельными генами и геномами, обусловленные изменчивостью геномной архитектуры.

Геномные ландшафты различных форм жизни – распределение ограничений по геномным сайтам – разнообразны и сложны. Компактные геномы вирусов, прокариот и, в меньшей степени, одноклеточных эукариот в основном занимают «высокогорные плато», так что почти все сайты подвергаются существенным ограничениям. Геномные ландшафты многоклеточных эукариот состоят в основном из «долин» со слабыми ограничениями, разделенных редкими «гребнями» сильного отбора. Эти отличия отражают разные эволюционные режимы, которые мы обсудим в главе 8. Парадоксально, но именно «неэффективность» режима эволюции, характерного для многоклеточных эукариот, позволяет организационной сложности возникнуть. Этот парадокс должен заставить задуматься всех неравнодушных к идее эволюционного «прогресса». Мы вернемся к подробному обсуждению этого вопроса в главах 8 и 13.

Глава 4. Геномика, системная биология и универсалии эволюции: эволюция генома как феномен статистической физики

В предыдущей главе была подчеркнута относительная стабильность отдельных генов, составляющая яркий контраст динамизму геномной эволюции. Если гены или домены принять за атомарные единицы геномной эволюции, тогда геномы можно рассмотреть как статистические ансамбли таких единиц. Мы можем продолжить эту очень упрощенную, но очевидно не бессмысленную и потенциально продуктивную физическую аналогию и рассмотреть геномы как структуры, подобные газу или жидкости, в которых силы межмолекулярного взаимодействия хоть и являются важными параметрами, но слабы по сравнению с внутримолекулярными взаимодействиями (лежащими в основе стабильности молекул), в отличие от твердых тел, в которых межмолекулярные взаимодействия сильны и имеют определяющее значение.

Из статистической физики известно, что поведение ансамбля слабовзаимодействующих частиц (молекул) следует простым и универсальным статистическим закономерностям, таким как распределение Больцмана для скоростей частиц. Аналогия между ансамблями генов (геномами) и ансамблями молекул (газами и жидкостями) наталкивает нас на поиск статистических закономерностей в функционировании и эволюции генома. Более того, размышляя таким образом, мы можем с некоторой степенью уверенности предположить, что эти статистические закономерности должны представлять собой математически простые, универсальные законы распределения значений определенных параметров, описывающих процесс эволюции. Мы убедимся в этой главе, что поиск таких эволюционных универсалий – дело далеко не безнадежное.

Перед обсуждением статистических свойств генных ансамблей необходимо обратить внимание на еще одно ведущее направление биологических исследований первой декады третьего тысячелетия, представляющее собой новую область науки, часто называемую, может быть не очень удачно, системной биологией. Системная биология провозглашает своей конечной целью построение моделей и понимание функционирования биологических систем во всей их сложности. Реальное положение дел на данном этапе становления этой области исследований заключается в том, что основное внимание направлено на агрегацию обширных данных специфического типа, таких как транскриптомы (совокупность всех экспрессируемых РНК клетки, ткани или организма), протеомы (совокупность всех экспрессированных белков), метаболомы (совокупность всех метаболитов) и другие «-омы» (Bruggeman and Westerhoff, 2007; Koonin and Wolf, 2008a). Все эти «-омы» описываются системной биологией с помощью количественных понятий, таких как концентрация белка или метаболита.

Так же как и генетику в ее первые годы, системную биологию многие ученые приняли за скучную «большую науку» и слишком хлопотливое занятие. (Подозреваю, что это отношение до сих пор преобладает.) Так же как и с генетикой, первый взгляд оказался, мягко говоря, недальновидным. Наличие высококачественных данных по генной экспрессии, генетическим и белок-белковым взаимодействиям, локализации белка в клетке и других данных системного уровня в масштабе генома открыло новые измерения эволюционного анализа (иначе иногда называемого эволюционной системной биологией) и обеспечило его взаимопроникновение с эволюционной геномикой. В исследованиях системной биологии, в масштабах генома, уже были открыты нетривиальные связи между эволюцией генных последовательностей, генной экспрессией, структурой белка и другими характеристиками генов и белков. Эти открытия в целом оказались совместимыми с точкой зрения на геном как на статистический ансамбль генов и дали возможность в новом свете рассмотреть селективную и нейтральную составляющие эволюции структуры и функций генома.

Взаимосвязь между эволюционными и фенотипическими параметрами, универсалии эволюции генов, белков и геномов и физическая модель эволюционного процесса

В предыдущей главе было показано, что белок-кодирующие гены (по крайней мере в отношении мутационных замен, приводящих к изменению аминокислот в кодируемом белке) принадлежат к числу наиболее консервативных последовательностей генома. Однако уже на раннем этапе исследований в молекулярной эволюции стало понятно, что скорости эволюционирования белок-кодирующих генов могут очень сильно разниться (Wilson et al., 1977). Этот широкий разброс значений в общем объясняли существованием широкого спектра функций белка, которые по-разному ограничивают скорость эволюции соответствующих генов. В самом деле, кажется само собой разумеющимся, что огромная роль ДНК-полимеразы, сложнейшего фермента, который катализирует встраивание комплементарных матрице нуклеотидов в растущую цепь ДНК, требует значительного ограничения на скорость эволюции для соответствующей ей генной последовательности, в то время как, например, для структурного белка, чья единственная задача состоит в поддержании целостности ядерного матрикса, такого сильного ограничения не требуется. Фундаментальное представление о том, что эволюция белок-кодирующих генов может сводиться не только к уникальным особенностям молекулярной структуры и функции белков, возникло уже на этом раннем этапе. В богатой идеями обзорной статье, опубликованной Аланом Вильсоном и коллегами в 1977 году, выдвигается гипотеза о том, что скорость эволюции генных последовательностей зависит как от уникальных функций кодируемого белка, так и от важности этого белка для выживания организма (Wilson et al., 1977). Однако в то время не было прямых способов изучения эволюционных ограничений, так что эти идеи, хоть и интригующие, тогда находились всецело в области умозрительных построений.

В начале третьего тысячелетия геномика и системная биология полностью преобразили область эволюционных исследований. Доступность множества данных по геномным последовательностям позволила проанализировать и сравнить распределения скоростей эволюции для полных наборов ортологичных генов в различных таксонах, а также изучить взаимосвязи скоростей эволюции ортологов в различных эволюционных линиях. Значения скоростей эволюции по несинонимичным сайтам в ортологичных генах могут различаться на три-четыре порядка, и это распределение значений гораздо шире, чем распределение скоростей по синонимичным сайтам. Замечательно, что формы графиков распределений по ортологичным белкам исключительно похожи, практически одинаковы для всех изученных клеточных форм жизни, от бактерий и архей до млекопитающих (см. рис. 4–2; Grishin et al., 2000; Wolf et al., 2009). Все эти распределения имеют так называемую логарифмически нормальную форму, то есть распределение логарифма эволюционной скорости близко к нормальному (распределению Гаусса, функция плотности вероятности которого имеет колоколообразную форму). В теории случайных процессов такая форма обычно представляет собой результат произведения многих независимых случайных величин. Универсальность функции распределения среди различных организмов, обладающих глубокими различиями в функциональной организации и сильно различающихся по размеру геномов, представляется неожиданной и может указывать на существование фундаментальных, простых объяснений, которые мы и обсудим в этой главе.

Рис. 4–1. Распределения скорости эволюции по несинонимичным и синонимичным сайтам в ортологичных генах человека и мыши: dN = скорость эволюции по несинонимичным сайтам; dS = по синонимичным; pdf = функция плотности вероятности. Данные из Wolf et al., 2009; для расчетов использовался пакет PALM (Yang, 2007)

Рис. 4–2. Распределения скорости эволюции в наборах ортологичных генов бактерий и эукариот; Burkholderia = распределения для ортологов Burkholderia cenocepacia и Burkholderia vietnamiensis (протеобактерия); Homo = для ортологов человека и макаки-резус (приматы). Aspergillus = для ортологов Aspergillus fumigatus и Neosartorya fischeri (аскомицеты). Данные из Lobkovsky et al., 2010; для расчетов использовался пакет PALM (Yang, 2007)

Прогресс в системной биологии позволил измерить корреляции между скоростью эволюции и всеми возможными молекулярно-фенотипическими величинами, такими как уровень экспрессии, концентрации белков, белок-белковые взаимодействия, фенотипический эффект генной мутации и другими (Koonin and Wolf, 2006). Эти поиски корреляций стали практически самостоятельной областью исследований, цель которых, однако, состоит не в описании самих корреляций, а в построении физически осмысленной модели эволюции геномов и феномов. Было найдено много важных корреляций, что позволило увидеть существование некоторых закономерностей, несмотря на «зашумленность» молекулярно-фенотипических данных (особенно данных, полученных на ранних этапах исследований). На рис. 4–3 представлена простая и наглядная, хоть и неизбежно упрощенная общая картина результатов исследований (Wolf et al., 2006). Обобщение результатов показывает, что существуют два обширных класса переменных:

1. Интенсивные, эволюционные переменные – различные скорости геномных изменений, включая эволюцию последовательностей, потерю гена, перестройку генома и другие виды эволюционных процессов.

2. Экстенсивные, фенотипические переменные – скорость экспрессии, скорость трансляции, концентрация белка, частота взаимодействия с другими изучаемыми объектами.

Корреляции внутри каждого из двух классов обычно положительные, а корреляции между двумя классами – отрицательные (рис. 4–3). Эта закономерность предполагает модель «статуса генов», в которой высокостатусные гены эволюционируют медленно, имеют высокий уровень экспрессии и взаимодействуют со многими другими генами. Гены с низким статусом меняются быстро и имеют низкий уровень экспрессии и меньшее число партнеров (рис. 4–4).

Рис. 4–3. Схематическая обобщенная картина корреляций эволюционных и молекулярно-фенотипических переменных.

Сильнейшая, универсальная связь между эволюционными и молекулярно-фенотипическими переменными состоит в отрицательной корреляции скорости эволюции белок-кодирующих генов и уровня экспрессии: высокоэкспрессированные гены эволюционируют медленно. Эта зависимость наблюдается у всех организмов, для которых есть данные по экспрессии генов (Drummond et al., 2006; Drummond and Wilke, 2008; Pal et al., 2001). Поскольку, как отмечено выше, существует положительная корреляция между Ка и Ks, неудивительно, что скорости эволюции синонимических и несинонимических сайтов связаны с уровнем экспрессии гена качественно одним и тем же образом. Более неожиданно то, что зависимость между экспрессией и скоростью эволюции соблюдается и для 3’-нетранслируемого участка (НТУ), хотя и не обнаружена для 5’-НТУ (Jordan et al., 2004). Эта универсальная отрицательная корреляция проявляется еще сильнее, если сравнивать скорость эволюции напрямую с экспериментально измеренными концентрациями белка (Schrimpf et al., 2009).

Открытие универсальной связи между экспрессией генов и их эволюцией стимулировало смелую попытку новой интерпретации, согласно которой эволюция белков определяется в большей степени принципами структуры и укладки белка, общими для всех организмов, чем его уникальными биологическими функциями. Было выдвинуто предположение, впервые – в работе Алана Драмонда и Клауса Вилке, о том, что главным фактором отбора в эволюции белка является его устойчивость к неправильной укладке. Согласно этой гипотезе, влияние мутации, как геномной, так и фенотипической (вызванной ошибками трансляции), на приспособленность организма в первую очередь рассматривается как следствие отрицательного эффекта от неправильной укладки белка, которая, помимо вызываемых ею энергетических издержек, может быть еще и токсичной для клетки (Drummond et al., 2005; Drummond and Wilke, 2008). Не углубляясь в детали, заметим, что эта интуитивно привлекательная модель может естественным образом объяснить отрицательную корреляцию между экспрессией генов и эволюцией генных последовательностей: очевидно, что негативный эффект от неправильной укладки должен быть выше для высокоэкспрессированных белков, чем для белков, производимых в небольших количествах. Другими словами, уровень экспрессии – это линза, которая увеличивает любое негативное влияние на приспособленность, связанное с данной последовательностью белков, и важнейшее из таких влияний обусловлено неправильной укладкой белка. Таким образом, гены высокоэкспрессируемых белков подвергаются большим ограничениям, следствием чего является низкая скорость их эволюции. Эта гипотеза совместима с твердо установленным принципом предпочтительного выбора кодона (среди синонимичных кодонов чаще встречается оптимальный)[37] в высокоэкспрессируемых и высококонсервативных белок-кодирующих генах, а также с положительной корреляцией между Ka и Ks. Согласно гипотезе эволюции, движимой ошибками укладки, эволюция синонимичных сайтов ограничена, по крайней мере частично, теми же самыми факторами, что и эволюция последовательности белка, поскольку выбор оптимального кодона, обеспечивающий более быструю и точную трансляцию, особенно важен для высокоэкспрессированных белков и для тех конкретных позиций, которые влияют на укладку белка. Таким же образом можно объяснить и эволюцию 3-НТУ – этот нетранслируемый участок используется для регуляции процесса трансляции.

Рис. 4–4. Модель «статуса генов».

В работе, выполненной совместно с Александром Лобковским и Юрием Вульфом, мы задались вопросом, не удастся ли в данном случае убить двух зайцев, то есть возможно ли объяснить эволюцию белок-кодирующих генов и практически повсеместную отрицательную корреляцию между эволюционными скоростями и уровнем экспрессии в рамках одной простой модели (Lobkovsky et al., 2010). В анализе эволюции, ведомой ошибками укладки, проводимом для «безрешеточной»[38] модели укладки белка, были получены оценки эволюционных скоростей для гипотетического случая, в котором ошибки укладки белка являются единственным фактором, влияющим на приспособленность организма. Результаты анализа воспроизвели, и весьма точно, универсальное распределение эволюционных скоростей белков, а также зависимость между скоростью эволюции и экспрессией. Этот результат позволяет предположить, что универсальный закон распределения скоростей эволюции и в самом деле вытекает из фундаментальных физических принципов укладки белка.

Слабость или даже отсутствие некоторых интуитивно ожидаемых корреляций между эволюционными и фенотипическими переменными кажутся не менее поразительными, чем обнаруженные корреляции. В самом деле, биологическая интуиция всей этой области знаний подсказывает, как было указано в начале этого раздела, что гены с большей «биологической значимостью» будут эволюционировать медленнее и будут теряться с меньшей вероятностью (Wilson et al., 1977). Общее понятие биологической важности можно конкретизировать измерением фенотипических эффектов от нокаута или других мутаций многих генов – желательно всех генов многих организмов. Можно предположить, что чем больше эффект от нокаута гена, тем медленнее этот ген будет эволюционировать, и гены, утрата которых вызывает летальный эффект, будут эволюционировать значительно медленнее генов, менее существенных для выживания. К настоящему времени проведено сравнение фенотипических эффектов нокаута генов и скоростей эволюционирования генов для множества модельных организмов и получен недвусмысленный и как будто парадоксальный результат: связь между экспериментально измеренной биологической важностью гена и скоростью его эволюции очень слаба, если вообще существует (Hurst and Smith, 1999; Jordan et al., 2002; Krylov et al., 2003; Wang and Zhang, 2009). Еще более удивительным кажется отсутствие сильной корреляции между скоростью утраты гена в течение эволюции, представляющей в некотором смысле временную меру биологической важности или существенности гена, и экспериментально определенным эффектом на приспособленность: только те наборы генов, которые вообще не утрачиваются на продолжительных отрезках эволюции, таких как вся эволюция эукариот, обогащены «важными» генами (Krylov et al., 2003; Wang and Zhang, 2009). Первые работы, показавшие почти полное отсутствие связи между скоростью эволюции и биологической значимостью, были основаны на простом измерении эффекта (присутствует/отсутствует) нокаута гена (соответственно, существенный/несущественный ген). Можно предполагать, что такие измерения слишком грубы и не дают осмысленной оценки биологической важности. Однако, например, в последних работах лаборатории Джорджа Занга было продемонстрировано почти полное отсутствие корреляции между скоростью эволюции и весьма точно измеренным влиянием на приспособленность пекарских дрожжей (S. cerevisiae) во множестве различных условий (Wang and Zhang, 2009), что уменьшает вероятность получения неадекватных результатов.

Чем же тогда объяснить неожиданно слабую связь между эволюцией и функцией гена? По отношению к эволюции последовательностей можно предположить, что скорость эволюции более зависит от внутренних характеристик гена (в особенности от структуры кодируемого белка), чем от его биологической значимости. Однако это объяснение неприменимо к случаям утраты гена. Наиболее осмысленным – хотя опять-таки противоречащим здравому смыслу – кажется следующее объяснение: фенотипический эффект нокаута гена (и в целом – набора необходимых генов) не проявляется как консервативное свойство в эволюционном процессе и быстро меняется (в масштабах эволюционной шкалы), вероятно благодаря высокой скорости эволюции сетей взаимодействующих генов[39]. Ясно, что это предположение можно проверить опытным путем, пусть и с помощью трудоемких экспериментов.

Почти нейтральные сети и белковая эволюция

В целом скорость эволюции гена определяется размером его почти нейтральной сети, то есть множества последовательностей, получаемых друг из друга в результате одношаговых мутаций (пусть и необязательно с помощью одной замены) и имеющих приспособленность примерно такую же, как и у наиболее приспособленной последовательности (Wagner, 2008a; Wolf et al., 2010). Чем больше нейтральная сеть, тем слабее ограничения для конкретного гена, тем быстрее он может эволюционировать (рис. 4–5).

Рис. 4–5. Почти нейтральная сеть и белковая эволюция. Две почти нейтральные сети для двух вымышленных белков схематично представлены как две области, находящиеся на широких вершинах пиков приспособленности.

В эволюции белка приспособленность отдельной последовательности в основном зависит от ее устойчивости к ошибкам укладки и от уровня экспрессии, а размер почти нейтральной сети зависит от высоты и формы пика, занимаемого этой последовательностью и ее соседями на ландшафте устойчивости (рис. 4–6). В этой модели высокоэкспрессированные белки, чьи исходные последовательности высоко устойчивы к ошибкам укладки, занимают высокие и крутые пики с небольшой областью высокой приспособленности (малые почти нейтральные сети) и, следовательно, подвержены сильному стабилизирующему отбору и медленно эволюционируют. И наоборот, белки с более низким уровнем экспрессии и меньшей устойчивостью находятся на более низких, пологих пиках, имеют более широкую область высокой приспособленности и, соответственно, подвержены более слабому отбору и имеют высокую скорость эволюции (рис. 4–6; Wolf et al., 2010).

Рис. 4–6. Модель эволюции белка, управляемой издержками неточной укладки.

Геномная эволюция путем дупликации генов, модель рождения и смерти гена и универсальное распределение численности паралогичных семейств

Мы уже касались вопроса дупликации генов в предыдущей главе, в частности при построении списка важнейших механизмов геномной эволюции. Однако есть еще по крайней мере два хороших повода вернуться к этому механизму эволюции и обсудить его более детально. Во-первых, дупликация несомненно является одним из главных путей геномной эволюции для всех форм жизни и играет принципиальную роль в эволюции эукариот (см. гл. 8). Во-вторых, эволюция путем дупликации генов представляет собой формально простой процесс, для которого довольно легко построить хорошо работающие физические (или математические) модели, которые и рассматриваются в этой главе.

Представление о дупликации как об исключительно эффективном способе геномной эволюции лежит в основе современного эволюционного мышления. Упрощенно говоря, сущность этого представления состоит в том, что создание новых функциональных объектов (белков и РНК) путем модификации уже имеющихся (вспомните модель «эволюции как мастерового» Жакоба; Jacob, 1977) – это, очевидно, намного более простой путь, чем создание этих объектов с самого начала, с нуля (история этой идеи рассказывается в гл. 2). Как и другие представления геномики, эволюция путем генной дупликации имеет строгие количественные подтверждения – большинство генов в геноме принадлежат семействам паралогов (за исключением очень небольших геномов, таких как у микоплазмы и других паразитических бактерий; Jordan et al., 2001). Более детальная реконструкция эволюции показывает, что дупликация проявляется, с различной интенсивностью, на всех этапах эволюции, таким образом, любой геном – это набор дупликаций самого различного возраста. Выбирая некоторую эволюционную линию, допустим, животные – хордовые – млекопитающие – приматы – и т. д., мы можем обнаружить в геноме (например, в нашем) все соответствующие классы дупликаций: дупликации, специфичные для животных, дупликации, специфичные для хордовых, специфичные для приматов и т. д. (Lespinet et al., 2002).

Распределение численности паралогичных семейств в любом геноме – еще одна универсальная статистическая закономерность, обнаруженная сравнительной геномикой (рис. 4–7). Распределения для всех геномов приблизительно описываются степенной функцией с отрицательным показателем степени: y = ах^-y (где у – положительное число, а – коэффициент; Koonin et al., 2002; Luscombe et al., 2002). Эти распределения, имеющие в двойных логарифмических координатах вид прямых линий, показывают, что большинство семейств по численности малы (включая семейства геномов с преобладанием синглетонных сайтов), и только немногие семейства включают в себя большое число паралогов.

Рис. 4–7. Распределение размера семейств паралогичных генов для нескольких сильно отличающихся геномов. Показаны распределения для растения резуховидки Таля (A. thaliana), человека (H. sapiens), для пекарских дрожжей (S. cereviseae), для сенной палочки (B. subtilis) и для бактерии Thermotoga maritima. Использованы данные из базы данных EggNog (Jensen et al., 2008)

Возникновение универсальной степенной закономерности распределения численности паралогичных семейств может быть описано с высокой точностью простой математической моделью эволюционного процесса (рис. 4–8). Эта модель основана на математической теории так называемых процессов рождения и смерти (один из видов марковских процессов) и для случая эволюции путем генной дупликации чаще называется моделью рождения, смерти и инновации (Karev et al., 2002). В рамках этой модели рождение – это такая генная дупликация, при которой появляется новый член паралогичного семейства, смерть – утрата гена, а инновация – это рождение нового семейства либо путем такой дупликации, которая вызывает быструю эволюции и тем самым как бы стирает «память» старого семейства, либо путем горизонтального переноса генов[40]. Наиболее интересный результат этого моделирования состоит в том, что эта модель эволюции путем генной дупликации воспроизводит рассмотренные нами распределения численности семейств паралогичных генов только при соблюдении вполне определенных условий: частоты рождения и смерти гена должны быть примерно равными и зависеть от численности семейства таким образом, чтобы большие семейства оказывались более динамичными, чем маленькие.

Стоит подчеркнуть, что динамика эволюции генного семейства описывается именно той стохастической моделью, которая используется в статистической физике. Однако, чтобы эта модель была совместима с полученными данными, необходимо соблюдение тонкого баланса между рождением, смертью и обновлением, и похоже, что этот баланс поддерживается естественным отбором. Примечательно, что эта и подобные модели описывают с одинаковой точностью эволюцию геномов как прокариот, так и эукариот, несмотря на существенные различия между процессами, ведущими к образованию семейств паралогичных генов. Для эукариот важнейшим, если не единственным, процессом, лежащим в основе эволюции семейств, является «честная» генная дупликация, a для прокариот количественно более важным является горизонтальный перенос генов (поэтому такие генные семейства «псевдопаралогичны»; см. гл. 5 и 7). Тот факт, что рассмотренные здесь модели одинаково хорошо описывают биологически отличающиеся процессы эволюции генома, ведущие к сходным результатам, с одной стороны, подчеркивает универсальность этих моделей, а с другой – указывает на их ограниченную ценность для биолога.

Рис. 4–8. Модель рождения, смерти и инновации в применении к эволюции генных семейств. Под рождением подразумевается генная дупликация или приобретение псевдопаралогичного гена путем горизонтального переноса с последующим расширением паралогичного семейства, смертью называется утрата гена (независимо от способа утраты), а инновацией считается приобретение нового гена, который становится родоначальником нового семейства (Karev et al., 2002)

Структура и эволюция сетей: всеобщность степенного закона и стоящие за ним фундаментальные процессы

Сеть (network) – популярнейшее понятие системной биологии, повсеместно пронизывающее современную культуру, не только в рамках биологии или науки в целом[41]. В самом деле, трудно придумать более естественный способ представления связей между многочисленными объектами, чем сеть (в математике рассматриваемую как ориентированный или неориентированный граф). В биологическом контексте узлами (или иначе – вершинами) сети часто представляют гены или белки, а ребрами (связями между узлами) обозначают их взаимодействия, которые могут быть физическими, генетическими или регуляторными (Barabasi and Oltvai, 2004). К настоящему времени разработано множество методов описания и сравнения структур (топологий) сетей (табл. 4–1). Наиболее часто для анализа используется понятие функции распределения степеней вершин, где под степенью вершины понимают число ребер, связывающих эту вершину с другими. Сравнение таких функций, выполненное для сетей различного типа, показало принципиальное отличие биологических сетей (а также многих небиологических, включая Интернет) от случайных графов: случайные графы имеют колоколообразное распределение Пуассона, а для биологических сетей распределения описываются степенной функцией (табл. 4–1). Сети, имеющие степенные функции распределения степеней вершин, называют масштабно-инвариантными сетями, так как графики их функций внешне не меняются при масштабировании (обратите внимание на прямую линию в двойных логарифмических координатах на табл. 4–1). Такие сети всегда содержат небольшое число вершин с высокими степенями, так называемых хабов (hubs), и большое число слабосвязанных вершин.

Таблица 4–1. Случайные и масштабно-инвариантные сети.

Рис. 4–9. Предпочтительное присоединение в эволюции биологических сетей: а – фрагмент сети и новый добавляемый элемент; б – результат включения новой вершины в сеть. K_i = степень i-й вершины, p_i = вероятность присоединения новой вершины к вершине i (см. табл. 4–1)

Примечательно, что степенная функция распределения степеней вершин, по всей видимости, является неотъемлемым свойством эволюционирующих сетей (включая Интернет) и не обязательно имеет биологическое происхождение. Все типы биологических сетей, как описывающих физические взаимодействия между белками, так и отражающих взаимную регуляцию генов, несомненно, появились в результате эволюции и обладают указанным типом распределения (другими словами, являются масштабно-инвариантными). Для объяснения универсального степенного закона распределения Барабаши с коллегами предложили принцип предпочтительного присоединения (preferential attachment) новых вершин, что на простом циничном языке означает, что в процессе эволюции сети «богатые делаются еще богаче» (Barabasi, 2002). Предпочтительное присоединение представляет собой стохастический, неадаптивный процесс. В самом деле, когда создается новый сайт в Интернете и случайно связывается с другими сайтами, с большей вероятностью он окажется связанным с хабом, чем с изолированным сайтом, просто потому что очень многие различные пути в сети ведут к хабам (табл. 4–1). Этот режим эволюции по своей природе консервативен – сеть сохраняет свою структуру в процессе роста. Является ли предпочтительное присоединение главным принципом эволюции биологических сетей? По этому вопросу еще не достигнуто согласия. В случае если этот принцип существен для биологических сетей, должны обнаружиться некоторые специфические биологические механизмы, обеспечивающие его выполнение (рис. 4–9). Высокая интерактивность хабов, представленная «липкостью» некоторых белков, склонных к взаимодействиям, не обязательно функционально значимым, со многими другими белками, могла бы быть одним из таких механизмов. Еще более важный вклад в формирование сетей осуществляется посредством важнейшего механизма эволюции – генной дупликации. Когда ген удваивается, все имеющиеся его связи с другими генами также удваиваются, а потом начинают постепенно расходиться в процессе последующей эволюции. В простейшей модели эволюции (такой как сбалансированная модель рождения, смерти и обновления), если частота генной дупликации пропорциональна размеру семейства, структура сети (то есть распределение степеней вершин) будет сохраняться даже при отсутствии давления отбора (Koonin et al., 2002; Lynch, 2007a).

Разбиение генома по биологическим функциям: универсальный степенной закон

До сих пор в нашем обсуждении универсальных количественных закономерностей в геномной эволюции мы преднамеренно обходили стороной вопрос биологических функций. Конечно, это абстракция: геном ни в коем случае не сумма безликих «молекул», а ансамбль генов, каждый из которых кодирует определенную биологическую функцию[42]. Сначала может показаться неожиданным, что способ рассуждения, позаимствованный из статистической физики, может быть применен и к биологическим функциям. Для применения такого подхода необходимо разделить гены на большие функциональные классы, о которых можно думать как о разных типах «молекул» и которые пригодны для статистического анализа, если они включают достаточно много генов.

Как показывается в серии доскональных исследований Эрика Ван Нимвегена[43], различные функциональные классы генов по-разному соотносятся с общим числом генов в геноме (Molina and van Nimwegen, 2009; van Nimwegen, 2003). Не учитывая некоторые отклонения, для прокариот можно указать три основных показателя степени, описывающие эти соотношения: 0, 1 и 2. Генам белков, участвующих в информационных процессах (трансляции, транскрипции и репликации), соответствует показатель степени 0 – число таких генов достигает некоторого константного значения уже в минимальных геномах и в принципе не зависит от сложности генома. Число метаболических ферментов и транспортных белков примерно прямо пропорционально общему числу генов (показатель степени 1). Регуляторные гены и компоненты систем передачи сигналов показывают квадратичную зависимость (показатель степени равен 2; рис. 4-10). Показатели степени этих трех обширных классов остаются неизменными, с очень небольшими отклонениями, для всех групп прокариот, и это позволяет предположить, что разница в эволюционной динамике генов с различными функциями отражает какие-то фундаментальные законы эволюции клеточных организмов, или, другими словами, строгие и четко выраженные ограничения в функциональном устройстве геномов. Для генов эукариот обнаружены похожие, хотя и не такие явные, степенные соотношения, показатель степени для регуляторных генов эукариот значительно больше 1 (хотя и меньше 2). Имея в виду все вышесказанное, можно заключить, что эти соотношения представляют еще один набор универсалий геномной эволюции, которые становятся еще интереснее при рассмотрении их связи с функциональным устройством клетки.

Фундаментальные причины существования различных соотношений для различных функциональных классов генов еще не выяснены. Привлекательно простая модель эволюции метаболических сетей прокариот как «ящика с инструментами», предложенная Сергеем Масловым и коллегами, может быть первым шагом на пути объяснения квадратичной зависимости, характерной для регуляторных генов (Maslov et al., 2009). В этой модели ферменты, необходимые для утилизации новых метаболитов, добавляются вместе с соответствующими им регуляторами (в первую очередь посредством горизонтального переноса генов, гл. 5) во все более развитую сеть реакций. В результате усложнения сети, обеспечивающей все большее разнообразие ферментов промежуточных реакций, увеличивается отношение числа регуляторных генов к регулируемым. В какой-то момент, и его наступление можно точно предсказать, цена добавления новых регуляторов неизбежно станет слишком невыгодной («разрастающаяся бюрократия») и будет ограничивать рост сложности генома.

Гипотеза «бюрократического потолка» для верхней границы сложности генома выглядит особенно правдоподобно в свете почти полного отсутствия роста числа генов в геномах позвоночных, особенно млекопитающих (и в наших геномах тоже), для которых связь между числом генов и размером генома очевидно нарушена (см. гл. 3 и 8). В принципе число генов могло бы быть напрямую ограничено ценой репликации ДНК, но для огромных геномов позвоночных этот фактор можно смело исключить как главное ограничение. Соответственно, цена регуляции, возможно совместно с ценой экспрессии, выглядит наиболее вероятным кандидатом на роль основного фактора, ограничивающего рост числа генов. Поэтому не случайно позвоночные (и в меньшей степени другие многоклеточные эукариоты) выработали новые, замысловатые способы увеличения сложности протеома, такие как широко распространенный альтернативный сплайсинг, альтернативная трансляция и сложная регуляция (в особенности обширный, все еще слабо изученный набор регуляторных РНК). Такие формы сложности не вызывают инфляционный рост числа белок-кодирующих генов и, таким образом, снижают по крайней мере некоторые издержки, особенно издержки трансляции (см. гл. 8).

Рис. 4-10. Четко различающиеся соотношения между различными функциональными классами генов и размером генома (общим числом белок-кодирующих генов) прокариот. Использована информация из базы данных COG (Tatusov et al., 2003). График построен в двойных логарифмических координатах.

Универсальная зависимость численности функциональных классов генов от размера генома находится в обратной зависимости с ранее описанным степенным законом распределения численности семейств генов. Чем больше положительный показатель степени функции зависимости от размера генома для функционального класса генов (рис. 4-10), тем меньше отрицательный показатель степени функции распределения численности семейств в этом классе (рис. 4–7). Кажется интуитивно правдоподобным, что функциональные классы с сильной зависимостью от размера генома должны содержать много больших семейств паралогичных генов. Обратная зависимость этих двух универсалий генома была выведена в рамках простой эволюционной модели, в которой используются правила пропорциональных вычислений для функциональной композиции генома, например «добавить два регулятора на каждый метаболический фермент» (Grilli et al., 2011). Предсказания этой модели подтверждаются эмпирическими данными для многих геномов бактерий и архей.

Стохастичность, нейтральность и отбор в эволюции

В предыдущих разделах этой главы мы ознакомились со многими количественными универсалиями, отражающими важнейшие аспекты эволюции и функционирования генома. Среди этих универсалий мы рассматривали вездесущий степенной закон распределения, который описывает как структуру всех биологических сетей, так и семейства паралогичных генов в разнообразных геномах, близкое к логарифмически нормальному распределение скоростей эволюции генов и универсальные корреляции, такие как отрицательная корреляция между генной экспрессией и скоростью эволюции. Какова природа этих универсалий? Отражают ли они какие-то глубокие свойства эволюции или это просто статистические эффекты, не имеющие отношения к пониманию биологических явлений? Здесь и далее в этой книге (гл. 13) будет отстаиваться точка зрения на эти универсалии как на нетривиальные, характерные и биологически значимые тенденции, хотя они отражают только одну из двух (а возможно, и большего числа) дополнительных (в смысле принципа дополнительности Бора) составляющих эволюции жизни[44].

Во-первых, как это уже отмечалось и теперь совершенно очевидно, все эти универсалии зависимы от поведения совокупностей генов, фундаментальных единиц эволюции, рассматриваемых как статистические ансамбли. Таким образом, эти универсальные зависимости и распределения являются эмергентными свойствами биологических систем, то есть свойствами, проявляющимися в результате того, что эти системы состоят из многочисленных (достаточно многочисленных для проявления устойчивых статистических закономерностей) элементов (генов или белков, в зависимости от контекста), слабо взаимодействующих друг с другом (если сравнивать эти взаимодействия с теми, которые поддерживают целостность самих этих элементов).

Во-вторых, как мы уже видели, современный эволюционный анализ не останавливается на демонстрации существования универсальных понятий и законов. По крайней мере некоторые ключевые универсалии, такие как распределение эволюционных скоростей, отрицательные корреляции между скоростью эволюции и экспрессией и распределение численности паралогичных семейств, были теоретически выведены в рамках простых, но достаточно детализированных, формальных моделей эволюции. Способность простых моделей, в которых в качестве элементарных событий рассматриваются наиболее общие эволюционные процессы (такие как дупликация и утрата генов), объяснять геномные универсалии убеждает в том, что эти универсалии отражают существенные черты эволюции.

Третье, и, возможно, наиболее важное, замечание о новой парадигме понимания эволюции, которую мы пытаемся здесь обрисовать, состоит в том, что порождающие модели для общегеномных универсалий либо совсем не используют понятие отбора, либо используют только понятие очищающего (стабилизирующего) отбора. Эта форма отбора направлена на сохранение статуса-кво и наблюдается для укладки белковых молекул, для распределения численности генных семейств и для универсальной зависимости численности функциональных классов генов от общего числа генов (Koonin and Wolf, 2010b).

Аналогия между эволюционным процессом и статистической физикой не ограничена существованием универсальных зависимостей и распределений, некоторые из которых могут быть выведены в рамках простых моделей. Возможно также составить схему детального соответствия ключевых параметров этих двух областей (Barton and Coe, 2009; Sella and Hirsh, 2005). Такой параметр состояния (степень свободы), как положение частицы, в этой схеме является аналогом либо состояния сайта в нуклеотидной или белковой последовательности, либо состояния гена в геноме (в зависимости от уровня моделирования эволюции), и тогда параметрам скорости эволюции для сайта или гена будет соответствовать скорость частицы. Более того, значение эффективной численности популяции будет очевидно аналогичным значению температуры в статистической физике, а приспособленность будет соответствовать свободной энергии.

Краткий обзор и перспектива: о природе эволюционного процесса

Результаты взаимопроникновения сравнительной геномики и системной биологии, обсуждаемые в данной главе, приводят нас к следующему ключевому обобщению.

Многие, чтобы не сказать все, общие закономерности геномной и молекулярно-фенотипической эволюций описываются стохастическими процессами, основанными на принципе подверженной ошибкам репликации и ограниченными очищающим отбором, который поддерживает существующую общую (но не специфическую) архитектуру генома и устройства клеток.

Это обобщение не следует понимать как исключение адаптации из числа важнейших эволюционных понятий. Разумеется, адаптация – это общее и неотъемлемое явление в эволюции всех форм жизни. Тем не менее становится все более ясным, что общие количественные характеристики геномной архитектуры, функционирования и эволюции в первую очередь определяются неадаптивными, стохастическими процессами. Адаптация только модулирует эти закономерности. Здесь становится очень соблазнительным провести вполне очевидную параллель с нейтральной теорией Кимуры. В ходе высокоуровневого анализа геномных и молекулярно-фенотипических параметров мы начинаем различать контуры «неонейтрализма» (см. также гл. 8).

Аналогия между эволюцией и стохастическими физическими процессами ни в коем случае не отрицает метафоры «эволюции как мастерового» Жакоба. Напротив, новые открытия в эволюционной геномике прекрасно вписываются в это представление об эволюции: естественный отбор (адаптивный компонент эволюции) представляет собой процесс «латания», не полную перестройку или создание нового объекта, а добавление к существующему новых частей из уже имеющихся подручных материалов. Таким образом, первичная форма отбора – это очищающий отбор, который поддерживает статус-кво. Это обобщение имеет довольно удивительное, но неизбежное следствие: большая часть наиболее значимых событий во всей истории жизни произошла в течение первых нескольких сотен миллионов лет существования жизни на Земле, до появления современного типа клеток. Этот период в истории жизни должен был качественно отличаться от всей остальной эволюции; есть основания считать, что важнейшее достижение эволюции – это появление клетки, все остальное уже не так важно. Мы будем обсуждать происхождение жизни с этой точки зрения в главах 11 и 12 и вернемся к обсуждению общей природы эволюции в главе 13.

Параллели между эволюционной биологией и статистической физикой оказались точными и фундаментальными до такой степени, что кажется вполне справедливым заключение о том, что это не аналогии, а проявление общих статистических принципов (если не сказать законов) поведения больших ансамблей слабовзаимодействующих объектов[45]. Как в физике, так и в эволюционной биологии такие ансамбли (например, идеальный газ в физике и геном как сумма генов в биологии) являются идеализациями. В реальности отклонения от поведения, которое предсказывается простыми статистическими моделями, неизбежны и значимы. В эволюционной биологии такие отклонения, кроме всего прочего, вызываются различными взаимодействиями генов, что приводит к неожиданным эффектам, таким как отсутствие строгой корреляции между биологической значимостью гена и скоростью его эволюции. Тем не менее существенный эвристический потенциал прямого статистического подхода в объяснении по крайней мере некоторых фундаментальных свойств как физических, так и биологических процессов неоспорим.

Глава 5. Сетевая геномика мира прокариот: вертикальные и горизонтальные потоки генов, мобиломы и динамика пангеномов

Когда Дарвин писал об эволюции, он имел в виду животных и растения, по крайней мере он использовал эти сложные многоклеточные организмы во всех своих конкретных примерах. Одноклеточные формы жизни практически не упоминаются в «Происхождении видов…» или любой другой книге Дарвина. В любом случае, учитывая, что Дарвин серьезно обсуждал происхождение всех существующих ныне видов от одной или нескольких предковых форм (см. гл. 2 и 11), он должен был исходить из того, что эти предки были одноклеточными[47]. Эрнст Геккель, плодовитый немецкий последователь Дарвина, поместил протист (одноклеточных эукариотов, часто называемых этим термином даже сейчас) и дробянок (ныне известных как прокариоты – бактерии и археи) в основании своего монументального древа жизни, первого из подобных деревьев, которое было населено реальными жизненными формами. Естественно, животные доминировали на дереве Геккеля, в то время как протисты и дробянки располагались на неопределенных позициях поблизости от корня.

Вездесущесть и важность бактерий в биосфере постепенно становились очевидными параллельно с развитием эволюционной биологии, вначале благодаря полным драматизма исследованиям бактериальных патогенов, а позднее в результате достижений экологической микробиологии. Достаточно рано микробиологи показали, что бактерии в буквальном смысле являются основным действующим началом в биосфере. Подавляющее большинство живых клеток на нашей планете – это именно бактерии, они демонстрируют наибольшее биохимическое разнообразие среди всех организмов и являются главной геохимической силой. Однако, несмотря на биологическую важность и поразительное биохимическое и экологическое разнообразие микробов и огромный прогресс микробиологии в середине XX столетия (в качестве примеров можно упомянуть открытие антибиотиков и демонстрацию химической природы генетического материала бактерий), микробиология ничего не внесла в СТЭ и не была эволюционной дисциплиной на протяжении большей части этого столетия. Не то чтобы микробиологи совсем не думали об эволюции, но все их попытки расшифровать эволюционные взаимоотношения между бактериями, используя морфологию клеток, а также метаболические и фенотипические характеристики, и на основе этих признаков построить филогенетическую таксономию приводили к несовместимым и неприемлемым результатам. Весьма любопытно, что приблизительно в то время, когда происходила консолидация СТЭ, ведущие микробиологии того времени, включая Роджера Стейнира и Корнелиуса Ван Нейла, пришли к выводу, что, если какие-то эволюционные процессы и происходят в микромире, описать их и как-либо применить в сфере таксономии микробов и микробиологии вообще практически невозможно (Stanier and Van Niel, 1962; Van Niel, 1955).

Как отмечено в главе 3, все резко изменилось в 1977 году, когда Карл Вёзе с сотрудниками применил филогенетический анализ рРНК как основной метод изучения эволюции микробов и создания их таксономии (Woese, 1987). Возможности новой методологии были эффектно продемонстрированы открытием архей, по-видимому, первым крупным открытием в биологии, которое было сделано исключительно на основе анализа нуклеотидных последовательностей. За этим прорывом последовал период «бури и натиска» 1980-х и начала 1990-х годов, когда филогения рРНК была успешно применена для прояснения взаимоотношений среди многих групп прокариот. Среди молекулярных эволюционистов того времени превалировало мнение, что в принципе эти методы позволят точно реконструировать эволюцию микробов.

Однако дивный новый мир микробной эволюции оказался недолговечным – эволюционная геномика вновь запутала картину самым неожиданным образом. Первый полный бактериальный геном был секвенирован в 1995 году, а первый геном археи – в 1996-м[48]. Вскоре после этого прорыва установился экспоненциальный темп секвенирования геномов со временем удвоения около 20 месяцев для бактерий и около 34 месяцев для архей (см. рис. 3–1). Сравнительный анализ сотен секвенированных бактериальных геномов и десятков геномов архей привел к важнейшему выводу: микробы определенно эволюционируют, но их эволюция сильно отличается от той, что описана СТЭ (Doolittle, 1999b; Woese and Goldenfeld, 2009). Ключевым стало осознание того, что геномы прокариот ведут себя не так, как если бы они были стабильными, точно наследуемыми носителями генетической информации организма (вида). Геномы микробов оказались чрезвычайно динамичными, неоднородными образованиями, которые относительно стабильны лишь на коротких интервалах времени, имеют свою характерную скорость распада и существуют в динамическом равновесии между различными формами жизни, которые отличаются по принципам геномной организации. В «мире прокариот» эти взаимосвязанные и постоянно взаимодействующие формы жизни включают не только бактерии и археи, но также различные плазмиды, вирусы и другие мобильные элементы. В этой новой, динамической парадигме прокариотической эволюции традиционная концепция видов с четко определенным, стабильным геномом теряет существенную, если не большую часть своей применимости (Doolittle and Zhaxybayeva, 2009). Становится осмысленнее говорить о сериях «пангеномов» на всех уровнях, от пангенома, например, Escherichia coli или любого другого «вида» бактерий или архей, до пангенома всех прокариот (Lapierre and Gogarten, 2009; Mira et al., 2010).

В главе 3 мы уже обсуждали важные аспекты структуры генетической вселенной прокариот. Она рассматривалась в основном как сложный статичный объект, то есть в терминах распределения различных существенных переменных. В этой главе мы также рассматриваем распределения, но в основном пытаемся встать на динамическую точку зрения и исследовать мир прокариот в терминах потоков генов и взаимодействия между репликонами.

Размер и общая организация бактериальных и архейных геномов

Несмотря на огромные различия в образе жизни, а также метаболической и геномной организации, бактериальные и архейные геномы демонстрируют легко различимые общие архитектурные принципы (см. обзор в гл. 3). Секвенированные бактериальные и архейные геномы охватывают два порядка величины по размерам от около 144 Кб для внутриклеточного симбионта Hodgkinia cicadicola до примерно 13 Мб для обитающей в почве бактерии Sorangium cellulosum (Koonin and Wolf, 2008b). Примечательно, что бактерии демонстрируют бимодальное распределение размеров генома[49] с пиком в районе примерно 5 Мб и дополнительным плато в районе примерно 2 Мб (см. рис. 5–1). Хотя существует много геномов промежуточного размера, это распределение предполагает существование двух в достаточной степени разделенных классов бактерий с «малым» и «большим» геномами. К этим наблюдениям нужно относиться с известной осторожностью, так как они могут быть артефактом, обусловленным предпочтительным секвенированием небольших геномов (в первую очередь бактериальных патогенов), но с ростом числа секвенированных геномов такое объяснение становится все менее удовлетворительным.

Археи демонстрируют более узкое, но также сложное распределение размеров генома от примерно 0,5 Мб у паразита/симбионта Nanoarchaeum equitans до примерно 5,5 Мб у Methanosarcina barkeri, с острым пиком в районе 2 Мб, который практически точно соответствует расположению плато бактериальных геномов малого размера, вторым небольшим пиком около 3 Мб и тяжелым хвостом, соответствующим геномам большего размера (см. рис. 5–1). При этом смещения в базе данных опять могут быть существенными, так как в настоящее время геномов архей секвенировано примерно на порядок меньше, чем геномов бактерий, так что пока может быть еще просто недостаточно данных для выявления истинной формы распределения размеров геномов. Однако более вероятно, что археи действительно являются менее разнородной группой, как будет обсуждаться далее в данном разделе.

Все очень маленькие (менее 1 Мб) геномы бактерий и архей принадлежат бактериям-паразитам и внутриклеточным симбионтам эукариот и единственной известной архее-паразиту (или симбионту) Nanoarchaeum equitans, которая живет за счет другой археи, Ignicoccus hospitalis. Таким образом, кажется все более вероятным, что минимальный размер генома свободно живущего прокариота, по крайней мере автотрофа, который не зависит от других форм жизни для добывания пищи, немного превышает 1 Мб. Текущий рекорд редукции генома среди свободно живущих клеток, около 1,3 Мб, принадлежит фотосинтезирующей морской альфа-протеобактерии Pelagibacter ubique (SAR11), которая также является наиболее распространенной из известных клеточных форм жизни на Земле (Giovannoni et al., 2005). (Связь между размером популяции и размером генома потенциально важна, мы вернемся к этому вопросу в гл. 8.)

Рис. 5–1. Распределение размеров геномов среди бактерий и архей.

Как мы уже обсуждали в главе 3, бактериальные и архейные геномы характеризуются высокой плотностью белок-кодирующих генов, которые занимают большую часть ДНК. Бактериальные и архейные геномы демонстрируют одномодальное и довольно острое распределение плотности генов, большей частью 0,8–1,2 гена на Кб геномной ДНК (отсюда предельно простое эмпирическое правило: 1 ген на 1000 пар нуклеотидов). Архейное распределение по сравнению с бактериальным сдвинуто в сторону более высоких плотностей, таким образом, в среднем архейные геномы даже более компактны, чем бактериальные. Похоже, что как кодирующие, так и межгенные области у архей немного короче по сравнению с бактериями.

Таким образом, археи и бактерии весьма похожи в смысле характерных размеров и общей архитектуры геномов, но резко отличаются от эукариот, которые охватывают много больший интервал размеров генома, имеют белок-кодирующие гены, часто прерываемые интронами, и более длинные межгенные промежутки (см. гл. 8). Эти общие признаки бактерий и архей подтверждают концепцию «прокариотного принципа организации генома» (см. более подробно ниже).

Пространство-время прокариот и его эволюция

Фрактальное пространство-время генома, пангеномы и кластеризация прокариот

В главе 3 мы сосредоточились на трехкомпонентной структуре прокариотического геномного пространства, состоящего из ядра, оболочки и облака, и показали, что эта структура фрактальна. Одни и те же три компонента, а именно небольшое ядро, оболочка большего размера и огромное по сравнению с ними «облако», проявляются на любом уровне разбиения генного пространства, от мира прокариот в целом до совсем небольших групп бактерий (см. рис. 3-14). Непосредственным следствием этой фрактальности является важность «пангеномов» – всей общности генов, представляющих геномы, принадлежащие к кластеру архей или бактерий на данном уровне. Читатель может (и должен) немедленно спросить, что определяет кластеры и откуда берутся уровни. Пока предположим, что дерево рРНК Карла Вёзе (см. рис. 2–3) разумно описывает организацию пространства-времени мира прокариот и является по крайней мере одним из источников для кластеризации. В главе 6 мы обсудим применимость и смысл концепции древа жизни более глубоко и покажем, что дерево рРНК, хотя ни в коем случае и не является полным представлением истории эволюции прокариот, тем не менее вполне осмысленно.

Огромное множество архейных и бактериальных генов кодируют белки, которые не имеют никакого измеримого сходства с какими-либо другими доступными последовательностями белков. Эти гены часто обозначают как одинокие рамки считывания (ОРС)[50] (Daubin and Ochman, 2004). Обычно в архейных и бактериальных геномах ОРС составляют 10–15 процентов от всех предсказанных генов. Многие ОРС – очень короткие, и некоторые из них могут быть не реальными генами, а результатом ошибочного предсказания при анализе генома (Ochman, 2002). Кроме того, высказывается предположение, что большинство ОРС, являющихся полноценными генами, произошли от генов бактериофагов и, соответственно, характеризуются высокой горизонтальной мобильностью, хотя в некоторых случаях они могут быть задействованы для клеточных функций и, соответственно, фиксируются в бактериальных и архейных геномах. Последние оценки, следующие из метагеномных исследований бактериофагов, предполагают, что разнообразие фаговых последовательностей очень велико и остается по большей части неизученным (Edwards and Rohwer, 2005). Таким образом, кажется привлекательной идея, что большая часть бактериальных и архейных ОРС произошла из этого огромного резервуара генов. В трехкомпонентной структуре вселенной прокариотических генов, с которой мы теперь знакомы, ОРС естественным образом объединяются с «облаком» редких генов, которые количественно доминируют в генном пространстве, но не в индивидуальных геномах, как обсуждалось в главе 3.

Насколько велико все геномное пространство прокариот? Сколько генов в общей сложности оно содержит? Надежная экстраполяция расширения геномного пространства в результате продолжающегося секвенирования бактериальных и архейных геномов и достоверная оценка реального размера этого пространства трудноосуществимы. Однако с учетом большого разнообразия микробных виромов, которые являются основным резервуаром генов и их переносчиком (см. также гл. 10), наиболее вероятно, что число элементов прокариотического геномного пространства увеличится на порядки величины, в основном, если не исключительно, за счет расширения «облака» (Koonin and Wolf, 2008b; Lapierre and Gogarten, 2009).

Эволюционная динамика архитектуры генома прокариот: опероны, суперопероны и сети соседствующих генов

Как уже отмечалось в главе 3, практически сразу же, как только были опубликованы первые полные геномные последовательности, стало очевидным, что последовательность генов в бактериальных и архейных геномах относительно мало консервативна, она сохраняется существенно хуже, чем последовательность нуклеотидов в самих генах (см. рис. 3–6). Для того чтобы анализировать эволюцию последовательности генов, необходимо иметь надежный набор ортологичных генов в сравниваемых геномах (см. табл. 3–1). Как только такое множество ортологичных генов задано, становится достаточно просто оценить степень сохранения последовательности генов, например с помощью точечного графика (одно из самых ранних представлений степени сходства нуклеотидных и белковых последовательностей), в котором каждая точка представляет собой пару ортологов. Исследование этих графиков показывает быстрое расхождение порядка генов у прокариот таким образом, что даже между близкородственными организмами коллинеарность хромосом разрушена в нескольких точках (см. рис. 5–2а), a умеренно разошедшиеся организмы показывают лишь несколько протяженных коллинеарных районов (см. рис. 5–2б и 5–2в). Для любой пары более отдаленных друг от друга организмов график выглядит как карта звездного неба (см. рис. 5–2 г). Разрушение синтении в процессе эволюции бактериальных и архейных геномов обычно явно бросается в глаза на графике, образуя картину в форме буквы X (см. рис. 5–2б и 5–2в). В свое время было сделано предположение, что такая картина возникает в результате симметричных хромосомных инверсий с центром в точке начала репликации (Eisen et al., 2000). Исходной причиной таких инверсий может быть высокая частота рекомбинаций в репликационных вилках, которые в кольцевых хромосомах бактерий и архей обычно располагаются с обеих сторон и на одинаковом расстоянии от точки начала репликации.

Рис. 5–2. Расхождение порядка следования генов между геномами бактерий: а – Borrelia afzelii PKo по сравнению с Borrelia burgdorferi B31; б – Shewanella oneidensis MR-1 по сравнению с Shewanella sp. ANA-3; в – Pseudomonas fluorescens PfO-1 по сравнению с Pseudomonas fluorescens Pf-5; г – Pseudomonas fluorescens Pf-5 по сравнению с Pseudomonas syringae pv. tomato str. DC3000. Каждая точка представляет пару ортологичных генов, идентифицированных с использованием метода наилучшего сходства при двунаправленном сравнении (см. табл. 3–1). Яркие точки показывают пары ортологичных генов, принадлежащих консервативным массивам генов; бледные точки показывают изолированные ортологи. DY – расстояние между сравниваемыми геномами в терминах порядка следования генов, как описано в Novichkov et al., 2009. DN – медианное расстояние между последовательностями несинонимических сайтов в белок-кодирующих генах.

Одной из наиболее ранних фундаментальных концепций бактериальной генетики является оперон, то есть группа совместно транскрибируемых и регулируемых генов (Jacob and Monod, 1961). Гипотеза оперона – выдающийся концептуальный прорыв Франсуа Жакоба и Жака Моно. Хотя за 50 лет, прошедших с момента ее первой публикации, было открыто огромное количество вариаций простой схемы регуляции лактозного оперона Lac репрессором, оперон выдержал проверку сравнительной геномикой как главный организационный принцип бактериальных и архейных геномов. В процессе эволюции опероны сохраняются гораздо лучше, чем протяженные синтении. Тем не менее сравнительный анализ порядка следования генов в бактериях и археях выявил небольшое количество оперонов, общих для широкого многообразия организмов. Как уже было отмечено ранее, высококонсервативные опероны, как правило, кодируют физически взаимодействующие белки, тенденция, легко объяснимая отбором, направленным против вредных эффектов дисбаланса между субъединицами сложных белковых комплексов. Наиболее эффектной иллюстрацией этой тенденции является рибосомный супероперон, включающий более 50 генов рибосомных белков, который встречается в различных комбинациях и локализациях во всех секвенированных архейных и бактериальных геномах. Анализ рибосомного супероперона и других частично сохраняющихся групп оперонов меньшего размера привел к идее сверхоперона (Lathe et al., 2000), или консервативного окружения гена (Rogozin et al., 2002), как некоего множества перекрывающихся, частично консервативных цепочек генов (известных или предсказанных оперонов; см. рис. 5–3). В дополнение к рибосомному супероперону, яркими примерами консервативного окружения являются предсказанная группа перекрывающихся оперонов, которая кодирует субъединицы экзосомного комплекса архей, и cas-гены, из которых состоит антивирусная система защиты (см. также гл. 9 и 10).

Большинство генов в каждом консервативном окружении кодируют белки, вовлеченные в один и тот же процесс или комплекс, но существуют и высококонсервативные участки, которые включают гены с функциями, как кажется, несвязанными. Яркий пример – частое присутствие гена енолазы в рибосомном окружении или генов субъединиц протеасомы в экзосомном окружении архей. Присутствие этих генов, на первый взгляд кажущихся неуместными в консервативном генном окружении, может объясняться скрытой функциональной связью, плейотропией (множественностью функций соответствующих белков), или «геномным автостопом», когда оперон объединяет гены функционально не связанные, но экспрессируемые в одинаковых условиях (Rogozin et al., 2002).

Концепция геномного окружения воплощает в себе парадигму эволюции генома прокариот, если не эволюции геномов вообще, так как она ярко демонстрирует баланс между частичным сохранением элементов ядра и огромной диверсификацией периферии (см. рис. 5–3а). Так же как для многих других объектов и их взаимоотношений в биологии, эти частично консервативные окружения могут быть естественным образом представлены в виде сети, в которой гены являются узлами, соседи соединены ребрами, а вес ребер пропорционален частоте встречаемости данной связи в геномах (см. рис. 5–3).

Рис. 5–3. Частично сохраняющееся окружение гена в геноме прокариот: а – перекрывающиеся, частично сохраняющиеся массивы генов. Гены показаны в форме стрелок с уникальной штриховкой или текстурой. Связывающие их жирные линии обозначают короткие межгенные промежутки, а тонкие линии показывают протяженные районы, разделяющие соответствующие гены. (Они содержат дополнительные гены и изображены без учета масштаба.) В случаях, в которых опероны не связаны, они могут располагаться в различных частях генома. На рисунке показаны реальные массивы генов, но названия конкретных геномов и генов не указаны, чтобы подчеркнуть общий характер геномной организации подобного типа. Данные по Rogozin et al., 2002; б – представление окружения гена в виде сети. Закрашенные окружности показывают гены, которые принадлежат к окружению, автоматически вычлененному с использованием алгоритма, описанного в Rogozin et al., 2002; показана только часть окружения. Незакрашенная окружность соответствует гену, который принадлежит окружению, но не был включен в него автоматической процедурой. Стрелки показывают связь между генами в оперонах (жирные стрелки соответствуют связям внутри окружения, а пунктирные стрелки – внешним связям). Толщина стрелок примерно пропорциональна числу геномов, в которых представлена данная пара генов.

Большинство оперонов находится не в сложном окружении, включающем разнообразные связи, а представляет собой простую последовательность от двух до четырех генов, порядок которых может различаться. Идентичные или похожие в смысле организации генов опероны часто обнаруживаются в сильно различающихся организмах и в различных функциональных системах. Примечательны в данном случае многочисленные опероны транспорта метаболитов, которые состоят из расположенных в одинаковом порядке генов, кодирующих трансмембранные пермеазы, АТФазы и периплазматические субъединицы так называемых ABC-транспортеров (три субъединицы обозначаются соответственно A, B и C). Присутствие таких общих оперонов в разнообразных бактериях и археях было интерпретировано в рамках гипотезы эгоистичного оперона (Lawrence, 1999), которая постулирует, что оперон так хорошо сохраняется не из-за функциональной важности совместной регуляции входящих в него генов, а из-за «эгоистичности» этой компактной генетической единицы, которая склонна к горизонтальному распространению среди прокариот (ниже в этой главе мы еще вернемся к данной концепции при обсуждении горизонтального переноса генов).

Систематическое сравнение расположения ортологичных генов в архейных и бактериальных геномах выявило относительно небольшую долю сохраняющихся (предсказанных) оперонов и гораздо большую распространенность уникальных директонов (последовательностей генов, считываемых в одинаковом направлении и разделенных короткими межгенными участками; Wolf et al., 2001). Как было показано, возможно несколько неожиданно, директоны довольно точно предсказывают опероны: большинство директонов в действительности, по-видимому, являются оперонами (Salgado et al., 2000). Таким образом, архейные и бактериальные геномы сформированы на оперонных принципах с небольшим числом высококонсервативных оперонов и намного более многочисленными редкими и уникальными оперонами. С учетом этого обстоятельства модель консервации оперонов, по крайней мере качественно, напоминает распределение кластеров ортологичных генов, с его трехкомпонентной структурой (см. выше): редкие гены и редкие опероны гораздо более многочисленны, чем повсеместно распространенные гены и опероны.

Степень «оперонизации» генома у бактерий и архей широко варьирует: некоторые геномы, например как у гипертермофильной бактерии Thermotoga maritima, почти полностью состоят из (предсказанных) оперонов, в то время как другие, как у большинства цианобактерий, по-видимому, содержат очень немного оперонов. Остается неясным, что определяет распространенность оперонов в организме, хотя высказывались предположения, что степень «оперонизации» зависит от баланса между интенсивностью рекомбинации и горизонтального потока генов, а также факторов отбора, препятствующих разрушению оперонов.

Регуляция экспрессии генов и передачи сигналов у бактерий и архей: от базовой схемы оперона к сверхоперонам, регулонам и сложным сетям

Бактерии и археи обладают сложной и элегантной системой регуляции экспрессии генов. Сравнительная геномика драматически изменила существующие взгляды на принципы организации, распределение в природе и эволюцию этих регуляторных механизмов. Концепция оперона Жакоба и Моно, представленная в предыдущем разделе как основной принцип локальной архитектуры бактериальных и архейных геномов, также является концепцией регуляции экспрессии генов и передачи сигналов у прокариот. В модели Жакоба – Моно регулятор (репрессор лактозы в их оригинальной работе) является сенсором внеклеточных и внутриклеточных сигналов (в данном случае концентрации лактозы), что влияет на структуру белка-регулятора и, опосредованно, на экспрессию оперона (в случае лактозного оперона репрессор, связывая лактозу, отсоединяется от регуляторной части оперона, делая тем самым возможной транскрипцию). В течение полувека, прошедших с момента фундаментального открытия Жакоба – Моно, было обнаружено множество вариаций этой темы, включая регуляторы, которые симметрично влияют на транскрипцию разных расположенных по соседству генов, и глобальные регуляторы, которые контролируют экспрессию многочисленных разрозненных генов и оперонов, в противоположность репрессору простого оперона в модели Жакоба – Моно. Наиболее заметными глобальными регуляторами являются белки – подавители катаболизма (CRP) и регулятор ответа на стресс (SOS) LexA. С учетом открытия этих и других глобальных регуляторов концепция оперона была усовершенствована понятием регулона – набора генов, экспрессия которых регулируется одним и тем же белком-регулятором. Сравнительный геномный анализ регулонов выявил их чрезвычайную эволюционную пластичность с существенными различиями между регулонами даже у близкородственных организмов (Lozada-Chavez et al., 2006). Глобальные регуляторы транскрипции, такие как LexA, широко распространены и высококонсервативны в различных бактериях, но состав генов в регулоне LexA является очень вариативным. Пластичность регулонов, наряду с изменчивостью архитектуры генома (см. выше), хорошо согласуется с идеей, что регуляция экспрессии генов и архитектура генома в эволюции архей и бактерий тесно взаимосвязаны. В резком контрасте с изменчивостью и пластичностью регулонов, регуляторы транскрипции у бактерий и архей демонстрируют примечательное единство архитектуры и структуры. Как правило, эти регуляторы содержат домен, связывающий небольшие молекулы-сенсоры и ДНК-связывающий домен. Подавляющее большинство ДНК-связывающих доменов являются вариациями одной и той же структурной темы, спираль – поворот – спираль. Более специфические, но тоже распространенные домены связывания с ДНК включают мотивы лента – спираль – спираль и цинковая лента (Aravind et al., 2005; Aravind and Koonin, 1999).

Более сложная схема передачи сигналов и регуляции экспрессии генов, которая процессирует сигналы, приходящие из окружающей среды, основана на так называемых двухкомпонентных системах (Casino et al., 2010). Двухкомпонентные системы состоят из мембранных гистидин-киназ и растворимых регуляторов ответа, между которыми сигнал передается путем переноса фосфата. Примечательно, что классические регуляторы транскрипции и гистидин-киназы содержат много общих сенсорных доменов. Это родство указывает на то, что регуляторы транскрипции (однокомпонентные системы) и двухкомпонентные системы образуют единую, интегрированную структуру передачи сигналов и регуляции экспрессии. Однокомпонентные системы, которые распространены практически повсеместно и, как правило, численно доминируют у бактерий и архей, предположительно являются наиболее древними устройствами передачи сигналов, в то время как двухкомпонентные системы, вероятно, являются произошедшей от них более сложной формой передачи сигнала, которая эволюционировала как механизм реагирования на стимулы, приходящие из окружающей среды (Ulrich et al., 2005).

Сравнительная геномика бактерий и архей внесла решающий вклад в открытие новых, до того неизвестных, но в действительности весьма распространенных систем передачи сигналов. В течение многих лет было известно, что широко распространенная форма глобальной регуляции у бактерий использует в качестве посредника цАМФ (циклический АМФ), при участии различных аденилатциклаз (яркий пример неортологичной замены генов), многочисленных белков, содержащих сенсоры цАМФ, такие как GAF-домен, a также белки катаболитной репрессии (CRP и FNR) и другие регуляторы транскрипции, которые тоже содержат цАМФ-связывающие домены. Сравнительный анализ выявил многочисленные неклассифицированные белки, содержащие гомологичные сенсорные домены, которые типичны для цАМФ-зависимых регуляторов и двухкомпонентных систем, объединенные с одним или двумя новыми доменами, GGDEF и EAL (обозначенными так по соответствующим мотивам консервативных последовательностей аминокислот). Геномный контекст этих доменов и наблюдение, что домен GGDEF является отдаленным гомологом одного из семейств аденилатциклаз, привели к гипотезе, что эти белки являются компонентами новой системы (или систем) передачи сигналов. Впоследствии эти предсказанные системы были открыты после того, как было показано, что домен GGDEF обладает активностью ди-ГМФ-циклазы, в то время как EAL является ди-ГМФ-фосфодиэстеразой. Зависимая от ц-ди-ГМФ передача сигнала, существование которой даже не предполагалось в догеномную эру, начинает рассматриваться как главная регуляторная система бактерий и архей (Seshasayee et al., 2010).

Другая интересная тема дискуссий – широкое представительство у прокариот различных модулей сложных систем передачи сигналов, которые, как считалось ранее, характерны только для эукариот. В частности, сравнительный геномный анализ убедительно показал, что белковые серин-треонин-киназы и соответствующие фосфатазы широко распространены и диверсифицированы среди архей и бактерий и являются важным компонентом многогранной системы передачи сигналов у прокариот. Анализ большего количества бактериальных геномов неожиданно выявил гомологи белков, которые, как считалось ранее, имеются только у эукариот, где они вовлечены в известные пути передачи сигналов, такие как программируемая клеточная смерть (ПКС), или апоптоз. Эти белки включают протеазы из суперсемейства каспаз, семейство апоптозных АТФаз и семейство ГТФаз NACHT; все они вовлечены в различные формы ПКС растений и животных (Koonin and Aravind, 2002; Leipe et al., 2004). Как правило, эти белки обладают сложной мультидоменной модульной архитектурой, для которой характерно соединение каталитических доменов с разнообразными доменами, обеспечивающими специфичность белок-белковых взаимодействий. Эти предполагаемые сигнальные молекулы наиболее распространены в бактериях со сложными фазами развития, таких как цианобактерии, актинобактерии и миксобактерии, а также присутствуют у метаносарцин, единственной известной группы архей с относительно большими геномами и сложной морфологией. Детальное исследование функций этих белков еще предстоит, но есть предварительные признаки того, что у некоторых бактерий они могут быть вовлечены в ПКС (Bidle and Falkowski, 2004). Эти наблюдения показывают, что по крайней мере для некоторых из сложных сигнальных систем эукариот существуют аналоги и вероятные эволюционные предшественники среди бактерий. Мы еще вернемся к этим связям, когда будем обсуждать в главе 7 происхождение эукариот.

Наряду с вышеупомянутой приблизительно квадратичной зависимостью от размера генома сравнительный геномный анализ выявил огромную вариацию в сложности систем передачи сигналов среди бактерий и архей. Эта изменчивость, по-видимому, отражает разнообразие стилей жизни среди соответствующих организмов. Вариации в доле генов, ответственных за передачу сигналов, были количественно отражены в «бактериальном IQ», показателе, который пропорционален квадратному корню от числа белков передачи сигналов (учитывая квадратичное масштабирование) и обратно пропорционален общему количеству генов (Galperin, 2005). IQ отражает способность бактерий и архей отвечать на различные стимулы, приходящие из внешней среды. Соответственно, внутриклеточные симбионты (паразиты) имеют наименьшие значения IQ. Он лишь ненамного выше у организмов с компактными геномами, живущих в стабильной внешней середе, таких как морские цианобактерии, и существенно больше у организмов, живущих в сложной и переменчивой среде, даже у тех, которые обладают сравнительно небольшими геномами.

Горизонтальный перенос генов – определяющий процесс в эволюции прокариот

Повсеместное распространение ГПГ в мире прокариот

Вездесущесть и огромную важность горизонтального переноса генов (ГПГ) в эволюции архей и бактерий можно рассматривать как самую большую новость, выявленную с помощью сравнительного геномного анализа прокариот. Никакое другое открытие не было причиной такого большого количества споров и (порою желчных) дебатов, в которых сталкивались прямо противоположные точки зрения на ГПГ, от утверждений о его повсеместном распространении и всеобъемлющей роли в эволюции бактерий и архей до отрицания любого значимого вклада ГПГ в эволюцию (Gogarten and Townsend, 2005; Kurland et al., 2003; O’Malley and Boucher, 2005). Существование ГПГ, переноса генов между неродственными организмами иным путем, нежели посредством вертикальной передачи реплицированной хромосомы в процессе деления клетки, было осознано задолго до того, как был секвенирован первый геном (Syvanen, 1994). Более того, стало понятно, что ГПГ может происходить исключительно быстро и эффективно – во всяком случае, под давлением отбора, как в случае распространения устойчивости к антибиотикам в популяции патогенных бактерий. Однако, до того как появилась возможность сравнения множества полных геномных последовательностей, ГПГ по молчаливому соглашению рассматривался как маргинальный феномен, возможно важный для таких специфических областей, как эволюция сопротивляемости инфекциям, но по большей части не принимавшийся во внимание при изучении эволюции организмов. Как читатель, вероятно, помнит, сама важность вопроса о роли ГПГ в эволюции была осознана в связи с другим революционным открытием: демонстрацией Вёзе и соавторами того, что филогенетический анализ рРНК прокариот реально возможен и может быть потенциально использован для описания эволюции бактерий и недавно открытых архей. Для большинства биологов трехдоменное эволюционное дерево рРНК, полученное Вёзе, стало синонимом гипотетического древа жизни (ДЖ), исходно постулированного Дарвином, a теперь реально полученного и готового для использования в качестве основы для картирования эволюционных событий всевозможного рода (Pace, 2006). Такова была парадигма, когда сравнительная геномика вызвала революцию, связанную с осознанием роли ГПГ.

Исторически и методологически проблема идентификации актов ГПГ и его влияния на эволюцию бактерий и архей резко различается для случаев (сравнительно) недавних и древних переносов, с одной стороны, и переносов между близкородственными и давно разошедшимися организмами, с другой стороны (Koonin et al., 2001a). Недавние случаи ГПГ, особенно между близкородственными организмами, широко распространены, бесспорны и легко обнаруживаются. Действительно, сравнение геномов бактериальных штаммов предоставляет отчетливые свидетельства большого количества актов ГПГ. Вероятно, наиболее характерным примером является открытие так называемых островов патогенности – генных кластеров, которые несут информацию, типичную для патогенов, подобную той, что содержится в генах, кодирующих различные токсины, компоненты секреторной системы третьего типа и другие подобные системы у бактерий-паразитов, а также похожие «симбиотические острова» у бактерий-симбионтов. Острова патогенности представляют собой протяженные районы генома размером до 100 Кб, которые обычно расположены недалеко от генов тРНК и содержат множество генетического материала профагов, откуда напрашивается предположение, что вставка этих островов в геном была осуществлена при посредничестве бактериофагов (Juhas et al., 2009). Ставший классическим сравнительный геномный анализ энтерогеморрагического штамма O157:H7 и лабораторного штамма K12 бактерии E. coli показал, что патогенный штамм содержит 1,387 дополнительного гена, распределенного между несколькими специфичными для штамма кластерами (островами патогенности), сильно различающимися по размерам. Таким образом, до 30 процентов генов у патогенных штаммов, по-видимому, были приобретены посредством недавнего ГПГ (Perna et al., 2001). Последующий детальный анализ индивидуальных линий O157:H7 показал, что процесс ГПГ непрерывно продолжается, внося свой вклад в различие степени вирулентности этих штаммов (Zhang et al., 2007). Воздействие недавнего ГПГ определенно не ограничивается патогенетическими эффектами. Большинство недавних (случившихся, по оценкам, в течение последних 100 миллионов лет) добавлений в метаболическую сеть E. coli явно были вызваны ГПГ, часто включающим опероны, кодирующие два и более фермента или белка-переносчика одного и того же метаболического пути. Вклад дупликации генов в метаболические инновации оказался в количественном плане существенно менее важным.

Многочисленные исследования выявили фундаментальный вклад ГПГ в эволюцию конкретных функциональных систем прокариот. Возможно, наиболее впечатляющие результаты были получены для кластера генов фотосинтеза цианобактерий и других фотосинтезирующих бактерий (Raymond et al., 2002). Филогенетический анализ уверенно показывает, что эти кластеры представляют собой сложную мозаику генов, собранных посредством множественных актов ГПГ. Попросту говоря, кислородный фотосинтез, который сформировал нынешнюю атмосферу Земли, вероятно, появился благодаря ГПГ (Mulkidjanian et al., 2006). К тому же большинство цианофагов несут один или более ген фотосинтеза, предположительно используя их для усиления фотосинтетической активности инфицированных клеток. Таким образом, бактериофаги фактически являются переносчиками генов фотосинтеза при ГПГ (Lindell et al., 2005).

Особенно важным представляется открытие агентов переноса генов (АПГ) в нескольких группах бактерий и архей. АПГ являются дефектными производными от хвостатых бактериофагов, которые упаковывают и переносят случайные фрагменты хромосомы (не являющиеся генами профагов, кодирующими капсид и аппарат упаковки) между прокариотами (Paul, 2008). В прямых экспериментах с сообществами морских микроорганизмов было показано, что АПГ переносят гены необычайно эффективно и малоизбирательно по отношению к реципиенту (McDaniel et al., 2010). Таким образом, как это ни поразительно, АПГ вполне правомочно можно рассматривать как специализированные средства перемещения генов путем ГПГ, которые, вероятно, вносят важный вклад в потоки генов в мире прокариот. Мы вернемся к роли вирусов и АПГ в ГПГ и эволюции геномов в целом в главе 10.

Кроме непосредственной экспериментальной проверки и сравнения геномов, недавний ГПГ определяется посредством анализа состава нуклеотидов, частот олигонуклеотидных последовательностей, частоты использования тех или иных кодонов и других «лингвистических» признаков нуклеотидных последовательностей, которые обнаруживают приобретение генов в горизонтальном направлении в виде композиционных аномалий данного генома. Однако перенесенные горизонтально последовательности относительно быстро изменяются, так как приобретенные гены «одомашниваются» в процессе эволюции, так что перенесенные гены в геноме-реципиенте скоро становятся «лингвистически» неразличимы (Ragan, 2001). Важно отметить, что молекулярные механизмы ГПГ между близкородственными организмами хорошо понятны (если не сказать полностью понятны) и включают конъюгацию, перенос бактериофагами (трансдукцию) и трансформацию (Bushman, 2001).

В отличие от четко установленных недавних случаев ГПГ, особенно между компактными группами родственных организмов, обобщение явления ГПГ на большие эволюционные расстояния, особенно в отдаленном прошлом, их механизмы и влияние на эволюцию архей и бактерий остаются предметом жарких споров (Gogarten and Townsend, 2005; Kurland et al., 2003)[51]. Сравнительная геномика предоставила достаточно свидетельств вероятного ГПГ, включая перенос между очень отдаленными организмами, в частности археями и бактериями. Первым явным свидетельством массивного ГПГ между археями и бактериями было обнаружение того, что гипертермофильные бактерии (конкретно Aquifex aeolicus и Thermotoga maritima) содержат намного больше гомологов белков, характерных для архей, чем мезофильные бактерии, а также белки, имеющие гомологи как среди архей, так и среди бактерий, но с аминокислотными последовательностями, существенно больше похожими на архейные гомологи, чем на бактериальные (см. рис. 5–4)[52]. Сравнение с мезофильными бактериями показало, что доля «архейных» белков у бактерий-гипертермофилов была намного больше (причем с высокой статистической значимостью), чем у мезофилов (Aravind et al., 1998; Nelson et al., 1999). Впоследствии было продемонстрировано, что мезофильные археи с относительно большим геномом, Methanosarcina и галобактерии, обладают намного большим количеством «бактериальных» генов, чем термофильные археи с небольшими геномами (см. рис. 5–4; Deppenmeier et al., 2002). Это обстоятельство позволяет грубо оценить долю генов, которые могли быть приобретены археями и бактериями в местах их совместного обитания за счет ГПГ между ними, по крайней мере в 20 процентов.

Несмотря на эти замечательные открытия, ГПГ между эволюционно далекими прокариотами остается предметом дебатов, и все имеющиеся к настоящему времени свидетельства часто (иногда жестко) критикуются (Kurland, 2005; Kurland et al., 2003). Таксономический анализ результатов сравнения последовательностей большого числа геномов дает серьезные аргументы в пользу предполагаемого ГПГ, особенно если учесть, что для прокариот с различными стилями жизни получаются сильно разнящиеся результаты (см. рис. 5–4). И все же эти свидетельства не «доказывают» ГПГ, и в свое время были предложены иные объяснения (не всегда правдоподобные), такие как конвергенция белковых последовательностей удаленных организмов, которые живут в похожих условиях среды обитания (например, гипертермофильные археи и бактерии). Так или иначе, в течение первой декады третьего тысячелетия многочисленные филогеномные исследования – анализ филогенетических деревьев для всех (или почти всех) генов прокариот, которые являются в достаточной степени консервативными и, таким образом, содержат достаточно филогенетической информации для надежных выводов, выявили обширный перенос генов между хорошо известными группами архей и бактерий, включающий даже перенос генов между царствами (Beiko and Hamilton, 2006; Puigbo et al., 2009; Sicheritz-Ponten and Andersson, 2001). Кроме того, эти исследования продемонстрировали существование «скоростных магистралей» (highways), предпочтительных путей для потока генов (Beiko et al., 2005). Широкие магистрали связывают, в частности, различные термофильные организмы (см. также гл. 6).

Рис 5–4. Анализ генов в геномах архей и бактерий на предмет таксономической близости наиболее близких гомологов. Показаны данные для гипертермофильной бактерии Thermotoga maritima и для мезофильной археи Methanosarcina mazei. Результаты были получены программой BLASTP путем поиска аминокислотных последовательностей всех белков в каждом геноме с использованием базы данных последовательностей белков NCBI (Altschul et al., 1997).

Ключевая проблема «горизонтальной геномики» – отношение между специфичной для каждого семейства потерей генов и ГПГ. Фундаментальные исследования выявили сложный и нетривиальный характер эволюции прокариот, проявляющийся в «пятнистой» филогенетической структуре, наблюдаемой для многих КОГ (см. рис. 5–5). Такую картину можно объяснить либо ГПГ, либо потерей генов, либо комбинацией этих двух явлений. Простейший (и наиболее, как принято говорить, экономный) эволюционный сценарий можно вычислить, когда известно соотношение скоростей процессов ГПГ и потери генов. Но это отношение (которое, несомненно, различно для разных групп прокариот[53], что будет обсуждаться ниже в этой главе и в гл. 6) является одним из самых больших белых пятен в прокариотической геномике. Известно несколько глобальных реконструкций эволюции прокариот, все из которых основывались на некоторой версии принципа экономии и использовании того или иного сценария с переменным соотношением скоростей приобретения/потерь или попытками оценки оптимальной величины этого соотношения (Kunin and Ouzounis, 2003; Mirkin et al., 2003). Результатом этих исследований был вывод о том, что в процессе эволюции прокариот ГПГ может быть почти так же или несколько менее (вероятно, приблизительно вдвое) распространен, как потеря генов. Соответственно, в процессе эволюции большинства КОГ, по всей видимости, произошло по меньшей мере одно событие ГПГ, даже в пределах того ограниченного множества организмов, которые были проанализированы. Конечно, эти исследования проводились на базе сильно упрощенных предположений, таких как одинаковая для всех организмов частота ГПГ и потери генов внутри групп прокариот; представления, что высокая сложность предковых форм малоправдоподобна (казалось бы, естественная, но, по-видимому, ложная идея; см. гл. 8 об эволюции сложности); и, собственно, концепции дерева видов. Хотя результаты не сильно зависят от топологии дерева видов, базовое представление о дереве с обособленными ветвями, представляющими эволюцию сравниваемых организмов, необходимо при любой реконструкции. В этом заключается фундаментальная проблема, которая достигает буквально философских высот: для того чтобы содержательно обсуждать горизонтальный перенос, сперва непременно следует определить главное, вертикальное направление эволюции. Однако, если организмы обмениваются генами с высокой скоростью, в предельном случае совершенно свободно и равномерно, концепция вертикальной эволюции не имеет никакого смысла, так же как и противоположная ей концепция ГПГ. Следовательно, представление эволюции прокариот в виде паутины (сети) кажется логической неизбежностью (см. рис. 5–6). Я должен, однако, оговориться: хотя древовидная компонента эволюции и не обязана существовать, в эволюции прокариот она на самом деле прослеживается. Она схематически изображена на рис. 5–6 и будет главной темой в главе 6.

Рис. 5–5. Филетическая карта КОГ. Закрашенные кружки символизируют наличие члена КОГ в геноме, незакрашенные обозначают их отсутствие.

Здесь же мы продолжим обсуждение ГПГ с пониманием того, что древовидная структура действительно наблюдается как важная центральная тенденция эволюции прокариот (см. гл. 6). Широко распространено мнение, что «информационные» гены, кодирующие белки, вовлеченные в процессы трансляции, транскрипции и репликации, намного менее склонны к ГПГ, чем операционные гены, кодирующие ферменты, вовлеченные в метаболизм, транспортные системы и другие «операционные» белки. Обоснование этой точки зрения заключается в так называемой гипотезе сложности (Jain et al., 1999). В соответствии с этой гипотезой, причина низкого темпа ГПГ среди информационных генов заключается в том, что белки, кодируемые этими генами (в отличие от белков, кодируемых большинством операционных генов), обычно являются составными частями сложных белковых машин, которые сильно взаимно адаптированы и, таким образом, не могут быть легко заменены соответствующими ортологами из эволюционно далеких организмов (известными как ксенологи). Однако справедливость гипотезы сложности и ее применимость в общем случае остается неясной, так как и среди информационных генов обнаружено много очевидных случаев ГПГ. Весьма неожиданно, что эти случаи включают не только подавляющее большинство аминоцил-тРНК синтетаз (АРСаз), ферментов, функционирующих в относительной изоляции, но также многие рибосомные белки, являющиеся компонентами молекулярной машины трансляции, рибосомы (Makarova et al., 2001b). Явные свидетельства ГПГ были также обнаружены для таких традиционных маркеров вертикальной филогении, как субъединицы ДНК-зависимой РНК-полимеразы (Iyer et al., 2004a). Разница в режимах эволюции информационных и операционных генов, очевидно, обусловлена как значительно меньшим распространением замены генов неортологами, так и снижением частоты ГПГ как такового среди информационных генов.

Рис. 5–6. Сетевое представление эволюции прокариот.

В свое время было высказано предположение, что ГПГ между близкородственными организмами (в соответствии с оценкой степени похожести их субъединиц рРНК и других консервативных генов) более широко распространен, чем ГПГ между эволюционно далекими организмами, и такой градиент ГПГ может вносить существенный вклад в наблюдаемую филогенетическую связь между различными группами прокариот (Gogarten et al., 2002). Систематическое изучение способности генов, полученных от других бактерий, комплементировать функции ортологов, показало, что с увеличением степени расхождения последовательностей ортологичных генов комплементация становится менее эффективной (Diaz et al.2011). Это наблюдение интуитивно привлекательно, так как перенесенный ген должен работать в другой клеточной среде, и, таким образом, можно ожидать, что чем меньше расхождение между набором генов донора и реципиента и структурой генов-ортологов, тем более вероятно, что перенесенный ген успешно приживется и будет зафиксирован отбором. Представляется вероятным, что различия в фиксации перенесенных генов в мире прокариот могут быть фактором, обеспечивающим целостность и стабильность геномов, вопреки интенсивному ГПГ. Мы вернемся к этому вопросу в главе 6 в контексте концепции древа жизни.

Примечания

1

Перевод заглавия этого введения представил серьезные трудности. В английском оригинале было towards a postmodern synthesis. Это конечно же игра слов: с одной стороны, postmodern означает просто «после Modern Synthesis» (то, что в русской литературе обычно называется синтетической теорией эволюции, СТЭ), а с другой – «постмодернистский». Как это передать по-русски, совершенно не очевидно. Хуже того, этот нехитрый каламбур неоднократно обыгрывается в дальнейших главах. Никакого способа справиться с этой трудностью, кроме написания этого примечания, ни переводчикам, ни автору в голову не пришло (примеч. авт. к русскому изданию здесь и далее курсивом).

2

Во многом эти представления опираются на публикации крупнейшего современного эволюциониста Форда Дулитла, которые цитируются в соответствующих главах.

3

По иронии судьбы, magnum opus Ламарка «Философия зоологии» был напечатан в год рождения Дарвина.

4

Удивительно точное и глубокое описание непосредственного воздействия и публичного признания книги Дарвина можно найти в романе Джона Фаулза «Любовница французского лейтенанта».

5

Естественно, сам Дарвин не использовал термин «дарвинизм»; этот не очень удачный и едва ли дальновидный неологизм введен последователем и защитником Дарвина, Томасом Генри Гексли, в отзыве на «Происхождение…» (Huxley, T. H. 1860. Darwin on the origin of Species. Westminster Review: 541–570). Это слово имеет некоторый оттенок догматичности, если не псевдонаучности, по созвучию с другими хорошо известными «-измами», например марксизмом, или фрейдизмом, или даже лысенкоизмом (по-русски – лысенковщиной; о лысенковщине см. гл. 9). Естественно, что никто не говорит о ньютонизме или эйнштейнизме, а слово «менделизм» (обычно в составе сложных слов «менделизм-вейсманизм» или «менделизм-морганизм») употреблялось исключительно в негативном контексте антинаучно мыслящими последователями Лысенко в Советском Союзе. Тем не менее термин, предложенный Гексли, твердо прижился и даже привлекает своей емкостью. В этой книге я использую его исключительно для описания «первой синтетической теории эволюции», которая была разработана Дарвином в «Происхождении…», а затем усовершенствована в последующих работах Гексли, Уоллеса, Вейсмана, Геккеля и других ранних последователей Дарвина.

6

Выражение «неупрощаемая сложность» было придумано Майклом Бихи, одним из основных сторонников антиэволюционной гипотезы разумного замысла (РЗ), в его (печально) известной книге «Черный ящик Дарвина» (Behe, M. J. 2006. Darwin’s Black Box: The Biochemical Challenge to Evolution. New York: Free Press). Для Бихи и других сторонников РЗ «неупрощаемость» сложных биологических структур является будто бы подтверждением (даже доказательством) неизбежности РЗ. Конечно же РЗ – это злостная чушь, но термин «неупрощаемая сложность» вполне выразителен, хотя эволюционные биологи предпочли бы говорить о «видимой» или «кажущейся» неупрощаемости сложных структур.

7

Посетитель музея Менделя в Брно имеет возможность рассматривать экземпляр немецкого перевода «Происхождения видов…», густо испещренный пометками Менделя. Автор был там уже после публикации английского оригинала этой книги и остался под сильным впечатлением.

8

Сэр Рональд Фишер был настоящим гением. (Fisher Box, J. 1978. R. A. Fisher: The Life of a Scientist. New York: Wiley.) Он был фактическим основателем не только популяционной генетики, но и, во многом, современной статистики и ввел математическое определение информации задолго до Клода Шеннона. В эту книгу мы включили также другие примеры его замечательных научных предвидений. В то же время сэр Рональд посвятил большую часть своей карьеры делу евгеники, области исследования, которая в настоящее время рассматривается как псевдонаука и граничит с преступлением. Следует избегать суждения о великих умах даже относительно недавнего прошлого по сегодняшним меркам.

9

В русской литературе используется термин «синтетическая теория эволюции» (СТЭ), который и употребляется далее в этой книге.

10

Это уже сделано во многих различного уровня учебниках и монографиях, как обзорных, так и глубоко специализированных. Взвешенное, умеренно специализированное представление данной темы можно найти в издании D. L. Hartl and A. G. Clark (2006). Principles of Population Genetics, Sunderland, MA: Sinauer Associates.

11

В принципе если адаптивный ландшафт строится для гена, то число измерений будет равняться количеству нуклеотидных сайтов. Взаимодействие между сайтами (эпистаз) уменьшает размерность.

12

Формально теорема Фишера не запрещает всё нисходящее движение, потому что она касается только той части адаптивных изменений, которые обусловлены отбором. Фишер, однако, считал, что на практике большинство, если не все популяции слишком велики, чтобы то явление, которое Райт обозначил как дрейф, могло иметь какое-либо влияние на них. Это было предметом ожесточенных споров между Фишером и Райтом. Окончательным победителем оказался, конечно, Райт.

13

Эта знаменитая фраза Добржанского является названием его эссе, опубликованного в журнале «Американский учитель биологии» (Dobzhansky, T. 1973. Nothing in biology makes sense except in the light of evolution // The American Biology Teacher 35: 125–129). В целом это поразительный текст. Хотя большая часть эссе удивительно ясно объясняет идею эволюции, заключительные абзацы посвящены выразительной пропаганде совместимости эволюции и христианства, и трудно избавиться от впечатления, что именно это и было главной целью автора. Добржанский, как истинный прихожанин Русской православной церкви, верил, что Бог осуществил свой план сотворения мира как развертывающийся сценарий эволюции жизни. Более того, Добржанский изобретательно клеймит отрицание эволюции как кощунство, так как данная позиция подразумевает, что Бог – мошенник, который намеренно вводит человечество в заблуждение, предоставляя многочисленные доказательства эволюции. Я подозреваю, что не каждый, кто цитирует это изречение Добржанского в дискуссиях о преподавании эволюции, действительно читал это эссе.

14

Иногда та же самая аббревиатура расшифровывается как Last Universal Common Ancestor (последний универсальный общий предок). Однако представляется полезным подчеркнуть, что речь идет именно об общем предке всех клеточных форм жизни. Мы вернемся к этой теме в главе об эволюции вирусов.

15

Сами по себе эти принципы описываются в элементарных учебниках, но рассматриваемый здесь информационно-теоретический подход уже не так тривиален, так что я счел необходимым явно перечислить эти принципы.

16

Этот принцип может быть подвергнут достаточно обоснованному сомнению в свете открытия разнообразных явлений эпигенетической наследственности (в гл. 9 мы коснемся этих явлений, хотя и слишком кратко). В данной формулировке вся эпигенетика спрятана в слове «косвенно», но автор отдает себе отчет в спорности такого подхода.

17

Чаргафф не оценил вовремя исключительной важности своего открытия, и тот факт, что двум высокомерным молодым людям, не знавшим химии, удалось открыть тайну жизни, которой он, эксперт-химик, не понял, исполнил Чаргаффа горечи до конца его долгой жизни, вдохновляя его едкие, чтобы не сказать язвительные, книги. (Chargaff E. Heraclitean Fire: Sketches from a Life Before Nature. New York: Rockefeller University Press, 1978.)

18

Строго говоря, это верно лишь для идеализированных систем репликаторов, размножающихся без ограничений, то есть экспоненциально. Именно такие системы рассматривал Дарвин вслед за Мальтусом. В более реалистических системах с ограниченным (параболическим) размножением наблюдается «выживание всех», а не только наиболее приспособленных, и для селекции и дрейфа необходимы дополнительные условия, такие как компартментализация (Szathmary E. The origin of replicators and reproducers. Philos Trans R Soc Lond B Biol Sci. 2006 Oct 29;361(1474):1761-76).

19

Не совсем ясно, кто первым сформулировал принцип, который я здесь называю ПОР. Говорится о том, что в 1930-х годах эти идеи высказывали выдающиеся русские генетики Николай Константинович Кольцов и Николай Владимирович Тимофеев-Ресовский (Шноль С. Э. Герои, злодеи, конформисты российской науки. 2-е изд., дополненное. М.: Крон-пресс, 2001), но я ничего не знаю об их формальной публикации. Эрвин Шредингер приближается к этой идее в знаменитой книге (Шредингер Э. Что такое жизнь? Физический аспект живой клетки / Пер. с англ. 2-е изд. Ижевск: РХД, 2002), но все же не приходит к конкретной формулировке. В англоязычной литературе Ричард Докинз четко формулирует идею в 1976 году в ставшем классикой «Эгоистичном гене» (Докинз Р. Эгоистичный ген / Пер. с англ. М.: Мир, 1993). С другой, абстрактной точки зрения, теория самовоспроизводящихся автоматов, не привязанных ни к какому физическому воплощению, была разработана великим математиком Джоном фон Нейманом (Нейман Дж. фон. Теория самовоспроизводящихся автоматов / Пер. с англ. М.: Мир, 1971).

20

Известная русская поговорка «Не до жиру, быть бы живу» выражает ту же идею упрощенно, но достаточно точно.

21

Здесь уместно сказать несколько слов о метафоре в биологии, тем более что метафора «эгоистичного гена» была отмечена как особенно часто вводящая в заблуждение (Ball, 2011). Вне всякого сомнения, использовать и в особенности интерпретировать эту метафору следует с великой осторожностью, и даже легкого намека на очеловечивание генного «эгоизма» следует избегать всеми силами. Тем не менее я думаю, что метафоры необходимы для развития науки, и покуда научные результаты представляются посредством естественного языка (а не только математических выражений), метафоры неизбежны. Кроме того, хорошая метафора – краткая, запоминающаяся и запечатлевшая важные общие тенденции в широком поле наблюдения – способна сильно подтолкнуть свежее мышление и исследование. Я, например, считаю «эгоистичный ген», «мусорную ДНК» и «адаптивный ландшафт» прекрасными метафорами.

22

Во времена, когда еще не было полных геномных последовательностей, предвидение динамического генома было, вероятно, лучше всего представлено в исчерпывающей монографии выдающегося российского генетика Романа Бениаминовича Хесина (Хесин Р. Б. Непостоянство генома. М.: Наука, 1984). Эта пророческая книга была издана незадолго до безвременной кончины Хесина и стала легендарной среди русских биологов. К сожалению, она, по-видимому, не оказала большого влияния за пределами России.

23

Коли уж мы обратили внимание на причастность сэра Рональд Фишера к евгенике, было бы несправедливо не упомянуть, что еще один патриарх популяционной генетики, Дж. Б. С. Холдейн, был многолетним членом Британской коммунистической партии и, вероятно, из партийной лояльности в течение многих лет поддерживал лысенковскую лженауку (или, по крайней мере, оставлял за ней презумпцию научности). Холдейн был ученым не меньших масштабов, чем Фишер, одним из последних великих универсалов в истории науки (Dronamraju K. R. Haldane and Modern Biology. Johns Hopkins University Press, 1968). Ему принадлежат не только многочисленные важные результаты в математической генетике (в том числе теория генетического груза), но и большой вклад в область кинетики ферментативных реакций и – вероятно, важнее всего – множество удивительно пророческих идей о разнообразнейших предметах, которые можно найти в его книгах и статьях (мы вернемся к некоторым из них в гл. 10). Холдейном также написаны сотни блестящих популярных очерков обо всех аспектах науки, многие из которых опубликованы в коммунистической газете «Дейли уоркер». В 1950 году Холдейн вышел из коммунистической партии, осознав степень разрушений, причиненных советской генетике Лысенко и его шайкой. Холдейн может послужить ярким примером того, что даже величайшие ученые не должны рассматриваться в отрыве от исторического контекста.

24

Эмиль Цукеркандль указал мне, что в его совместных с Лайнусом Полингом ранних работах по молекулярной эволюции проводится явное различие между гомологами, эволюционировавшими вертикальным путем, и теми, которые эволюционировали путем дупликации, хотя не вводилось никаких специальных терминов для обозначения этих разных классов гомологов. У каждого открытия или концептуального прорыва свои предшественники.

25

«Сказки просто так» – прекрасный сборник детских сказок Редьярда Киплинга (Киплинг Р. Сказки просто так / Пер. с англ. К. Чуковского и Л. Хавкиной. М.: Росмэн-Пресс, 2011). В них происхождение некоторых особенностей морфологии животных, таких как хобот слона и панцирь броненосца, возводится к различным своеобразным случаям. Киплинг, кажется, уже осознавал ошибочность панадаптационизма, хотя его выводы не всегда совпадали с выводами Гулда и Левонтина.

26

Здесь стоит сказать несколько слов о Карле Вёзе, создателе молекулярной филогенетики и первооткрывателе архей, который скончался уже после публикации оригинала этой книги, 30 декабря 2012 года, на 85-м году жизни (Goldenfeld N., Pace NR. Retrospective. Carl R. Woese (1928–2012) // Science. 2013 Feb 8;339(6120):661). Конечно, и при его жизни у коллег не было никаких сомнений в том, что он был крупнейшим ученым, подлинным революционером в микробиологии и эволюционной биологии. Однако, по точному выражению Анны Ахматовой, «когда человек умирает, изменяются его портреты». По крайней мере, для автора этой книги теперь очевидно, что в последней трети XX века Вёзе не было равных среди биологов. Его вклад в науку исключительно велик и разнообразен, и конечно же ни в коей мере не сводится к открытию архей. В этой книге его имя упоминается чаще, чем любое другое: во-первых, в связи с его пионерскими исследованиями по эволюции генетического кода, выполненными еще в 60-х годах прошлого века, затем, разумеется, при обсуждении молекулярной филогении и трех доменов клеточной жизни и, наконец, в контексте его глубоких концептуальных работ рубежа двух тысячелетий.

27

Я охотно признаю свое пристрастие к вирусам. Будучи второкурсником МГУ, я выбрал кафедру вирусологии в качестве специализации. Этот выбор был отчасти продиктован посторонними соображениями, такими как очевидный интерес к реальной науке и либеральная атмосфера на этой кафедре, в отличие от некоторых других. Это было важно в то время, и не было ошибкой. Но более фундаментальным побуждением было мое увлечение разнообразием генетических механизмов и организации генома вирусов, что приводит к идее о том, что вирусы могут иметь непосредственное значение для понимания ранних этапов эволюции жизни. Я все еще думаю, что эта идея совершенно верна, как обсуждается в гл. 10 и 11. Все эксперименты, которые я когда-либо провел, относились к области вирусологии; эта работа, хоть сама по себе и несущественная, была чрезвычайно поучительна для всех моих последующих исследований в области вычислительной биологии. Вероятно, еще важнее, что мои первые вылазки в сравнительную геномику, совпавшие по времени с рождением всей этой области исследования, были связаны с вирусными геномами. Эти небольшие геномы были идеальной стартовой площадкой: даже с тогдашними примитивными средствами вычислительной техники (и, конечно, со всем рвением новичка) в общем-то можно было проследить эволюцию каждой аминокислоты в вирусных белках.

28

Много хуже, чем Фишер или Холдейн, Мережковский публично выступал с чрезвычайно отвратительными взглядами явно фашистского толка. Тем не менее его работы по эндосимбиозу являют собою поразительный пример образцового исследования и по сей день (W. Martin and K. V. Kowallik. Annotated English Translation of Mereschkowsky’s 1905 Paper ‘Uber Natur und Ursprung der Chromatophoren im Pflanzenreiche‘ // European Journal of Psychology 34 [1999]: 287–296.)

29

Обратите здесь внимание на сходство с адаптивным ландшафтом Райта. Насколько я знаю, это две независимые сошедшиеся вместе идеи.

30

Это нехитрое предсказание, разумеется, подтверждается: экспоненциальный, а возможно, даже более быстрый рост числа геномных последовательностей продолжается.

31

По-видимому, термин «геном» был впервые использован немецким ботаником Гансом Винклером в 1920 г. (M. Ridley. Genome. New York: Harper Perennial, 2006).

32

Типичный элемент американских квартир и домов, буквально поразивший воображение автора во время первого визита в США в 1991 году, а теперь, кажется, постепенно выходящий из моды.

33

Когда, сравнивая первые секвенированные бактериальные геномы, мы с Аркадием Мушегяном обнаружили, что порядок генов сохраняется столь слабо, это настолько нас поразило, что мы назвали краткую статью, описывающую это наблюдение, «Бактериальная эволюция не сохраняет порядка генов» (A. R. Mushegian and E. V. Koonin. Gene Order Is Not Conserved in Bacterial Evolution // Trends in Genetics 12 (1996a): 289–290). С точностью фактов, описанных в статье, кажется, все в порядке, но, если бы мне пришлось публиковать ее сегодня, я бы постарался отыскать для нее более точное и осторожное название. Однако то название, которое мы дали статье, зафиксировало наше удивление контрастом между сохранностью генных последовательностей и изменчивостью порядка генов.

34

Разумеется, если биосфера выживает.

35

Статья, описывающая геном M. genitalium, называется «Минимальный набор генов бактерии Mycoplasma genitalium» (C. M. Fraser, J. D. Gocayne, O. White, M. D. Adams, R. A. Clayton, R. D. Fleischmann, C. J. Bult, A. R. Kerlavage, G. Sutton, J. M. Kelley et al. The Minimal Gene Complement of Mycoplasma genitalium // Science 270 (1995): 397–403). Однако, хоть и имея столь малое число генов, этот организм весьма специализирован и потому не может полагаться действительно «минимальным».

36

Уже после публикации оригинала этой книги такая модель в первом приближении была разработана (Lobkovsky AE, Wolf YI, Koonin EV. Gene frequency distributions reject a neutral model of genome evolution // Genome Biol Evol. 2013;5(1):233-42). Эта модель указывает на необходимость неравномерного распределения силы отбора, действующей на отдельные гены, для формирования характерной трехкомпонентной структуры генной вселенной.

37

Эволюция выбора кодонов – сложная и интересная проблема, которую мы здесь не можем рассмотреть сколько-нибудь детально (см.: Plotkin JB, Kudla G. Synonymous but not the same: the causes and consequences of codon bias Nat Rev Genet. 2011 Jan;12(1):32–42). Отметим лишь, что, как правило, оптимальный кодон соответствует наиболее высоко экспрессируемой тРНК для данной кодонной серии.

38

В простейших моделях процесс укладки белка имитируется посредством подгонки модельной последовательности на ортогональной решетке. В более реалистичных (или, вернее, менее нереалистичных) моделях от решетки отказываются в пользу свободной укладки модельной полимерной цепи. Эта техника более приближена к реальному процессу укладки белка, но и требует больше вычислительных ресурсов. По ряду соображений точность решеточной модели показалась слишком низкой для обсуждаемого здесь вопроса, поэтому мы использовали безрешеточную модель.

39

Это предположение хорошо согласуется с результатами более ранней работы того же Джорджа Занга, в которой показано, что «мгновенная» скорость эволюции (то есть скорость, измеренная путем сравнения ортологов из близких видов) гораздо лучше коррелирует с эффектом нокаута (важностью гена), чем скорость, измеренная на более протяженных эволюционных интервалах (Zhang J, He X. Significant impact of protein dispensability on the instantaneous rate of protein evolution. Mol Biol Evol. 2005 Apr;22(4):1147-55). С другой стороны, конечно же не следует забывать, что предложенная гипотеза имеет статистический характер и не относится к группе наиболее важных генов (например, гены рибосомных белков остаются незаменимыми на протяжении всей эволюционной истории).

40

Возможно также рождение нового гена из некодирующей последовательности, особенно в больших геномах многоклеточных организмов.

41

Многие читатели вспомнят теорию шести рукопожатий. Еще более знакомая иллюстрация встречается в журналах, бесплатно предоставляемых во время рейса большинством авиалиний. В следующий раз во время перелета взгляните на неизменно печатаемую на тыльной стороне журнала сеть авиатрасс – это прекрасный пример масштабно-инвариантной сети, с авиационными хабами в Атланте, Чикаго или Денвере. И конечно, Интернет – это тоже масштабно-инвариантная сеть. Увлекательное, и достаточно точное теоретически, рассмотрение сетей во всех сферах жизни можно найти в популярных книгах Альберта-Ласло Барабаши, одного из пионеров сетевой биологии (Linked. The New Science of Networks. New York: Perseus Press, 2002), и Дункана Ваттса (Six Degrees: The Science of a Connected Age. New York: W.W. Norton & Co., 2004).

42

Точнее, конечно, будет сказать, что каждый ген вносит вклад в разные биологические функции, поскольку все гены обладают той или иной степенью плейотропии.

43

У каждого важного открытия есть свои предшественники – нужно только повнимательнее поискать. Я думаю, это один из «универсальных законов» истории науки. Похоже на то, что «закон Ван Нимвегена» был впервые описан в статье о геноме синегнойной палочки, но без акцента на нем и без сколько-нибудь серьезного анализа (C. K. Stover, X. Q. Pham, A. L. Erwin, S. D. Mizoguchi, P. Warrener, M. J. Hickey, F. S. Brinkman, W. O. Hufnagle, D. J. Kowalik, M. Lagrou, R. L. Garber, L. Goltry, E. Tolentino, S. Westbrock-Wadman, Y. Yuan, L. L. Brody, S. N. Coulter, K. R. Folger, A. Kas, K. Larbig, R. Lim, K. Smith, D. Spencer, G. K. Wong, Z. Wu, I. T. Paulsen, J. Reizer, M. H. Saier, R. E. Hancock, S. Lory, and M. V. Olson. Complete Genome Sequence of Pseudomonas Aeruginosa PAO1, an Opportunistic Pathogen // Nature 406 (2000): 959–964).

44

По-видимому, многие из этих универсалий, во всяком случае те, которые математически представляются характерными функциями распределения, можно вывести из единого, чрезвычайно общего физического принципа, известного как принцип максимальной энтропии или принцип минимального производства информации (Jaynes, T. Probability Theory: The Logic of Science. Cambridge Univ Press, 2003). Вкратце и упрощая, можно сформулировать этот принцип так: любая макроскопическая величина, определяемая совокупностью многочисленных микроскопических процессов, принимает, с учетом необходимых ограничений, распределение с максимальной энтропией (то есть такое распределение, для получения которого требуется минимальная информация). Легко понять, что принцип максимальной энтропии тесно связан со вторым началом термодинамики. Применение этого принципа к биологической эволюции – глубокая и интересная тема, которую здесь, конечно, не раскрыть. Чрезвычайно содержательное обсуждение этих вопросов можно найти в статье Стивена Франка, с которой автор, к сожалению, познакомился уже после публикации оригинала этой книги (Frank SA. The common patterns of nature // J Evol Biol. 2009 Aug;22(8):1563-85).

45

Здесь надо вновь сделать упор на принцип максимальной энтропии.

46

К этому списку хочется добавить уже упомянутую статью Франка (Frank SA. The common patterns of nature. J Evol Biol. 2009 Aug;22(8):1563-85), которая представляет собой достаточно простое, удивительно четкое и интересное обсуждение универсальных распределений и принципа максимальной энтропии, а также статью автора этой книги, в которой обсуждается природа законов эволюционной геномики (Koonin EV. Are there laws of genome evolution? // PLoS Comput Biol. 2011 Aug;7(8):e1002173).

47

В действительности, хотя Дарвин не обсуждал микробов в печати, некоторые из его писем показывают значительный интерес к этой теме и ее понимание (M. A. O’Malley, What Did Darwin Say About Microbes, and How Did Microbiology Respond? Trends in Microbiology 17 [2009]: 341–347).

48

По всей вероятности, это предвзятый взгляд, но для меня волнение, вызванное прочтением этих первых геномов, буквально ни с чем не сравнимо.

49

Бимодальное распределение какой-либо величины редко встречается в природе, его появление указывает, что наблюдается нечто интересное.

50

Здесь непереводимая игра слов: по-английски такие гены называют ORFans. Это обозначение происходит, с одной стороны, от ORF, Open Reading Frame (открытая рамка считывания), a с другой стороны, от Orphans (сироты – то есть гены, у которых нет известных родственников).

51

Так в оригинале. Теперь автору представляется, что здесь было бы точнее сказать «еще не так давно были».

52

Первая публикация геномной последовательности гипертермофильной бактерии Aquifex aeolicus не смогла выявить дополнительные «архейные» гены, и в действительности даже однозначно заявляла об их отсутствии (G. Deckert, P. V. Warren, T. Gaasterland, W. G. Young, A. L. Lenox, D. E. Graham, R. Overbeek, M. A. Snead, M. Keller, M. Aujay, R. Huber, R. A. Feldman, J. M. Short, G. J. Olsen, and R. V. Swanson. The Complete Genome of the Hyperthermophilic Bacterium Aquifex Aeolicus // Nature 392 [1998]: 353–358). Идея о возможном обмене генами между археями и бактериями гипертермофилами определенно приходила авторам в голову. Единственная причина, по которой он не был обнаружен, заключалась в том, что геном Aquifex довольно маленький, но авторы не нормализовали число «архейных» генов к общему числу генов (или размеру генома). Как только подобная нормализация была сделана, она сразу же выявила поразительное преобладание «архейных» генов в сравнении с геномами мезофильных бактерий (L. Aravind, R. L. Tatusov, Y. I. Wolf, D. R. Walker and E. V. Koonin. Evidence for Massive Gene Exchange Between Archaeal and Bacterial Hyperthermophiles // Trends in Genetics 14 [1998]: 442–444).

53

А также и для разных функциональных групп генов.

Конец бесплатного ознакомительного фрагмента.

Страницы:
1, 2, 3, 4, 5, 6, 7, 8, 9, 10

ЭЛЕКТРОННАЯ БИБЛИОТЕКА ModernLib.Net

Евгений Кунин - Логика случая. О природе и происхождении биологической эволюции

Популярные авторы

Популярные книги

Логика случая. О природе и происхождении биологической эволюции

Евгений Кунин Логика случая. О природе и происхождении биологической эволюции

Предисловие автора к русскому переводу

Введение. На пути к новому синтезу эволюционной биологии[1]

Глава 1. Основы эволюции: Дарвин и синтетическая теория эволюции

Дарвин и первая синтетическая теория: величие замысла, ограничения и проблемы

Генетика и «черный день» дарвинизма

Популяционная генетика, теорема Фишера, адаптивные ландшафты, генетический дрейф и «эволюционная тяга»

Положительный и очищающий (отрицательный) отбор: классификация форм отбора

Синтетическая теория эволюции

Краткий обзор главы

Рекомендуемая дополнительная литература

Глава 2. От синтетической теории эволюции к эволюционной геномике: различные механизмы и пути эволюции

Репликация цифровых носителей информации: центральный принцип биологии и необходимое и достаточное условие эволюции

Молекулярная эволюция и молекулярная филогенетика

Нейтральная теория молекулярной эволюции

Измерение естественного отбора сравнением последовательностей ДНК

Эгоистичные гены, мусорная ДНК и мобильные элементы

Эволюция путем дупликации генов и геномов: ортологи и паралоги

Прерывистое равновесие и несостоятельность градуализма

Пандативы, экзаптация, эволюция как ремесленник и ошибочность панглоссианской парадигмы эволюции

Эволюция в мире микробов и вирусов и трехдоменное древо жизни

Вирусы и рождение эволюционной геномики

Эндосимбиоз

Канализация и устойчивость в эволюции

Краткий обзор и перспектива

Рекомендуемая дополнительная литература

Глава 3. Сравнительная геномика: эволюционирующие геномные ландшафты

Важность перехода к геномике

Эволюция геномных ландшафтов

Вселенная генов

Краткий обзор главы

Рекомендуемая дополнительная литература

Глава 4. Геномика, системная биология и универсалии эволюции: эволюция генома как феномен статистической физики

Взаимосвязь между эволюционными и фенотипическими параметрами, универсалии эволюции генов, белков и геномов и физическая модель эволюционного процесса

Почти нейтральные сети и белковая эволюция

Геномная эволюция путем дупликации генов, модель рождения и смерти гена и универсальное распределение численности паралогичных семейств

Структура и эволюция сетей: всеобщность степенного закона и стоящие за ним фундаментальные процессы

Разбиение генома по биологическим функциям: универсальный степенной закон

Стохастичность, нейтральность и отбор в эволюции

Краткий обзор и перспектива: о природе эволюционного процесса

Рекомендуемая дополнительная литература[46]

Глава 5. Сетевая геномика мира прокариот: вертикальные и горизонтальные потоки генов, мобиломы и динамика пангеномов

Размер и общая организация бактериальных и архейных геномов

Пространство-время прокариот и его эволюция

Горизонтальный перенос генов – определяющий процесс в эволюции прокариот

Примечания

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

Евгений Кунин

Логика случая. О природе и происхождении биологической эволюции