Прорыв 2021 года в области науки: искусственный интеллект открывает доступ к белковым структурам

Два белка образуют комплекс

Искусственный интеллект предсказал, как два белка образуют комплекс, участвующий в репарации ДНК у дрожжей. Иллюстрация В. Алтунян

В своей речи о присуждении Нобелевской премии 1972 года американский биохимик Кристиан Анфинсен изложил свое видение: однажды, по его словам, можно будет предсказать трехмерную структуру любого белка просто по последовательности его аминокислотных строительных блоков. Имея в человеческом организме всего сотни тысяч белков, такой прогресс мог бы найти широкое применение, предлагая понимание основ биологии и открытие новых перспективных лекарственных направлений. Теперь, почти 50 лет спустя, исследователи показали, что программное обеспечение, основанное на искусственном интеллекте, может создавать тысячи точных белковых структур. Достижение, которое реализует мечту Анфинсена и знаменует собой прорыв года в науке.

Когда-то давно белковые структуры можно было определить только с помощью кропотливых лабораторных тестов. Но теперь их можно быстро вычислить для десятков тысяч белков и для их комплексов взаимодействующих между собой. “Это кардинальное изменение для структурной биологии”, — говорит Гаэтано Монтелионе, структурный биолог из Политехнического института Ренсселера. Дэвид Бейкер, компьютерный биохимик из Вашингтонского университета в Сиэтле, возглавлявший один из проектов прогнозирования, добавляет, что благодаря обилию легкодоступных структур все области вычислительной и молекулярной биологии будут преобразованы.

Белки — это рабочие лошадки биологии. Они сокращают наши мышцы, преобразуют пищу в клеточную энергию, доставляют кислород в наш кровоток и борются с микробами. Тем не менее, несмотря на их разные способности, все белки имеют одинаковую базовую форму: линейную цепочку из 20 различных видов аминокислот, соединенных вместе в последовательности, закодированной в нашей ДНК. После сборки на клеточных фабриках, называемых рибосомами, каждая нить складывается в уникальную, изысканно сложную трехмерную форму. Эти формы определяют, как белки взаимодействуют с другими молекулами, определяют их роль в клетке.

Работа Анфинсена и других предполагает, что взаимодействия между аминокислотами приводят белки к их окончательной форме. Но, учитывая огромное количество возможных взаимодействий между каждым отдельным звеном цепи и всеми остальными звеньями, белки даже небольших размеров могут принимать астрономическое количество возможных форм. В 1969 году американский молекулярный биолог Сайрус Левинтал подсчитал, что белковой цепи потребуется больше времени, чем возраст вселенной, чтобы пройти через них одну за другой, даже в бешенном темпе. Но в природе каждый белок надежно сворачивается только в одну отличительную форму и делает это обычно в мгновение ока.

В 1950-х годах исследователи начали отображать трехмерные структуры белков, анализируя, как рентгеновские лучи отражаются от атомов молекул. Этот метод, известный как рентгеновская кристаллография, вскоре стал ведущим подходом. Сегодня центральное хранилище данных, Банк данных белка, содержит около 185 000 экспериментально решенных структур. Но картирование структур может занять годы и стоить сотни тысяч долларов за белок. Чтобы ускорить этот процесс, в 1970-х годах ученые начали создавать компьютерные модели для прогнозирования того, как тот или иной белок будет сворачиваться.

Сначала это было возможно только для небольших белков или коротких сегментов более крупных белков. Но к 1994 году, компьютерные модели стали достаточно сложными, чтобы инициировать проводимый раз в два года конкурс «Критическая оценка прогнозирования структуры белка» (CASP). Организаторы предоставили разработчикам моделей аминокислотные последовательности десятков белков. В конце мероприятия результаты моделирования были сопоставлены с последними экспериментальными данными по рентгеновской кристаллографии и новейшими методами, такими как спектроскопия ядерного магнитного резонанса и криоэлектронная микроскопия (крио-ЭМ). Оценки выше 90 считались эквивалентными экспериментально решенным структурам.

AlphaFold

Примеры структуры, предсказанные с помощью AlphaFold. Визуализированы основные структуры истинные (синие) и предсказанные структуры (другие цвета).

Первоначальные результаты были скромными, с медианой ниже 60. Но со временем разработчики моделей научились хитростям, позволяющим улучшить свои расчеты. Например, участки аминокислот, общие для двух белков, часто сворачиваются одинаково. Если белок неизвестной структуры разделяет, скажем, 50% своей аминокислотной последовательности с белком известной структуры, последний может служить «шаблоном» для построения компьютерных моделей.

Еще одно важное открытие было сделано в результате эволюционных процессов. Исследователи поняли, что если одна аминокислота изменится в белке, принадлежащем близкородственным организмам, таким как шимпанзе и люди, аминокислоты, расположенные поблизости в свернутой молекуле, также должны будут измениться, чтобы сохранить форму и функцию белка. Это означает, что исследователи могут сузить форму белка, ища аминокислоты, которые совместно эволюционируют. Даже если они находятся далеко друг от друга в развернутой цепочке, они, скорее всего, являются соседями в конечной трехмерной структуре.

Никогда не думал, что увижу такое при жизни.

Джон Молт Мэрилендский университет, Шейди-Гроув

К 2018 году метод компьютерного моделирования практически не менялся, начиная с середины 70-х. Затем на сцену вышла AlphaFold, программа, управляемая искусственным интеллектом, разработанная компанией DeepMind. AlphaFold обучается на базах данных по готовым шаблонам. В первом своём «показательном выступлении» средний её балл был близок к 80. Было выиграно 43 из 90 матчей против других алгоритмов. В 2020 году её преемник AlphaFold2 стал еще круче. Благодаря сети из 182 процессоров, оптимизированных для машинного обучения, AlphaFold2 набрал в среднем 92,4 балла — наравне с экспериментальными методами.

“Я никогда не думал, что увижу это в своей жизни”, — сказал Джон Молт, структурный биолог из Университета Мэриленда, Шейди Гроув и соучредитель CASP в то время.

Прогнозы искусственного интеллекта резко изменились в этом году. В середине июля Бейкер и его коллеги сообщили, что их программа RoseTTAFold разгадала структуры сотен белков, все из класса распространенных заболеваний. Неделю спустя ученые из DeepMind сообщили, что они сделали то же самое с 350 000 белками, обнаруженными в человеческом организме, это примерно 44% всех известных человеческих белков. В ближайшие месяцы они ожидают, что их база данных вырастет до 100 миллионов белков всех видов, что составляет почти половину от общего числа существующих.

Следующий шаг — предсказать, какие из этих белков работают вместе и как они взаимодействуют. DeepMind уже делает это. В октябрьском препринте ученые представили 4433 белковых комплекса, раскрывающих, какие белки связываются друг с другом и как. В ноябре RoseTTAFold добавила еще 912 комплексов.

Программный код для AlphaFold2 и RoseTTAFold теперь общедоступен, что безусловно крайне важно. В ноябре исследователи из Германии и Соединенных Штатов использовали AlphaFold2 и cryo-EM для составления карты структуры комплекса ядерных пор, состоящего из 30 различных белков, которые контролируют доступ к ядру клетки. В августе китайские исследователи использовали AlphaFold2 для картирования структур почти 200 белков, которые связываются с ДНК и могут участвовать во всем — от репарации ДНК до экспрессии генов. В прошлом месяце материнская компания Google, Alphabet, запустила новое предприятие, которое будет использовать предсказанные белковые структуры для разработки новых направлений при создании лекарств. И команда Бейкера использует свое программное обеспечение для создания новых последовательностей белков которые переходят в стабильные структуры, что может привести к появлению новых противовирусных препаратов.

Предстоит еще много работы. Белковые структуры не статичны: они изгибаются и скручиваются, следую своей программе и моделирование этих изменений остается сложной задачей. Визуализация большинства крупных мультипротеиновых комплексов, выполняющих множество функций в клетках, по-прежнему остается сложной задачей. Но бурный рост достижений на базе искусственного интеллекта в этом году в частности, открывает невиданный ранее взгляд на танец жизни, панораму, которая навсегда изменит биологию и медицину.

Версия этой истории появилась в Science 17 декабря, Том 374, Проблема 6574.

Ссылки на исследования в тексте статьи.

Читайте также: