«Вся белковая вселенная»: AlphaFold предсказывает форму почти каждого известного белка

Инструмент AlphaFold от DeepMind определил структуры около 200 миллионов белков.

С сегодняшнего дня определение трехмерной формы практически любого известного науке белка стало просто и доступно.

Трехмерная форма или структура белка определяет его функцию в клетках. Большинство лекарств разрабатываются с использованием структурной информации, и точные карты часто являются первым шагом к открытию того, как работают белки.

Исследователи использовали AlphaFold — революционную сеть искусственного интеллекта — для предсказания структуры около 200 миллионов белков из 1 миллиона видов, охватывающих почти все известные белки на планете.

Дамп данных будет свободно доступен в базе, созданной DeepMind, компанией Google специализирующейся на искусственном интеллекте, которая разработала AlphaFold, и Европейским институтом биоинформатики (EMBL-EBI) Европейской лаборатории молекулярной биологии, межправительственной организацией недалеко от Кембриджа в Великобритании.

«По сути, вы можете думать, что он охватывает всю белковую вселенную», — сказал генеральный директор DeepMind Демис Хассабис на брифинге для прессы. «Мы находимся в начале новой эры цифровой биологии».

DeepMind разработала сеть AlphaFold, используя метод искусственного интеллекта, называемый глубоким обучением, и год назад была опубликована база данных AlphaFold с 350 000 прогнозами структур, охватывающих почти каждый белок, производимый людьми, мышами и 19 другими хорошо изученными организмами. С тех пор каталог увеличился примерно до 1 миллиона записей.

В чём отличие машинного обучения от глубокого обучения?

Глубокое обучение имеет сходство с машинным обучением, но отличается тем, что машинное обучение требует некоторого контроля при выполнении своих задач обучения, в то время как модель глубокого обучения будет эффективно выполнять свою задачу даже без участия человека.

«Мы готовимся к выпуску этой огромной библиотеки», — говорит Кристин Оренго, вычислительный биолог из Университетского колледжа Лондона, которая использовала базу AlphaFold для идентификации новых семейств белков. «Спрогнозировать все данные для нас просто фантастика».

Качественные структуры белков

Алгоритм AlphaFold в прошлом году произвел фурор в сообществе медико-биологических наук, которое изо всех сил пытается воспользоваться преимуществами этого инструмента. Сеть производит высокоточные прогнозы трехмерной формы или структуры белков. Также предоставляет информацию о точности своих прогнозов, поэтому исследователи знают, на что можно положиться. Традиционно ученые использовали трудоемкие и дорогостоящие экспериментальные методы, такие как рентгеновская кристаллография и криоэлектронная микроскопия, для определения белковых структур.

Согласно EMBL-EBI, около 35% из более чем 214 миллионов прогнозов считаются очень точными, что означает, что они так же хороши, как экспериментально определенные структуры. Еще 45% были признаны достаточно уверенными, чтобы на них можно было положиться.

Многие структуры AlphaFold достаточно хороши, чтобы заменить экспериментальные методы в некоторых приложениях. В других случаях исследователи используют прогнозы AlphaFold для проверки и осмысления экспериментальных данных. Плохие результаты в большинстве случаев вызваны внутренним беспорядком в самом белке, что означает, что он не имеет определенной формы, по крайней мере, без присутствия других молекул.

200 миллионов опубликованных 28 июля 2022 года прогнозов основаны на последовательностях из другой базы, которая называется UniProt. Вполне вероятно, что у ученых уже есть представление о форме некоторых из этих белков, потому что они включены в данные экспериментальных структур или напоминают другие белки в таких данных, говорит Эдуард Порта Пардо, вычислительный биолог из Исследовательского института лейкемии имени Хосепа Каррераса в Барселоне.

Но подобные записи, как правило, склоняются к человеческим, мышиным и другим белкам млекопитающих, говорит Порта, поэтому вполне вероятно, что дамп AlphaFold добавит значительные знания, поскольку основан на многих более разнообразных организмах. «Это будет потрясающий ресурс. И я, наверное, скачаю его, как только он выйдет», — говорит Порта.

Поскольку программное обеспечение АльфаФолд доступно уже год, у исследователей есть возможность предсказать структуру любого белка, который они пожелают. Многие говорят, что доступность прогнозов в единой базе сэкономит исследователям время и деньги. «Это еще один барьер, который вы устраняете», — говорит Порта. «Я использовал много моделей AlpahFold, но сам не запускал алгоритм».

Ян Косински, специалист по моделированию конструкций из EMBL в Гамбурге в Германии, который управлял сетью AlphaFold в течение прошлого года, не может дождаться расширения базы. Его команда потратила 3 ​​недели на предсказание протеома — набора всех белков организма патогена. «Теперь мы можем просто скачать все модели», — сказал он на брифинге.

Сто терабайт данных структур белков

Наличие почти всех известных белков позволит проводить новые виды исследований. Команда Оренго использовала накопленную информацию AlphaFold для выявления новых видов белковых семейств, и теперь они будут делать это в гораздо более широком масштабе. Ее лаборатория планирует использовать расширенную базу данных, чтобы понять эволюцию белков с полезными свойствами, такими как способность поглощать пластик, или вызывающих особое беспокойство, например, тех, которые могут вызвать рак. Выявление дальних родственников» этих белков может точно определить основу их свойств.

Мартин Штайнеггер, вычислительный биолог из Сеульского национального университета, который помог разработать облачную версию AlphaFold, рад расширению полученных данных. Но он говорит, что исследователям, вероятно, все же придется самим управлять сетью. Все чаще люди используют AlphaFold для определения того, как взаимодействуют белки, и таких прогнозов нет в базе. Микробные белки также не идентифицируются путем секвенирования генетического материала из почвы, океанской воды и других «метагеномных» источников.

По словам Штайнеггера, некоторые сложные приложения расширенной базы данных AlphaFold могут также зависеть от загрузки всего ее содержимого объемом 23 терабайта, что будет невыполнимо для многих команд. Облачное хранилище также может оказаться дорогостоящим. Штайнеггер совместно разработал программный инструмент под названием FoldSeek, который может быстро находить структурно похожие белки и должен иметь возможность значительно сократить данные АльфаФолд.

Даже при включении всех известных белков объем данных АльфаФолд будет нуждаться в обновлении по мере открытия новых организмов. Прогнозы также могут улучшаться по мере поступления новой структурной информации. Хассабис говорит, что DeepMind взял на себя обязательство поддерживать проект в долгосрочной перспективе.

Он надеется, что доступность базы AlphaFold окажет долгосрочное влияние на науку. «Это потребует довольно больших изменений в мышлении».

DOI: 10.1038/d41586-022-02083-2

ОБНОВЛЕНИЯ И ИСПРАВЛЕНИЯ

Исправление от 29 июля 2022 г.: в более ранней версии стандарта Standfirst ошибочно указывалось, что AlphaFold определил структуры белков почти всех известных видов. Фактически, он определил белковые структуры почти каждого организма с данными о белковых последовательностях.