Искусственный интеллект уже сократил годы исследований в области белковой инженерии. Теперь ученые впервые синтезировали в лаборатории белки, предсказанные моделью искусственного интеллекта, и обнаружили, что они работают так же хорошо, как и их природные аналоги.
В исследовании использовалась языковая модель глубокого обучения для белковой инженерии под названием ProGen , которая была разработана компанией Salesforce AI Research в 2020 году. ProGen был обучен на 280 миллионах последовательностей сырых белков из общедоступных баз данных секвенированных природных белков для создания искусственного белка. последовательности с нуля.
Чтобы оценить, может ли ИИ генерировать функциональные искусственные белковые последовательности, исследователи добавили в модель 56 000 последовательностей из пяти различных семейств лизоцимов — ферментов , обнаруженных в человеческих слезах, слюне и молоке, способных растворять клеточные стенки определенных бактерий. . Точно настроенная модель произвела миллион последовательностей, из которых 100 были отобраны для создания искусственных белков для тестирования и сравнения с встречающимися в природе лизоцимами.
Исследователи надеются, что ProGen, генерирующий последовательности за миллисекунды, сможет создавать большие базы данных белков, которые могут превзойти встречающиеся в природе библиотеки.
Около 70 процентов последовательностей искусственных белков также сработали. Это, по словам Джеймса Фрейзера из Фармацевтической школы Калифорнийского университета в Сан-Франциско, одного из соавторов исследования, было «не просто одним или двумя нашими фаворитами, а фактически статистически значимым, большим их количеством». На самом деле, сообщает Фрейзер, активность натуральных белков была немного ниже, чем у искусственных. Последние также были активны, когда их сходство с природными белками составляло всего 31,4%. «Это говорит мне о том, что когда мы используем ProGen для создания искусственных последовательностей, эти белки имеют такой же хороший шанс быть активными, как если бы мы выбирали случайные природные белки из базы данных, — говорит он. большой прорыв». Другими словами, у исследователей теперь есть более широкие и глубокие возможности для проектирования белковой инженерии.
Хотя как физический, так и эволюционный подходы к дизайну белков до сих пор работали хорошо, по словам Фрейзера, эти методы были ограничены по масштабу и химической каталитической активности, которую проявляет белок. Это открывает новый способ конструирования белков с различными типами активности в областях белковой последовательности, которые эволюция еще не исследовала, добавляет он.
Ключевой особенностью ProGen является то, что его можно точно настроить с помощью тегов свойств, таких как семейство белков, биологический процесс или молекулярная функция. «Поэтому мы можем сказать: дайте нам [белковые последовательности], которые, например, с большей вероятностью будут термостабильными, с меньшей вероятностью будут взаимодействовать с другими белками или потенциально лучше работать в кислых условиях», — говорит Фрейзер. «Иметь такой контроль вместо того, чтобы начинать с естественной [белковой] последовательности и пытаться уговорить ее обладать этими свойствами… это большая мечта белковой инженерии».
Исследователи надеются, что с помощью ProGen, генерирующего последовательности за миллисекунды, можно будет создать большую базу данных для расширения разнообразия белковых последовательностей за пределы естественных библиотек. Это помогло бы найти белки, способные к новым каталитическим реакциям, связанным с активностью естественных белков. Например, говорит Фрейзер, «катализируя родственную реакцию, которая может иметь большое значение для разложения пластика… [или] для синтеза лекарства…. Возможность выйти в пространство последовательности увеличивает вероятность обнаружения этой новизны».
Он предсказывает, что следующим захватывающим шагом в этой области будет объединение языковых моделей глубокого обучения с другими подходами к инженерии белков, чтобы получить лучшее из обоих миров и помочь исследователям быстрее находить новые виды деятельности. В ближайшем будущем, по его словам, применение результатов этого исследования, вероятно, будет связано с созданием новых ферментов, которые могут быть полезны для создания более чистых низкомолекулярных лекарств, а также в естественном процессе удаления загрязнений из отходов. биоремедиация .
Нихил Найк , директор по исследованиям в SalesForce, говорит, что их цель состояла в том, чтобы продемонстрировать, что можно использовать модели с большим языком для решения проблемы дизайна белков, используя общедоступные данные о белках. «Теперь, когда мы продемонстрировали, что [ProGen] может генерировать новые белки, мы опубликовали модели, чтобы другие люди могли опираться на наши исследования».
Тем временем они продолжают работать над ProGen, устраняя ограничения и проблемы. Одним из них является то, что это очень зависимый от данных подход. «Мы исследовали включение структурной информации для улучшения дизайна последовательности», — говорит Найк. «Мы также изучаем, как улучшить возможности генерации, когда у вас не так много данных для определенного семейства белков или домена».