AlphaFold решает фундаментальную проблему биологии


Еще в 2018 году мы сообщали о попытках DeepMind создать нейронную сеть, которая предсказывала бы сворачивание белков. Теперь у нас есть новости, что это настолько хорошо, что ученые выстраиваются в очередь, чтобы использовать его. В чем проблема, почему это важно и что означает, что нейронная сеть может решить ее, а физика не может?

Один из основных механизмов жизни — это то, как ДНК не только кодирует белки, но и создает их. Код в ДНК выражается как последовательность из 20 аминокислот. Эта цепочка аминокислот, рассматриваемый белок, изначально плоская и неструктурированная, но многие ее химические и биологические свойства придает ей трехмерная форма, которую она принимает. Каждая аминокислота в разной степени притягивает другие аминокислоты. Это означает, что когда цепь может свободно изменять свою форму, она извивается, чтобы найти конфигурацию с наименьшей энергией. В некотором смысле цепь подобна пружине, которая была выпрямлена и при отпускании пружины возвращается к своей естественной конфигурации с наименьшей энергией.
Пока все хорошо, но определение того, какой должна быть окончательная форма, — очень сложная комбинаторная задача. Вы можете попытаться решить эту проблему, выполнив классическое химическое моделирование, пытаясь найти конфигурацию с наименьшей энергией. Проблема в том, что существует так много конфигураций, что трудно найти ту, которая имеет наименьшую энергию. Например, цепочка из 100 единиц имеет что-то в районе 3198 конфигураций — число, на поиск которого потребуется больше времени, чем возраст Вселенной, — и это небольшой белок.
Следующее видео дает вам некоторое представление о том, что такое сворачивание белка:

Проблема явно невозможна, и все же белки, настоящие белки, решают проблему за миллисекунду или меньше. Теперь нейронная сеть AlphaFold от Deep Mind достигла производительности, которая ставит ее в один класс с прямым определением структуры с помощью дефракции рентгеновских лучей, процесс, который может занять годы. Сеть была обучена с использованием базы данных из 170 000 белков за относительно короткое время на наборе TPU:
«16 процессоров TPUv3 (что составляет 128 ядер TPUv3 или примерно эквивалентно ~ 100-200 графическим процессорам) работают в течение нескольких недель, что является относительно скромным объемом вычислений в контексте большинства современных современных моделей, используемых в машинном обучении сегодня. . »
Интересна и структура нейронной сети. Он пытается изучить пространственный граф, узлами которого являются аминокислоты:
«Для последней версии AlphaFold, используемой в CASP14, мы создали нейросетевую систему, основанную на внимании, сквозную обученную, которая пытается интерпретировать структуру этого графа, одновременно рассуждая о неявном графе, который он строит. использует эволюционно связанные последовательности, множественное выравнивание последовательностей (MSA) и представление пар аминокислотных остатков для уточнения этого графика ».

Важная часть этого описания — «внимание». Кажется, это общее нововведение в дизайне нейронных сетей, которое делает сеть способной к поведению более типичных или повторяющихся сетей — внимание заменяет кратковременную память. Для подробностей нам придется дождаться рецензируемой статьи, которую Deep Mind в настоящее время готовит.
Следующее видео дает вам некоторое представление о том, что произошло:

Так насколько это важно?
Один ответ ясен из цитаты профессора Андрея Лупаса, директора Института биологии развития Макса Планка:
«Поразительно точные модели AlphaFold позволили нам решить структуру белка, на которой мы застряли почти десять лет, возобновив наши усилия по пониманию того, как сигналы передаются через клеточные мембраны».
Это действительно прорыв, и в результате вы можете ожидать появления новых технологий и новых продуктов. Дело в том, что у нас есть рецепты белков в виде последовательностей ДНК, но до сих пор мы не знали, какую форму будет иметь аминокислотная последовательность. Теперь мы знаем рецепт и можем предсказать конечный продукт.
Но подождите, есть проблема. Это наука?
Очевидно, что это технология, но наличие нейронной сети, которая предсказывает форму белка, — это не то же самое, что наличие теории о том, как белки складываются. Вы даже не можете поставить «планку ошибок» на то, насколько точным является любое новое предсказание, которое делает сеть. Вы можете этому доверять? Для практической работы. вы можете по крайней мере начать с идеи, что это правильно, и посмотреть, имеет ли это смысл. Что касается теории, это действительно не помогает — это задний ящик, который решает проблему без объяснения того, как он это делает.
Однако вещи более тонкие. Если мы вернемся к идее, что белки сворачиваются за миллисекунду, должны быть более простые принципы организации, которые означают, что белок не пытается много возможных сворачиваний. Он просто идет к решению, а не к поиску огромного пространства возможных решений, см. Парадокс Левинталя. Где-то внутри структуры сети находятся более простые правила, которые говорят типичному белку, как сворачиваться, не исследуя пространство. Это подводит нас к важной теме нейронных сетей, которые могут объяснить свои прогнозы. На данный момент у нас есть очень важный технологический прогресс, который вполне может привести к новой науке.


Добавить комментарий