Биомедицинские инженеры из Университета Дьюка разработали подход машинного обучения для моделирования взаимодействий между сложными переменными в искусственно созданных бактериях, которые в противном случае было бы слишком сложно предсказать. Их алгоритмы можно обобщить на многие виды биологических систем.
В новом исследовании исследователи обучили нейронную сеть предсказывать круговые модели, которые будут созданы биологической цепью, встроенной в бактериальную культуру. Система работала в 30 000 раз быстрее существующей вычислительной модели.
Чтобы еще больше повысить точность, команда разработала метод многократного переобучения модели машинного обучения для сравнения своих ответов. Затем они использовали его для решения второй биологической системы, которая требует вычислений иным образом, показывая, что алгоритм может работать для различных задач.
Результаты появятся в Интернете 25 сентября в журнале Nature Communications .
«Эта работа была вдохновлена Google, показывающим, что нейронные сети могут научиться побеждать человека в настольной игре го», — сказал Линчонг Ю, профессор биомедицинской инженерии в Duke.
«Несмотря на то, что в игре есть простые правила, у компьютера слишком много возможностей для детерминированного расчета следующего наилучшего варианта», — сказал Вы. «Я задавался вопросом, может ли такой подход быть полезным для решения определенных аспектов биологической сложности, с которыми мы сталкиваемся».
Задача, с которой столкнулись Ю и его научный сотрудник Шаньинг Ван, заключалась в том, чтобы определить, какой набор параметров может привести к определенному паттерну в культуре бактерий в соответствии с созданной генной схемой.
В предыдущей работе лаборатория Ю запрограммировала бактерии на производство белков, которые, в зависимости от особенностей роста культуры, взаимодействуют друг с другом, образуя кольца. Контролируя такие переменные, как размер среды для выращивания и количество питательных веществ, исследователи обнаружили, что могут контролировать толщину кольца, время его появления и другие характеристики.
Изменяя любое количество десятков потенциальных переменных, исследователи обнаружили, что они могут сделать больше, например вызвать образование двух или даже трех колец. Но поскольку одно компьютерное моделирование занимало пять минут, стало непрактично искать конкретный результат в любом большом пространстве дизайна.
Для их исследования система состояла из 13 бактериальных переменных, таких как скорость роста, диффузия, деградация белка и движение клеток. Чтобы вычислить шесть значений для каждого параметра, одному компьютеру потребуется более 600 лет. Запуск его в параллельном компьютерном кластере с сотнями узлов может сократить время выполнения до нескольких месяцев, но машинное обучение может сократить его до часов.
«Модель, которую мы используем, медленная, потому что она должна учитывать промежуточные шаги во времени с достаточно небольшой скоростью, чтобы быть точной», — сказал Ю. «Но мы не всегда заботимся о промежуточных шагах. Нам просто нужны конечные результаты для определенных приложений. И мы можем (вернуться к)) вычислить промежуточные шаги, если мы найдем конечные результаты интересными».
Чтобы перейти к конечным результатам, Ван обратился к модели машинного обучения, называемой глубокой нейронной сетью, которая может эффективно делать прогнозы на порядки быстрее, чем исходная модель. Сеть принимает переменные модели в качестве входных данных, первоначально назначает случайные веса и смещения и выдает прогноз того, какой паттерн сформирует бактериальная колония, полностью пропуская промежуточные этапы, ведущие к окончательному паттерну.
Хотя первоначальный результат далек от правильного ответа, веса и смещения можно изменять каждый раз, когда в сеть поступают новые данные обучения. При наличии достаточно большого «обучающего» набора нейронная сеть со временем научится делать точные прогнозы почти каждый раз.
Чтобы справиться с несколькими случаями, когда машинное обучение дает сбой, Ю и Ван придумали способ быстро проверить свою работу. Для каждой нейронной сети процесс обучения имеет элемент случайности. Другими словами, он никогда не выучит один и тот же путь дважды, даже если он обучен одному и тому же набору ответов.
Исследователи обучили четыре отдельные нейронные сети и сравнили свои ответы для каждого случая. Они обнаружили, что, когда обученные нейронные сети делают аналогичные прогнозы, эти прогнозы были близки к правильному ответу.
«Мы обнаружили, что нам не нужно проверять каждый ответ с помощью более медленной стандартной вычислительной модели», — сказал Ю. «Вместо этого мы использовали« мудрость толпы »».
Обучив и подтвердив модель машинного обучения, исследователи решили использовать ее, чтобы сделать новые открытия о своей биологической цепи. В начальных 100000 симуляциях данных, использованных для обучения нейронной сети, только одна произвела бактериальную колонию с тремя кольцами. Но благодаря скорости нейронной сети Ю и Ван не только смогли найти намного больше троек, но и определить, какие переменные были решающими при их создании.
«Нейронная сеть смогла найти закономерности и взаимодействия между переменными, которые иначе было бы невозможно обнаружить», — сказал Ван.
В завершение своего исследования Ю и Ван опробовали свой подход на биологической системе, которая работает случайным образом. Решение таких систем требует, чтобы компьютерная модель повторяла одни и те же параметры много раз, чтобы найти наиболее вероятный результат. Хотя это совершенно другая причина длительного времени выполнения вычислений, чем их первоначальная модель, исследователи обнаружили, что их подход все еще работает, показывая, что он может быть обобщен на множество различных сложных биологических систем.
В настоящее время исследователи пытаются применить свой новый подход к более сложным биологическим системам. Помимо запуска на компьютерах с более быстрыми графическими процессорами, они пытаются запрограммировать алгоритм так, чтобы он был максимально эффективным.
«Мы обучили нейронную сеть с использованием 100 000 наборов данных, но это могло быть излишним», — сказал Ван. «Мы разрабатываем алгоритм, в котором нейронная сеть может взаимодействовать с моделированием в реальном времени, чтобы ускорить процесс».
«Нашей первой целью была относительно простая система», — сказал Ю. «Теперь мы хотим улучшить эти нейросетевые системы, чтобы открыть окно в глубинную динамику более сложных биологических цепей».
Эта работа была поддержана Управлением военно-морских исследований (N00014-12-1-0631), Национальными институтами здравоохранения (1R01-GM098642) и стипендией Дэвида и Люсиль Паккард.