Исследователи из MDC разработали новый инструмент, который упрощает максимальное использование возможностей глубокого обучения для изучения геномики. Они описывают новый подход, Janggu, в журнале Nature Communications .
Представьте, что перед тем, как приготовить ужин, вам сначала нужно было перестроить кухню, специально разработанную для каждого рецепта. Вы потратите гораздо больше времени на подготовку, чем на приготовление. Для компьютерных биологов это был аналогичный трудоемкий процесс анализа данных геномики. Прежде чем начать анализ, они тратят много драгоценного времени на форматирование и подготовку огромных наборов данных для использования в моделях глубокого обучения.
Чтобы упростить этот процесс, исследователи из Центра молекулярной медицины Макса Дельбрюка при Ассоциации Гельмгольца (MDC) разработали универсальный инструмент программирования, который преобразует широкий спектр данных геномики в требуемый формат для анализа с помощью моделей глубокого обучения. «Раньше вам приходилось тратить много времени на технический аспект, вместо того, чтобы сосредоточиться на биологическом вопросе, на который вы пытались ответить», — говорит доктор Вольфганг Копп, ученый из исследовательской группы биоинформатики и Omics Data Science в MDC в Берлине. Институт медицинской системной биологии (BIMSB) и первый автор статьи. «С помощью Janggu мы стремимся облегчить часть этой технической нагрузки и сделать ее доступной как можно большему количеству людей».
Уникальное название, универсальное решение
Чангу назван в честь традиционного корейского барабана в форме песочных часов, перевернутых на бок. Две большие части песочных часов представляют собой области, в которых сосредоточен Чангу: предварительная обработка данных геномики, визуализация результатов и оценка модели. Узкий соединитель посередине представляет собой заполнитель для любого типа модели глубокого обучения, который исследователи хотят использовать.
Модели глубокого обучения включают алгоритмы, сортирующие большие объемы данных и находящие соответствующие функции или закономерности. Хотя глубокое обучение — очень мощный инструмент, его использование в геномике ограничено. Большинство опубликованных моделей работают только с фиксированными типами данных и могут ответить только на один конкретный вопрос. Замена или добавление новых данных часто требует начинать с нуля и больших усилий по программированию.
Janggu преобразует различные типы данных геномики в универсальный формат, который можно подключить к любой модели машинного обучения или глубокого обучения, использующей python, широко используемый язык программирования.
«Особенностью нашего подхода является то, что вы можете легко использовать любой набор геномных данных для решения своей задачи по глубокому обучению, все идет в любом формате», — сказал доктор Алтуна Акалин, возглавляющая исследовательскую группу по биоинформатике и Omics Data Science. p>
Разделение — ключ к успеху
У исследовательской группы Акалина двойная миссия: разработка новых инструментов машинного обучения и их использование для исследования вопросов биологии и медицины. Во время собственных исследований они постоянно разочаровывались тем, сколько времени уходит на форматирование данных. Они поняли, что отчасти проблема заключается в том, что каждая модель глубокого обучения включает собственную предварительную обработку данных. Отделяя извлечение и форматирование данных от анализа, он обеспечивает гораздо более простой способ обмена, объединения или повторного использования разделов данных. Это похоже на то, как если бы у вас под рукой были все кухонные принадлежности и ингредиенты, готовые опробовать новый рецепт.
«Сложность заключалась в том, чтобы найти правильный баланс между гибкостью и удобством использования», — говорит Копп. «Если он будет слишком гибким, люди утонут в разных вариантах, и будет трудно начать».
Копп подготовил несколько руководств, чтобы помочь другим начать использовать Janggu, а также примеры наборов данных и тематические исследования. Документ Nature Communications демонстрирует универсальность Janggu в обработке очень больших объемов данных, объединении потоков данных и ответах на различные типы вопросов, таких как прогнозирование сайтов связывания на основе последовательностей ДНК и / или доступности хроматина, а также для задач классификации и регрессии.
Бесконечные приложения
Хотя большая часть преимуществ Janggu находится на стороне пользователя, исследователи хотели предоставить полное решение для глубокого обучения. Janggu также включает визуализацию результатов после анализа глубокого обучения и оценивает то, чему модель научилась. Примечательно, что команда включила в пакет «кодирование последовательностей более высокого порядка», что позволяет фиксировать корреляции между соседними нуклеотидами. Это помогло повысить точность некоторых анализов. Делая глубокое обучение проще и удобнее для пользователя, Janggu помогает дать ответы на все виды биологических вопросов.
«Одно из самых интересных приложений — это предсказание влияния мутаций на регуляцию генов», — говорит Акалин. «Это интересно, потому что теперь мы можем начать понимать отдельные геномы, например, мы можем точно определять генетические варианты, которые вызывают регуляторные изменения, или мы можем интерпретировать регуляторные мутации, возникающие в опухолях».