Алгоритм крупномасштабного геномного анализа


Гаплотипы — это набор генетических вариаций, которые, расположенные рядом на одной хромосоме, передаются в одной группе следующему поколению. Их обследование позволяет понять наследуемость некоторых сложных признаков, таких как риск развития болезни. Однако для проведения этого анализа обычно необходим анализ генома членов семьи (родителей и их ребенка), что является утомительным и дорогостоящим процессом. Чтобы преодолеть эту проблему, исследователи из университетов Женевы (UNIGE) и Лозанны (UNIL) и Швейцарского института биоинформатики SIB разработали SHAPEIT4, мощный компьютерный алгоритм, который позволяет очень быстро идентифицировать гаплотипы сотен тысяч неродственных людей. . Результаты столь же подробны, как и при проведении семейного анализа, процесс, который невозможно проводить в таком большом масштабе. Их инструмент теперь доступен в Интернете по лицензии с открытым исходным кодом и доступен для всего исследовательского сообщества. Подробности можно найти в Nature Communications .

В настоящее время анализ генетических данных приобретает все большее значение, особенно в области персонализированной медицины. Число секвенируемых геномов человека каждый год растет в геометрической прогрессии, и крупнейшие базы данных насчитывают более одного миллиона человек. Это огромное количество данных чрезвычайно ценно для лучшего понимания генетической судьбы человечества, будь то определение генетического веса конкретного заболевания или лучшее понимание истории миграции людей. Однако, чтобы быть значимыми, эти большие данные должны обрабатываться в электронном виде. «Однако вычислительная мощность компьютеров остается относительно стабильной, в отличие от сверхбыстрого роста геномных больших данных», — говорит Оливье Делано, профессор SNSF на кафедре вычислительной биологии на факультете биологии и медицины UNIL и в SIB, который руководил этим. работай. «Таким образом, наш алгоритм направлен на оптимизацию обработки генетических данных, чтобы поглотить этот объем информации и сделать ее пригодной для использования учеными, несмотря на разрыв между ее количеством и сравнительно ограниченной мощностью компьютеров».

Лучше понять роль гаплотипов

Генотипирование позволяет узнать аллели человека, то есть генетические вариации, полученные от его или ее родителей. Однако, не зная родительского генома, мы не знаем, какие аллели одновременно передаются детям и в каких комбинациях. «Эта информация — гаплотипы — имеет решающее значение, если мы действительно хотим понять генетические основы человеческой изменчивости, — объясняет Эммануил Дермитзакис, профессор кафедры генетической медицины и развития медицинского факультета UNIGE и SIB, который совместно курировал это. работают. Это верно как для популяционной генетики, так и с точки зрения точной медицины «.

Чтобы определить генетический риск заболевания, например, ученые оценивают, присутствует ли генетическая вариация в большей или меньшей степени у людей, у которых развилось заболевание, чтобы определить роль этой вариации в изучаемом заболевании. «Зная гаплотипы, мы проводим анализ того же типа, — говорит Эммануил Дермитзакис. Однако мы переходим от одного варианта к комбинации многих вариантов, что позволяет нам определить, какие комбинации аллелей на одной и той же хромосоме имеют наибольшее влияние. о риске заболеваний. Это намного точнее! «

Метод, разработанный исследователями, позволяет обрабатывать чрезвычайно большое количество геномов, от 500 000 до 1 000 000 особей, и определять их гаплотипы, не зная их предков или потомков, используя стандартные вычислительные мощности. Инструмент SHAPEIT4 был успешно протестирован на 500 000 индивидуальных геномах, имеющихся в британском биобанке, научной базе данных, разработанной в Великобритании. «Перед нами типичный пример того, что такое большие данные, — говорит Оливье Делано. Такой большой объем данных позволяет строить высокоточные статистические модели, если их можно интерпретировать, не утопая в них».

Лицензия с открытым исходным кодом для прозрачности

Исследователи решили сделать свой инструмент доступным для всех по лицензии MIT с открытым исходным кодом: весь код доступен и может быть изменен по желанию в соответствии с потребностями исследователей. Это решение было принято в основном ради прозрачности и воспроизводимости, а также для стимулирования исследователей со всего мира. «Но мы даем доступ только к инструменту анализа, ни при каких обстоятельствах к массиву данных», — объясняет Оливье Делано. «Тогда каждый человек может использовать его для имеющихся у него данных».

Этот инструмент намного эффективнее старых, а также быстрее и дешевле. Это также позволяет ограничить цифровое воздействие на окружающую среду. Очень мощные компьютеры, используемые для обработки больших данных, действительно очень энергоемки; сокращение их использования также помогает свести к минимуму их негативное воздействие.


Добавить комментарий