Стремясь автоматически собирать важные данные из научных статей, компьютерщики из Национального института стандартов и технологий (NIST) разработали метод, позволяющий точно обнаруживать небольшие геометрические объекты, такие как треугольники, на плотных и низкокачественных графиках. в данных изображения. Модель NIST, использующая нейросетевой подход, предназначенный для обнаружения закономерностей, имеет множество возможных применений в современной жизни.
Модель нейронной сети NIST захватила 97% объектов в определенном наборе тестовых изображений, располагая центры объектов с точностью до нескольких пикселей от выбранных вручную местоположений.
«Целью проекта было восстановление потерянных данных в журнальных статьях», — пояснила компьютерный специалист NIST Адель Пескин. «Но исследование обнаружения небольших плотных объектов имеет много других применений. Обнаружение объектов используется в широком спектре анализов изображений, беспилотных автомобилей, осмотра машин и т. Д., Для которых небольшие плотные объекты особенно трудны. найти и отделить. «
Исследователи взяли данные из журнальных статей, датируемых началом 1900-х годов, из базы данных о металлических свойствах Центра термодинамических исследований (TRC) NIST. Часто результаты представлялись только в графическом формате, иногда нарисованные от руки и искаженные сканированием или фотокопированием. Исследователи хотели извлечь расположение точек данных, чтобы восстановить исходные необработанные данные для дополнительного анализа. До сих пор такие данные извлекались вручную.
На изображениях точки данных представлены различными маркерами, в основном кругами, треугольниками и квадратами, заполненными и открытыми, разного размера и четкости. Такие геометрические маркеры часто используются для обозначения данных в научном графике. Текст, числа и другие символы, которые могут ошибочно показаться точками данных, были вручную удалены из подмножества фигур с помощью программного обеспечения для редактирования графики перед обучением нейронных сетей.
Точное обнаружение и локализация маркеров данных было сложной задачей по нескольким причинам. Маркеры непостоянны по четкости и точной форме; они могут быть открытыми или заполненными, а иногда нечеткими или искаженными. Например, некоторые круги кажутся чрезвычайно круглыми, тогда как у других недостаточно пикселей, чтобы полностью определить их форму. Кроме того, многие изображения содержат очень плотные участки перекрывающихся кругов, квадратов и треугольников.
Исследователи стремились создать сетевую модель, которая определяла точки на графике с такой же точностью, как и при ручном обнаружении — в пределах 5 пикселей от фактического местоположения на участке размером в несколько тысяч пикселей на каждую сторону.
Как описано в новом журнале, исследователи NIST приняли сетевую архитектуру, первоначально разработанную немецкими исследователями для анализа биомедицинских изображений, под названием U-Net. Сначала размеры изображения сокращаются, чтобы уменьшить пространственную информацию, а затем добавляются слои пространственной и контекстной информации для получения точных результатов с высоким разрешением.
Чтобы научить сеть классифицировать формы маркеров и определять местонахождение их центров, исследователи экспериментировали с четырьмя способами маркировки обучающих данных с помощью масок, используя разметку центров и контуры разного размера для каждого геометрического объекта.
Исследователи обнаружили, что добавление дополнительной информации к маскам, например более толстых контуров, повысило точность классификации форм объектов, но снизило точность определения их местоположения на графиках. В конце концов, исследователи объединили лучшие аспекты нескольких моделей, чтобы получить наилучшую классификацию и наименьшие ошибки определения местоположения. Изменение масок оказалось лучшим способом улучшить производительность сети, более эффективным, чем другие подходы, такие как небольшие изменения в конце сети.
Наилучшая производительность сети — точность определения центров объектов 97% — была возможна только для подмножества изображений, на которых точки графика изначально были представлены очень четкими кругами, треугольниками и квадратами. Производительность достаточно высока, чтобы TRC мог использовать нейронную сеть для восстановления данных с графиков в новых журнальных статьях.
Хотя у исследователей NIST в настоящее время нет планов по дальнейшим исследованиям, модель нейронной сети «абсолютно» может быть применена к другим задачам анализа изображений, сказал Пескин.