World Gone Mad — компьютерное зрение: универсальный интерфейс


Это хорошая история — новое приложение позволяет упростить наблюдение за диабетом. Именно то, как это было достигнуто, должно дать нам повод для размышлений. Он считывает данные с глюкометра, но вы можете забыть о Bluetooth или Wi-Fi — он использует компьютерное зрение, чтобы читать на дисплее, как человек.

Давным-давно в далекой-далекой галактике я поставил перед классом выдающихся студентов задачу IoT — мне нужно было прочитать счетчик. Измеритель не имел стандартного интерфейса и имел только светодиодный дисплей. Решение, которое я ожидал, заключалось в том, чтобы открыть корпус, подключить к выходу драйверов светодиодного дисплея и расшифровать цифры. Это было решение, которое я получил во всех случаях, кроме одного.
Этот предприимчивый программист решил, что программное обеспечение лучше оборудования, и написал программу, которая считывала показания счетчика с видеовхода на его дисплее. Вряд ли это было компьютерное зрение — оно просто искало изменения яркости вдоль фиксированных линий сканирования, чтобы определить, какие сегменты светодиода горят. Это удача или неудача? Это исключительно умное решение или непонимание того, как все работает на самом деле?
Исследователи из Кембриджского университета более или менее сделали то же самое. Только в этом случае инженерный корпус намного прочнее. У старых счетчиков нет интерфейсов, а если они и есть, то зачастую они проприетарные. Открытие устройства для установления соединения тоже не вариант, поэтому на помощь приходит компьютерное зрение:
«Приложение использует методы компьютерного зрения для считывания и записи уровней глюкозы, времени и даты, отображаемых в типичном тесте на глюкозу через камеру на мобильном телефоне. Технология, не требующая подключения к Интернету или Bluetooth, работает для любого типа глюкометра, в любой ориентации и с различными уровнями освещенности. Это также снижает количество отходов, устраняя необходимость замены высококачественных глюкометров, не поддерживающих Bluetooth, что делает его экономически эффективным решением для NHS ».
Когда вы добавляете тот факт, что обычно сложно подключиться к медицинским устройствам из стороннего программного обеспечения, это приобретает еще больший смысл. Компьютерное зрение как универсальный интерфейс устройства не является очевидной идеей, но это не так глупо, как раньше, учитывая вычислительную мощность, которую большинство людей носит в своих карманах, и тот факт, что видеовход — обычное дело.
Возможно, вы могли бы сказать, что во всем виноват мобильный телефон, который позволяет использовать машинное обучение для решения таких повседневных задач.

Я также всегда говорил, что программисты и инженеры в целом умеют решать проблемы, которые затрагивают их лично. Доктор Джеймс Чарльз из Кембриджского инженерного факультета признал:
«С чисто эгоистичной точки зрения я действительно хотел развить это»,
У него диабет I типа, и ему нужно делать около десяти измерений каждый день. Теперь ему больше не нужно передавать данные вручную.
Программное обеспечение использует нейронную сеть LeDigit для распознавания отдельных цифр после обнаружения экрана дисплея в сцене.
Самое интересное — это разовое обучение поиску экрана на новом устройстве. Вы показываете приложению новое устройство, и оно находит экран, на котором будут отображаться цифры. Более того, методика отработана и протестирована не только на глюкометрах, но и на измерителях температуры, веса и мультиметров.

Это обычное приложение, способное делать гораздо больше, чем та важная работа, для которой оно было разработано.
«… мы [построили] систему на основе CNN, которая работает в реальном времени на мобильном устройстве с очень высокой точностью считывания (близкой к 100%). Наш вклад включает (i) внедрение новой захватывающей области приложений, (ii) метод обучения на основе чисто синтетических данных путем уменьшения сдвига домена с использованием удивительно простого подхода, который в отличие от состязательных методов обучения не требует даже немаркированных данных; (iii) высокоточная система для анализа экранов цифровых счетчиков и (iv) выпуск нового набор данных для чтения с экрана. Система, хотя и обучена исключительно на синтетических данных, очень хорошо переносится в реальный мир. Наш метод обнаружения экрана и распознавания текста также улучшен по сравнению с современным набором данных ».

Гарри Фэйрхед — я эксперт по аппаратному обеспечению программистов. Его знаменитая книга о Raspberry Pi только что была переиздана в обновленном и расширенном издании, Raspberry Pi IoT in C, Second Edition.


Добавить комментарий