Впервые программа распознавания лиц превосходит людей, говоря, что на двух фотографиях изображен один и тот же человек.
Мы очень хорошо настроены на задачу распознавания лиц и очень хорошо с ней справляемся. Теперь у нас есть программа, которая может превзойти людей в задаче проверки лица — где вам показывают две фотографии, и все, что вам нужно сделать, это сказать, одно ли это лицо или другое.
Вы можете подумать, что это намного проще, чем сопоставление данного лица с большим количеством кандидатов, но вы не видели набор тестовых изображений «Помеченные лица в дикой природе» (LFW). Широкий выбор поз, условий освещения и плохая фотография делают это серьезной проблемой.
Система искусственного интеллекта была разработана китайцами из Гонконга Чаочао Лу и Сяоу Тан для классификации набора LFW, но она также извлекла из ряда других наборов данных фотографий — образец из которых можно увидеть ниже.
Если вы следили за последними разработками в области искусственного интеллекта, вы, вероятно, ожидали, что используемый подход является еще одним из замечательных достижений глубоких нейронных сетей — но нет. В данном случае подход представляет собой простой, но тщательно проработанный фрагмент машинного обучения. Система была спроектирована в том смысле, что исследователи объединили компоненты в многоступенчатую систему.
Первый шаг в статье не объясняется. После этого каждая из фотографий в обучающем и тестовом наборе была нормализована с помощью преобразования, которое поместило пять ориентиров на лице — два глаза, нос и два уголка рта — в фиксированные позиции на изображении размером 150×120 пикселей. Затем изображение разделяется на набор перекрывающихся фрагментов размером 25×25 пикселей, и извлекаются многомасштабные локальные двоичные признаки LBP. Функции LBP формируют функции, которые передаются в систему машинного обучения.
Система машинного обучения основана на модификации классической методики Дискриминанта Фишера — Дискриминантного анализа Фишера ядра или KFDA. Исследователи также изобрели более эффективную форму анализа — модель скрытых переменных дискриминативного гауссовского процесса, которую они назвали для краткости GaussianFace.
Затем они использовали много данных для обучения своего классификатора и экстрактора признаков. KFDA пытается найти составные функции, которые лучше всего разделяют данные, а затем использует эти функции для классификации данных. Набор данных, использованных для обучения, был очень большим — 20 000 совпадающих изображений и 20 000 несовпадающих изображений. Что еще более важно, для получения более широкого разброса в распределении объектов использовался ряд различных наборов данных.
Результаты показывают, что новый метод не только превосходит все существующие методы проверки лица, но и превосходит человеческие показатели (97,53%) почти на полный процент (98,52%). Вы должны помнить, что задача состоит в том, чтобы сказать, сделаны ли две фотографии одного и того же человека или нет, и человеческий фактор использует фотографии, обрезанные, чтобы показать только лицо. Если вы видите больше тела, то работоспособность человека улучшается до 99,2%.
Ошибки, сделанные GaussianFace — в верхнем ряду одни и те же люди, а в нижнем — два разных человека.
Что интересно в этом результате, так это то, что метод основан на классическом дискриминантном анализе плюс некоторые умные расширения, чтобы сделать его нелинейным и способным оптимизировать свою собственную производительность. Также ясно, что общий объем используемых данных важен, хотя обратите внимание, что другие методы, с которыми сравнивался GaussianFace, не смогли использовать столько преимуществ дополнительных данных.
В конце статьи исследователи отмечают, что обучение было медленным и что для распространения метода на другие задачи необходима лучшая реализация, возможно, на базе графического процессора.
Есть ли у этой технологии практическое применение?
Такая высокоточная проверка лица может быть именно тем, что необходимо для приложений безопасности, где ваше лицо разблокирует систему. Однако предстоит еще много работы.