• Даже хорошие боты сражаются
• Show and Tell: подписи к изображениям с открытым исходным кодом в TensorFlow
• VIPLFaceNet: SDK для глубокого распознавания лиц с открытым исходным кодом.
Иногда новости достаточно хорошо сообщаются в других местах, и нам нечего добавить, кроме как обратить на это ваше внимание.
Без комментариев — это формат, в котором мы представляем исходную исходную информацию, слегка отредактированную, чтобы вы могли решить, хотите ли вы следить за ней.
Даже хорошие боты сражаются
В последние годы резко увеличилось количество онлайн-ботов, от веб-сканеров для поисковых систем до чат-ботов для онлайн-обслуживания клиентов, спам-ботов в социальных сетях и ботов для редактирования контента в сообществах онлайн-сотрудничества. Онлайн-мир превратился в экосистему ботов. Однако наши знания о том, как эти автоматизированные агенты взаимодействуют друг с другом, довольно скудны. В этой статье мы анализируем совместных ботов, изучая взаимодействия между ботами, которые редактируют статьи в Википедии.
Мы обнаружили, что, хотя боты Википедии предназначены для поддержки энциклопедии, они часто отменяют правки друг друга, и эти бесплодные «схватки» могут иногда продолжаться годами. Кроме того, как и люди, боты из Википедии демонстрируют культурные различия.
Наши исследования показывают, что даже относительно «тупые» боты могут вызывать сложные взаимодействия, и это является предупреждением для сообщества исследователей искусственного интеллекта.
Show and Tell: подписи к изображениям с открытым исходным кодом в TensorFlow
Сегодня мы делаем последнюю версию нашей системы субтитров изображений доступной в качестве модели с открытым исходным кодом в TensorFlow. Этот выпуск содержит значительные улучшения в компоненте компьютерного зрения системы субтитров, намного быстрее обучается и дает более подробные и точные описания по сравнению с исходной системой. Эти улучшения описаны и проанализированы в документе «Показать и рассказать: уроки, извлеченные из конкурса MSCOCO Image Captioning Challenge 2015 года», опубликованном в IEEE Transactions on Pattern Analysis and Machine Intelligence.
Сегодняшний выпуск кода инициализирует кодировщик изображений с использованием модели Inception V3, которая обеспечивает точность 93,9% в задаче классификации ImageNet. Инициализация кодировщика изображений с лучшей моделью зрения дает системе субтитров изображений лучшую способность распознавать различные объекты на изображениях, позволяя ей генерировать более подробные и точные описания. Это дает дополнительные 2 балла улучшения метрики BLEU-4 по сравнению с системой, используемой в задаче создания субтитров.
Еще одно ключевое улучшение компонента зрения связано с точной настройкой модели изображения. Этот шаг решает проблему, заключающуюся в том, что кодировщик изображений инициализируется моделью, обученной классифицировать объекты в изображениях, тогда как цель системы субтитров — описывать объекты в изображениях с использованием кодировок, созданных моделью изображения. Например, модель классификации изображений скажет вам, что на изображении есть собака, трава и фрисби, но естественное описание также должно сказать вам цвет травы и то, как собака относится к фрисби.
Мы надеемся, что совместное использование этой модели в TensorFlow поможет продвинуть вперед исследования и приложения, связанные с субтитрами изображений, а также позволит заинтересованным людям учиться и получать удовольствие. Чтобы приступить к обучению вашей собственной системе подписи к изображениям, а также для получения дополнительных сведений об архитектуре нейронной сети, перейдите на домашнюю страницу модели здесь. Хотя наша система использует модель классификации изображений Inception V3, вы даже можете попробовать обучить нашу систему с недавно выпущенной моделью Inception-ResNet-v2, чтобы увидеть, может ли она работать еще лучше!
VIPLFaceNet: SDK для глубокого распознавания лиц с открытым исходным кодом
Для высокоточного распознавания лиц необходимо четкое представление лица. В этой работе мы предлагаем метод распознавания лиц с открытым исходным кодом с глубоким представлением, названный VIPLFaceNet, который представляет собой 10-уровневую сверточную нейронную сеть с 7 сверточными слоями и 3 полносвязными слоями.
По сравнению с хорошо известным AlexNet, наш VIPLFaceNet занимает всего 20% времени на обучение и 60% времени на тестирование, но обеспечивает снижение частоты ошибок на 40% в реальном тесте распознавания лиц LFW. Наша VIPLFaceNet достигает средней точности 98,60% на LFW с использованием одной единственной сети.
SDK C ++ с открытым исходным кодом на основе VIPLFaceNet выпускается под лицензией BSD. SDK занимает около 150 мс для обработки одного изображения лица в одном потоке на настольном процессоре i7. VIPLFaceNet представляет собой современную отправную точку как для академических, так и для промышленных приложений распознавания лиц.
Чтобы быть в курсе новых статей на I Programmer, подпишитесь на нашу еженедельную рассылку новостей, подпишитесь на RSS-канал и подпишитесь на нас в Twitter, Facebook, Google+ или Linkedin.
Комментарии
Оставьте комментарий или просмотрите существующие комментарии с помощью Disqus
или отправьте свой комментарий по адресу: comments@i-programmer.info