Вы один из тех, кто, поедая незнакомое блюдо, пытается проработать его ингредиенты, чтобы воссоздать его дома? Это то, к чему особенно склонны программисты, и теперь исследователи из CSAIL вносят изменения в процесс глубокого обучения.
В совместном исследовании с Катарским исследовательским институтом вычислительной техники (QCRI) и Политехническим университетом Каталонии команда обучила систему искусственного интеллекта под названием Pic2Recipe, чтобы смотреть на фотографии еды и иметь возможность предугадывать ингредиенты и предлагать аналогичные рецепты.
Вы можете увидеть это в действии в этом видео:
Это может показаться тем же упражнением по распознаванию фотографий, которое распространилось за последние пару лет, с приложениями для идентификации пород растений, птиц и собак, и да, есть много общих элементов. Однако причина того, что Pic2Recipe достаточно нова, чтобы заслужить статью, которая будет представлена на конференции Computer Vision and Pattern Recognition в Гонолулу, по словам постдока MIT Юсуфа Айтара, заключается в том, что:
«В компьютерном зрении едой в основном пренебрегают, потому что у нас нет крупномасштабных наборов данных, необходимых для прогнозирования».
Остальная часть команды состоит из профессора Массачусетского технологического института Антонио Торральба, аспирантов CSAIL Ника Хайнса и Хавьера Марина, Амайи Сальвадор из Политехнического университета Каталонии в Испании и ученого Ферды Офли и директора по исследованиям Ингмара Вебера из QCRI.
В их статье под названием Learning Cross-Modal Embeddings for Cooking Recipes and Food Images, представлен Recipe1M, новый крупномасштабный структурированный корпус из более чем 1 миллиона рецептов приготовления и 800k изображений еды, что делает его самой большой общедоступной коллекцией данных рецептов.
Цель состоит не просто в том, чтобы создать огромную кулинарную книгу, а в том, чтобы обучить нейронную сеть извлекать рецепты:
Обилие онлайн-коллекций рецептов с фотографиями, отправленными пользователями, дает возможность обучающим машинам автоматически понимать процесс приготовления пищи путем совместного анализа списков ингредиентов, инструкций по приготовлению и изображений продуктов. Этот инструмент можно применять не только в сфере кулинарного искусства, но и к множеству изображений еды, размещаемых в социальных сетях, чтобы понять значение еды и ее приготовления для общественного здравоохранения и культурного наследия.
Рецепты были взяты с более чем двух десятков популярных кулинарных веб-сайтов и обработаны с помощью конвейера, который извлекал соответствующий текст из необработанного HTML, загружал связанные изображения и собирал данные в компактную схему JSON, в которой каждый элемент данных был однозначно идентифицирован.
Набор данных Recipe1M состоит из двух слоев. Первый содержит основную информацию, включая название, список ингредиентов и последовательность инструкций по приготовлению блюда; все эти данные представлены в виде свободного текста. Второй уровень основан на первом и включает в себя любые изображения, с которыми связан рецепт — они предоставляются как RGB в формате JPEG. Пары рецепт-изображение позволяют глубже понять пищу, начиная с ингредиентов и заканчивая приготовлением:
Вы можете поэкспериментировать с Pic2Recipe, любезно предоставленным CSAIL, используя прилагаемые ptotos для изучения рецептов:
В качестве альтернативы вы можете загрузить изображение — но даже с его большим набором данных в его репертуаре много пробелов, но оно довольно хорошо распознает выпечку:
Если это приложение дает вам пищу для размышлений, вероятно, еще многое можно сделать. Код для обучения и оценки моделей из этого документа находится на GitHub, где он уже был разветвлен, и вы можете загрузить набор данных Recipe1M после регистрации и принятия условий.