Система AI показывает изображение еды на основе рецепта


Исследователи из Тель-Авивского университета разработали систему, основанную на глубоком обучении, которая может автоматически генерировать изображения готовой еды на основе простого текстового рецепта.

Это призвано помочь ускорить исследования в этой области, а не использоваться «по-настоящему», но все же остается интересным применением ИИ. Проблема, с которой столкнулись исследователи Ори Бар Эль, Ори Лихт и Нетанель Йосефиан, заключается в том, что связь между текстом рецепта (без его названия) и визуальным содержанием изображения нечеткая, а текстовая структура рецептов является сложной, состоящей из из двух разделов (ингредиенты и инструкции), каждый из которых содержит несколько предложений.

Набор данных состоит из 52 000 письменных рецептов и соответствующих им изображений. После обучения система генерировала изображения того, как может выглядеть рецепт, из длинного списка текста, который не описывал визуальный контент или название блюда. Ори Бар Эль, один из соавторов статьи, сказал:
«Наша система принимает рецепт в качестве входных данных и генерирует с нуля изображение, которое отражает пищу, которую система« считает »описанной в этом рецепте».
Он добавил, что, поскольку текст рецепта длинный и не описывает напрямую визуальное содержание изображения, человеку, не говоря уже о компьютере, задача будет очень сложной.

Исследователи использовали набор данных recipe1M для обучения и оценки нашей модели, которая основана на архитектуре StackGAN-v2. Это составная порождающая состязательная сеть. Первоначально GAN представляли собой комбинацию двух моделей, которые обучены соревноваться друг с другом. В процессе обучения обучаются и генератор G, и дискриминатор D. G оптимизирован для воспроизведения изображений, аналогичных исходному распределению данных, путем создания изображений, которые дискриминатору D трудно отличить от истинных изображений. D обучен различать настоящие изображения и поддельные синтетические, созданные G. В качестве оборудования для системы были выбраны графические процессоры NVidia Titan X со средой глубокого обучения PyTorch с ускорением cuDNN.
Успешность изображений, сгенерированных системой, была проверена с помощью судей-людей, которые сравнили фотографии реальных продуктов, созданных по рецептам, с сгенерированными изображениями. В некоторых случаях реальным изображениям давалась оценка, которая была меньше или равна оценке, присвоенной сгенерированным изображениям. Исследователи говорят, что система лучше подходит для таких блюд, как макароны, рис или супы, и не так хорошо работает с рецептами, где конечный результат имеет характерную форму, например, гамбургер или курицу.


Добавить комментарий