Google только что анонсировал ограниченный предварительный просмотр своего Cloud Vision API и приблизился к тому, чтобы зарабатывать деньги на своих усилиях в области ИИ.
Информации о Google Cloud Vision API не так много. Есть списки того, что он обещает сделать, и некоторое представление о природе API, но нет подробных технических подробностей.
Кажется, что он предоставляет REST API, который позволяет загружать изображения и получать результаты обработки. Предполагается, что в будущем вы сможете работать с изображениями, хранящимися в Google Cloud Storage, что имеет смысл.
Приведен список вариантов обработки:
Обнаружение этикеток
Обнаруживайте широкий набор категорий в изображении, от видов транспорта до животных.
Явное обнаружение содержимого
Обнаруживать откровенный контент, например контент для взрослых или сцены насилия, в изображении.
Обнаружение логотипа
Обнаруживайте популярные логотипы продуктов на изображении.
Обнаружение ориентира
Обнаружение популярных природных и искусственных структур на изображении.
Оптическое распознавание символов
Обнаружение и извлечение текста в изображении с поддержкой широкого диапазона языков, а также поддержкой автоматической идентификации языка.
Распознавание лиц
Обнаружение нескольких лиц на изображении вместе с соответствующими ключевыми атрибутами лица, такими как эмоциональное состояние или ношение головного убора. Распознавание лиц не поддерживается.
По сути, у нас есть вариации основного процесса маркировки изображений, но с разными классами меток. API включает возможность запрашивать возврат различных типов этикеток.
Вам может быть интересно, какова основная технология? Это почти наверняка некий вариант сверточной нейронной сети Google, реализованный с использованием многомашинной версии TensorFlow, но это предположение и не имеет отношения к фактическому использованию API.
В качестве демонстрации Google подключил готовое устройство. Робот-платформа на базе Raspberry Pi, в комплекте с видеокамерой, отправила ее, чтобы посмотреть на вещи и идентифицировать их, вызвав API:
Интересно отметить акцент Googl на том, что распознавание лиц не поддерживается. Кажется, это стандартная черта, которую нельзя переступать в отношении услуг ИИ. Microsoft Project Oxford, например, выполняет обнаружение лиц, но не распознавание, такова осторожность, необходимая, чтобы избежать проблем с конфиденциальностью. Да, хороший распознаватель лиц может использоваться для отслеживания людей, но он также может предоставлять множество полезных услуг, включая отслеживание людей, где эти люди хотели, чтобы их отслеживали. Кажется, что если вы хотите сделать что-то подобное, вам нужно создать собственный сервис с нуля.
Вы можете подать заявку на место на превью. Все, что вам нужно сделать, это объяснить, что вы планируете делать с API, и подождать.
А как насчет цен? Как говорит Google:
«Плата за использование услуги на этапе ограниченной предварительной версии не взимается. На следующих этапах мы введем цены».
Значит, на искусственном интеллекте есть деньги.