Генерация текстовых описаний для в фото с помощью нейросетей

В предыдущей статье мы писали о роли аннотирования (разметки) для развития искусственного интеллекта и распознавания объектов на изображении. Но как способность компьютеров "видеть" и "понимать" смысл фото поможет нам решать более практические бизнес-задачи?

Важное место среди технологий распознавания занимает идентификация пользователей по лицу и/или фото в документах. Системы распознавания лиц, например, сервис Face ID от Evergreen, могут возвращать подробную информацию на основе анализа лиц. Но об этом мы поговорим отдельно.

В мире ежедневно появляются миллиарды новых фотографий. Поэтому классифицировать и организовать их таким образом, чтобы поиск конкретной группы или уникального изображения не требовал много времени и усилий — задача довольно сложная.

Описание картинок с помощью нейросетей облегчает задачу поиска и выдачи релевантных результатов в поисковых системах по запросу пользователя на естественном языке. Можно автоматически создавать категории и сортировать личные коллекции медиафайлов, отмечать тегами продукцию в онлайн-каталогах, готовить вводные данные для алгоритмов компьютерного зрения и решать другие задачи в самых различных сферах — от электронной коммерции до помощи людям с инвалидностью.

Автоматический подбор тегов по фото товара

PIM-системы (=Product Management System, управление информацией про продукт) с элементами искусственного интеллекта способны анализировать изображения и автоматически генерировать детальные атрибуты для онлайн-каталогов. Автоматический подбор тегов для продуктов позволяет экономить время и расходы: алгоритм на основе ИИ может описать товар по фото и автоматически предложит соответствующие подписи и категории. Например, система может определить тип вещи, материал, цвет, рисунок, посадку одежды и т.д. Визуальные рекомендации на основе ИИ дают возможность клиентам более удобно перемещаться по категориям. Такие бренды, как Asos, eBay, Forever21 уже используют визуальный поиск на основе ИИ и распознавание изображений для эффективного взаимодействия с клиентами.

Описывание фото в e-commerce

Источник: https://www.intelistyle.com/

Автоматическая генерация мета-тегов для веб-поиска и SEO

Программа автоматически добавляет подписи к фото, используя релевантные ключевые слова, которые передают визуальное содержание картинки. Это позволит улучшить ваши рейтинги в поисковой выдаче. С помощью искусственного интеллекта и алгоритмов машинного обучения можно автоматически заполнять ALT-теги на основе анализа изображений. Например, плагин Image SEO для WordPress может автоматически переименовывать файлы, создавать достаточно точные атрибуты ALT и описания, и заполнять их релевантным для SEO контентом. Инструмент анализа изображений и контекстных данных Google Vision API использует современные технологии распознавания образов на изображении и создает метки для всех объектов, которые он может идентифицировать.

Помощь людям с нарушениями зрения

Мы можем создать продукт для помощи слепым и слабовидящим людям, чтобы они могли лучше ориентироваться в повседневных ситуациях без посторонней помощи. Для этого сначала необходимо преобразовать картинку в текст, затем текст — в голос (это две известные области применения Deep Learning).

Приложение под названием Seeing AI, разработанное Microsoft, позволяет людям с нарушениями зрения видеть окружающий мир с помощью смартфонов. Программа может зачитывать текст по наведению на него камеры, дает звуковые подсказки, умеет распознавать как печатный, так и рукописный текст, помогает узнавать друзей и членов семьи, может описать людей, находящихся рядом, идентифицировать валюту и многое другое.

Aira, успешный калифорнийский стартап, разработал AR-очки для людей со слабым зрением. Для службы поддержки был создан виртуальный агент на базе искусственного интеллекта — Chloe. Компания использует линейку графических процессоров NVIDIA RTX 2080 Ti для обучения глубоких нейронных сетей. А еще Aira использует чрезвычайно качественно аннотированный датасет для обработки изображений и естественной речи.

Автоматическое распознавание объектов на изображении для систем безопасности

Распознавание и точное описание данных необходимо для приложений, связанных с системами безопасности:

распознавание предметов на изображении для обнаружения оружия и/или опасных объектов;
аннотирование изображений для распознавания лиц;
классификация объектов на мониторах безопасности;
обнаружение и обозначение объектов/людей, а также отслеживание их на последовательности кадров и многое другое.

Камеры видеонаблюдения сегодня есть везде, но если они в дополнение к функции обзора смогут генерировать релевантные подписи к изображениям, это поможет нам поднимать тревогу сразу же, как только камера зафиксирует любую подозрительную активность. Алгоритмы на базе AI помогают автоматически создавать метки для любых видов изображений, получаемых с камер безопасности, чтобы научить ваши системы реагировать на любые потенциально опасные ситуации. Возможно, таким образом удастся снизить уровень преступности и количество несчастных случаев.

Open source решения: нейросети для распознавания изображений

Мы выбрали несколько решений с открытым исходным кодом, которые могут заменить описание картинок вручную и генерируют достаточно точные текстовые подписи. Их можно также взять за основу при разработке индивидуального решения для ваших конкретных бизнес-задач.

Image_Captioning для автоматической пометки тегами

Эта система для описания фото на базе нейросетей использует изображение на входе, а на выходе создает текстовое предложение, описывающее визуальное содержание картинки. Модель состоит из сверточной нейронной сети (CNN) для извлечения визуальных характеристик, и рекуррентной нейронной сети (RNN) для перевода этих данных в текст. И CNN, и RNN-части можно дополнительно обучать с использованием библиотеки TensorFlow.

Автоматическая пометка тегами

Источник: https://github.com/

Caption_Generator для описания картинок с помощью AI

Caption_generator — это модульная библиотека, построенная поверх Keras/ TensorFlow для генерации подписей на естественном языке (английском) для любого входного изображения. Она состоит из трех моделей: CNN-энкодера, модели векторного представления слова (word embedding) и RNN-декодера. Система может создавать довольно детальные и точные подписи к изображениям.

Описание картинок с помощью ИИ

Источник: https://github.com/

Car-Recognition — распознавание марок автомобилей с помощью нейронки

Как следует из названия, это решение было разработано для распознавания различных моделей автомобилей с помощью глубокого обучения (Deep Learning). Используется база изображений Cars Dataset (Стэнфорд), содержащая более 16K изображений 196 классов автомобилей. Кроме того, вы можете использовать предварительно обученную модель в качестве демо для создания аннотаций к вашей собственной коллекции изображений.

DeepLogo — нейросеть для распознавания логотипов

Это система распознавания логотипов брендов на базе TensorFlow Object Detection API. Вы можете создать собственный алгоритм определения логотипов, используя одну из предварительно обученных моделей, входящих в сборку. Название идентифицированного логотипа бренда появляется текстом на изображении, но можно извлечь эти данные в виде текстовых подписей.

Распознавание логотипов

Источник: https://github.com/

Image-Caption-Generator — создание точных подписей к фото в CNN/RNN

Еще одна нейронная сеть для генерации подписей к изображениям с использованием CNN, RNN и лучевого поиска. Алгоритм лучевого поиска максимизирует вероятность подбора наиболее подходящего текстового описания отдельно взятого изображения.

Создание подписей к фото с помощью нейронок

Источник: https://github.com/

Еще одна платформа, CloudCV, предлагает интересный сервис ответа на визуальные вопросы (VQA, Visual Question Answering). Получив вопрос на естественном языке и изображение, система VQA пытается найти на него правильный ответ, используя алгоритмы глубокого обучения. Для правильного срабатывания программы требуется понимание языка, распознавание образов и общие знания. Датасет VQA содержит более 265K изображений (COCO и абстрактные образы), более 614K вопросов в свободной форме на естественном языке (примерно 3 вопроса на изображение) и более 6 миллионов лаконичных ответов в свободной форме (10 ответов на изображение).

Обзор платформы CloudCV

Источник: https://vqa.cloudcv.org/

Коммерческие сервисы для описания фотографий на базе AI

На рынке существует ряд интересных решений, которые автоматически создают подписи к изображениям для e-commerce (например, для категоризации онлайн-каталогов), для быстрого, удобного поиска и обработки медиафайлов и будут полезными для различных проектов по распознаванию объектов. Вот наша подборка.

Imagga — генератор тегов на основе контекстного анализа

Этот API для автоматического подбора тегов для изображений на основе ИИ позволяет присваивать соответствующие ключевые слова и текст изображениям и видео. Программа использует алгоритмы глубокого изучения для попиксельного анализа содержимого изображений, извлечения визуальных характеристик и обнаружения объектов. Она может точно распознавать содержимое, сюжет и общий смысл картинки.

Генерирование тегов с Imagga

Источник: https://imagga.com/

Wide Eyes Auto-Tagging — автоматические теги для онлайн-каталогов

Инструмент, разработанный для распознавания изображений в fashion-сфере, который позволяет автоматически добавлять в каталоги качественные и точные описания продуктов. Система предлагает более 300 тегов на основе выборки изображений из более 60 категорий (одежда, мода, ювелирные изделия и др.). Другие ИИ-решения от Wide Eyes включают поиск по изображениям, рекомендации похожих товаров и персонализированный советчик по стилю.

Skyfish — создание автоматических тегов и коллекций

Встроенный алгоритм искусственного интеллекта автоматически сканирует и подписывает изображения, используя ключевые слова, уже хранящиеся в системе. Эти автоматически присвоенные ключевые слова доступны для внутреннего поиска в Skyfish, так что найти изображение повторно очень легко. Однако, автоматические теги сохраняются только внутри платформы. После экспорта фотографий за пределы Skyfish все сгенерированные подписи удаляются.

Amazon Rekognition — поиск контента на основе распознавания объектов

Это мощная платформа, предназначенная для автоматизации анализа изображений и видео с помощью машинного обучения. Amazon Rekognition Custom Labels позволяет идентифицировать на изображениях ключевые для бизнеса объекты, а также извлекать из них ценную информацию: находить фирменный логотип в социальных сетях, определять продукцию на полках магазинов, классифицировать детали оборудования на сборочной линии и многое другое. Платформа также поддерживает распознавание и анализ лиц, распознавание текста на изображениях и видео, распознавание знаменитостей, отслеживание перемещений и другие функции.

Facebook AI — описание фото для незрячих

Facebook использует технологию распознавания объектов для автоматического создания альтернативного (alt) текста для описания фотографии для слепых и слабовидящих людей. Если изображение распознано, пользователь может услышать перечень объектов на фото, описание, оставленное человеком, загрузившим картинку, количество лайков, комментариев и т.д. Кроме того, этот альтернативный текст можно редактировать для создания более точных описаний — полезная функция для контент-менеджеров.

Мы в Evergreen предпочитаем использовать TensorFlow — фреймворк для машинного обучения с открытым исходным кодом — для обучения нейронных сетей при создании решений с элементами искусственного интеллекта. Опыт специалистов Evergreen позволяет нам внедрять алгоритмы распознавания объектов и визуальный поиск в проектах клиентов. Хотите узнать больше о практическом применении таких решений? Обращайтесь к нам — всегда рады помочь.

Вместо вывода

Автоматическое описание фото с помощью нейросетей позволяет сортировать и классифицировать изображения намного быстрее и проще: система буквально "читает" визуальное содержимое и “объясняет” смысл картинки в виде текста. Таким образом смысл изображения становится доступным для поисковых систем — преимущество, которое полезно на практике. А также это поможет людям, использующим скринридеры.

Мы в Evergreen уже давно работаем с ИИ-технологиями и создаем проекты в области распознавания лиц и объектов в различных сегментах бизнеса. Для клиентов мы можем создать персонализированный продукт или сервис: использовать open-source решения и создать MVP в короткие сроки и экономически эффективно. Наша команда поддерживает проект на каждом этапе развития по мере роста и масштабирования.

Хотите разработать кастомный инструмент для автоматического распознавания и аннотирования изображений для вашего онлайн-магазина? Или вам нужно комплексное решение для бизнеса с использованием искусственного интеллекта? Напишите нам или заполните форму. Давайте создавать инновационный продукт для вашей компании вместе — уже сегодня!

#Машинное обучение #Нейронные сети

23.07.2020

Используемые в статье картинки взяты из открытых источников и используются как иллюстрации.

Описание фото с помощью нейронных сетей

Автоматический подбор тегов по фото товара

Автоматическая генерация мета-тегов для веб-поиска и SEO

Помощь людям с нарушениями зрения

Автоматическое распознавание объектов на изображении для систем безопасности

Open source решения: нейросети для распознавания изображений

Image_Captioning для автоматической пометки тегами

Caption_Generator для описания картинок с помощью AI

Car-Recognition — распознавание марок автомобилей с помощью нейронки

DeepLogo — нейросеть для распознавания логотипов

Image-Caption-Generator — создание точных подписей к фото в CNN/RNN

Коммерческие сервисы для описания фотографий на базе AI

Imagga — генератор тегов на основе контекстного анализа

Wide Eyes Auto-Tagging — автоматические теги для онлайн-каталогов

Skyfish — создание автоматических тегов и коллекций

Amazon Rekognition — поиск контента на основе распознавания объектов

Facebook AI — описание фото для незрячих

Вместо вывода