В предыдущей статье мы писали о роли аннотирования (разметки) для развития искусственного интеллекта и распознавания объектов на изображении. Но как способность компьютеров "видеть" и "понимать" смысл фото поможет нам решать более практические бизнес-задачи?
Важное место среди технологий распознавания занимает идентификация пользователей по лицу и/или фото в документах. Системы распознавания лиц, например, сервис Face ID от Evergreen, могут возвращать подробную информацию на основе анализа лиц. Но об этом мы поговорим отдельно.
В мире ежедневно появляются миллиарды новых фотографий. Поэтому классифицировать и организовать их таким образом, чтобы поиск конкретной группы или уникального изображения не требовал много времени и усилий — задача довольно сложная.
Описание картинок с помощью нейросетей облегчает задачу поиска и выдачи релевантных результатов в поисковых системах по запросу пользователя на естественном языке. Можно автоматически создавать категории и сортировать личные коллекции медиафайлов, отмечать тегами продукцию в онлайн-каталогах, готовить вводные данные для алгоритмов компьютерного зрения и решать другие задачи в самых различных сферах — от электронной коммерции до помощи людям с инвалидностью.
PIM-системы (=Product Management System, управление информацией про продукт) с элементами искусственного интеллекта способны анализировать изображения и автоматически генерировать детальные атрибуты для онлайн-каталогов. Автоматический подбор тегов для продуктов позволяет экономить время и расходы: алгоритм на основе ИИ может описать товар по фото и автоматически предложит соответствующие подписи и категории. Например, система может определить тип вещи, материал, цвет, рисунок, посадку одежды и т.д. Визуальные рекомендации на основе ИИ дают возможность клиентам более удобно перемещаться по категориям. Такие бренды, как Asos, eBay, Forever21 уже используют визуальный поиск на основе ИИ и распознавание изображений для эффективного взаимодействия с клиентами.
Источник: https://www.intelistyle.com/
Программа автоматически добавляет подписи к фото, используя релевантные ключевые слова, которые передают визуальное содержание картинки. Это позволит улучшить ваши рейтинги в поисковой выдаче. С помощью искусственного интеллекта и алгоритмов машинного обучения можно автоматически заполнять ALT-теги на основе анализа изображений. Например, плагин Image SEO для WordPress может автоматически переименовывать файлы, создавать достаточно точные атрибуты ALT и описания, и заполнять их релевантным для SEO контентом. Инструмент анализа изображений и контекстных данных Google Vision API использует современные технологии распознавания образов на изображении и создает метки для всех объектов, которые он может идентифицировать.
Мы можем создать продукт для помощи слепым и слабовидящим людям, чтобы они могли лучше ориентироваться в повседневных ситуациях без посторонней помощи. Для этого сначала необходимо преобразовать картинку в текст, затем текст — в голос (это две известные области применения Deep Learning).
Приложение под названием Seeing AI, разработанное Microsoft, позволяет людям с нарушениями зрения видеть окружающий мир с помощью смартфонов. Программа может зачитывать текст по наведению на него камеры, дает звуковые подсказки, умеет распознавать как печатный, так и рукописный текст, помогает узнавать друзей и членов семьи, может описать людей, находящихся рядом, идентифицировать валюту и многое другое.
Aira, успешный калифорнийский стартап, разработал AR-очки для людей со слабым зрением. Для службы поддержки был создан виртуальный агент на базе искусственного интеллекта — Chloe. Компания использует линейку графических процессоров NVIDIA RTX 2080 Ti для обучения глубоких нейронных сетей. А еще Aira использует чрезвычайно качественно аннотированный датасет для обработки изображений и естественной речи.
Распознавание и точное описание данных необходимо для приложений, связанных с системами безопасности:
Камеры видеонаблюдения сегодня есть везде, но если они в дополнение к функции обзора смогут генерировать релевантные подписи к изображениям, это поможет нам поднимать тревогу сразу же, как только камера зафиксирует любую подозрительную активность. Алгоритмы на базе AI помогают автоматически создавать метки для любых видов изображений, получаемых с камер безопасности, чтобы научить ваши системы реагировать на любые потенциально опасные ситуации. Возможно, таким образом удастся снизить уровень преступности и количество несчастных случаев.
Мы выбрали несколько решений с открытым исходным кодом, которые могут заменить описание картинок вручную и генерируют достаточно точные текстовые подписи. Их можно также взять за основу при разработке индивидуального решения для ваших конкретных бизнес-задач.
Эта система для описания фото на базе нейросетей использует изображение на входе, а на выходе создает текстовое предложение, описывающее визуальное содержание картинки. Модель состоит из сверточной нейронной сети (CNN) для извлечения визуальных характеристик, и рекуррентной нейронной сети (RNN) для перевода этих данных в текст. И CNN, и RNN-части можно дополнительно обучать с использованием библиотеки TensorFlow.
Caption_generator — это модульная библиотека, построенная поверх Keras/ TensorFlow для генерации подписей на естественном языке (английском) для любого входного изображения. Она состоит из трех моделей: CNN-энкодера, модели векторного представления слова (word embedding) и RNN-декодера. Система может создавать довольно детальные и точные подписи к изображениям.
Как следует из названия, это решение было разработано для распознавания различных моделей автомобилей с помощью глубокого обучения (Deep Learning). Используется база изображений Cars Dataset (Стэнфорд), содержащая более 16K изображений 196 классов автомобилей. Кроме того, вы можете использовать предварительно обученную модель в качестве демо для создания аннотаций к вашей собственной коллекции изображений.
Это система распознавания логотипов брендов на базе TensorFlow Object Detection API. Вы можете создать собственный алгоритм определения логотипов, используя одну из предварительно обученных моделей, входящих в сборку. Название идентифицированного логотипа бренда появляется текстом на изображении, но можно извлечь эти данные в виде текстовых подписей.
Еще одна нейронная сеть для генерации подписей к изображениям с использованием CNN, RNN и лучевого поиска. Алгоритм лучевого поиска максимизирует вероятность подбора наиболее подходящего текстового описания отдельно взятого изображения.
Источник: https://github.com/
Еще одна платформа, CloudCV, предлагает интересный сервис ответа на визуальные вопросы (VQA, Visual Question Answering). Получив вопрос на естественном языке и изображение, система VQA пытается найти на него правильный ответ, используя алгоритмы глубокого обучения. Для правильного срабатывания программы требуется понимание языка, распознавание образов и общие знания. Датасет VQA содержит более 265K изображений (COCO и абстрактные образы), более 614K вопросов в свободной форме на естественном языке (примерно 3 вопроса на изображение) и более 6 миллионов лаконичных ответов в свободной форме (10 ответов на изображение).
Источник: https://vqa.cloudcv.org/
На рынке существует ряд интересных решений, которые автоматически создают подписи к изображениям для e-commerce (например, для категоризации онлайн-каталогов), для быстрого, удобного поиска и обработки медиафайлов и будут полезными для различных проектов по распознаванию объектов. Вот наша подборка.
Этот API для автоматического подбора тегов для изображений на основе ИИ позволяет присваивать соответствующие ключевые слова и текст изображениям и видео. Программа использует алгоритмы глубокого изучения для попиксельного анализа содержимого изображений, извлечения визуальных характеристик и обнаружения объектов. Она может точно распознавать содержимое, сюжет и общий смысл картинки.
Инструмент, разработанный для распознавания изображений в fashion-сфере, который позволяет автоматически добавлять в каталоги качественные и точные описания продуктов. Система предлагает более 300 тегов на основе выборки изображений из более 60 категорий (одежда, мода, ювелирные изделия и др.). Другие ИИ-решения от Wide Eyes включают поиск по изображениям, рекомендации похожих товаров и персонализированный советчик по стилю.
Встроенный алгоритм искусственного интеллекта автоматически сканирует и подписывает изображения, используя ключевые слова, уже хранящиеся в системе. Эти автоматически присвоенные ключевые слова доступны для внутреннего поиска в Skyfish, так что найти изображение повторно очень легко. Однако, автоматические теги сохраняются только внутри платформы. После экспорта фотографий за пределы Skyfish все сгенерированные подписи удаляются.
Это мощная платформа, предназначенная для автоматизации анализа изображений и видео с помощью машинного обучения. Amazon Rekognition Custom Labels позволяет идентифицировать на изображениях ключевые для бизнеса объекты, а также извлекать из них ценную информацию: находить фирменный логотип в социальных сетях, определять продукцию на полках магазинов, классифицировать детали оборудования на сборочной линии и многое другое. Платформа также поддерживает распознавание и анализ лиц, распознавание текста на изображениях и видео, распознавание знаменитостей, отслеживание перемещений и другие функции.
Facebook использует технологию распознавания объектов для автоматического создания альтернативного (alt) текста для описания фотографии для слепых и слабовидящих людей. Если изображение распознано, пользователь может услышать перечень объектов на фото, описание, оставленное человеком, загрузившим картинку, количество лайков, комментариев и т.д. Кроме того, этот альтернативный текст можно редактировать для создания более точных описаний — полезная функция для контент-менеджеров.
Мы в Evergreen предпочитаем использовать TensorFlow — фреймворк для машинного обучения с открытым исходным кодом — для обучения нейронных сетей при создании решений с элементами искусственного интеллекта. Опыт специалистов Evergreen позволяет нам внедрять алгоритмы распознавания объектов и визуальный поиск в проектах клиентов. Хотите узнать больше о практическом применении таких решений? Обращайтесь к нам — всегда рады помочь.
Автоматическое описание фото с помощью нейросетей позволяет сортировать и классифицировать изображения намного быстрее и проще: система буквально "читает" визуальное содержимое и “объясняет” смысл картинки в виде текста. Таким образом смысл изображения становится доступным для поисковых систем — преимущество, которое полезно на практике. А также это поможет людям, использующим скринридеры.
Мы в Evergreen уже давно работаем с ИИ-технологиями и создаем проекты в области распознавания лиц и объектов в различных сегментах бизнеса. Для клиентов мы можем создать персонализированный продукт или сервис: использовать open-source решения и создать MVP в короткие сроки и экономически эффективно. Наша команда поддерживает проект на каждом этапе развития по мере роста и масштабирования.
Хотите разработать кастомный инструмент для автоматического распознавания и аннотирования изображений для вашего онлайн-магазина? Или вам нужно комплексное решение для бизнеса с использованием искусственного интеллекта? Напишите нам или заполните форму. Давайте создавать инновационный продукт для вашей компании вместе — уже сегодня!