У попередній статті ми писали про роль анотування (розмітки) для розвитку штучного інтелекту та розпізнавання об'єктів на зображенні. Але як здатність комп'ютерів "бачити" і "розуміти" сенс фото допоможе нам вирішувати більш практичні бізнес-завдання?
Важливе місце серед технологій розпізнавання займає ідентифікація користувачів по обличчю та/або фото в документах. Системи розпізнавання облич, наприклад, сервіс Face ID від Evergreen, можуть повертати детальну інформацію на основі аналізу осіб. Але про це ми поговоримо окремо.
У світі щодня з'являються мільярди нових фотографій. Тому класифікувати й організувати їх таким чином, щоб пошук конкретної групи або унікального зображення не потребував багато часу і зусиль - завдання досить складне.
Опис картинок за допомогою нейромереж полегшує завдання пошуку та видачі релевантних результатів у пошукових системах за запитом користувача природною мовою. Можна автоматично створювати категорії і сортувати особисті колекції медіафайлів, відзначати тегами продукцію в онлайн-каталогах, готувати початкові дані для алгоритмів комп'ютерного зору і вирішувати інші завдання у різних сферах - від електронної комерції до допомоги людям з інвалідністю.
PIM-системи (= Product Management System, управління інформацією про продукт) з елементами штучного інтелекту здатні аналізувати зображення й автоматично генерувати детальні атрибути для онлайн-каталогів. Автоматичний підбір тегів для продуктів дозволяє економити час і витрати: алгоритм на основі АІ може описати товар по фото й автоматично запропонує відповідні підписи і категорії. Наприклад, система може визначити тип речі, матеріал, колір, малюнок, посадку одягу тощо. Візуальні рекомендації на основі АІ дають можливість клієнтам зручніше пересуватися категоріями. Такі бренди, як Asos, eBay, Forever21 уже використовують візуальний пошук на основі АІ та розпізнавання зображень для ефективної взаємодії з клієнтами.
Джерело: https://www.intelistyle.com/
Програма автоматично додає підписи до фото, використовуючи релевантні ключові слова, що передають візуальний зміст картинки. Це дозволить поліпшити ваші рейтинги у пошуковій видачі. За допомогою штучного інтелекту й алгоритмів машинного навчання можна автоматично заповнювати ALT-теги на основі аналізу зображень. Наприклад, плагін Image SEO для WordPress може автоматично перейменовувати файли, створювати досить точні атрибути ALT і описи, і заповнювати їх релевантним для SEO контентом. Інструмент аналізу зображень і контекстних даних Google Vision API використовує сучасні технології розпізнавання образів на зображенні і створює мітки для всіх об'єктів, що він може ідентифікувати.
Ми можемо створити продукт для допомоги сліпим і людям зі слабким зором, щоб вони могли краще орієнтуватися в повсякденних ситуаціях без сторонньої допомоги. Для цього спочатку необхідно перетворити картинку у текст, потім текст - у голос (це дві відомі області застосування Deep Learning).
Додаток під назвою Seeing AI, розроблене Microsoft, дозволяє людям із вадами зору бачити навколишній світ за допомогою смартфонів. Програма зачитує текст із наведенням на нього камери, дає звукові підказки, вміє розпізнавати як друкований, так і рукописний текст, допомагає дізнаватися друзів і членів сім'ї, може описати людей, що знаходяться поруч, ідентифікувати валюту і багато іншого.
Aira, успішний каліфорнійський стартап, розробив AR-окуляри для людей зі слабким зором. Для служби підтримки був створений віртуальний агент на базі штучного інтелекту - Chloe. Компанія використовує лінійку графічних процесорів NVIDIA RTX 2080 Ti для навчання глибоких нейронних мереж. А ще Aira використовує надзвичайно якісно анотований датасета для обробки зображень і природної мови.
Розпізнавання і точний опис даних необхідно для додатків, пов'язаних із системами безпеки:
Камери відеоспостереження сьогодні є скрізь, але якщо вони на додаток до функції огляду зможуть генерувати релевантні підписи до зображень, це допоможе нам бити тривогу відразу ж, як тільки камера зафіксує будь-яку підозрілу активність. Алгоритми на базі AI допомагають автоматично створювати мітки для будь-яких видів зображень, одержуваних із камер безпеки, щоб навчити ваші системи реагувати на будь-які потенційно небезпечні ситуації. Можливо, таким чином вдасться знизити рівень злочинності та кількість нещасних випадків.
Ми вибрали декілька рішень із відкритим вихідним кодом, що можуть замінити опис картинок вручну і генерують досить точні текстові підписи. Їх можна також взяти за основу при розробці індивідуального рішення для ваших конкретних бізнес-завдань.
Ця система для опису фото на базі нейромереж використовує зображення на вході, а на виході створює текстовий опис візуального змісту картинки. Модель складається з сверточное нейронної мережі (CNN) для вилучення візуальних характеристик, і рекуррентной нейронної мережі (RNN) для перетворення цих даних у текст. І CNN, і RNN-частини можна додатково навчати з використанням бібліотеки TensorFlow.
Джерело: https://github.com/
Caption_generator — модульна бібліотека, побудована поверх Keras/TensorFlow для генерації підписів природною мовою (англійською) для будь-якого вхідного зображення. Вона складається з трьох моделей: CNN-енкодера, моделі векторного представлення слова (word embedding) і RNN-декодера. Система може створювати досить детальні і точні підписи до зображень.
Як можна здогадатися з назви, це рішення було розроблено для розпізнавання різних моделей автомобілів за допомогою глибокого навчання (Deep Learning). Використовується база зображень Cars Dataset (Стенфорд), що містить більше 16K зображень 196 класів автомобілів. Крім того, ви можете використовувати попередньо навчену модель у якості демо для створення анотацій до вашої власної колекції зображень.
Це система розпізнавання логотипів брендів на базі TensorFlow Object Detection API. Ви можете створити власний алгоритм визначення логотипів, використовуючи одну з попередньо навчених моделей, що входять у збірку. Назва ідентифікованого логотипу бренду з'являється текстом на зображенні, але можна витягти ці дані у вигляді текстових підписів.
Джерело: https://github.com/
Ще одна нейронна мережа для генерації підписів до зображень із використанням CNN, RNN і променевого пошуку. Алгоритм променевого пошуку максимізує ймовірність підбору найбільш відповідного текстового опису окремо взятого зображення.
Джерело: https://github.com/
Ще одна платформа, CloudCV, пропонує цікавий сервіс відповіді на візуальні питання (VQA, Visual Question Answering). Отримавши питання природною мовоюі і зображення, система VQA намагається знайти на нього правильну відповідь, використовуючи алгоритми глибокого навчання. Для правильного спрацьовування програми потрібно розуміння мови, розпізнавання образів і загальні знання. Датасет VQA містить більш 265K зображень (COCO й абстрактні образи), більш 614K питань у вільній формі природною мовою (приблизно 3 питання на зображення) і понад 6 мільйонів лаконічних відповідей у вільній формі (10 відповідей на зображення).
Джерело: https://vqa.cloudcv.org/
На ринку існує ряд цікавих рішень, що автоматично створюють підписи до зображень для e-commerce (наприклад, для категоризації онлайн-каталогів), для швидкого, зручного пошуку й обробки медіафайлів і будуть корисними для різних проектів із розпізнавання об'єктів. Ось наша добірка.
Цей API для автоматичного підбору тегів для зображень на основі АІ дозволяє привласнювати відповідні ключові слова і текст зображенням і відео. Програма використовує алгоритми глибокого вивчення для щопіксельного аналізу вмісту зображень, вилучення візуальних характеристик і виявлення об'єктів. Вона може точно розпізнавати вміст, сюжет і загальний зміст картинки.
Інструмент, розроблений для розпізнавання зображень у fashion-сфері, що дозволяє автоматично додавати в каталоги якісні і точні описи продуктів. Система пропонує більш 300 тегів на основі вибірки зображень із понад 60 категорій (одяг, мода, ювелірні вироби тощо.). Інші АІ-рішення від Wide Eyes включають пошук за зображеннями, рекомендації схожих товарів і персоналізованого порадника-стиліста.
Вбудований алгоритм штучного інтелекту автоматично сканує і підписує зображення, використовуючи ключові слова, вже зберігаються у системі. Ці автоматично присвоєні ключові слова доступні для внутрішнього пошуку в Skyfish, так що знайти зображення повторно дуже легко. Однак, автоматичні теги зберігаються тільки всередині платформи. Після експорту фотографій за межі Skyfish усе згенеровані підписи видаляються.
Це потужна платформа, призначена для автоматизації аналізу зображень і відео за допомогою машинного навчання. Amazon Rekognition Custom Labels дозволяє ідентифікувати на зображеннях ключові для бізнесу об'єкти, а також отримувати від них цінну інформацію: знаходити фірмовий логотип у соціальних мережах, визначати продукцію на полицях магазинів, класифікувати деталі обладнання на складальній лінії і багато іншого. Платформа також підтримує розпізнавання й аналіз осіб, розпізнавання тексту на зображеннях і відео, розпізнавання знаменитостей, відстеження переміщень тощо.
Facebook використовує технологію розпізнавання об'єктів для автоматичного створення альтернативного (alt) тексту для опису фотографії для людей зі слабким зором. Якщо зображення розпізнано, користувач може почути перелік об'єктів на фото, опис, залишений людиною, завантажити картинку, кількість лайків чи коментарів. Крім того, цей альтернативний текст можна редагувати для створення більш точних описів - корисна функція для контент-менеджерів.
Ми в Evergreen надаємо перевагу використанню TensorFlow - фреймворку для машинного навчання з відкритим вихідним кодом - для навчання нейронних мереж при створенні рішень з елементами штучного інтелекту. Досвід фахівців Evergreen дозволяє нам впроваджувати алгоритми розпізнавання об'єктів і візуальний пошук у проектах клієнтів. Хочете дізнатися більше про практичне застосування таких рішень? Звертайтеся до нас - завжди раді допомогти.
Автоматичний опис фото за допомогою нейромереж дозволяє сортувати та класифікувати зображення набагато швидше і простіше: система буквально "читає" візуальний вміст і "пояснює" сенс картинки у вигляді тексту. Таким чином сенс зображення стає доступним для пошукових систем - перевага, що корисна на практиці. А також це допоможе людям, які використовують скрінрідери.
Ми в Evergreen уже давно працюємо з АІ-технологіями і створюємо проекти в області розпізнавання облич і об'єктів у різних сегментах бізнесу. Для клієнтів ми можемо створити персоналізований продукт або сервіс: використовувати open-source рішення і створити MVP у короткі терміни й економічно вигідно. Наша команда підтримує проект на кожному етапі розвитку в міру зростання і масштабування.
Плануєте розробити кастомний інструмент для автоматичного розпізнавання та анотування зображень для вашого онлайн-магазину? Або вам потрібно комплексне рішення для бізнесу з використанням штучного інтелекту? Напишіть нам або заповніть форму. Давайте створювати інноваційний продукт для вашої компанії разом - вже сьогодні!