Використовуємо штучний інтелект для поліпшення якості відео

Серед користувачів соцмереж відео має набагато більший успіх, ніж картинки або текст. Із розвитком швидкості та якості підключення до інтернету зростає популярність онлайн-контенту та потокових відеосервісів: YouTube, Netflix, Hulu, HBO Go, Amazon Prime. Тому бренди й окремі медіаперсони, підхопивши цю тенденцію, почали активно випускати візуальний контент у високій якості, щоб відповідати вимогам аудиторії.

Для медіасфери важливо те, що зображення або відео у форматі Ultra HD можна редагувати без втрати якості картинки. До речі, про технології поліпшення зображень ми вже писали у попередній статті. Але як щодо старих фільмів з низькою роздільною здатністю, рекламних роликів, домашнього відео? Чи можна покращити їхню якість для комфортного перегляду на сучасних екранах? Давайте це з'ясуємо.

Як покращити якість відео шляхом зміни роздільності

Для початку перерахуємо найпоширеніші типи роздільності і терміни. Роздільність зазвичай вказують у форматі ширина х висота екрану в пікселях:

1920 x 1080: Full HD (High Definition)
2048 x 1080: 2K (Digital Cinema)
3840 x 2160: 4K (UHD - Ultra High Definition)
4096 x 2160: 4K (Digital Cinema)
7680 x 4320: 8K (UHD)
15360 x 8640: 16K (UHD)

На сьогодні загальноприйнятий стандарт роздільності — 4K, і ми рухаємося у бік 8K екранів. Youtube почав підтримувати 4K для завантаження відео ще в 2010 році — тоді багато виробників почали випускати недорогі камери цього формату. Відтоді дисплеї і смарт-телевізори з підтримкою 4K значно впали в ціні та набули популярності. Незважаючи на те, що людське око навряд чи фізично може помітити різницю в зображенні з якістю понад 4K, гонка за вищою роздільною здатністю триває.

Найбільш повно відчути можливості своїх екранів власники Ultra HD дисплеїв можуть при перегляді нативного 4K контенту. А відео нижчої роздільності доводиться розтягувати на цілий екран адже, наприклад, зображення у 1080p (Full HD) містить лише чверть пікселів від картинки в 4K. Масштабувати зображення можна відразу на смарт-телевізорі, за допомогою медіаплеєра або використовувати спеціальні програми для поліпшення якості відео.

Що вміє програма для покращення якості відео?

В двох словах, покращення відео (Video Enhancement) — це процес підвищення якості відеозапису. Професійні відеоредактори зазвичай підтримують наступні функції:

- масштабування (апскейл);
- поліпшення освітлення;
- стабілізація;
- подавлення шуму;
- регулювання яскравості;
- обрізка (кроп), поворот відео, дзеркальне відображення;
- фільтри;
- ефекти й анімація.

Редагування відео з метою покращення якості може подарувати вашим старим записам друге життя.

Збільшення відео (апскейлінг) — це процес перетворення медіа з нижчої у вищу роздільність. Базове масштабування — це спосіб «розтягнути» зображення нижчої роздільності на більший екран, що зазвичай супроводжується погіршенням якості і втратою деталей. Щоб збільшити HD-зображення на 4K екран, доведеться заповнити додаткові 6 мільйонів пікселів. Тому програма для апскейлу повинна визначити, що відображатиме кожен із цих нових пікселів на основі того, що показують сусідні (інтерполяція).

Інструменти для покращення якості відео

Покращуємо відео за допомогою AI: cуперроздільність

Хоча різні алгоритми дають різну якість зображення, інтерполяція, як правило, покращує картинку у низькій роздільній здатності. Але спроба «домалювати» відсутні пікселі у більшості випадків впадає в око. У результаті зображення займе весь 4K екран, але може виглядати розмитим чи приглушеним, або матиме артефакти (шумові ореоли, квадратики). При збільшені роздільної здатності відео за допомогою штучного інтелекту використовується зовсім інший підхід.

Отримуючи картинку у низькій роздільній здатності, алгоритм глибинного навчання (зазвичай це генеративна нейронна мережа) передбачає зображення із вищою роздільністю, яке би після стиснення виглядало, як наш оригінал на вході. Щоб досягти такого рівня точності, нейронні мережі мають попередньо навчатись на мільйонах зображень. При обробці відео низької якості АІ-модель може «домалювати» втрачені пікселі, аналізуючи кожен кадр і підвищуючи якість експоненційно. Це дає неймовірну чіткість і детальність картинки, яку не зможе відтворити жоден традиційний апскейлер: від реалістичних деталей до більш чистого та плавного відтворення рухів.

Моделі AI постійно вдосконалюються, їхня точність зростає з кожним циклом навчання. Крім того, різні моделі глибинного навчання застосовуються для покращення різних типів відеоматеріалу. А ще нейронні мережі можна комбінувати: часом це дає вражаючі результати.

Так, штучний інтелект допоміг збільшити знамените «Прибуття поїзда на вокзал Ла-Сьота» (L'arrivée d'un train en gare de La Ciotat) до 4К. Це французький короткометражний чорно-білий документальний фільм 1896 року, знятий братами Люм'єр. Незважаючи на те, що вихідне зображення збільшили на 600%, алгоритм на основі AI (DAIN і Topaz Gigapixel AI) зміг видати чітке та чисте зображення без помітного зерна, артефактів і спотворень. Здається, що фільм сучасний — тільки чорно-білий.

Обробка відео нейромережею. Короткий огляд програм

На відміну від традиційних (без використання штучного інтелекту) інструментів підвищення якості відео, які є складнішими і часом вимагають професійних навичок редагування, алгоритми штучного інтелекту можуть автоматично покращити якість ваших відеоматеріалів. Наведемо декілька прикладів таких рішень.

DVDFab Enlarger AI — суперроздільність за допомогою нейронок

Цей сервіс для покращення відео використовує технологію суперроздільності на основі глибинного навчання і може підвищити якість відео з 480p (SD) до 1080p (Full HD), і з 1080p до 4K. AI-рушій на основі глибинного навчання (deep learning) вивчає й аналізує відео низької роздільності покадрово і може створювати і заповнювати ідентичні сусідні пікселі, збільшуючи кадр на 300%. У програмі також використовуються розумні алгоритми корекції кольору.

DVDFab Enlarger AI заснований на фреймворку TensorFlow. Для навчання нейромереж використовувались мільйони відео, фільмів і телепередач. Крім того, програма застосовує новітні технології GPU-прискорення CUDA і cuDNN на базі графічних карт NVIDIA.

PicaVue (GDFLab Video Upscaler) — відновлення відео і роздільність до 16K

GDFLab Video Upscaler — це хмарний сервіс для покращення якості відео. Розробники обіцяють апскейл відео та зображень до 16K шляхом одночасного збільшення роздільної здатності та якості:

270p ~ 360p до 720p або FHD;
540p до 4K UHD;
4K FHD до 16K.

Штучний інтелект використовується для усунення шумів і відновлення деталей, недостатньо чітких на оригінальному зображенні. Крім того, за допомогою GDFLab Video Upscaler можна відновити старі відео — з чистішою картинкою і в кращій роздільній якості. Програму можна використовувати для відео з камер спостереження, зйомок, соціальних мереж та в будь-яких сферах, пов'язаних із відеозаписом. Користувачі можуть завантажувати свої зображення та відео одночасно на всі основні платформи: YouTube, Facebook, LinkedIn, Twitch тощо.

Topaz Video Enhance AI — реалістичні деталі, згенеровані нейромережею

Ми згадували про цей відеоредактор, коли писали про відновлення документального фільму 1896 року до 4K. Topaz Video Enhance AI вважається однією з найкращих програм для поліпшення якості відео. Він може підвищити роздільність до 8K, при цьому зберігаючи реалістичність деталей і плавність рухів.

Video Enhance AI може збільшувати роздільність із DVD, DSLR, ігор і HD. Ви також можете покращити якість старого відео для нового використання, наприклад, рекламних роликів, музичних кліпів, фільмів або YouTube записів.

Topaz Video Enhance AI використовує глибинне навчання для екстраполяції деталей з відеоматеріалу. Працює на базі навчання нейромережі: вона аналізує тисячі пар відео, щоб встановити, яким чином при стисненні втрачаються деталі зображення. Нейромережа генерує відсутні деталі та створює реалістичну картинку на підставі інформації з окремого відео.

Замість висновків

Збільшення та покращення відео за допомогою AI створюють ефект, що його, мабуть, можна порівняти з відчуттями короткозорої людини, яка вперше одягла окуляри: виявляється, світ довкола сповнений деталей, дерева мають листя, а дорожні знаки, вивіски та номери автобусів можна прочитати без зусиль. Full HD і 4K — найпопулярніші формати роздільності для перегляду відео в інтернеті та на ТВ, проте верхню межу якості картинки ще не встановлено.

Команда Evergreen має багаторічний досвід використання TensorFlow — системи машинного навчання з відкритим вихідним кодом — для створення та впровадження проєктів на базі AI у багатьох сферах бізнесу.

Ми спеціалізуємося на розробці персоналізованих рішень для клієнтів і можемо побудувати MVP (мінімально життєздатний продукт) швидко й економічно ефективно, який у майбутньому можна розвивати та масштабувати до повноцінного продукту.

Якщо ви цікавитесь розробкою надійного рішення на основі сучасних технологій і AI-алгоритмів для вирішення ваших бізнес-задач, готові вам в цьому допомогти. Просто зателефонуйте нам або заповніть форму, і наші фахівці зв'яжуться з вами для консультації.

#Машинне навчання #Нейронні мережі #Розпізнавання образів #BPA, RPA, CRM

28.07.2020

Зображення, використані в статті, були взяті з відкритих джерел і використовуються як ілюстрації.

Як покращити якість відео за допомогою штучного інтелекту