Класичне машинне навчання, або Classical Machine Learning, будується на класичних статистичних алгоритмах і вирішує питання, пов'язані з прийняттям рішень на основі даних.
Його активно застосовують як в офлайн, так і в онлайн-маркетингу для прогнозування поведінки користувача і рекомендацій за інтересами. Наприклад, ви гуглили «купити сонцезахисні окуляри». І відразу ж після цього в усіх соціальних мережах вам приходить реклама таких же моделей окулярів. Або ви шукали житло для покупки за вашими суб'єктивними критеріями, а потім бачите рекламу від забудовників на будь-якому ресурсі, куди б не зайшли. Навчена система сама підбирає для вас варіанти, які можуть вас зацікавити. Це – яскраві приклади результатів класичного машинного навчання.
У класичному машинному навчанні з учителем програміст, який навчає систему, розмічає дані, приводить машині певні приклади та спостерігає за її прогресом. Завданнями, які вирішуються за допомогою навчання з учителем є, наприклад, класифікація і регресія. Машинне навчання без учителя включає в себе наступні типи: кластеризація, узагальнення, пошук правил. Ці алгоритми часто застосовуються в Data Mining і їх можна розглядати як частину Data Science.
Розглянемо деякі з них.
Класифікація – найбільш популярна задача машинного навчання. Вона в чомусь схожа з тим, як дитина вчиться визначати форму і розмір предметів, складаючи їх у роздільні купки.
Завдання класифікації: передбачення категорії об'єкта і поділ об'єктів згідно з визначеними і заданими наперед ознаками. Тобто, машина сортує дані за потрібними категоріями: одяг – за кольорами, сезонами або тканинами, книги – за жанрами, авторам, мовою написання, соуси – за ступенем гостроти, листи – за особистою чи корпоративною спрямованістю, спам-складовою і т.д.
У бізнесі класифікувати можна, наприклад, клієнтів: за кількістю покупок, частотою заходів на сайт, купівельними звичками. За такою системою працюють, наприклад, листи від мережі супермаркетів: кожному учаснику програми лояльності приходять пропозиції зі знижками на товари, які вони найчастіше купують. Також подібною системою можуть користуватися банки, яким потрібно на підставі загального портрета претендента на кредит визначити ймовірність, що кредит буде повернений.
Додатковий продукт класифікації за заданими параметрами – можливість виділити все, що не вписується в стандартні класи. Наприклад, якщо мова про медицину, виділеним фрагментом може бути будь-яке відхилення від норми: потовщення, розрив, новоутворення, завищені чи занижені показники аналізів. Якщо мова про фінансові ринки, нестандартні показники можуть видати інсайдерських гравців.
Регресія – це коли за заданим набором ознак необхідно спрогнозувати якусь цільову змінну.
Завдання регресії: передбачення місця на числовій прямій. Наприклад, завантаженість доріг залежно від часу доби і час на дорогу з пункту А в пункт Б залежно від заторів. Або яким буде обсяг ринку певних товарів через 2 роки. І навіть швидкість розвитку певної хвороби при загальних показниках здоров'я людини.
Оскільки регресія запрограмована на роботу з числами, її вбудовують у різні обчислювальні системи, навіть у класичний Excel.
Цікавий факт: систему класифікації можна «довчити» і навчити вирішувати завдання регресії. На практиці це виглядає як розуміння не тільки класу об'єкта, але і його близькості до того чи іншого показника. Наприклад, яблуко свіже чи зіпсоване. А якщо ближче до зіпсованого, то на скільки відсотків.
Кластерний аналіз (Data clustering) – задача розбиття заданої вибірки даних (об'єктів) таким чином, щоб кожен кластер складався зі схожих об'єктів, а об'єкти різних кластерів значно відрізнялися одне від одного.
Завдання кластеризації – використовуючи всі наявні дані, передбачити відповідність об'єктів вибірки їхнім класам, сформувавши таким чином кластери.
Кластеризації застосовують для аналізу та пошуку ознак, за якими можна об'єднати об'єкти, стиснення даних і пошуку новизни (що не входить у жоден із кластерів)
У чому відмінність класифікації та кластеризації: при класифікації у вас є набір визначених класів, ви вчите машину на конкретних прикладах і потім хочете знати, до якого класу належить новий об'єкт. При кластеризації ви використовуєте алгоритм, який намагається згрупувати набір об'єктів і визначити, чи існує будь-який взаємозв'язок між об'єктами, машина вчиться сама.
Пошук асоціативних правил – метод, який активно використовується в маркетингу для вивчення поведінки покупця і складання типового шаблону покупок.
Завдання пошуку асоціативних правил: знаходити закономірності в потоці даних. Наприклад, для аналізу патернів поведінки користувачів на веб-сайтах або для правильної розстановки товарів на полицях магазину. Адже недарма жуйки та батарейки розташовані в прикасовій зоні, а солодощі знаходяться недалеко від чаю/кави.
Класичне навчання використовується для якісного пошуку контенту, ефективних крос-продажів, аналізу наявної інформації про клієнтів, прискорення й автоматизації бізнес-процесів і багатьох інших цілей.
Докладний огляд машинного навчання можна прочитати в нашій статті: "Штучний інтелект, машинне навчання та нейронні мережі – у чому різниця і для чого їх використовують". Також ми підготували огляд наступного типу машинного навчання "Навчання з підкріпленням".