Классическое машинное обучение, или Classical Machine Learning, строится на классических статистических алгоритмах и решает вопросы, связанные с принятием решений на основе данных.
Его активно применяют как в офлайн, так и в онлайн-маркетинге для прогнозирования поведения пользователя и рекомендаций по интересам. Например, вы гуглили «купить солнцезащитные очки». И сразу же после этого во всех соцсетях вам приходит реклама таких же моделей очков. Или вы искали жилье для покупки по вашим субъективным критериям, а затем видите рекламу от застройщиков на любом ресурсе, куда бы ни зашли. Обученная система сама подбирает варианты, которые могут вас заинтересовать. Это – яркие примеры результатов классического машинного обучения.
В классическом машинном обучении с учителем программист, обучающий систему, размечает данные, приводит машине определенные примеры и наблюдает за её прогрессом. Задачами, которые решаются при помощи обучения с учителем являются, например, классификация и регрессия. Машинное обучение без учителя включает в себя следующие типы: кластеризация, обобщение, поиск правил. Эти алгоритмы часто применяются в Data Mining и их можно рассматривать как часть Data Science.
Рассмотрим некоторые из них.
Классификация – наиболее популярная задача машинного обучения. Она в чем-то схожа с тем, как ребенок учится определять форму и размер предметов, складывая их в раздельные кучки.
Задача классификации: предсказание категории объекта и разделение объектов согласно определенным и заданным заранее признакам. То есть машина сортирует данные по нужным категориям: одежду – по цветам, сезонам или ткани, книги – по жанрам, авторам, языкам написания, соусы – по степени остроты, письма – по личной или рабочей направленности, спам-составляющей и т.д.
В бизнесе классифицировать можно, например, клиентов: по количеству покупок, частоте заходов на сайт, покупательских привычках. По такой системе работают, например, письма от сети супермаркетов: каждому участнику программы лояльности приходят предложения со скидками на товары, которые они чаще всего покупают. Также подобной системой могут пользоваться банки, которым нужно на основании общего портрета соискателя кредита определить вероятность, что кредит будет возвращен.
Дополнительный продукт классификации по заданным параметрам – возможность выделить всё, что не вписывается в стандартные классы. Например, если речь о медицине, выделенным фрагментом может быть любое отклонение от нормы: утолщение, разрыв, новообразование, завышенные или заниженные показатели анализов. Если речь о финансовых рынках, то нестандартные показатели могут выдать инсайдерских игроков.
Регрессия – это когда по заданному набору признаков необходимо спрогнозировать некую целевую переменную.
Задача регрессии: предсказание места на числовой прямой. Например, загруженность дорог в зависимости от времени суток и время на путь из пункта А в пункт Б в зависимости от пробок. Или каким будет объем рынка определенных товаров через 2 года. И даже скорость развития определенной болезни при общих показателях здоровья человека.
Поскольку регрессия запрограммирована на работу с числами, её встраивают в различные вычислительные системы, даже в классический Excel.
Интересный факт: систему классификации можно «доучить» и научить решать задачи регрессии. На практике это выглядит как понимание не только класса объекта, но и его близости к тому или иному показателю. Например, яблоко свежее или испорченное. А если ближе к испорченному, то на сколько процентов.
Кластерный анализ (Data clustering) — задача разбиения заданной выборки данных (объектов) так, чтобы каждый кластер состоял из схожих объектов, а объекты разных кластеров значительно отличались друг от друга.
Задача кластеризации: используя все имеющиеся данные, предсказать соответствие объектов выборки их классам, сформировав таким образом кластеры.
Кластеризацию применяют для анализа и поиска признаков по которым можно объединить объекты, сжатия данных и поиска новизны (что не входит ни в один кластер)
В чем отличие классификации и кластеризации: при классификации у вас есть набор предопределенных классов, вы учите машину на наборе примеров и потом хотите знать, к какому классу принадлежит новый объект. При кластеризации вы используете алгоритм, который пытается сгруппировать набор объектов и определить, существует ли какая-либо взаимосвязь между объектами, машина учится сама.
Поиск ассоциативных правил – метод, который активно используется в маркетинге для изучения поведения покупателя и составления типичного шаблона покупок.
Задача поиска ассоциативных правил: находить закономерности в потоке данных. Например, для анализа паттернов поведения пользователей на веб-сайтах или для правильной расстановки товаров на полках в магазине. Ведь не зря жвачки и батарейки расположены в прикассовой зоне, а сладости недалеко от чая/кофе.
Классическое обучение используется для качественного поиска контента, эффективных кросс-продаж, анализа имеющейся информации о клиентах, ускорения и автоматизации бизнес-процессов и многих других целей.
Подробный обзор машинного обучения можно прочесть в нашей статье: “Машинное обучение, искусственный интеллект, и нейросети - в чем разница, и для чего их используют”. Также мы подготовили обзор следующего типа машинного обучения “Обучение с подкреплением”.