Что такое машинное обучение?

Машинное обучение

Технологии машинного обучения делают скачок из академического мира и набирают силу в деловом мире. В настоящее время каждый может использовать их для использования своих данных и достижения конкурентных преимуществ, которые до недавнего времени были доступны только крупным компаниям и учреждениям.

Машинное обучение делится на две основные области: контролируемое обучение и неконтролируемое обучение. Хотя может показаться, что первое относится к прогнозированию с участием человека, а второе – нет, эти два понятия в большей степени связаны с тем, что мы хотим сделать с данными.

Одним из наиболее распространенных применений контролируемого обучения является создание будущих прогнозов на основе поведения или характеристик, которые были замечены в уже сохраненных данных (исторических данных). Контролируемое обучение позволяет искать шаблоны в исторических данных, связывая все поля со специальным полем, называемым «целевым полем». Например, электронные письма помечаются как «спам» пользователями. Процесс прогнозирования начинается с анализа характеристик или шаблонов сообщений электронной почты, которые уже отмечены тегами. Так, можно определить, что электронные письма для спама – это те, которые приходит с определенных IP-адресов, а также имеют определенный текст, изображения и т.д. Это будет только один из шаблонов.

С другой стороны, при обучении без участия человека используются исторические данные, которые не имеют целевого поля. Цель состоит в том, чтобы исследовать данные и найти какую-то структуру или организовать ее. Например, это часто используется для группировки клиентов с характеристиками или поведением, сходными с таковыми в сегментированных маркетинговых кампаниях.

Классификация и регрессия

Это концепции контролируемого машинного обучения. Система классификации предсказывает категорию, а регрессия – число.
Примером классификации является ранее упомянутый пример о спаме. Электронные письма классифицируются как «спам». Другим классическим примером классификации в мире машинного обучения является прогнозирование оттока, например, в телекоммуникационной компании. Целью в этом случае является выявление поведенческих моделей клиентов, которые будут использоваться для прогнозирования того, уйдут ли они к конкурентам.
С другой стороны, регрессия предсказывает число, например, какую цену будет иметь предмет или количество бронирований в отеле в мае.

Сбор данных

Нередко можно увидеть, как концепции интеллектуального анализа данных и машинного обучения используются безразлично. Это сильно связанные понятия. Основное различие заключается в цели каждой дисциплины. В то время как интеллектуальный анализ данных раскрывает ранее неизвестные шаблоны, машинное обучение используется для воспроизведения известных шаблонов и прогнозирования на основе шаблонов. Проще говоря, можно сказать, что интеллектуальный анализ данных имеет исследовательскую функцию, в то время как машинное обучение фокусируется на прогнозировании.

Обучение и тренировка

Именно процесс, в котором обнаруживаются шаблоны набора данных, является важным компонентом машинного обучения. Как только шаблоны определены, можно делать прогнозы с новыми данными, введенными в систему. Например, исторические данные о покупках книг на сайте в интернете можно использовать для анализа поведения клиентов в их процессах покупки. Их можно сгруппировать по поведенческим моделям и дать рекомендации по покупке для новых клиентов, которые следуют известным или выученным образцам.

Задача

Это признак или фактор, который мы хотим предсказать, цель предсказания, такая как вероятность повторного приема пациента после операции.

Характеристика

Это предыдущий процесс создания модели прогнозирования, в которой выполняется анализ, очистка и структурирование полей данных. Этот процесс является одним из наиболее важных и дорогостоящих процессов прогнозирования. Цель состоит в том, чтобы исключить поля, которые не помогают сделать прогноз, и организовать их должным образом, чтобы модель не получала бесполезную информацию, которая могла бы вызвать прогнозы низкого качества.

Модель

После обучения системы (то есть после обнаружения закономерностей в данных) создается модель для прогнозирования. Можно сопоставить модель с фильтром, в который вводятся новые данные и который выдает классификацию этих данных в соответствии с шаблонами, которые были обнаружены в процессе обучения.

Дерево решений

Это скелет модели прогнозирования, который обычно графически представляется в виде дерева, в котором ветви представляют собой признанные шаблоны в процессе обучения. Предсказания для каждого шаблона будут размещены на листьях ветвей. 

Поделиться ссылкой:

Оставить комментарий

avatar
2000