Как ускорить и удешевить рекламные эксперименты, предсказав поведение пользователей интернет-магазина с помощью прокси-метрик

Конверсия, средний чек покупки и эффект от затрат на рекламу (ROI, return of investment) – пожалуй, наиболее важные показатели в онлайн-маркетинге, на которых строятся стратегии ведения бизнеса. Чтобы адекватно оценивать эти метрики, нужно иметь достаточно большую статистику по ним. Но собрать или накопить выборку, необходимую для принятия решения на основе данных, не всегда удается из-за сезонности отрасли, ограниченных сроков, недостатка средств или других внешних факторов. Ускорить получение результата поможет прогнозирование значений нужных показателей на основе косвенно связанных (коррелирующих) с ними известными факторов. Например, если пользователь просмотрел страницу товара и положил его в корзину, но не оформил заказ, то, скорей всего, продукт интересен потребителю. Поэтому, в среднем, ROI от персонализированной рекламы этого товара данному клиенту будет существенно выше, чем в случае незаинтересованного пользователя. Как предсказать значение маркетинговых показателей на основе анализа событий пользовательского поведения, рассмотрим в этой статье.

Постановка задачи

Чтобы сделать выводы о целесообразности предложения конкретного товара или услуги, нужна статистика продаж этого продукта. Обычно в интернет-магазине с широким ассортиментом конверсия колеблется в диапазоне 1-2%, поэтому для небольшого интернет-магазина (до 50 тысяч визитов) для достоверной оценки эксперимента на сбор статистики уйдет, как минимум, несколько месяцев. У бизнеса нет этого времени, т.к. продавать нужно уже сегодня. Поэтому требуется предсказать значение целевых показателей на основе уже имеющихся данных. Например, целесообразно ли вкладывать в ремаркетинг, возвращая посетителя на сайт с помощью контекстной рекламы просмотренных им товаров? Ответить на этот вопрос поможет ROI – чем больше возврат от вложенных в рекламу средств, тем более эффективна маркетинговая кампания.

Определив, как связана вероятность покупки товара конкретным пользователем от его действий на сайте (просмотры страниц, добавление в корзину и пр.), можно сделать выводы о целесообразности инвестиций в рекламу для данного клиента. Такие индикаторы, которые аппроксимируют целевую переменную, но имеют гораздо большее число наблюдений, называются прокси-метрики. Из множества данных о поведении пользователя необходимо отобрать те прокси-метрики, которые наиболее быстро и максимально точно позволят прогнозировать ROI от рекламных кампаний и ремаркетинга. Далее следует построить модель, которая по значениям прокси-метрик вычислит целевую переменную. Такие прогностические задачи отлично решаются с помощью машинного обучения (Machine Learning, ML).

Математика прокси-метрик

Итак, имеется обучающая выборка наблюдений x∈ X, причем известны отдельные значения целевой метрики F*: x→y. Требуется построить функцию F с обобщающей способностью, такую, что F:X→Y. Прокси-метрика G аппроксимирует целевую на меньшем числе наблюдений, т.е. при той же обучающей выборке x∈ X, G*: x → z. При этом T(z)→y для z∃T. Необходимо построить функцию G с обобщающей способностью, такую, что G:X→Z. При этом данные для нахождения прокси-метрик известны заранее или могут быть получены с меньшими затратами (по времени или ресурсоемкости), чем информация для прогнозирования целевой метрики напрямую, а не косвенно (через прокси), т.е. T(G):X→Y лучше (качественнее, дешевле и т.д.) чем F:X→Y.

Тривиальный случай T(z)=z. Например, «добавление товара в корзину» может быть прокси-метрикой к переменной к «заказу». Действительно, все, кто делают заказы на сайте, обязательно добавляют товар в корзину. И иногда такая прокси-метрика может давать хороший результат.

На практике сложность состоит в том, что далеко не всегда задача сводится к тривиальным прокси-метрикам. Часто необходим более сложный предиктор, состоящий из нескольких показателей, к примеру, наличие товара в корзине и число просмотренных страниц (рис. 1).

составная прокси-метрика — Рис. 1. Составная прокси-метрика (из нескольких предикторов)

При этом ML-модель не использует «готовые значения» прокси-метрики, а прогнозирует их.

Поиск прокси-метрик

ML-моделированию предшествует этап подготовки данных, который включает целых 5 операций: выборки, очистка, генерация признаков, интеграция и форматирование. Из этих процедур наиболее сложной, но и самой интересной, является генерация признаков. При этом решаются задачи извлечения, преобразования и отбора переменных, чтобы датасет содержал нормализованные числовые вектора только тех предикторов, которые действительно влияют на целевой показатель. Качество датасета определяет точность решения и скорость вычислений, поэтому подготовке данных следует уделить особое внимание.

Поиск релевантных прокси-метрик является типичной задачей генерации признаков, при выборе которых стоит руководствоваться следующими соображениями:

подходящий объем наблюдений для формирования обучающих и тестовых выборок;
простота сбора или вычисления данных;
прозрачность связи с целевой переменной, например, соответствие просмотренных товаров рекламному объявлению или поисковой фразе и т.д.

Далее подходящие прокси-метрики следует, при необходимости, преобразовать в числовую форму и нормализовать – привести к одному диапазону значений или вероятностного распределения. Это требуется для корректной работы ML-моделей: дисбаланс между значениями признаков может вызвать неустойчивость алгоритма, ухудшить результаты обучения и замедлить процесс моделирования.

Далее следует отсечь «лишние» признаки с помощью ML-алгоритмов, которые позволяют оценить важность признаков: жадный алгоритм, логистическая регрессия, случайный лес, градиентный бустинг и т.д. При этом стоит учитывать, как меняется качество целевой метрики. К примеру, прокси-метрика считается достаточно приемлемой, если:

уменьшение качества оценки целевой метрики «окупается» за счет скорости вычислений, т.е. требуется меньшее время на принятие решение;
качество целевой метрики возрастает.

Таким образом, поиск прокси-метрик сводится к следующему алгоритму:

Подбор множества кандидатов на прокси-метрику G: X → Z;
Отбор тех переменных, которые получается прогнозировать достаточно «хорошо», т.е. получить вектор z из прокси-метрик;
Уточнение функции T(z) → y, чтобы улучшить аппроксимацию. При этом следует использовать простой алгоритм (неглубокое решающее дерево или логистическая регрессия с регуляризацией), чтобы избежать переобучения модели.
Переобучение модели G: X → Z и T(z) → y.

Пример реализации

Имеется рекламная кампания интернет-магазина с ежедневным бюджетом X рублей. Чтобы проверить гипотезу о ее выгоде требуется N дней. При этом фактическая средний ежедневный доход по кампании R должна быть больше заданной r, т.е. R>r. Стоимость этого эксперимента равна разнице между полученной выручкой и понесенными затратами в течении N дней (R-X)N с учетом статистической ошибки p. Использование прокси-метрик позволяет ускорить получение результатов, т.е. провести эксперимент за меньшее количество n?N. Экономия при этом составит (R-X)(N-n), статистической ошибки p для прокси-метрики.

Итак, до внедрения ML-моделей, тестирование рекламных кампаний занимало N дней, а на получение статистически значимых результатов в среднем уходило в 7-8 раз больше. Решение об эффективности принималось на основе полученной выборки. Ремаркетинг был настроен на тех пользователей, которые добавили товар в корзину, но не заказали его.

Была построена прокси-метрика как решающее дерево над следующими прогнозными событиями:

добавление в корзину;
просмотр более N товаров;
нахождение на сайте более T минут;
просмотр страницы доставки;
просмотр товара с демпинг-ценой;
средняя цена просмотренных товаров больше p.

В результате прогнозирования время принятия решения сократилось почти в 2 раза, в среднем до N/2 дней, а средний убыток от неудачных тестов уменьшился примерно на 50% и составил (R-X)N/2. При этом ремаркетинг таргетировался на пользователей, подходящих под следующие условия:

добавили товара в корзину, но не оформили заказ;
общая сумма в корзине менее X рублей;
не совершали покупок в последние 3 месяца;
согласно прогнозу ML-модели, просмотрят страницу доставки.

В итоге ROI от ремаркетинга увеличился более чем в 2 раза.

Заключение

Итак, прокси-метрики – это отличные средства предиктивной аналитики, которые помогают решить проблему недостаточного объема обучающей выборки и ускорить получение результата. Однако, подбор релевантной и надежной прокси-метрики – это целое искусство, поскольку приходится решать все задачи генерации признаков для машинного обучения: от извлечения переменных до отсечения «лишних» предикторов. При этом следует всегда помнить про целесообразность применения ML: превышает ли потенциальная прибыль или экономия затраты на сбор и подготовку данных. Если прогнозирование прокси-метрик действительно выгодно, стоит использовать этот способ для выборок недостаточно большого объема. А когда данных накопится больше, их можно использовать для дополнительного обучения ML-моделей, объединив в ансамбль (стэкинг), чтобы повысить качество алгоритмов.

предсказание