Разработка CJM на основе задачи анализа текста

Customer Journey Map (CJM) – наглядный и эффективный инструмент разработки маркетинговых стратегий и анализа потребительского поведения. Быстро построить CJM можно вручную в виде простой Excel-таблицы, без использования сложных техник и дорогостоящих инструментов, как я рассказывал на примере Pult.ru. Однако, результаты такого подхода недостаточно наглядны и затруднительны для автоматизации. В частности, этот простой метод невозможно масштабировать: придется заново проделать всю работу по сегментации потребителей в случае выхода в новые регионы или введении новых товаров и услуг. В этой статье мы рассмотрим более техничный способ построения CJM, основанный на автоматизированном анализе поведения пользователей сайта с помощью задачи текстовой кластеризации.

Постановка задачи

В качестве анализируемого текста необходимо собрать лог-файлы пользовательских визитов, которые описывают совершенные клиентом действия: переход на страницу, просмотр продукта, добавление товара в корзину и т.д. Кодируя каждое действие буквой, мы получим слова, которые далее будем кластеризовать и классифицировать (рис. 1).

Рис. 1. Кодирование действий пользователя

Сначала необходимо определить правила кодирования, т.е. составить алфавит, например:

А – поиск;
B – просмотр карточки товара;
С – добавление в корзину;
D – оформление заказа;
Z – целевое действие;
F – просмотр категории;
G – переход на другую страницу;
H – удаление товара из корзины;
Y – отмена действия;
X – уход с сайта.

Затем, согласно этому алфавиту, превращаем последовательность пользовательских действий из лог-файлов в слова, к примеру: ABCDE, FGCHBGHX и т.д. После этого следует кластеризовать слова, т.е. сгруппировать пользователей с похожим поведением. Таким образом мы сегментируем потребителей по модели их поведения. Далее следует классифицировать сегменты по вершинам CJM, которая представляет собой направленный граф, где вершины обозначают контакты с потребителем, а ребра – вероятности перехода к следующему взаимодействию (рис. 2).

Сложности реализации

Несмотря на кажущуюся простоту, на практике данный подход оказывается достаточно трудоемким.

Во-первых, необходимы знания математики и вычислительных методов, которые относятся к Data Science: анализ, кластеризация и классификация текстовой информации. При этом Data Scientist, наверняка, не разбирается в самом продукте, поэтому при составлении алфавита потребуется тесное взаимодействие с бизнесом. Разработка алфавита займет очень много времени в случае большого количества товаров/услуг. Каждый товар – это отдельная буква алфавита. Но, если на сайте несколько тысяч товаров, работать с таким объемом очень сложно. Поэтому понадобится заранее кластеризовать и каким-то образом сокращать набор используемых букв.

Во-вторых, поскольку CJM – это лишь средство маркетинга, следует четко определить, как именно оно поможет улучшить бизнес, в частности, повысить конверсию. Таким образом, с прикладной точки зрения задача сводится к поиску оптимальной последовательности действий пользователя, которая увеличит общую прибыль компании. Для этого в анализируемых словах (логах) пользовательского поведения следует найти букву, которую следует изменить на другую. Потребуются правила замены и удаления букв, которые можно реализовать с помощью маркетинговых или технических приемов, например, показывать аналогичные товары, открывать карточку нового товара в новом окне и т.д. Это также займет много усилий, как со стороны бизнеса – разработка правил, так и с технической стороны – Data Scientist должен решать задачи кодирования, разрабатывая алгоритмы обнаружения и исправления ошибок [1], вычисляя расстояние Хэмминга [2] для оценки различий в исследуемых словах.

Наконец, необходимо очень точно и аккуратно выбрать метрику оценки вводимых правил, поскольку при изменении алфавита один показатель может расти за счет другого, например, значительно увеличилась конверсия, но при этом сильно возрос уровень отказов.

Простой пример

Допустим, целевое действие - Z, а X – уход с сайта или из приложения. Имеются следующие логи:

AAAX
ACDX
AAX
ADRZ
DRPRZ
AFGZ
DFRFADZ
AEERZ
AERPX
AGRPX

Наша задача – изменить приложение таким образом, чтобы в логах стала чаще встречаться буква Z. Из набора выше видно, что везде, где за R встречается P, вероятность конверсии существенно уменьшается.

Дальше можно быстро посчитать, что будет, если, например, убрать букву P. Разумеется, когда логов сотни тысяч, происходит направленный перебор по модификаторам слов с минимальным расстоянием над ним. Например, можно использовать расстояние Дамерау — Левенштейна [3]. Таким образом, можно направлено и сравнительно быстро находить модификаторы слов, а, следовательно, менять архитектуру приложения. Модификаторы легко интерпретировать:

удалить букву – убрать ссылку (или опцию в приложении);
добавить букву – выделить ссылку (улучшить навигацию);
поменять буквы местами – адаптировать путь пользователя (пересмотреть меню, навигацию);
заменить букву – аналогично.

Практическое внедрение

Вышеописанный подход к построению CJM на основе задачи анализа текстов был реализован для одного крупного российского Банка, отделения которого распределены по всей стране. Основной целью являлось увеличение открываемых вкладов через сайт и мобильное приложение Банка. Для этого был проведен подробный аудит веб-сайта и мобильного приложения, чтобы выявить их основные проблемы с точки зрения маркетинга и предложить оптимальные настройки, структуру и контент на основе анализа поведения пользователей. При этом выполнены следующие задачи:

анализ распределения трафика: лидеры по отказам, посещаемости, вовлеченности;
анализ поведения пользователей;
поисковая аналитика;
выявление аномалий;
анализ меню сайта и мобильного приложения;
создание карты сайта на основе аналитики;
разработка новой структуры сайта и мобильного приложения.

Весь проект длился 6 месяцев, 3 из которых ушли на подбор алфавита и создание правил оптимизации слов в задаче анализа пользовательского поведения на основе лог-файлов. В результате нескольких итераций нам, наконец, удалось подобрать рабочий алфавит, и мы приступили к кластеризации и классификации текстов.

Разработанный алгоритм показал, что количество продуктов на экране с предложением вкладов обратно пропорционально конверсии: клиент просматривает много страниц, но выбирает лишь 1 вклад или не выбирает вообще ничего. У пользователей, которые просмотрели лишь первое предложение, конверсия была существенно выше. Таким образом, в рамках нашего алфавита, было принято решение оставить видимым только 1 вклад.

В результате этого простого действия конверсия во вклады через мобильное приложение выросла на 23%. Однако, другие решения, найденные разработанным алгоритмом, оказались практически нереализуемы. Таким образом, большая часть проделанной работы по созданию объемного алфавита никак не используется, по крайней мере, пока. Тем не менее, инвестиции в разработку и внедрение этого алгоритма окупились.

Заключение

Построение CJM с помощью исследования пользовательских логов через задачу анализа текстов – это вполне жизнеспособный способ описать взаимодействие клиента с сайтом и выработать пути его оптимизации. Этот метод можно использовать, если цели клиента известны точно и есть возможность отследить всю траекторию его движения по сайту или мобильному приложению. Достоинством этого метода является его объективность – независимость от экспертного мнения, в отличии от ручной разработки CJM, описанной в моей предыдущей статье. Однако, результаты применения данного подхода сильно зависят от подобранного алфавита, на разработку которого тратится очень много времени и сил. Как избежать этих недостатков, строя CJM с помощью экспертов и моделей машинного обучения, я расскажу в следующем материале.

Источники