Чернобровов АлексейАналитик

Большие данные и малый бизнес: деньги и BI-системы

В статье рассмотрены несколько типовых кейсов анализа больших данных для малого и среднего бизнеса, а также описаны особенности подготовки внутренних информационных активов и полученных извне датасетов к задачам маркетинговых исследований. Читайте далее о типовой последовательности построения BI-дэшбордов и способах безопасного сбора Big Data из открытых источников с помощью поисковых краулеров и не только.

Big Data в малом бизнесе

Считается, что технологии Big Data нужны только крупному бизнесу с высоким уровнем управленческой зрелости по модели CMMI, множеством сотрудников и клиентов, автоматизированными и оцифрованными процессами, а также развитой ИТ-инфраструктурой. На самом деле сегодня практически любой бизнес, включая нано-предприятие в единственном лице самозанятого блогера, работает с Big Data. Например, просто просматривая DAU, MAU и прочие метрики пользовательской активности в Google Analytics, вы имеете дело с целым рядом технологий и методов Big Data Science, которые скрыты за веб-фасадом понятных дэшбордов.

Однако, инструментарий Google Analytics, Яндекс.Метрики/Яндекс.Вебмастер и прочих сервисов веб-мониторинга сильно ограничен. По мере развития бизнеса, роста клиентских заявок и количества посетителей интернет-ресурса, возникает потребность в интеграции разных источников данных между собой. Рутинная консолидация локальных Excel-файлов, где хранятся данные о расходах на продвижение продуктов, с заявками, хранящимися в CRM-системе или просто приходящими по электронной почте, занимает много времени. Чтобы повысить эффективность каналов продвижения и увеличивать LTV (Life Time Value) каждого клиента, формируя для него персональное предложение на основе предыдущих покупок и вообще всей истории взаимодействия с ним, нужно свести все данные воедино. Простой ретаргетинг на основе браузерных cookie, о которых я писал здесь, не решает стратегической проблемы привлечения новых и, что более важно, удержания старых клиентов.

Именно поэтому BI-системы, пришедшие на массовый рынок около 30 лет назад, до сих пор очень популярны. Маркетинговая и продуктовая аналитика сегодня становится одним из главных драйверов внедрения BI-решений в малый и средний бизнес. Интеграция с облачными и локальными CRM, а также прочими прикладными системами и СУБД, импорт xls-таблиц и CSV-файлов, ML-алгоритмы, наглядная визуализация и типовые кейсы оптимизации бизнеса по проанализированным данным – это базовые возможности любого BI-решения. На текущий момент из бесплатных и дешевых систем, которыми активно пользуется малый и средний бизнес в России, самыми популярными считаются Qlick, Power BI, OWOX BI, Tableau, Google Data Studio. К более дорогому сегменту, чаще востребованному крупными компаниями, относятся продукты от корпораций Oracle, SAP, SAS, IBM. Почти все современные BI-инструменты ориентированы на работу с большими объемами данных разных форматов и структур, реализуют алгоритмы интеллектуального анализа с помощью самообслуживаемых ML-моделей и прочих средств расширенной аналитики.

Впрочем, независимо от бюджета, который предприятие готово выделить на BI, выбор наиболее подходящей системы и ее приобретение – лишь вершина айсберга. Чтобы обосновать покупку BI-системы или временные/трудовые затраты на внедрение бесплатного инструмента, необходимо понимать, какие потребности бизнеса закроет это решение. Сегодня больший объем данных, которые нужно анализировать, хранится не внутри предприятия в СУБД прикладных систем, облачных или локальных файлах, а находится вне компании. Например, отзывы клиентов на различных потребительских площадках и в соцсетях, оценки работы поставщиков и пр.

Таким образом, кейсы по сегментации потребителей и продуктовой аналитике – далеко не единственные варианты практического применения технологий Big Data в виде BI-систем для малых и средних предприятий. Еще одной важной задачей стратегического маркетинга, которую можно решить с помощью Data Science, является мониторинг конкурентов, необходимый, чтобы выявить случаи недобросовестного копирования ваших продуктов/услуг или вовремя обнаружить на рынке новые тренды. Получить исходные («сырые») данные о конкурентах или клиентах для последующего анализа в BI можно, воспользовавшись готовыми DaaS-сервисами (Data as a Service) или самостоятельно собрав информацию с помощью поисковых краулеров. Как это работает, мы рассмотрим далее.

 

Как собрать Big Data: DaaS-платформы и поисковые краулеры

Когда бизнес определился с кейсами интеллектуального анализа данных о своих клиентах, продуктах и конкурентах с помощью технологий Big Data и Data Science, следует собрать эти самые большие данные. Обычно внутреннюю информацию из корпоративных СУБД, локальных файлов и облачных систем обогащают внешними данными. Причем речь идет не только о добавлении событий пользовательского поведения из Google Analytics, Яндекс.Метрики/Яндекс.Вебмастер и прочих мониторинговых сервисов. Обогатить имеющиеся данные можно информацией из открытых источников, таких как сайты открытых государственных данных с обезличенной статистической информацией по всей стране или отдельным регионам. Например, портал открытых данных России, портал ЕМИСС (Единой межведомственной информационно-статистической системы), сайт Федеральной службы государственной статистики, наборы датасетов на официальных сайтах субъектов РФ и т.д. Еще можно воспользоваться API-интерфейсами сервисов Google и Яндекса, а также отчетами бесплатных и коммерческих инструментов для веб-аудита и SEO-продвижения: WincherMegaIndexSimilarweb и т.д.

Для автоматического сбора информации с сайтов конкурентов или ресурсов с данными о потенциальных клиентах, которые не предоставляют готовые датасеты или открытые API для скачивания данных, понадобятся технологии веб-скрейпинга (scrapping). В этом случае поисковой робот (краулер, crawler) заходит на нужный вам сайт и скачивает контент. Обычно провайдеры или владельцы сайтов пресекают это, выявляя роботов-скрейперов и блокируя их IP-адреса с помощью антибот-систем. Ответным решением являются резидентные прокси - IP-адреса, которые интернет-провайдеры выдают жителям частных домов и квартир. Скрейпинговые запросы с резидентные прокси неотличимы от тех, что отправлены реальными пользователями. Подобный механизм анонимных ротируемых IP-адресов предоставляют Infatica, Awmproxy, VJProxy, ProxyGeek, Squidproxies и прочие сервисы прокси-серверов.

После скачивания контента с нужного сайта, его придется разобрать, используя технологии парсинга - анализа содержимого веб-страниц с помощью роботов-парсеров (специальных программ или скриптов). Существует множество готовых библиотек парсинга для разных языков программирования: например, Simple HTML DOM, phpQuery и htmlSQL для PHP или lxml, BeautifulSoup и html5lib для Python. Также можно написать свой собственный веб-парсер на любом языке программирования для автоматического сбора данных (тексты, изображения и пр.) с внешних ресурсов, например, по ключевым словам или другим критериям.

Если нет желания самостоятельно разбираться со скачанными датасетами, выделяя из них нужную информацию, на помощь придут DaaS-платформы (Data as a Service), которые предоставляют пользователям уже структурированные и очищенные данные или даже готовые результаты их анализа. Обычно бизнес DaaS-провайдеров организован по подписной модели, когда клиент платит за пользование услугами в течение определенного периода времени. Стоимость зависит от объема потребленных данных, когда плата взимается за каждый API-вызов клиента к DaaS-платформе, или от типов данных, структурированных по географическим, финансовым или историческим сегментам.

Сегодня наиболее популярными на DaaS-рынке считаются Oracle DaaS, Azure Open Datasets, SAP NAHA Cloud, Informatica DaaS, Qlick DataMarket, Talend Data Cloud, продукты компаний ClimaCell, Dynata, Location Inc., GuideStar, Spectrum и ISG. Также к категории Data as a Service можно отнести биржи данных (Data Exchange) и облачные DMP-платформы (Data Management Platform): Aidata.me, tBh, Amberdata, Adriver, Facetz, Pluso, Usefuldata, BlueKai, eXelate, eyeota, Brilig, Lotame, nugg.ad, Weborama Adatus. Подробнее об этом я писал здесь и здесь.

 

Как внедрить большие данные в малый и средний бизнес: пошаговый алгоритм на примере BI-проекта

Сбор данных извне для обогащение корпоративных датасетов – это лишь начало работы по применению технологий Big Data и Data Science для решения конкретных бизнес-задачи. Сбор и анализ больших данных является непрерывным и, подобно управленческому циклу Деминга-Шухарта (PDCA, Plan-Do-Check-Act), соответствует популярному сегодня HADI-подходу (Hypothesis-Action-Data-Insights). Методы интеллектуального анализа данных и прогнозные ML-алгоритмы позволяют сформировать гипотезы, быстро протестировать их, сделать объективные выводы по полученным результатам и получить важные для бизнеса инсайты. Начальной точкой является именно генерация гипотез – идей, как именно средства Big Data Science помогут бизнесу стать лучше. Это означает, что сперва нужно определить, что вы хотите: найти новых покупателей или повысить продажи существующим клиентам, увеличить ROI инвестиций, сократить расходы или обойти конкурентов. А данные и технологии их обработки вообще и BI-системы в частности – всего лишь инструменты достижения этой цели.

Таким образом, типовую последовательность действий в проекте внедрения BI и построению аналитических дэшбордов по большим данным можно представить так:

  1. составьте список всех бизнес-кейсов по анализу больших данных, применимых именно к вашей компании. Например, проанализировать ассортимент услуг всех ивент-агенств в столичном регионе, чтобы сформировать уникальное предложение для разных категорий клиентов. Детально сегментировать целевую аудиторию. Персонализировать предлагаемые услуги на основе истории предыдущих контактов с покупателем. Сформировать единую картину всех показателей управленческого учета с агрегацией и детализацией по различным статьям и признакам.
  2. определите источники, в которых могут находиться данные, необходимые для ваших кейсов. К примеру, пользовательское поведение на сайте берется из Google Analytics, клиентские заявки ведутся в корпоративной CRM-системе, а сведения об оказанных услугах хранятся в Excel-таблицах. Оценить потенциальную емкость рынка и платежеспособность целевой аудитории помогут данные Росстата. Здесь же стоит уточнить форматы данных, чтобы будущее BI-решение поддерживало их по умолчанию. Также следует продумать способы сбора информации из внешних источников, что рассматривалось в предыдущем пункте этой статьи.
  3. сформулируйте требования к BI-системе и приоритизируйте их, отранжировав их по степени важности с помощью модели MoSCoW (Must be – Should be – Could be – Would Be) или другого подходящего в вашем случае метода приориритизации. Например, вам и нескольким вашим сотрудникам необходимо просматривать текущие KPI на BI-дэшбордах в любое время суток и не только из офиса – это требование к доступности данных имеет высший приоритет.
  4. определите общий бюджет на проект, с учетом допустимой стоимости BI-системы и затрат на внедрение, включая работы по предварительному сбору и подготовке данных к анализу. Сюда же стоит заложить усилия на организацию сбора данных, которые ранее нигде не сохранялись и никак не отслеживались.
  5. оцените несколько альтернативных решений, сравнив их между собой по критериям, которые вы ранее определили в качестве требований с самым высоким приоритетом. Дополнительным критерием оценки является стоимость приобретения или использования BI-системы (в случае SaaS).
  6. составьте подробный план работ по внедрению выбранной системы, включив сюда этапы сбора и консолидации данных, определение процессов их экспорта в BI, разработку наглядных дэшбордов и процедур реагирования на результаты интеллектуального анализа. Например, если клиент, еженедельно потреблявший вашу продукцию, не совершает новых покупок в течение месяца, следует направить ему СМС-напоминание про обновленный ассортимент и скидки на его любимые категории товаров. Это типовой кейс возврата уходящих клиентов, основанный на детальных данных о продажах. Вам следует четко определить, кто из ваших сотрудников реагирует на какие показатели BI-дэшбордов и как. Обычно на разработку таких подробных инструкций уходит много времени, которое затем быстро окупается и повышает ROI любых BI-проектов.

 

В качестве заключения перефразирую известную поговорку: «У вас нет больших данных? Вы просто их не видите». Подчеркну, что сегодня практически любой бизнес оперирует с огромными объемами информации и может выжать из них еще больше полезных инсайтов с помощью вполне доступных инструментов Big Data и Data Science. Самое главное – разглядеть впечатляющие бизнес-возможности за скучными цифрами и найти идеи их практического использования. А выбор конкретной системы – это уже детали реализации и дело техники.

Контакты