В прошедшие майские праздники я побывал на Data Fest⁶ - одном из интереснейших и познавательных событий, ежегодной открытой конференции по Data Science и Artifficial Intelligence. Дружеская обстановка, море позитива, неформальное общение с энергичной молодежью и опытными профессионалами в контексте множества знаний и кейсов по анализу данных и машинному обучению. Целых 2 дня, 10 и 11 мая, на 7 площадках московского дизайн-завода FLACON шли открытые лекции, мастер-классы и дискуссии по использованию Data Science и Machine Learning в различных прикладных областях, от оффлайн-ритейла до медицинских исследований. Прогнозирование ЧС, анализ судебных решений, управление обжиговыми машинами и еще масса практических внедрений ML в реальную промышленность, а также новые модели, алгоритмы, подходы и технические решения. 60 выступлений от Data Scientist’ов и спортивно-развлекательные мероприятия (баскетбол, игровая площадка, афтепати) собрали вместе программистов, аналитиков, маркетологов, студентов, преподавателей, менеджеров и просто интересующихся темой DS, ML и AI.
10 мая: практические кейсы
Поскольку мне ближе всего приложения ML в маркетинге и A/B-тестировании, в первый день мероприятия я слушал доклады именно в этих секциях и далее расскажу, что из них мне показалось наиболее интересным.
Секция ML-economics
Андрей Павлов на примере сервиса уборки Qlean показал, как ML-моделирование помогает найти баланс между спросом и предложением, чтобы текущий штат исполнителей выполнял все заказы клиентов качественно и в срок. Продакт-менеджер компании рассказал, как достигнуть эластичности спроса по цене с учетом и предсказать вероятность отказов с помощью градиентного бустинга и скользящего среднего, почему так важно считать ROI в ML-проектах и каким образом разработанное решение помогло снизить долю заказов, которые не могут быть выполнены из-за нехватки исполнителей на 40%, тем самым увеличив общую прибыль сервиса.
Павел Мягких, директор по анализу данных Commercial Lab на примере магазинов электроники показывал алгоритмы анализа бизнес-модели для наиболее эффективного внедрения DS, чтобы увеличить общую прибыль путем оптимизации процессов, а не их автоматизации.
Федор Лавреньтев делился опытом, как малому бизнесу внедрить ML и при этом не обанкротиться, сохранив время и средства на проверке экономического результата за счет эффективной работы ML-команды.
В докладе Евгения Лимаренко рассмотрена актуальная для DS-стартапов тема продажи своих решений бизнесу: кому, в каких условиях и как предлагать рабочее решение для оптимизации ключевых процессов, а также зачем нужен его бесплатный тестовый период.
Сам я в секции ML-economics рассказывал о подготовке бизнеса к внедрению DS: что такое data-driven культура и как ее внедрить в современной компании, а также об особенностях взаимодействия data scientist’ов с менеджерами.
Секция A/B-тестирование
Аналитик Яндекса Нерсес Багиян на примере разработки сервиса «Советник» рассказал, как многократно (в 10-100 раз) сократить время A/B-тестирования с помощью ML. Его революционная идея базируется на линеаризации и перевзвешивания отдельных метрик, моделируя правдоподобие тестовых результатов. Этот подход, изложенный в статье сотрудников Яндекса, позволяет существенно увеличить количество проводимых экспериментов при отсутствии заранее накопленной статистики и не достаточном качестве исходных данных (рис.1).
Алексей Сахнов из X5 Retail Group поделился опытом создания платформы A/B-тестов для сети магазинов «Пятерочка», подробно рассмотрев теорию A/B-testing’а и практику ML: отличия модельных выборок от реальных (дисперсия, смещение, зашумленность), матрицу ошибок и применение метода бакетов для прокси-метрик в рамках пилотного проекта перед онлайн-тестированием.
В англоязычной презентации Алексея Мясникова на примере онлайн-бронирования отелей рассмотрено разделение данных на субпопуляции, отличающиеся величиной наблюдаемого эффекта. На примере поиска оптимального размера скидки, который привлечет клиента и не приведет бизнес к убыткам, Алексей показал новую реализацию регрессионных деревьев, которая позволяет создавать аккуратные доверительные интервалы, чтобы более эффективно оценивать качество ML-моделей.
Секция Data-driven Culture
Виктор Ничипорчук, руководитель информационно-аналитического центра МЧС России, рассказал о разработке нового сервиса – аналитической платформе Атлас Рисков, а также о роли Big Data, ML и AI в повседневной деятельности и кризисном управлении:
- как предупреждать и ликвидировать аварии с помощью единого озера данных и моделирования,
- какие инструменты в онлайн-режиме помогают анализировать неблагоприятные погодные явления и ошибки человеческого фактора;
- каким образом знания о территориях снижают число ДТП и уровень смертности при пожарах.
Очень понравилось выступление Андрея Чертока, руководителя департамента R&D Сбербанка, который рассказал о комплексном внедрении AI в банковском секторе на примере практических кейсов использования ML-моделей в риск-менеджменте, кредитовании, работе с клиентами и других бизнес-процессах финансовой корпорации.
11 мая: научно-инженерный день
2-ой день конференции был более научным: 11 мая я работал на секциях Reinforcement Learning (RL), Black ML и Failconf.
Из всех интересных докладов по RL-подходам, алгоритмам и задачам обучения с подкреплением особенно запомнилась мысль Фёдора Ратникова из доклада «RL в поисках соседей». Он посоветовал использовать в реальном продукте (продакшн) не классические (т.е. во многом уже устаревшие) и не самые новые (т.е. разработанные совсем недавно) алгоритмы, о которых больше всего публикаций, а методы, созданные специально для сравнения качества алгоритмов. Они достаточно легко реализуются и имеют широкий диапазон применения, поскольку являются неким эталоном оценки, например, TRPO, PRO (рис. 2).
В секции FailConf разбиралась типичные ошибки реализации DS-проектов и ML-соревнований. Особенно познавательным показался доклад Ярослава Старухина из компании «Цифра» о неудавшейся попытке оптимизации химических процессов промышленного производства аммиака за счет автоматической настройки оборудования и выставления режимов синтеза с помощью ML.
Доклады секции Black ML были посвящены важному аспекту профессионального развития каждого data scientist’а: ML-соревнованиям и участию в них. Реальные истории про конкурсы и хакатоны по правилам и без, эффективные лайфхаки от опытных участников и организаторов таких мероприятий. Здесь особенно впечатлил доклад Артура Фаттахова про уязвимости в соревновательных платформахи возможности их легального использования.
Подводя итог прошедшему мероприятию, хочу еще раз отметить отличную организацию всего события, интереснейшие темы и дискуссии, а также дружескую атмосферу конференции. Настроение всеобщего счастья, неформальный нетворкинг и профессионализм участников снова подтверждают, что отечественное DS- и ML-сообщество не только растет и развивается, но уже вышло на мировой уровень.