Чернобровов АлексейАналитик

2010-2019: краткая история современной Data Science

16 декабря 2019 года в московском офисе Одноклассников состоялся очередной Data Толк, где мы обсуждали самые важные DS-тренды прошедшего десятилетия. С докладами выступали ML-специалисты из X5 Retail Group, OK.ru и ВКонтакте. Ретроспективный обзор и практические примеры прикладного анализа данных сопровождались увлекательной дискуссией. Далее представлена моя краткая интерпретация этого интересного события.

Итак, с 2010 года стремительно растет популярность термина Big Data, когда технологии больших данных и машинного обучения стали востребованы не только в научной среде. Вычислительные мощности даже бытовых компьютеров уже способны обрабатывать различные датасеты, обучать нейросети и строить новые ML-модели. RAM-вычисления Apache Spark заменяют медленный MapReduce в Hadoop, а библиотеки Scikit-learn и pandas делают Python универсальным языком всех ML-специалистов. RStudio снижает порог вхождения в статистическую обработку данных с помощью R. Методы распознавания образов развиваются быстрее с ImageNet – проектом по созданию и сопровождению массивной базы данных аннотированных изображений.

 

Появляются первые предвестники современных нейросетевых моделей: предобученные сети Хинтона на базе машины Больцмана, сверточные нейросети для распознавания изображений от Яна ЛеКана и каскадный автокодировщик каждого слоя глубокой нейронной сети от Иошуа Бенджио. Подробнее об истории развития нейросетей я писал здесь.

 

Далее ИТ-мир постоянно прирастает новым DS-фреймворком или алгоритмом: MxNet, BERT, XLNet, XGBoost, LightGBM, GAN-сети, AutoML и Deep Learning. Развитие технологий Big Data (Apache Hadoop, Spark, Kafka, NiFi, HBase, Cassandra) и Agile-подходов к разработке ПО стимулируют появление новых специализаций: DevOps-инженер, CDO (Chief Data Officer). Также к середине 2010-х годов завершается профильное разделение работы между аналитиками, инженерами и исследователями данных. Подробнее о том, чем Data Scientist отличается от Data Analyst'a и Data Engineer'а, я рассказывал здесь.

 

С практической точки зрения DS превращается из глубоко научной области в рабочий бизнес-инструмент, позволяя анализировать и корректировать поведение пользователей, снижать клиентский отток (Churn Rate), прогнозировать спрос и оптимизировать на другие важные метрики. Таким образом, к 2020 году в большинстве крупных компаний появляются отделы ML-моделирования и анализа данных. Бизнес осознает, что данные – это «новая нефть», которая обеспечивает жизнеспособность предприятия и является драйвером его развития. Теперь DS активно используется не только в ИТ-гигантах (типа Google, Facebook, Яндекс и пр.) маркетинге, банках и ритейле. Предиктивная аналитика чрезвычайных ситуаций, медицинские исследования, поиск пропавших людей, задачи обеспечения информационной безопасности – лишь немногие из реальных кейсов практического применения ML.

 

Отдельно хочется сказать об эволюции рекомендательных систем на базе Machine Learning. За 10 лет они выросли от рейтинговых прогнозов до полноценных помощников, предлагающих пользователю контент на основе его индивидуальных предпочтений. Для этого сегодня, вместо простых регрессионных моделей, мы применяем самообучающиеся ML-алгоритмы Reinforcement Learning (обучение с подкреплением). Подобный качественный прорыв также отмечается в задачах обработки естественного языка: распознавание речи, анализ и синтез текста, извлечение данных, информационный поиск, машинный перевод, автоматическое реферирование, аннотирование и упрощение текстовой информации. BERT, XLNet и другие многослойные нейронные сети, натренированные методами глубокого обучения, показывают отличные результаты в классических тестах по пониманию естественного языка. Поэтому такие DS-технологии активно используются для создания интеллектуальных чат-ботов, заменяя кол-центры для банков, телефонных операторов и других крупных организаций.

 

Data Scientist становится «самой сексуальной» профессией 21 века, спрос на которую постоянно растет. Университеты по всему миру генерируют образовательные программы по Data Science, а профессиональное сообщество создает собственные ассоциации и проводит регулярные «тусовки для своих» для обмена опытом и знаниями.

 

Наконец, развитие DS-технологий приводит к появлению новых вызовов: в 2019 году произошел первый инцидент мошенничества крупной суммы денег с помощью искусственного интеллекта. Напомню, тогда GAN-нейросеть успешно имитировала голос руководителя фирмы, заставив сотрудника перевести 220 тысяч евро на счет злоумышленников. Стоит ожидать подобных случаев и в будущем, особенно с учетом активного внедрения биометрических систем. Чтобы предупредить такие злоупотребления, понадобятся новые способы идентификации фальшивок (Deep Fake). Таким образом, отдельные приложения Data Science сами становятся драйверами развития этой прикладной науки.

 

В заключение выделю еще один явный тренд демократизации DS. Появляются средства автоматического машинного обучения (AutoML), которые позволяют не специалисту создать, обучить и даже использовать на практике собственную ML-модель. Это упрощает многие этапы моделирования, автоматизируя сложную настройку весов, оптимизацию гиперпараметров и другие трудоемкие процедуры. Благодаря этому в ближайшем будущем AI станет еще ближе, решая рутинные задачи, чтобы человек мог эффективно заняться генерацией новых творческих идей.

Архив презентаций с Data Толк#4 можно скачать по ссылке.

Контакты