Я уже писал о том, что непрерывный анализ данных необходим каждой data-driven компании. В этой статье рассмотрим принципиальные отличия исследователя данных от аналитика и почему даже очень продвинутый Data Analyst не заменит Data Scientist’а.
Что общего между Data Science и аналитикой данных
Прежде чем сравнивать эти две дисциплины, определим, что именно понимается под каждым термином.
Анализ данных – это область знаний на стыке математики и информатики, которая разрабатывает и исследует общие математические методы и вычислительные алгоритмы извлечения знаний из экспериментальных данных, включая процессы исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезных сведений для принятия прикладных и управленческих решений. В эту область знаний входит интеллектуальный анализ данных (Data Mining) - метод, который фокусируется на моделировании и открытии данных, а не на их описании, а также бизнес-аналитика, направленная на агрегированную визуализацию прикладных сведений из различных источников [1].
Data Science (наука о данных) – это раздел информатики, изучающий проблемы анализа, обработки и представления цифровой информации, включая технологии обработки больших данных в условиях высокого уровня параллелизма (Big Data), статистические методы, средства Data Mining и приложения искусственного интеллекта для работы с данными, а также инструменты проектирования и разработки баз данных [2].
Из вышеприведенных определений следует, что аналитика данных и Data Science используют практически одни и те же области знаний: математику, информатику и системный анализ. Тем не менее, области ответственности Data Analyst’а и Data Scientist’а отличаются (рис. 1.).
Data Analyst, как и Data Scientist, работает с информационными массивами с целью извлечь из «сырых данных» сведения, полезные для бизнеса, которые позволят принять оптимальные управленческие решения, чтобы улучшить значения целевых показателей. Оба этих специалиста строят обрабатывают данные, строят прогностические модели и проверяют их путем моделирования в специализированных прикладных программах. Например, в сфере банковского кредитования, это может быть гипотеза о зависимости платежеспособности потенциального заемщика от области его интересов. Для проверки таких предположений используются статистические методы, а также инструменты искусственного интеллекта, например, машинное обучение (Machine Learning). Однако, при сходстве общих целей, результаты работы и средства их достижения у аналитика и исследователя данных отличаются.
Отличия Data Science от аналитики данных
При том, что аналитик и исследователь могут работать с одними и теми же исходными данными, у них могут быть совершенно разные точки зрения на решение проблемы. В частности, Data Scientist, по сравнению с аналитиком, уделяет гораздо большое внимание автоматизации процесса сбора и подготовки информации, построению информационных конвейеров (data pipeline), частично входя в сферу ответственности инженера данных (Data Engineer). Для этого, в отличие от аналитика данных и бизнес-аналитика, Data Scientist должен хорошо владеть технологиями Big Data (стек Apache Hadoop), облачными вычислениями и инструментами разработки программного обеспечения (рис. 2.). Последнее, в свою очередь, требует от исследователя данных навыков построения распределенных приложений и опыта быстрого развертывания программных решений. А это уже относится к компетенциям DevOps-инженера [3].
Кроме того, результаты труда этих специалистов существенно отличаются. Data Scientist, как и аналитик данных, формулирует прикладные гипотезы, проводит эксперименты, строит и проверяет прогнозы, делая выводы, которые помогают принять решение. Однако, Data Analyst после своих исследований предлагает бизнесу теоретические варианты решения проблемы в виде расчетов, графиков и иных результатов [4]. Data Scientist же создает прикладной продукт, разрабатывая программное обеспечение (ПО), благодаря которому облегчается понимание бизнеса и выполняется его оптимизация (рис.3). Например, приложение для предсказания оттока клиентов, рекомендательную систему, программу расчета вероятности своевременного возврата потребительских займов и пр. Для этого исследователю данных, впрочем, как и аналитику, необходимо знание предметной области и специфики бизнеса, а также некоторые практики системного анализа: методы бережливого производства, проектного менеджмента, модели экономических расчетов и т.д.).
Помимо инструментария, методов и результатов деятельности, Data Scientist и Data Analyst также отличаются по уровню оплаты труда – деятельность исследователя данных оценивается дороже (рис. 4). Так, в августе 2019, согласно обзору вакансий с рекрутингового портала HeadHunter отечественные работодатели предлагают аналитику данных 80-100 тысяч рублей в месяц, тогда как Data Scientist’у – 100-200 тысяч рублей [4]. На зарубежном рынке труда наблюдается аналогичная тенденция: как отмечается в ежегодном отчете Stack OverFlow, Data Scientist и специалист по машинному обучению зарабатывают около 61 тысячи долларов в год (более 300 тысяч рублей в месяц), тогда как аналитик данных и BI-специалист получают 59 тысяч долларов в год (чуть менее 300 тысяч рублей в месяц) [5].
Заключение
Подводя итог описанию рабочих задачи и профессиональным компетенциям аналитика и исследователя данных, отметим, что эти специалисты, при всех сходствах, не являются взаимозаменяемыми.
При одинаковом наборе дисциплин в Data Science и аналитике данных (рис.1), эти области знаний имеют различное значение для Data Scientist'а и Data Analyst’a. В частности, аналитик данных больше и чаще пользуется «классической» математикой (статистическими методами), тогда как исследователь – прикладными дисциплинами разработки ПО. Тем не менее, для обоих специалистов очень важно понимание бизнеса и владение современными инструментами обработки данных. Однако, поскольку Data Scientist стоит дороже и работает на более высоком уровне зрелости корпоративных бизнес-процессов по модели CMMI (подробнее об этом я рассказывал здесь), начинать проекты по анализу данных лучше с аналитиком. В любом случае, и аналитик и исследователь данных, в конечном счете, оцениваются бизнесом с позиции пользы, которую они могут ему принести. Поэтому для своего профессионального роста (и повышения личной стоимости на рынке труда) Data Analyst осваивает инструменты Computer Science, включая методы Machine Learning, а Data Scientist – статистические модели и средства математических расчетов.
Источники
- Анализ данных
- Наука о данных
- Почему каждый Data Scientist должен быть DevOps-инженером в Big Data
- Кто такой Data Scientist в Big Data: профессиональные компетенции исследователя данных
- Developer Survey Results 2019