Чернобровов АлексейАналитик

Аналитика данных и Data Science: сходства и различия

Я уже писал о том, что непрерывный анализ данных необходим каждой data-driven компании. В этой статье рассмотрим принципиальные отличия исследователя данных от аналитика и почему даже очень продвинутый Data Analyst не заменит Data Scientist’а.

 

Что общего между Data Science и аналитикой данных

Прежде чем сравнивать эти две дисциплины, определим, что именно понимается под каждым термином.

Анализ данных – это область знаний на стыке математики и информатики, которая разрабатывает и исследует общие математические методы и вычислительные алгоритмы извлечения знаний из экспериментальных данных, включая процессы исследования, фильтрации, преобразования и моделирования данных с целью извлечения полезных сведений для принятия прикладных и управленческих решений. В эту область знаний входит интеллектуальный анализ данных (Data Mining) - метод, который фокусируется на моделировании и открытии данных, а не на их описании, а также бизнес-аналитика, направленная на агрегированную визуализацию прикладных сведений из различных источников [1].

Data Science (наука о данных) – это раздел информатики, изучающий проблемы анализа, обработки и представления цифровой информации, включая технологии обработки больших данных в условиях высокого уровня параллелизма (Big Data), статистические методы, средства Data Mining и приложения искусственного интеллекта для работы с данными, а также инструменты проектирования и разработки баз данных [2].

Из вышеприведенных определений следует, что аналитика данных и Data Science используют практически одни и те же области знаний: математику, информатику и системный анализ. Тем не менее, области ответственности Data Analyst’а и Data Scientist’а отличаются (рис. 1.).

Рис. 1. Области знаний аналитики данных и Data Science

Рис. 1. Области знаний аналитики данных и Data Science

 

Data Analyst, как и Data Scientist, работает с информационными массивами с целью извлечь из «сырых данных» сведения, полезные для бизнеса, которые позволят принять оптимальные управленческие решения, чтобы улучшить значения целевых показателей. Оба этих специалиста строят обрабатывают данные, строят прогностические модели и проверяют их путем моделирования в специализированных прикладных программах. Например, в сфере банковского кредитования, это может быть гипотеза о зависимости платежеспособности потенциального заемщика от области его интересов. Для проверки таких предположений используются статистические методы, а также инструменты искусственного интеллекта, например, машинное обучение (Machine Learning). Однако, при сходстве общих целей, результаты работы и средства их достижения у аналитика и исследователя данных отличаются.

 

Отличия Data Science от аналитики данных

При том, что аналитик и исследователь могут работать с одними и теми же исходными данными, у них могут быть совершенно разные точки зрения на решение проблемы. В частности, Data Scientist, по сравнению с аналитиком, уделяет гораздо большое внимание автоматизации процесса сбора и подготовки информации, построению информационных конвейеров (data pipeline), частично входя в сферу ответственности инженера данных (Data Engineer). Для этого, в отличие от аналитика данных и бизнес-аналитика, Data Scientist должен хорошо владеть технологиями Big Data (стек Apache Hadoop), облачными вычислениями и инструментами разработки программного обеспечения (рис. 2.). Последнее, в свою очередь, требует от исследователя данных навыков построения распределенных приложений и опыта быстрого развертывания программных решений. А это уже относится к компетенциям DevOps-инженера [3].

Рис. 2. Области ответственности и профессиональные компетенции аналитиков, исследователя и инженера данных
Рис. 2. Области ответственности и профессиональные компетенции аналитиков, исследователя и инженера данных

 

Кроме того, результаты труда этих специалистов существенно отличаются. Data Scientist, как и аналитик данных, формулирует прикладные гипотезы, проводит эксперименты, строит и проверяет прогнозы, делая выводы, которые помогают принять решение. Однако, Data Analyst после своих исследований предлагает бизнесу теоретические варианты решения проблемы в виде расчетов, графиков и иных результатов [4]. Data Scientist же создает прикладной продукт, разрабатывая программное обеспечение (ПО), благодаря которому облегчается понимание бизнеса и выполняется его оптимизация (рис.3). Например, приложение для предсказания оттока клиентов, рекомендательную систему, программу расчета вероятности своевременного возврата потребительских займов и пр. Для этого исследователю данных, впрочем, как и аналитику, необходимо знание предметной области и специфики бизнеса, а также некоторые практики системного анализа: методы бережливого производства, проектного менеджмента, модели экономических расчетов и т.д.).

Рис. 3. Пирамида уровней аналитики: от Bi к Data Science
Рис. 3. Пирамида уровней аналитики: от Bi к Data Science

 

Помимо инструментария, методов и результатов деятельности, Data Scientist и Data Analyst также отличаются по уровню оплаты труда – деятельность исследователя данных оценивается дороже (рис. 4). Так, в августе 2019, согласно обзору вакансий с рекрутингового портала HeadHunter отечественные работодатели предлагают аналитику данных 80-100 тысяч рублей в месяц, тогда как Data Scientist’у – 100-200 тысяч рублей [4]. На зарубежном рынке труда наблюдается аналогичная тенденция: как отмечается в ежегодном отчете Stack OverFlow, Data Scientist и специалист по машинному обучению зарабатывают около 61 тысячи долларов в год (более 300 тысяч рублей в месяц), тогда как аналитик данных и BI-специалист получают 59 тысяч долларов в год (чуть менее 300 тысяч рублей в месяц) [5].

Рис. 4. Зарплаты ИТ-специалистов в 2019 году [5]
Рис. 4. Зарплаты ИТ-специалистов в 2019 году [5]

 

Заключение

Подводя итог описанию рабочих задачи и профессиональным компетенциям аналитика и исследователя данных, отметим, что эти специалисты, при всех сходствах, не являются взаимозаменяемыми.

При одинаковом наборе дисциплин в Data Science и аналитике данных (рис.1), эти области знаний имеют различное значение для Data Scientist'а и Data Analyst’a. В частности, аналитик данных больше и чаще пользуется «классической» математикой (статистическими методами), тогда как исследователь – прикладными дисциплинами разработки ПО. Тем не менее, для обоих специалистов очень важно понимание бизнеса и владение современными инструментами обработки данных. Однако, поскольку Data Scientist стоит дороже и работает на более высоком уровне зрелости корпоративных бизнес-процессов по модели CMMI (подробнее об этом я рассказывал здесь), начинать проекты по анализу данных лучше с аналитиком. В любом случае, и аналитик и исследователь данных, в конечном счете, оцениваются бизнесом с позиции пользы, которую они могут ему принести. Поэтому для своего профессионального роста (и повышения личной стоимости на рынке труда) Data Analyst осваивает инструменты Computer Science, включая методы Machine Learning, а Data Scientist – статистические модели и средства математических расчетов.

 

Источники

  1. Анализ данных
  2. Наука о данных
  3. Почему каждый Data Scientist должен быть DevOps-инженером в Big Data 
  4. Кто такой Data Scientist в Big Data: профессиональные компетенции исследователя данных
  5. Developer Survey Results 2019

 

Контакты