Чернобровов АлексейАналитик

Как наглядно показать Data Science: визуализация больших данных

В статье рассмотрены методы и средства визуализации больших данных: цели разведочного анализа и их значимость в Data Science, виды графиков и правила их представления, а также соответствующие инструменты.

Что такое EDA или визуализация данных для Data Science

В отличие от инфографики, которая ближе к дизайну, чем к Data Science, визуализация данных не содержит декоративных элементов, а отражает большие объёмы информации с учетом возможных взаимосвязей [1]. Но в Data Science визуализация данных используется не только для наглядного представления результатов в виде понятных графиков. Это скорее метод быстрого прототипирования, когда с помощью множества визуальных представлений одних и тех же данных аналитик или Data Scientist пытается обнаружить скрытые взаимосвязи и зависимости [2]. Этот подход называется разведочный анализ данных (Exploratory Data analysis, EDA) и применяется для решения следующих задач [3]:

  • максимальное погружение в данные;
  • выявление основных структур;
  • выбор наиболее важных переменных;
  • обнаружение отклонений и аномалий;
  • проверка основных гипотез;
  • разработка начальных моделей.

Можно сказать, что EDA – часть процесса подготовки данных к ML-моделированию, когда после этапов выборки и очистки датасета выполняется генерация признаков (рис. 1.).

Рис. 1. Место EDA в Data Science
Рис. 1. Место EDA в Data Science

 

Кроме того, EDA позволяет Data Scientist’у убедиться в корректной интерпретации результатов и их применимости к желаемому бизнес-контексту. А бизнес-пользователи могут оперативно проверить правильность своих предположений, в т.ч. то, что они задают правильные вопросы. Таким образом, EDA играет роль средства валидации – оценки того, насколько данные соответствуют бизнес-целям. Это особенно важно при работе с Big Data, когда датасет собирается из множества различных источников с разными уровнями точности и детализации. На практике EDA даже приводит к интересным бизнес-инсайтам. Например, определение четкой зависимости суммы чека от времени суток, корреляция числа посетителей с погодными условиями и т.д. [4]

Математическую основу EDA составляют статистика и теория вероятностей, в частности, вероятностные распределения переменных, корреляционные матрицы, факторный анализ, дискриминантный анализ, многомерное шкалирование. В качестве практических инструментов для разведочного анализа используются специализированные математические программы (SAS, Matlab, KNIME, Weka, Orange), системы типа RStudio, оригинальные скрипты на Python и даже встроенные формулы табличных редакторов, таких как Excel и Google Sheets [5]. Подробнее инструменты EDA и визуализации данных рассмотрены далее.

 

Как показать данные: виды графиков

Выбирая наиболее подходящий вид графика для визуализации данных, следует, прежде всего, определить цель анализа и/или представления информации, например, [6]:

  • сравнить разные показатели;
  • продемонстрировать распределение данных – какие значения встречаются чаще или реже других;
  • показать состав и структуру; 
  • выявить взаимосвязи между переменными.

Для этих целей используется более 20 видов различных диаграмм, от линейных графиков до корреляционных матриц. Выбор конкретной диаграммы для визуализации данных также зависит от числа анализируемых переменных и временных периодов (рис. 2.) [7].

Рис. 2. Многообразие диаграмм для визуализации данных
Рис. 2. Многообразие диаграмм для визуализации данных

 

На практике в Data Science наиболее часто используются следующие виды графиков и диаграмм [8]:

  • гистограмма для визуализации распределения данных в рамках непрерывного интервала или ограниченного периода времени, определения концентрации значений, а также выявления предельных показателей, пропусков или отклонений (рис.3).
Рис. 3. Гистограмма
Рис. 3. Гистограмма

 

  • диаграмма рассеяния для выявления корреляции между двумя переменными (рис.4);
Рис. 4. Диаграмма рассеяния
Рис. 4. Диаграмма рассеяния

 

  • диаграмма размаха (ящик с усами) для отображения групп числовых данных через квартили, что удобно при сравнении распределений между большим количеством датасетов (рис.5)
Рис. 5. Диаграмма размаха

Рис. 5. Диаграмма размаха

 

  • тепловая матрица для многомерного анализа данных и выявления корреляций (рис.6)
Рис. 6. Тепловые матрицы для количественного и качественного анализа

Рис. 6. Тепловые матрицы для количественного и качественного анализа

 

  • пузырьковая диаграмма для сравнения и отображения взаимосвязей между разными переменными с помощью их местоположения и пропорций – часто используется для анализа паттернов и поиска корреляций (рис.7).
Рис. 7. Пузырьковая диаграмма
Рис. 7. Пузырьковая диаграмма

 

Правильно выбранный вид диаграммы для визуализации данных соответствует следующим критериям [1]:

  • краткость – возможность одновременно отобразить много разнотипных данных;
  • относительность и близость – способность демонстрировать кластеры, относительные размеры групп, их схожесть и различие, выпадающие значения;
  • концентрацию и контекст – возможность легко и оперативно взаимодействовать с выбранным объектом путем его интерактивного просмотра (отображение структуры и связей);
  • масштабируемость – возможность легко и быстро изменять размеры представления;
  • удобство пользователяза счет максимальной наглядности предоставления и поддержка интуитивных действий по выявлению закономерностей.

 

Инструменты визуализации данных

Современный рынок программного обеспечения предоставляет множество инструментов визуализации данных, от бесплатных интернет-сервисов до дорогих корпоративных пакетов: Excel, Google Sheets, Google Data Studio, RStudio, Tableau, Power BI, QlikView, OWOX BI Smart Data, SAS [6]. Большинство из них предоставляет не только встроенные средства для анализа датасетов, но и позволяет настраивать их и адаптировать исходный код к специфике отдельных проектов, а также создавать интерактивные динамические отчеты. Например, в [9] представлен подробный обзор целых 36 инструментов визуализации данных для различных прикладных задач, помимо EDA: картография, инфографика, создание интерактивных дэшбордов и т.д. Примечательно, что часть из них (Chart.js, Raw, Dygraphs, ZingChart, FusionCharts Suite XT, D3.js и многие другие) представляют собой плагины или библиотеки, которые можно интегрировать с другими средствами работы Data Scientist’a [9].

Интересен также сравнительный анализ наиболее популярных инструментов визуализации данных для маркетинговой аналитики, приведенный в [6] (рис. 8).

Рис. 8. Сравнительный анализ 5 популярных инструментов визуализации данных для маркетинговой аналитики
Рис. 8. Сравнительный анализ 5 популярных инструментов визуализации данных для маркетинговой аналитики

 

Хотя этот обзор больше относится к аналитике данных, чем непосредственно к Data Science и Big Data, он показывает еще одно важное применение визуализации – построение BI-дэшбордов для мониторинга различных бизнес-показателей (конверсия, характеристики пользователей и пр.) [6]. При проектировании дашбордов не стоит использовать все возможные виды диаграмм, стремясь по максимуму использовать все возможности визуализации: перегруженная витрина данных непонятна и сложна в эксплуатации. Пример удобного интерактивного дэшборда для ТОП-менеджера показан на рисунке 9 [2].

Рис. 9. Дашборд руководителя из Tableau
Рис. 9. Дашборд руководителя из Tableau

 

Заключение

Резюмируя использование методов и средств визуализации данных в Data Science и аналитике Big Data, можно сделать следующие выводы:

  • визуализация данных и инфографика – это не одно и то же;
  • визуализация нужна не только для наглядного представления результатов, но и для разработки предварительных гипотез, а также валидации исходных данных;
  • EDA или разведочный анализ данных – важный этап подготовки датасета к ML-моделированию и другим техникам Data Mining;
  • выбор графика для визуализации зависит от цели (сравнение переменных, выявление взаимосвязей, представление состава и структуры или демонстрация статистического распределения) и анализируемых категорий (многомерный анализ, временные ряды или корреляция нескольких показателей);
  • на современном рынке ПО имеется множество как бесплатных, так и коммерческих решений для визуализации данных – интернет-сервисы и локальные продукты, проприетарные и open-source;
  • существует целый ряд критериев и правил по выбору диаграмм для визуализации данных, в т.ч. в рамках построения интерактивных BI-дэшбордов, главное из которых – это удобство пользователя и возможность получения бизнес-инсайтов на основе представленной картинки.

 

Источники

  1. https://ru.wikipedia.org/wiki/Визуализация_данных
  2. https://revealthedata.com/blog/all/chto-takoe-vizualizaciya-dannyh-kakaya-ona-byvaet-i-ne-byvaet/
  3. https://ru.wikipedia.org/wiki/Разведочный_анализ_данных
  4. https://www.svds.com/value-exploratory-data-analysis/
  5. https://en.wikipedia.org/wiki/Exploratory_data_analysis
  6. https://www.owox.ru/blog/articles/data-visualization/
  7. https://www.labnol.org/software/find-right-chart-type-for-your-data/6523/
  8. https://datavizcatalogue.com/RU/posmotret_spisok.html
  9. https://toplead.com.ua/ru/blog/id/38-luchshih-instrumentov-dlja-vizualizacii-dannyh-160/

 

Контакты