Введение в визуализацию мультивариативных данных

Nov 14, 2011 12:15




Искусство наглядного представления числовых данных и их массивов, где данные зрительно обобщаются неким схематичным образом с отображением состояний или процессов, в которых принимают участие единицы информации, называется визуализацией данных.

Соответственно, представление массивов данных с отображением набора связанных между собой переменных называется визуализацией мультивариативных данных (multivariate data visualization).

В целом использование мультивариативного датавиза мотивировано ситуациями, когда пользователь нуждается в интегрированном понимании распределения данных в большом массиве и расследует неявные отношения между различными атрибутами данных. Визуальное представление позволяет зрителю идентифицировать, локализовывать, сортировать, группировать, взвешивать, сравнивать, связывать и увязывать представленные данные между собой1.

Визуализация мультивариативных данных позволяет сравнительно быстро проанализировать крупный и сложносоставный массив данных, вынося на поверхность важные для исследователя факторы понимания:
- структуру массива
- характерные свойства или черты массива (features)
- рисунок, узор массива (pattern)
- общие тенденции (trends)
- отношения между данными (relationships)

Проблемы этого типа визуализаций схожи с обычными проблемами визуализации данных:
- трудно вместить многомерные данные в двухмерное представление
- мерность прямо влияет на плотность визуализации, - чем выше мерность, тем хуже читабельность
- неизбежные компромиссы между количеством информации и аккуратностью и простотой представления
- исследователь не всегда знает, какого рода ценное знание скрывает датасет, и надеется, что визуализация поможет его выявить, противоречие состоит в том, что если не знать, что искать, сложно выбрать наиболее подходящий вид визуализации1.

Вид визуализации выбирается в зависимости от целей анализа, от структуры массива данных, от количества переменных, от аналитических инструментов, которые собирается применять исследователь/пользователь. В случае интерактивности роль играет также фактор экранного представления и операций, который накладывает свои ограничения.

Д. Кейм разработал классификацию для визуализации мультивариативных данных, основанную на обобщении функциональных черт визуализаций2. Классификация делит виды визуализации на
- геометрические приемы
- иконографические приемы
- пиксельно-ориентированные приемы
- иерархические приемы
- графо-основанные приемы
- гибридные приемы (комбинирующие вышеназванные)

Геометрические приемы.
Основная идея: визуализация геометрических трансформаций и проекций данных.
Часто встречающиеся виды:

- График рассеяния (Scatterplot)




- Ландшафтный дисплей (Landscape)




- Параллельные координаты (Parallel Coordinates)
n-мерная последовательность данных отображается в качестве полилинии, соединяющей точки в значениях членов последовательности на n параллельных осей3. Проблема подхода состоит в визуальной плотности и ухудшенной различаемости.




(другие виды: Prosection Matrix, Hyperslice, Hyperbox, Andrews Curve, Star Coordinates, Table Lens).

Иконографические приемы.
Основная идея: визуализация значений данных в качестве зрительных свойств изображений:

- Лица Чернова (Chernoff Faces)
Передача значений данных с помощью изменений черт абстрактных человеческих лиц. Подход основывается на повышенной способности людей распознавать мелкие различия в лицах. Проблемы подхода состоят в сложности соотнесения значения и фигуративного отображения, в семантическом шуме, сопровождающем распознавание, в пониженной различаемости для аутистов.




- Палочные человечки (Stick Figures)
Два атрибута заложены в значения осей, остальные кодируются углом «конечностей» и их длиной. Подход удобен интуитивным (pre-attentive) считыванием образующейся текстуры, но в этом же заключается и проблема, - если неправильно назначить атрибуты, нужная текстура может потеряться.




..Шутка.



- Текстура (Texture)
Три главных визуальных измерения текстур - ориентация, размер и контраст, другие характеристики включают насыщенность, свечение, регулярность, периодичность, направление, гомогенность, прозрачность, шум и уровень абстракции, и др. Это делает текстуры подходящим инструментом для датасетов с высокой мерностью. Различение эффективное и быстрое (pre-attentive), к тому же текстуры эстетичны. Проблемы могут возникнуть при неправильной атрибуции значений к характеристикам текстуры.




(другие виды: Star Glyph, Shape Coding, Color Icons).

Пиксельно-ориентированные приемы.
Основная идея: представление значения атрибута цветным пикселем, ряд значений прикреплен к определенной цветовой шкале. Разные атрибуты показываются в разных под-окнах, таким образом, при отображении n-мерного сета будет показано n окон.

- Пиксельная гистограмма (Pixel Bar-chart)
График комбинирует x-y координаты с гистограммой, пиксели которой репрезентируют одну единицу данных каждый4.




- Круговой сегмент (Circle Segment)
Сегменты круга числом, равным количеству измерений данных, заполняются пикселями от центра наружу бустрофедоном каждый.



(другие виды: Space Filling Curve, Recursive Pattern, Spiral & Axes Techniques).

Иерархические приемы.
Основная идея - визуализация с использованием разбиения пространства на зоны в соответствии с иерархической организацией данных.

- Иерархическая карта (Treemap)
Карта использует все доступное пространство, разбивая визуализацию на прямоугольные регионы, величина которых определяется значениями атрибутов. Регионы визуально включают в себя регионы, находящиеся в иерархическом подчинении. Можно использовать цвет для отражения еще одного атрибута. Решение увеличиваемой (zoomable) карты облегчает навигацию и операции с картой5.



- Радиальная иерархическая карта (Radial Treemap, Sunburst)
Иерархическая карта, изображенная в виде круговой диаграммы - коренная нода располагается в центре, ноды-потомки расходятся от нее концентрическими кругами.
Угол (в других случаях - площадь) каждой дуги соответствует значению ноды.




- Коническое дерево (Cone Trees)
2D-проекция 3D визуализации радиальной иерархической карты, показывающая большие деревья в виде конической структуры.




(другие виды: InfoCube, Dimensional Stacking, Worlds Within Worlds).

Графо-основанные приемы.
Основная идея - визуализация больших графов, быстро дающая представление о данных графах.

- 2D-графы (2D Graphs)
Свойства: планарность, ортогональность, свойства сетки.




- 3D-графы (3D Graphs)
2D-проекция 3D визуализации сложноструктурированных данных с большим количеством внутренних связей.




Гибридные приемы.
Основная идея - интегрированное использование нескольких подходов в одном или нескольких окнах с целью создания наиболее выразительной визуализации. Сочетание нескольких способов отображения сразу позволит выявить дополнительную информацию. К тому же почти все виды гибридных техник интерактивны и динамичны.

1Wing-Yi Chan, A Survey on Multivariate Data Visualizations, Department of Computer Science and Engineering, Hong Kong University of Science and Technology, 2006 pdf

2D. Keim, Visual Techniques for Exploring Databases, Institute for Computer Science, University of Halle-Wittenberg pdf

3H. Siirtola, Direct Manipulation of Parallel Coordinates, Human-Computer Interaction Group, University of Tampere, Finland, 2000 pdf

4D. Keim et al, Pixel Bar Charts: A New Technique for Visualizing Large Multi-Attribute Data Sets without Aggregation, Software Technology Laboratory, HP Laboratories Palo Alto pdf

5R. Blanch, E. Lecolinet, Navigation Techniques for Zoomable Treemaps, L'équipe Ingénierie de l'Interaction Homme-Machine, Université Joseph-Fourier - Grenoble I pdf

Все изображения, использованные в посте, принадлежат их создателям и/или владельцам.

datavis, data visualization, infodesign, multivariate data, data sets, puro

Previous post Next post
Up