数据类型

  • 定量
    • 连续
      • 时间,金钱,利率,高度,重量,温度等
    • 离散
      • 如出售商品数量,昨天受到啊的邮件数量
  • 定型
    • 分类
      • 如性别,头发的颜色,国家/地区,猫咪的种类
    • 有序
      • 如排序,调查问卷

视觉编码

用视觉元素表示数据,在可视化数据时,你会使用视觉元素(例如点、线、长条)表示数值。例如,如果查看多个人的身高和体重,可以用一个点表示每个人的身高和体重值。


  • 点是最准确的表示方法,即与其他视觉元素相比,人类更善于确定用点表示的值。从点到坐标轴画个直线很简单。点就像图片上的小空间,很容易看出所表 示的值。用线条或长条表示此类数据的话,会很混乱。
  • 线条
    线条适合将相关的数据相连,并帮助我们用肉眼观察。对于一段连续数据(例如时间)来说,适合用线条,这时候点就不合适了。看看下面这个只用点表示的时间数据图表,另一个用线条表示。
  • 条形图
    要对比的是几组数据,条形图非常合适。条形图只能表示一个数值(用左侧的 y 轴表示),适合对比几组数据(家居、电子产品、供应品、服务)。
  • 颜色
    颜色通常用来表示第三个维度,因为很难在二维平面(例如计算机屏幕)上表示三维数据。可以是连续数据 (例如热度图)或离散数据(将数据分成几个组)。

关于视觉编码,可参考 Stephen Few 写了的很棒的关于视觉编码的文章,文章链接

探索与解释

数据分析流程

可视化数据在分析过程中包括两点:探索数据和解释数据。探索数据涉及研究数据,找到有趣的关系并提出问题。解释数据是指表示这些关系并回答问题。我在>下面绘出了处理数据的典型流程。

这是数据分析流程图

提取:

通常使用SQL从数据库提取或从网页抽取

抽取:

你的大部分时间都会花费在清理这些数据上。通常,记录会缺失,格式不对,或者就是不合理

探索可视化:

数据整理好后,你需要再次探索该数据,以便理解数据。你需要查看数据的分布方式,某些变量是否有关联,记录是如何分类的。这一流程通常称为探索性数据分析,简称 EDA。

这时候数据可视化就派上用场了,因为你可以绘制数据分布情况,并创建散布图来表示关系。有助于你从数据中发现有趣的规律,以及其他特征,帮助你做出决策。

柱状图

对于分类变量来说,你需要查看数据是如何在各个类别之间分布的。这时候适合使用柱状图

直方图

对于连续变量来说,你可以用直方图来表示分布情况。直方图与柱状图类似,但它的变量划分至不同的范围,然后在不同的范围中统计计数。在直方图中,连续的柱子暗示数值上的连续。直方图在大多数可视化工具中都可以非常方便地作出。

散点图

你可以用散点图查看变量之间的关系。可以帮助你确定相互关联的变量,或其他有趣的关系。如身高与体重关系图

解释性可视化

最后一部分是深入研究在 EDA 流程中发现的规律,并与他人分享这些规律。这就是解释性部分。就像用数据讲故事一样。通过叙述性内容引导观看者查看你的分析结果。你的职责是让读者与你的数据产生对话。

数据可视化工具

工具金字塔

上面所提到的权衡可以通过下面的这个金字塔所展示出来。金字塔的宽度代表工具的适用范围,高度代表工具的生产力,或者说使用起来有多方便。

常见图表类型

Stephen Few 撰写的有关选择正确图表类型的文章。

Stephen Few 撰写的图形选择矩阵

Andrew Abela 撰写的图表建议

Solomon Messing 撰写的何时使用堆叠柱状图?。

可视化分布

有时候,显示数据的实际分布情况是最佳选择。分布图可能不是正态的!可能存在异常值,使均值出现严重的偏差。条形图等可以隐藏这些问题。你在一开始探索数据时,也需要查看分布图。

  • 直方图
  • 箱线图
  • 小提琴图
  • 纸带记录图

选择合适的图表

用tableau创建可视化图表

连结数据

你经常需要将多个来源的数据整合到一起,例如数据库中的不同表格或 Excel 文件中的工作表。例如,你可能需要包含 People 工作表和 Orders 工作表中的数据,以便分析每名销售人员的业绩。

在 Tableau 中,你可以将多个工作表拖到顶层面板上。根据你拖到的位置,会出现两种结果:联合模式或 连结模式。

联合

如果将 People 拖到 Orders 下面,就出现联合效果。联合模式将数据相互堆叠,第二个工作表会附加到第一个工作表的结尾。如果多个工作表的列相同的话,这种方法就很不错,因为列将匹配。

连结

如果将第二个工作表或表格拖到顶部面板上,但是没有放在第一个工作表的上方,就会出现连结模式。连结模式不会将数据相互堆叠,而是根据共同值将每个工作表中的数据相结合。在这里,Orders 和 People 都具有列 Region,我们可以将其当做共同值。

Tableau 在默认情况下执行“内连结”("inner join"),但凡存在公共值,就会这样合并数据。你可以单击 join 符号来更改正在执行的 join 类型。

Tableau工作界面

你将在左侧看到数据列(也称为“字段”),并根据维度和度量划分。分类数据、定性数据和时间数据列为维度。定量数值数据列为度量。

你将注意到维度用蓝色表示,度量用绿色表示。这和之前见到的颜色编码一样,蓝色表示离散数据,绿色表示连续数据。注意,离散数据只能为特定的值,例如整型或类别,而连续数据可以是任何值。

维度并非必须是离散的,度量并非必须是连续的。在某些情况下,你可以将离散数据转换为连续数据,例如时间。右击字段,或点击小三角形即可调出菜单。但是分类数据不能这么操作,因为分类数据不能是连续的。你还可以将连续数据转换为离散数据。

汇总和粒度

如图,列(column)和行(row)处是汇总,要显示更细的粒度,如可以将market拖到选项(marks)中的details显示更细粒度。

层级

手动创建层级

Tableau 根据数据自动创建了层级,但是你也可以自己创建层级。例如,Sub-Category 中的每个值都属于 Category 中的某项。比如,对于 Sub-Category 值为"Bookcases”的记录,Category 值始终为"Furniture”。这里有一个层级,Sub-Category 值从 Category 值中分支出来。

你可以创建一个层级,方法是选择 Category 和 Sub-Category(同时按下 control+command,然后点这两个字段),然后打开菜单并选择 Hierarchy > Create Hierarchy...

标记选项

标记选项

通常,你需要向图表中添加更多的维度。你可以通过标记卡实现。它具有以下选项:颜色、大小和形状。你可以通过将维度或度量拖到 Marks 功能区上,向图表中添加维度(增大粒度)。

颜色

大多数情况下,你将用颜色标记数据。在 Tableau 中操作很简单,只需将相关字段拖到标记卡中的"Color”上。

颜色选项

点击标记卡中的"Color”就可以更改用来表示数据的调色板。

大小

将离散或连续字段拖到"Size”上将按照标记大小标注数据。你将经常在散布图(通常称为气泡图)中使用这种标注方法。

形状

和颜色及形状一样,你可以用标记形状标注数据。对于形状,只能使用离散数据。此外,如果有太多类别,形状就很难识别。

其他卡片

借助 “Detail” 卡,你能够添加不含任何视觉标注的字段。这样就可以增进粒度,并且不用添加任何图形效果。

"Label” 卡可以为所有标记添加标签。

双坐标轴

有时候,你需要在一个图表上对比两个变量。如果将两个度量拖到 Rows 功能区上,就会出现两个图表,而不是一个。例如,我们试着在一个图表上绘制利润和销量图表。将 Profit 和 Sales 拖到 Rows 功能区上,结果如下图所示: 下面是两个图表,但是我们只想要一个。你可以将两条折线放到一个图表上,方法是在其中一个度量上右击打开菜单,选择“Dual Axis”。

过滤器

请参考链接

组和集合

Tableau 有两种将数据组合到一起的方法:组和集合。它们比较相似,但是也有差别,我将详细介绍。

将数据点组合到一起可以帮助传达你的观点。例如,如果你要指出亏损的产品,可以创建一个此类产品组,然后单独标注颜色,以便与盈利产品区分开来。

具体操作参照链接

计算字段

有时候,你想要查看某项数据,但是找不到具体的字段。例如,也许你想知道每个订单记录每项产品的利润。

要创建计算字段,打开某个字段(例如 Profit)的菜单,然后选择 Create > Calculated Field…(如下图所示)。你还可以在顶部菜单栏上点击"Analysis”,然后选择"Create Calculated Field..."

具体操作参考链接