用视觉元素表示数据,在可视化数据时,你会使用视觉元素(例如点、线、长条)表示数值。例如,如果查看多个人的身高和体重,可以用一个点表示每个人的身高和体重值。
关于视觉编码,可参考 Stephen Few 写了的很棒的关于视觉编码的文章,文章链接
数据分析流程
可视化数据在分析过程中包括两点:探索数据和解释数据。探索数据涉及研究数据,找到有趣的关系并提出问题。解释数据是指表示这些关系并回答问题。我在>下面绘出了处理数据的典型流程。
这是数据分析流程图
提取:
通常使用SQL从数据库提取或从网页抽取
抽取:
你的大部分时间都会花费在清理这些数据上。通常,记录会缺失,格式不对,或者就是不合理
探索可视化:
数据整理好后,你需要再次探索该数据,以便理解数据。你需要查看数据的分布方式,某些变量是否有关联,记录是如何分类的。这一流程通常称为探索性数据分析,简称 EDA。
这时候数据可视化就派上用场了,因为你可以绘制数据分布情况,并创建散布图来表示关系。有助于你从数据中发现有趣的规律,以及其他特征,帮助你做出决策。
柱状图
对于分类变量来说,你需要查看数据是如何在各个类别之间分布的。这时候适合使用柱状图
直方图
对于连续变量来说,你可以用直方图来表示分布情况。直方图与柱状图类似,但它的变量划分至不同的范围,然后在不同的范围中统计计数。在直方图中,连续的柱子暗示数值上的连续。直方图在大多数可视化工具中都可以非常方便地作出。
散点图
你可以用散点图查看变量之间的关系。可以帮助你确定相互关联的变量,或其他有趣的关系。如身高与体重关系图
解释性可视化
最后一部分是深入研究在 EDA 流程中发现的规律,并与他人分享这些规律。这就是解释性部分。就像用数据讲故事一样。通过叙述性内容引导观看者查看你的分析结果。你的职责是让读者与你的数据产生对话。
你经常需要将多个来源的数据整合到一起,例如数据库中的不同表格或 Excel 文件中的工作表。例如,你可能需要包含 People 工作表和 Orders 工作表中的数据,以便分析每名销售人员的业绩。
在 Tableau 中,你可以将多个工作表拖到顶层面板上。根据你拖到的位置,会出现两种结果:联合模式或 连结模式。
如果将 People 拖到 Orders 下面,就出现联合效果。联合模式将数据相互堆叠,第二个工作表会附加到第一个工作表的结尾。如果多个工作表的列相同的话,这种方法就很不错,因为列将匹配。
如果将第二个工作表或表格拖到顶部面板上,但是没有放在第一个工作表的上方,就会出现连结模式。连结模式不会将数据相互堆叠,而是根据共同值将每个工作表中的数据相结合。在这里,Orders 和 People 都具有列 Region,我们可以将其当做共同值。
Tableau 在默认情况下执行“内连结”("inner join"),但凡存在公共值,就会这样合并数据。你可以单击 join 符号来更改正在执行的 join 类型。
标记选项
通常,你需要向图表中添加更多的维度。你可以通过标记卡实现。它具有以下选项:颜色、大小和形状。你可以通过将维度或度量拖到 Marks 功能区上,向图表中添加维度(增大粒度)。
大多数情况下,你将用颜色标记数据。在 Tableau 中操作很简单,只需将相关字段拖到标记卡中的"Color”上。
点击标记卡中的"Color”就可以更改用来表示数据的调色板。
将离散或连续字段拖到"Size”上将按照标记大小标注数据。你将经常在散布图(通常称为气泡图)中使用这种标注方法。
和颜色及形状一样,你可以用标记形状标注数据。对于形状,只能使用离散数据。此外,如果有太多类别,形状就很难识别。
借助 “Detail” 卡,你能够添加不含任何视觉标注的字段。这样就可以增进粒度,并且不用添加任何图形效果。
"Label” 卡可以为所有标记添加标签。
请参考链接
Tableau 有两种将数据组合到一起的方法:组和集合。它们比较相似,但是也有差别,我将详细介绍。
将数据点组合到一起可以帮助传达你的观点。例如,如果你要指出亏损的产品,可以创建一个此类产品组,然后单独标注颜色,以便与盈利产品区分开来。
具体操作参照链接
有时候,你想要查看某项数据,但是找不到具体的字段。例如,也许你想知道每个订单记录每项产品的利润。
要创建计算字段,打开某个字段(例如 Profit)的菜单,然后选择 Create > Calculated Field…(如下图所示)。你还可以在顶部菜单栏上点击"Analysis”,然后选择"Create Calculated Field..."
具体操作参考链接