直观显示本福德定律
本福德定律是一种数学定律,该定律指出许多现实数据源中的前导数字或最左边的数字以非常特定的方式分布。具体来说,数字 1 在大约 30% 的时间中作为前导数字出现,并且随着数字逐渐变大,它们会出现得较少,数字 9 出现的时间少于 5%。当欺诈者伪造数据时,他们可能不知道要去创建符合本福德定律的假数据,在某些情况下,可能会检测伪造数据或者至少对数据的真实性表示怀疑。
本文介绍如何使用随 Tableau Desktop 一起提供的示例 - 超市数据源将本福德定律应用于销售数据。
该过程需要您执行以下操作:
- 创建要在视图中使用的计算字段。
- 设置视图。
以下部分将这些步骤分解为具体的说明。
创建要在视图中使用的计算字段
- 在“分析”菜单中,选择“创建计算字段”以打开计算编辑器。将计算命名为“Leftmost Integer”(最左边的整数),并在公式区域中键入或粘贴以下内容:
LEFT(STR([Sales]),1)
- 创建另一个计算字段并将其命名为“Benfords Law”(本福德定律)。在公式区域中键入或粘贴以下内容:
LOG(INT([Leftmost Integer])+1)-LOG(INT([Leftmost Integer]))
设置视图
- 从“数据”窗格中,将“Leftmost Integer”(最左边的整数)拖到“列”,,然后将“Orders(Count)”拖到“行”。
- 单击“行”上的“CNT(Orders)”,然后选择“快速表计算”>“总计百分比”。
您的视图现在会显示第一个数字的分布情况,条形大小(从左到右逐渐减小)表明在这种情况下的数据符合本福德定律。但我们可以通过添加引用分布来执行更多操作以构造数据。
- 从“数据”窗格中,将“Benfords Law”(本福德定律)拖到“标记”卡上的“详细信息”。在“标记”卡上单击“Benfords Law”(本福德定律),然后选择“度量”>“最小值”。
- 从“数据”窗格切换到“分析”窗格,然后将“分布区间”拖到视图中。将其放在“单元格”上。
注意:从 Tableau 10.2 开始,Web 平台上支持分布区间。
- 在“编辑参考线、参考区间或参考箱”对话框中,执行以下任务:
单击“值”字段以查看其他选项组:
- 在“百分比”区域中,键入
80,100,120
。这会指定您希望区间介于 80% 到 100% 以及 100% 到 120%。接下来,您将指定百分比将引用的值。
- 在“百分比”字段中,选择“MIN(Benfords Law)”。
“值”字段现在应该显示为
80%,100%,120% of Average Min. Benfords Law
。
其余步骤用于配置参考区间的外观:
- 将“标签”设置为“无”。
- 将“线”设置为最细的可用线。
- 选择“向下填充”。
- 从“填充”中,选择“停止信号灯”。
- 单击“确定”退出“编辑参考线、参考区间或参考箱”对话框。
- 单击工具栏按钮以显示标记标签:
完成的视图应如下所示:
即使 Superstore 是演示数据,它也是达到符合本福德定律程度的现实数据。蓝色条表明初始数字实际百分比与在视图中显示预期本福德值的 100% 值(即,将分布区间中的绿色区域与和黄色区域分隔开的线)完全一致。