Benford の法則の可視化
Benford の法則は、現実世界の多くのデータ ソースでは、先頭または一番左の桁は非常に特定の方法で分布しているとする数学的法則です。具体的に、数字 1 はが桁の先頭に使われている確率は約 30% であり、数字が大きくなると出現する頻度は低くなり、数字 9 が使用される確率は 5% 未満になります。詐欺師がデータを偽造する場合、彼らは Benford の法則を準拠した偽データの作成方法を知らない可能性があり、場合によっては、偽データを検出したり、真実性に対する疑念を生み出すことができる場合があります。
この記事では、Tableau Desktop が提供するサンプル - スーパーストアデータ ソースを使用して、Benford の法則を売上データに適用する方法について説明します。
プロセスでは次を実行する必要があります。
- ビューで使用する計算フィールドを作成します。
- ビューを設定します。
以下のセクションでは、これらの手順を具体的な説明に分割します。
ビューで使用する計算フィールドの作成
- [分析] メニューで [計算フィールドの作成] を選択して、計算エディターを開きます。計算に、"一番左の整数" と名付け、式エリアに次を入力または貼り付けます。
LEFT(STR([Sales]),1)
- 2 番目の計算フィールドを作成し、「Benford の法則」と名付けます。次の内容を式エリアに入力または貼り付けます。
LOG(INT([Leftmost Integer])+1)-LOG(INT([Leftmost Integer]))
ビューの設定
- [データ] ペインの [Leftmost Integer (一番左の整数)] を [列] までドラッグし、[Orders(Count) (注文 (カウント))] を [行] までドラッグします。
- [行] で [CNT(Orders) (CNT (注文))] をクリックし、[簡易表計算] > [合計に対する割合] を選択します。
これで、ビューが最初の桁の分布を示すようになり、バーのサイズ (左から右へと減少している) は、この場合のデータが Benford の法則を準拠していることを示します。リファレンス分布を追加することで、データを組み立てるためにさらに多くのことを実行できます。
- [データ] ペインから [Benfords Law (Benford の法則)] を [マーク] カードの [詳細] にドラッグします。[マーク] カードで [Benfords Law (Benford の法則)] をクリックし、[メジャー] > [最小値] を選択します。
- [データ] ペインから [分析] ペインに切り替え、[分布バンド] をビューまでドラッグします。[セル] にドロップします。
注: 分布バンドは Tableau 10.2 以降の Web プラットフォームでサポートされます。
- [リファレンス ライン、リファレンス バンド、またはリファレンス ボックスの編集] ダイアログ ボックスで、次を実行します。
[値] フィールドをクリックして、オプションのその他のセットを表示します。
- [パーセンテージ] エリアで、「
80,100,120
」と入力します。これにより、範囲を 80 から 100 パーセント、および 100 から 120 パーセントに広がるよう指定します。次に、パーセンテージが参照する値を指定します。
- [次のパーセント] フィールドで、[MIN(Benford の法則)] を選択します。
[値] フィールドの表示「
80%,100%,120% of Average Min. Benfords Law
」となります。
残りのステップでは、リファレンス バンドの外観を設定します。
- [ラベル] を [なし] に設定します。
- [ライン] を最も細い線に設定します。
- [これより下を塗りつぶす] を選択します。
- [塗りつぶし] から、[スポットライト] を選択します。
- [OK] をクリックして [リファレンス ライン、リファレンス バンド、またはリファレンス ボックスの編集] ダイアログ ボックスを閉じます。
- マーク ラベルを表示するためのツール バー ボタンをクリックします。
完了したビューは次のようになります。
"Superstore" はデモ データですが、Benford の法則に準拠している限りは現実的です。青いバーは、最初の桁の実際のパーセンテージが、ビュー内の予測される Benford 値を表す 100% の値 (分布バンドの黄色いゾーンから緑のゾーンを分けるライン) と正しく揃っていることを示しています。