벤포드의 법칙 시각화

벤포드의 법칙은 많은 실제 데이터 원본에서 선행 자리(또는 맨 왼쪽에 있는 자리)의 숫자가 매우 특정한 방식으로 분포된다는 것을 나타내는 수학 법칙입니다. 구체적으로, 선행 자리로 숫자 1이 나타나는 확률이 약 30%이고 숫자가 클수록 확률이 작아지며 숫자 9가 나타나는 확률은 5% 미만입니다. 사기꾼이 데이터를 조작할 때 벤포드의 법칙을 준수하는 위조된 데이터를 만드는 것을 모를 수 있으며 경우에 따라 이를 이용하여 위조된 데이터를 탐지하거나 적어도 그 진실성에 대해 의심을 품을 수 있습니다.

이 문서에서는 Tableau Desktop과 함께 제공되는 샘플 – 슈퍼스토어 데이터 원본을 사용하여 매출 데이터에 벤포드 법칙을 적용하는 방법을 설명합니다.

이 프로세스에서는 다음을 수행해야 합니다.

  1. 뷰에서 사용할 계산된 필드를 만듭니다.
  2. 뷰를 설정합니다.

다음 섹션에서는 이러한 절차를 나누어 구체적인 안내를 제공합니다.

뷰에서 사용할 계산된 필드 만들기

  1. 분석 메뉴에서 계산된 필드 만들기를 선택하여 계산 에디터를 엽니다. 계산에 Leftmost Integer라는 이름을 지정하고 수식 영역에 다음을 입력하거나 붙여 넣습니다.

    LEFT(STR([Sales]),1)

  2. 두 번째 계산된 필드를 만들고 Benfords Law라는 이름을 지정합니다. 수식 영역에 다음을 입력하거나 붙여 넣습니다.

    LOG(INT([Leftmost Integer])+1)-LOG(INT([Leftmost Integer]))

뷰 설정

  1. 데이터 패널에서 Leftmost Integer로 끌어온 다음 Orders(Count)으로 끌어옵니다.
  2. 행에서 카운트(Orders)를 클릭하고 퀵 테이블 계산 > 구성 비율을 선택합니다.

    이제 뷰에 첫 번째 자리의 분포가 표시되며 왼쪽에서 오른쪽으로 갈수록 작아지는 막대의 크기는 이 사례의 데이터가 벤포드 법칙을 준수한다는 것을 나타냅니다. 하지만 참조 분포를 추가하여 데이터를 더 세분화할 수 있습니다.

  3. 데이터 패널에서 Benfords Law를 마크 카드의 세부 정보로 끌어옵니다. 마크 카드의 Benfords Law를 클릭하고 측정값 > 최소값을 선택합니다.
  4. 데이터 패널에서 분석 패널로 전환하고 분포 구간을 뷰로 끌어온 다음. 에 놓습니다.

    사용자 지정 분포 구간 알약을 뷰로 끌어오고 화살표가 셀 분포 구간을 추가하는 옵션을 가리키고 있는 대시보드입니다.

    참고: 분포 구간은 Tableau 10.2부터 웹 플랫폼에서 지원됩니다.

  5. 참조선, 구간 또는 플롯 편집 대화 상자에서 다음을 수행합니다.
    1. 값 필드를 클릭하여 추가적인 옵션 집합을 표시합니다.

      참조선, 구간 또는 박스 플롯 편집 대화 상자에 참조선 및 구간 계산에 대한 설정이 표시되어 있고, 백분율에 대한 계산 값 옵션이 하이라이트되어 있습니다.

    2. 비율 영역에서 80,100,120을 입력합니다.

      이렇게 하면 80~100% 범위와 100~120% 범위의 구간이 지정됩니다. 다음으로 비율이 참조하는 값을 지정합니다.

    3. 비율 필드에서 MIN(Benfords Law)를 선택합니다.

      이제 값 필드에 80%,100%,120% of Average Min. Benfords Law가 표시되어야 합니다.

    나머지 단계에서는 참조 구간의 모양을 구성합니다.

    1. 레이블없음으로 설정합니다.
    2. 라인을 사용 가능한 가장 얇은 라인으로 설정합니다.
    3. 아래 채우기를 선택합니다.
    4. 채우기에서 신호등을 선택합니다.
    5. 확인을 클릭하여 참조선, 구간 또는 플롯 편집 대화 상자를 종료합니다.
  6. 툴바 단추를 클릭하여 마크 레이블을 표시합니다. 마크 카드에 있는 레이블 추가 아이콘입니다.

최종 뷰는 다음과 같이 표시됩니다.

가장 왼쪽에 있는 정수의 빈도를 표시하는 막대 차트입니다.

Superstore는 데모 데이터이지만 벤포드 법칙을 준수할 만큼 현실적입니다. 첫 번째 자리 숫자의 실제 비율을 나타내는 파란색 막대는 뷰에서 예상되는 벤포드 값을 표시하는 100% 값(분포 구간의 노란색 영역에서 녹색 영역을 구분하는 라인)과 매우 잘 일치합니다.