在資料中尋找叢集
叢集分析將檢視中的標記分為叢集,與其他叢集中的標記相比,每個叢集內的標記彼此更加類似。
有關示範使用範例資料建立叢集的過程的範例,請參閱範例:利用世界經濟指標資料建立叢集。
建立叢集
若要在 Tableau 中尋找檢視中的叢集,請執行以下步驟。
- 建立檢視。
- 從 [分析] 窗格中拖動 [叢集] 並將其放在檢視內的目的地區域中。
您還可以按兩下 [叢集] 以尋找檢視中的叢集。
當您放置或按兩下 [叢集] 時:
- Tableau 在 [色彩] 上建立一個 [叢集] 群組,並按叢集對檢視中的標記著色。如果 [色彩] 中已經存在欄位,則 Tableau 會將該欄位移到 [詳細資料] 上,並在 [色彩] 上將該欄位替換為叢集結果。
Tableau 將檢視中的每個標記指派給其中一個叢集。在某些情況下,與某個叢集不太相符的標記會指派給 [未建立叢集] 叢集。
- Tableau 顯示 [叢集] 對話方塊,您可以在其中自訂叢集。
- Tableau 在 [色彩] 上建立一個 [叢集] 群組,並按叢集對檢視中的標記著色。如果 [色彩] 中已經存在欄位,則 Tableau 會將該欄位移到 [詳細資料] 上,並在 [色彩] 上將該欄位替換為叢集結果。
- 透過在 [叢集] 對話方塊中完成以下任一操作來自訂叢集結果。
- 將新欄位從 [資料] 窗格拖到 [叢集] 對話方塊的 [變數] 區域中。您也可以將欄位拖出 [變數] 區域以將其移除。
當您新增變數時,系統使用欄位的預設彙總來彙總度量;使用 ATTR 來彙總維度,這是 Tableau 彙總維度的標準方法。
若要變更變數的彙總,請以右鍵按一下該變數。
指定叢集的數目(2 到 50)。如果未指定值,Tableau 將自動建立最多 25 個叢集。
- 將新欄位從 [資料] 窗格拖到 [叢集] 對話方塊的 [變數] 區域中。您也可以將欄位拖出 [變數] 區域以將其移除。
- 完成自訂叢集結果的操作時,按一下 [叢集] 對話方塊右上角中的 X 以關閉此對話方塊:
附註: 您可以將叢集欄位從 [色彩] 移到檢視中的另一個架。但是,您無法將叢集欄位從 [篩選器] 架移到 [資料] 窗格。
若要重新命名組建的叢集,您必須先將叢集儲存為群組。有關詳情,請參閱利用叢集結果建立群組和編輯叢集。
叢集約束
叢集在 Tableau Desktop 中可用,但無法用於在 Web(Tableau Server、Tableau Cloud)上製作。如果滿足以下任何條件,叢集也可不可用:
- 使用多維資料集(多維)資料來源時。
- 檢視中存在混合維度時。
- 沒有欄位可用作檢視中叢集的變數(輸入)時。
- 彙總檢視中沒有維度存在時。
如果滿足任何這些條件,則無法將 [叢集] 從 [分析] 窗格拖到檢視中。
此外,以下欄位類型無法用作叢集的變數(輸入):
- 表計算
- 混合計算
- 臨機操作計算
- 組建的緯度/經度值
- 群組
- 集合
- 資料桶
- 參數
- 日期
- 度量名稱/度量值
編輯叢集
若要編輯某個現有叢集,請以右鍵按一下(在 Mac 上按住 Control 按一下) [色彩] 上的 [叢集] 欄位,並選取 [編輯叢集] 。
若要變更用於每個叢集的名稱,您首先需要將 [叢集] 欄位拖到 [資料] 窗格並將其另存新檔為群組。有關詳情,請參閱利用叢集結果建立群組。
以右鍵按一下叢集群組,並選取 [編輯群組] 對每個叢集進行變更。
在 [群組] 清單中選取一個叢集群組,並按一下 [重新命名] 變更名稱。
利用叢集結果建立群組
如果將叢集拖到 [資料] 窗格,則它將成為群組維度,其中的單個成員(叢集 1、叢集 2 等)包含一些標記,叢集演算法已確定與其他標記相比這些標記彼此更加相似。
將叢集群組拖到 [資料] 窗格後,您可以在其他工作表中使用它。
將 [叢集] 從 [標記] 卡拖到 [資料] 窗格,建立一個 Tableau 群組:
利用叢集建立群組後,該組和原始叢集將會分離且不同。編輯叢集不會影響群組,而編輯群組也不會影響叢集結果。此組與任何其他 Tableau 群組具有相同的特徵。它是資料來源的一部分。與原始叢集不同,您可以在工作簿內的其他工作表中使用群組。因此,如果您重新命名儲存的叢集群組,該重新命名操作不會應用於檢視中的原始叢集。請參閱透過將資料分組來糾正資料錯誤或合併維度成員。
將叢集另存新檔為群組時的限制
在以下任何情況下,您無法將叢集儲存到 [資料] 窗格:
- 檢視中的度量已分解,並且用作叢集變數的度量與檢視中的度量不同時。有關詳情,請參閱如何分解資料。
- 您想要儲存的叢集位於 [篩選器] 架上時。
- [度量名稱] 或 [度量值] 位於檢視中時。
- 檢視中存在混合維度時。
重新調整儲存的叢集
將 [叢集] 欄位另存新檔為群組時,會隨其分析模型一起儲存。您可以在其他工作表和工作簿中使用您的叢集群組,但它們不會自動重新整理。
在此範例中,已將儲存的叢集群組及其分析模型應用於其他工作表。因此,某些標記尚未包括在叢集中(由灰色標記表示)。
如果基礎資料發生變化,您現在可以使用 [重新調整] 選項來重新整理和重新計算已儲存叢集群組的資料。
重新調整儲存的叢集
- 在 [資料] 窗格中以右鍵按一下叢集群組,然後按一下 [重新調整] 。
下面是在重新調整儲存的叢集之後更新的叢集的範例:
重新調整儲存的叢集時,將會建立新叢集,並用新的通用叢集別名替換每個叢集群組類別的現有別名。請注意,重新調整儲存的叢集可能會改變使用現有叢集和別名的視覺效果。
叢集的工作方式
叢集分析將檢視中的標記分為叢集,與其他叢集中的標記相比,每個叢集內的標記彼此更加類似。Tableau 使用色彩來區分叢集。
附註:若要更深入瞭解 Tableau 中叢集的工作方式,請參閱部落格文章瞭解 Tableau 10 中的叢集。
叢集演算法
Tableau 使用 k 均值演算法進行叢集。對於給定的叢集數量 k,演算法將資料劃分為 k 個叢集。每個叢集都有一個中心(質心),它是該叢集中所有點的平均值。K 均值反覆運算過程來尋找中心,該程序可最大程度地縮短叢集中各個點與叢集中心之間的距離。在 Tableau 中,您可以指定所需的叢集數,或者讓 Tableau 測試不同的 k 值並給出最佳叢集數建議(請參閱用於確定最佳叢集數的條件)。
K 均值需要叢集中心的初始規範。從一個叢集開始,該方法會選取一個變數,其平均值用作將資料拆分為兩部分的閾值。然後,將使用這兩部分的中心來初始化 k 均值,以優化兩個叢集的成員身份。接著,將選取兩個叢集中的一個用於拆分,並且將選取該叢集內的一個變數,該變數的均值用作將該叢集拆分為兩部分的閾值。然後,使用 K 均值將資料劃分為三個叢集,初始具有拆分叢集的兩部分的中心,以及剩餘一個叢集的中心。在達到設定的叢集數之前,該程序會重複進行。
Tableau 將 Lloyd 的演算法與平方歐氏距離結合使用來計算每個 k 的 k 均值聚類。與拆分過程結合使用來確定每個 k > 1 的初始中心,組建的聚類是確定性的,結果僅取決於叢集數。
該演算法首先選取初始叢集中心:
然後透過將每一項指派給其最近的中心,從而對標記進行分區:
接下來,透過求指派給同一叢集的所有點的平均值來計算每個分區的新中心,從而改善結果。
最後,複查指派給叢集的標記,並重新指派現在比以前更接近於不同中心的任何標記。
此時,叢集會被重新定義並且會以反覆運算方式重新指派標記,直到沒有更多的變化發生為止。
附註:由於技術的根本差異,對於相同資料,在 x64 或 arm64 CPU 上建立的叢集之間可能存在細微差異。
用於確定最佳叢集數的條件
Tableau 使用 Calinski-Harabasz 標準來評估叢集品質。Calinski Harabasz 標準的定義是
其中 SSB 是叢集間總體方差,SSW 是叢集內總體方差,k 是叢集數,N 是觀察次數。
此比率的值越大,叢集的內聚性越高(叢集內方差小)並且單個叢集的離散性/分離性也越高(叢集間方差大)。
由於沒有為 k=1 定義 Calinski-Harabasz 指數,因此無法使用它來檢測一個叢集的情況。
如果使用者未指定叢集數,Tableau 將選取與第一個局部 Calinski-Harabasz 指數最大值對應的叢集數。預設情況下,如果對於某個較小的 k 值未達到第一個局部指數最大值,則將為最多 25 個叢集執行 k 均值。您可以設定最大值 50 個叢集。
附註:如果分類變數(即維度)具有的唯一值超過 25 個,則 Tableau 在計算叢集時會忽略該變數。
哪些值將指派給 [未建立叢集] 類別?
當度量具有 Null 值時,Tableau 會將具有 Null 的列值指派給 [未叢集] 類別。針對 ATTR 返回 *(意味著所有值都不相同)的分類變數(即維度)也未進行叢集。
縮放
Tableau 會自動對值進行縮放,以便大小範圍較大的列不會影響結果。例如,分析師可能會使用通脹和 GDP 作為叢集的輸入變數,但是由於 GDP 值以萬億美元為單位,這可能會導致通脹值在計算中幾乎完全被忽視。Tableau 使用一種稱為最小值-最大值標準化的縮放方法,在這種方法中,每個變數的值將透過減去最小值並除以其範圍來對應為 0 和 1 之間的值。
用於叢集的統計模型的相關資訊
[描述叢集] 對話方塊提供有關 Tableau 為叢集計算的模型的資訊。您可以使用這些統計資料來評估叢集的品質。
當檢視包括叢集時,透過以右鍵按一下(在 Mac 上按住 Control 按一下) [標記] 卡上的 [叢集] ,並選取 [描述叢集] ,您可以開啟 [描述叢集] 對話方塊。[描述叢集] 對話方塊中的資訊是唯讀的,不過,您可以按一下 [複製到剪貼簿] ,然後將螢幕內容貼上到可寫文件中。
描述叢集 - [摘要] 索引標籤
[摘要] 索引標籤標識用於組建叢集的輸入,並提供一些描述集群特徵的統計資料。
叢集輸入
變數
標識 Tableau 計算叢集所使用的欄位。這些欄位是 [叢集] 對話方塊內 [變數] 方塊中列出的欄位。
詳細資料層級
標識構成檢視詳細資料層級的欄位 - 即確定彙總層級的欄位。有關詳情,請參閱維度會對檢視中的詳細層級產生怎樣的影響。
縮放
標識用於預處理的縮放方法。目前是,[標準化] 是 Tableau 使用的唯一縮放方法。此方法的公式(也稱為最小值-最大值標準化)為 (x – min(x))/(max(x) - min(x))
。
摘要診斷
叢集數
叢集中的單個叢集數。
點數
檢視中的標記數。
群組間平方和
此指標將叢集間隔量化為每個叢集的中心(平均值,透過指派給叢集的資料點數加權)與資料集中心之間的平方距離總和。此值越大,叢集之間的間隔就越好。
群組內平方和
此指標將叢集內聚性量化為每個叢集的中心與叢集中單個標記之間的平方距離總和。此值越小,叢集的內聚性就越高。
總平方和
計算群組間平方和與組內平方和的總和。(群組間平方和)/(總平方和)的比率提供模型所解釋的差值百分比。值介於 0 和 1 之間;值越大,通常表明模型越好。但是,您只需增加叢集數便可提高此比率,因此,如果只使用此值將五叢集模型與三叢集模型進行比較,將可能會產生誤導。
叢集統計資料
對於叢集中的每個叢集,系統提供了以下資訊。
項數
叢集中的標記數。
中心
每個叢集(針對數位項而顯示)內的平均值。
最常用
每個叢集(僅針對類別項而顯示)內的最常用值。
描述叢集 - [模型] 索引標籤
方差分析 (ANOVA) 是統計模型及關聯程式的集合,用於分析已分區為群組或叢集的觀察值內和觀察值之間的差值。在這種情況下,將會為每個變數計算方差分析,並且組建的方差分析表可用於確定對於區分叢集最有效的變數。
叢集的相關方差分析統計資料包括:
F 統計資料
單向或單因素 ANOVA 的 F 統計資料是變數所解釋的方差分數。它是組間方差與總方差的比率。
F 統計資料越大,在叢集之間就能更好地區分對應變數。
p 值
p 值是指 F 統計資料所有可能值的 F 分佈的值大於變數實際 F 統計資料的概率。如果 p 值低於指定的顯著性水準,則可以拒絕零假設(變數的單獨元素是單個群體的隨機樣本)。此 F 分佈的自由度為 (k - 1, N - k,其中 k 是叢集數,N 是已建立叢集的項數(列數)。
p 值越低,對應變數的元素的預期值在叢集之間的區別就越大。
模型平方和及自由度
模型均方值是群組間平方和與模型自由度的比率。群組間平方和是對叢集均值之間差值的度量。如果叢集均值彼此很接近(因此與總均值也很接近),則值將很小。模型的自由度為 k-1,其中 k 為叢集數。
誤差平方和及自由度
誤差平方和是群組內平均和與誤差自由度的比率。群組內平方和測量每個叢集內的觀察值之間的差值。誤差的自由度為 N-k,其中 N 是已建立叢集的總觀察值數(列數),k 為叢集數。
可以將誤差平方和看作是總體均方誤差,並假定每個叢集中心都表示每個叢集的 [真實值] 。
範例:利用世界經濟指標資料建立叢集
Tableau 叢集功能將檢視中的標記分為叢集,與其他叢集中的標記相比,每個叢集內的標記彼此更加類似。此範例示範研究員如何使用叢集在資料來源中尋找一組最佳的標記(本例中為國家/地區)。
目標
隨著全球範圍平均壽命的增長,並且老年人保持更加積極的生活狀態,對於知道如何發現潛在客戶並投其所好的公司而言,老年旅遊可能是一個有利可圖的市場。Tableau 附帶的世界指標樣本資料集含有這種資料,可能有助於公司找出有足夠適當種類客戶的國家或地區。
尋找合適的國家/地區
以下的範例示範 Tableau 叢集如何能幫助此類公司找出銀髮族旅遊業務可能會獲得成功的國家/地區。假設您是分析人員。以下是您可執行的步驟。
- 在 Tableau Desktop 中開啟世界指標範例資料來源。
- 在「資料」窗格中按兩下「國家/地區」。
Tableau 會自動建立地圖檢視,且每個國家/地區一個標記。
- 在 [標記] 卡上,將標記類型變更為 [地圖] :
現在,您應該會看到一個以純色填充所有國家/地區的地圖投影:
- 下一步是確定您將用作叢集變數的欄位。下面是您選取的欄位:
欄位 包含該欄位的原因 Life Expectancy Female 和 Life Expectancy Male 人們的壽命越長,就越有可能對在晚年外出旅遊感興趣。 Population Urban 在人口密度更大的地區進行服務行銷更容易。 Population 65+ 目標群體是有時間和資金外出旅遊的老年居民。 TourismPerCapita 這是您必須作為命名計算欄位建立的度量。公式為:
SUM([Tourism Outbound])/SUM([Population Total])
Tourism Outbound 將彙總一個國家/地區的居民每年在國際旅遊上所花的費用(以美元為單位)。但是,此總金額必須除以每個國家/地區的人口,才能判別出每位居民在國際旅遊上花費的平均金額。
我們不能保證這些欄位是可選取的理想欄位,也不能保證這些欄位組建的叢集結果清晰明瞭。建立叢集是一種反覆運算過程 — 實驗帶來發現,而發現反過來又會帶來更多實驗。
- 將這五個欄位從 [資料] 窗格拖到 [標記] 卡上的 [詳細資料] 。
- 按一下以開啟 [分析] 窗格:
從 [分析] 窗格中拖動 [叢集] 並將其放在檢視中:
Tableau 將顯示 [叢集] 對話方塊,並將檢視中的度量新增到變數清單:
它還會將叢集新增到 [色彩] 以更新檢視。在本例中,Tableau 發現了兩個不同的叢集,且無法將某些國家/地區(紅粉色)指派給任一叢集:
附註:有關 Tableau 指派給 [未建立叢集] 的資料的詳細資料,請參閱叢集的工作方式。
- 您認為兩個叢集不夠,因為您沒有資源在全球一半的國家/地區開店。因此您在 [叢集] 對話方塊的 [叢集數] 欄位中鍵入
4
。地圖變得更加有趣:
但這些叢集與您選取的變數有何關係?哪個叢集與支援老年旅遊的因素最相關?是時候看看叢集背後的統計資料了。
- 按一下 [叢集] 對話方塊右上角的 X 將其關閉:
- 按一下 [標記] 卡上的 [叢集] 欄位,並選取 [描述叢集] 。
[描述叢集] 對話方塊中 [模型] 索引標籤底部的表顯示每個叢集中每個變數的平均值:
叢集 4 的平均壽命最高(男性和女性均如此)、城市人口集中度最高,並且國際旅遊的花費最高:人均 1360.40 美元。叢集 4 不具有最高值的唯一變數是 [Population 65+] (65 歲以上人群),在這一變數中,叢集 3 具有優勢:在叢集 4 中為 0.15493(略低於 16%)至 0.11606(略高於 11%)。
叢集演算法不知道您是在尋找這些變數的最大值、最小值還是中間值,它只會尋找關聯。但您知道,這些變數的較高值就是您所尋找的信號,叢集 4 就是最佳選取。
- 您可能會嘗試從地圖中挑選叢集 4 的國家/地區,但還有更輕鬆的方式。關閉 [描述叢集] 對話方塊,然後在 [色彩] 圖例上按一下 [Cluster 4] (叢集 4),並選取 [只保留] 。
- 從 [顯示] 中選取文字表。
您現在會看到叢集 4 中國家/地區的清單:
此清單不代表流程結束。您可以嘗試使用一組稍有不同的變數以及一些不同的叢集再次建立叢集;或者,您可以根據其他因素在清單中新增一些國家/地區,並移除其他國家/地區。舉例來說,如果您主要經營熱帶地區旅遊,則可以從清單中移除如庫拉索島和巴哈馬群島等國家/地區,因為熱帶旅遊對於這些國家/地區的居民可能沒有吸引力。
另一個選項是在重新建立叢集之前篩選資料,以便僅顯示人口大於特定閾值的國家/地區,或者將目標鎖定為位於特定地理區域的國家/地區。