尋找良好的資料集
瞭解如何使用 Tableau Desktop(或建置範例或概念驗證內容)的好方法是尋找您感興趣的資料集。如果有真正要使用資料回答的問題,分析的步驟會變得更簡單且更具意義。
資料集的真實性
嘗試尋找非官方、非企業認可的資料集時,有兩個不可避免的事實。
您找不到要尋找的目標。
- 請盡量避免對你需要的東西有嚴格的預期。
- 對於指定專案可使用的內容保持彈性和開放的態度。
- 有時所需資料需要收費,請自行判斷是否值得。
您必須清除資料。
- 準備好基本的清除和調整(連結在新視窗開啟),以確保資料的結構良好,以便進行分析
- 可能需要引入其他資料集(連結在新視窗開啟)。
- 擁有資料字典或中繼資料可能至關重要。
- 可能需要使用計算。
良好資料集的構成為何
一個良好的資料集是適合您目的的資料集。只要滿足這項需求,就是好的資料集。但是,有一些注意事項可幫助您清除可能不太適用您目的的資料集。整體而言,尋找滿足以下條件的資料集:
- 包含您需要的元素
- 是分解資料
- 至少有一兩個維度和一兩個度量
- 有良好的中繼資料或資料字典
- 可使用(不是專屬格式、過於雜亂,或過於繁瑣)
Superstore 是 Tableau Desktop 附帶的其中一項範例資料來源。為何它是如此良好的資料集?
- 必要元素:Superstore 具有日期、地理資料、包含階層關聯性的欄位(類別、子類別、產品)、正負(利潤)度量等等。僅使用 Superstore 可製作很多圖表類型,而且可用於示範的功能也很多。
- 分解:列層級資料是交易中的每一個項目。這些項目可以匯總到訂單層級(透過「訂單 ID」),或依任何維度(例如日期、客戶、區域等)進行匯總。
- 維度和度量:Superstore 有數個維度可讓我們依項目(例如類別或城市等)「進行細分」。還有多個度量和日期,為圖表類型和計算提供了可能性。
- 中繼資料:Superstore 有恰當命名的欄位和值。您無需查找任何值的含義。
- 小巧整齊:Superstore 只有幾 MB 而已,所以在 Tableau 安裝程式中佔用的空間很小。它的資料也相當井然有序,每個欄位中只有正確的值和良好的資料結構。
1.良好的資料集具有您所需的元素
如果要查找資料集以建置特定視覺化效果或展示特定功能,請確保資料集具有所需的欄位類型。例如,地圖是不錯的視覺效果,但需要地理資料。基本示範通常涉及向下切入日期,因此資料至少需要一個日期欄位(而且需要比年度更精細的項目,以便顯示向下切入)。並非所有資料集都需要所有這些元素,瞭解您所需的內容,不要浪費時間在缺少關鍵元素的資料集。
用於分析的常見元素:
- 日期
- 地理資料
- 階層式資料
- 「相關」度量:量級或正負值的顯著變化
某些功能或視覺效果類型可能需要資料的特定特性,例如:
- 叢集
- 預測
- 趨勢線
- 使用者篩選器
- 空間計算
- 特定計算
- 子彈圖
- 控制圖
2.良好的資料集是分解(原始)資料
如果過度彙總資料,對分析於事無補。例如,如果您要查看使用 Google 搜尋「Pumpkin Spice」(南瓜香料)的使用者趨勢,但是有年度資料,則只能查看非常高階的概觀。理想情況下,您希望取得每日資料,因此當 Starbucks(星巴克)開始提供 #PSL 時,您會看到巨大的峰值。
怎樣才算是分解,因分析而異。請注意,由於隱私或實用性,某些資料集永遠不會是最為精細。例如,您可能找不到包含瘧疾病例逐案報告的資料集,因此,依區域劃分的每月總計可能足夠精細。
出於種種原因,瞭解彙總和粒度是至關重要的概念;它會影響諸如尋找有用的資料集、建置所需的視覺效果、正確地合併資料,以及使用 LOD 運算式等。彙總和粒度是頻譜的兩端。
彙總是指如何將資料合併在一起,例如對 Pumpkin Spice(南瓜香料)的所有搜尋次數加總,或取得特定日期西雅圖附近所有溫度讀數的平均值。
- 預設情況下,將彙總 Tableau 中的度量。預設的彙總是 SUM。您可以將彙總變更為「平均值」、「中位數」、「不重複計數」、「最小值」等。
粒度是指資料的詳細程度。資料集的列(又稱記錄)代表什麼?是罹患瘧疾的人嗎?是某個省當月的瘧疾病例總數嗎?這就是粒度。了解資料精細度至關重要。
有關詳情,請參閱 Tableau 中的資料彙總。
3.良好的資料集具有維度和度量
許多視覺效果類型需要維度和度量
- 如果只有維度,則主要僅限於計數、計算百分比,或使用「表計數」欄位。
- 如果只有度量,則無法依任何項目劃分值。您可以完全分解資料,也可以使用整體的 SUM 或 AVG 等。
這並非表示只有維度的資料集沒有用處。人口統計資料是大量維度資料的範例,有關人口統計的許多分析都是計數或以百分比為基礎。但是對於分析性較強的豐富資料集,您至少需要幾個維度和度量。
「數字」維度 「連續」度量 「離散」度量
維度和度量
使用資料窗格中的水平線將欄位分成維度和度量。在 Tableau 中,維度本身會顯示在檢視中,而度量會自動彙總;度量的預設彙總為 SUM。
- 維度是定性的,表示它們是描述,而不是測量。
- 維度通常是城市或國家/地區、眼睛顏色、類別、團體名稱等。
- 維度通常是離散的。
- 度量是定量的,表示可測量和記錄(數值)。
- 度量通常是銷售量、高度、點擊次數等。
- 度量通常是連續的。
如果可以對欄位進行數學運算,則應該是度量。如果您不確定欄位應該是度量還是維度,可以想想看是否可以對值進行有意義的數學運算。對於 AVG(RowID)、加總兩個社會安全號碼,或將郵遞區號除以 10,是否有任何意義?沒有。這些維度剛好寫成數字。想想有多少國家有英數字元的郵遞區號,它們只是標籤,即使在美國,也只是數值而已。Tableau 可以識別許多欄位名稱,這些欄位指出數值欄位實際上是 ID 或郵遞區號,並嘗試建立這些維度,但這並不完美。利用「我是否可以對此進行數學運算」測試,判斷數值欄位是度量或維度,並根據需要重新排列資料窗格。
附註:雖然您可以對日期進行數學運算(例如 DATEDIFF 計算),但標準慣例是將日期分類成維度。
離散和連續
離散或連續欄位與維度和度量的概念在某種程度上有些一致,但其實不盡相同。
- 離散欄位包含不同的值。他們在檢視中建立標題或標籤,而且膠囊是藍色的
- 「連續」欄位「構成一個不間斷的整體」。他們在檢視中建立一個軸,而且膠囊是綠色的
瞭解離散和連續的好方法是查看日期欄位。日期可以是離散的,也可以是連續的。
- 查看十年或一個世紀的 8 月平均溫度,就是要使用「8 月」做為離散的定性日期部分。
- 看看自 1960 年以來報告的瘧疾病例總體趨勢,採用單一的連續軸,這表示該日期做為連續的定量值。
有關詳情,請參閱維度和度量(藍色和綠色)。
無論資料集是什麼,Tableau 都將建立至少三個欄位:
- 度量名稱(維度)
- 度量值(度量)
- TableName(Count) (度量)
如果資料集有地理欄位,Tableau 也會建立緯度(產生)和經度(產生)欄位。
「度量名稱」和「度量值」是兩個非常有用的欄位。有關詳情,請參閱度量值與度量名稱。
「資料表」透過列計數提供表的記錄數。這可讓您在資料集中至少有一個度量,並有助於進行一些分析。您必須瞭解資料細微性(列代表的意義),以便定義記錄數代表的意義。
在這裡,每一列為一天,因此記錄數為天數:
在這裡,每一列為一個月,因此記錄數為月數:
4.良好的資料集具有中繼資料或資料字典
只有在瞭解資料是什麼時,資料集才有幫助。在尋找優質資料時,最令人沮喪的莫過於開啟如下所示的檔案:
良好的資料集是妥善標記的欄位和成員或資料字典,因此您可以自行重新標記資料。想想 Superstore,可以很明顯地知道欄位及其值是什麼,例如「Category」(類別)及其成員「Technology」(技術)、「Furniture」(傢俱)和「Office Supplies」(辦公用品)。或者,對於上圖中的微生物資料集,有一個資料字典(連結在新視窗開啟)說明每個「來源」(4 是排泄物,12 是胃),以及每個 OTU 的分類(OTU3 是桿菌屬的細菌)。
資料字典也可以稱為中繼資料、指標、變數定義、術語表或任意數量的其他內容。在一天結束時,資料字典會提供有關欄名稱和欄中成員的資訊。可以透過幾種方式將該資訊帶入資料來源或視覺效果,包括:
- 重新命名欄,以便更容易理解(這可以在資料集本身或 Tableau 中完成)。
- 重新命名欄位成員的別名(這可以在資料集本身或 Tableau 中完成)。
- 建立計算以新增資料字典資訊。
- 對 Tableau 中的欄位新增註解(註解不會顯示在已發布的視覺效果上,只會顯示在製作環境中)。
- 使用資料字典做為另一個資料來源,並合併兩個資料來源。
遺失資料字典會使資料集變得毫無用處。如果要將資料集加入書簽,請同時將資料字典也加入書簽。如果您要下載,請下載兩者,並將其放在相同位置。
5.好的資料集是可以派上用場的資料集
只要您能夠瞭解資料集,而且該資料集具有您所需的資訊,即使是小型資料集也可以對分析產生巨大作用。較小的資料集也易於儲存、共用和發布,而且可能執行成效良好。
同樣地,即使您找到了滿足您需求的「完美」資料集,也需要花費大量的精力進行清除,畢竟這不是完美的。知道何時捨棄過於混雜的資料集非常重要。
例如,此資料集來自關於相對字母頻率的 Wikipedia 文章。開始為 84 列和 16 欄(樞紐分析為 1,245 列和 3 欄)。Excel 檔案是 16KB。但是,透過一些群組、集合、計算,以及其他操作,可進行可靠的分析和有趣的視覺效果。
重新標記您的資料
找到良好的資料集之後,通常需要重新標記該資料集。重新標記資料對於建立範本或概念驗證的假資料,或使資料更具可讀性很有幫助。
「重新命名」欄位會變更欄位在 Tableau 的呈現方式,例如,將「銷售額」重新命名為「管道銷售額」,或將「州」重新命名為「省」。
重新建立別名會變更欄位成員的顯示方式,例如,將「國家/地區」欄位中的值重新建立別名,以便 CHN 變成 China,RUS 變成 Russia。
- 離散維度欄位中的值稱為成員。只能為成員重新建立別名。考慮溫度的度量欄位。如果不變更資料本身,則不能更改 54°F 的值。但是,在「國家/地區」欄位中,為成員「CHN」重新建立別名「China」是相同的資訊,只是用另一種方式進行標記。
重新命名和重新建立別名意味著幾乎相同的事情。Tableau 中的慣例是為欄位命名,為成員建立別名。有關詳情,請參閱在「資料」窗格中組織和自訂欄位以及在檢視中建立別名以重新命名成員。
附註:重新命名或重新建立別名只會變更在 Tableau Desktop 中的顯示方式;不會將任何變更寫回至基礎資料。
重新標記以製作假資料
重新標記現有資料集是讓範例或概念驗證內容更具吸引力的好方法。
- 使用簡單的資料集(如 Superstore)來建置所需的內容(特定的圖表類型、顯示某些功能等)
- 重新命名相關欄位、變更工具提示,否則變更文字方面以掩蓋資料實際表示的內容。
重要資訊:只有在明顯是假資訊時才這麼做。如果人們不認為它是真實資料,並嘗試使用它進行分析時,請務必小心。例如,使用愚蠢的名稱或毫無意義的欄位名稱,例如,顏色或動物。
重新建立別名讓資料更易於使用
將資料儲存為數值而非字串值會更加有效,但數值編碼會使資料更難理解。這一點對於小型資料集而言,可能不會影響效能,因此設定優先順序能夠輕鬆瞭解資料。
重新建立別名的缺點是您無法再存取這些數值(使得排序、指派色彩漸層等操作變得更加困難)。請考慮複製該欄位,並為副本重新建立別名。另外,在 Tableau 中進行計算可能是保留原始資訊的好方法,同時也使其更容易理解。
使用 CASE 函數重新建立別名
計算對於重新建立別名而言,可能是非常強大的功能。例如,CASE 函數實際上允許您以下列方式表示:「當此欄位的值為 A,請給我 X。當值為 B,請給我 Y」。
這裡的 CASE 函數會查看龍捲風資料集的「藤田級數」(F-scale),並提供與每個數值相關聯的寫入描述:
CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END
現在,我們可以在視覺效果中選擇使用原始的「藤田級數」欄位 (0-5),或「藤田級數破壞描述」欄位。
查找資料集時的秘訣
附註:嘗試確保您可以回答出「資料集的列(又稱記錄)代表什麼?」如果您無法清楚地回答這個問題,可能無法充分瞭解資料,以致無法使用它,或者資料結構可能很差,無法進行分析。
- 持續追蹤資料來自何處。
- 透過資料本身隨時更新資料字典資訊。
- 如果您需要內容保持日久彌新的狀態,請避免使用陳舊的資料。查找:
- 可更新的資料(庫存、天氣、定期發布的報告等)
- 恆定資料(各種動物的平均品質不會逐年變化)
- 您可以藉由手動變更為歷史或未來日期,防止資料以後不會過時
- 試著用 Google 簡單地搜尋您要查找的內容,您可能會大吃一驚。
- 如果資料集的準備工作太多,不要害怕放棄。
查找資料的地方
您可以在哪裡查找資料?尋找資料集的地方可能很多。可透過一些選項著手瞭解相關資訊。請注意,資料集的真實性確實適用於這些站台,您現在可能找不到要思考的內容,而且很可能需要做一些清除工作才能備妥資料以進行分析。
免責聲明:儘管我們盡最大努力確保外部網站的連結保持正確、最新並相關,但 Tableau 對於外部提供商所維護的頁面的準確性或新鮮度不擔負任何責任。此處列出的網站不表示認可任何內容或組織。請與外部網站聯絡來獲取其內容相關問題的答案。
Tableau Public(連結在新視窗開啟):Tableau Public 是適用於 Tableau 易記資料集的驚豔資源。搜尋與您感興趣的主題相關聯的工作簿、瀏覽以獲得靈感,然後下載工作簿以存取資料。或查看精心策劃的範例資料(連結在新視窗開啟)。
Wikipedia 表(連結在新視窗開啟):藉由以下方式從 Wikipedia 表中取得資料:複製並貼到試算表、直接複製並貼到 Tableau,或使用 Google sheets 和 IMPORTHTML 函數(連結在新視窗開啟)以建立 Google 資料試算表。
Google Dataset Search(連結在新視窗開啟): "A search engine to unite the fragmented world of online datasets."
Data is Plural(連結在新視窗開啟):訂閱包含資料集的每週電子報,或瀏覽封存(連結在新視窗開啟)。
Makeover Monday(連結在新視窗開啟): “Join us every Monday to work with a given data set and create better, more effective visualizations and help us make information more accessible.”您可以看到其他人使用相同資料集所做的事情、開始進行分析或提供靈感。在 Twitter 使用 #makeovermonday(連結在新視窗開啟) 來參與。
其他網站
- Tableau Web 資料連接器(連結在新視窗開啟)
- Data.world(連結在新視窗開啟) 及其 WDC for Tableau(連結在新視窗開啟)
- Github Open Data(連結在新視窗開啟)
- Kaggle(連結在新視窗開啟)
- datahub.io(連結在新視窗開啟)
- r/datasets(連結在新視窗開啟)
- WHO(連結在新視窗開啟)
- Data.UN.org(連結在新視窗開啟)
- WorldBank(連結在新視窗開啟)
- data.gov(連結在新視窗開啟)、data.gov.au(連結在新視窗開啟)、data.gov.uk(連結在新視窗開啟) 等。
- Airbnb(連結在新視窗開啟)
- Yelp(連結在新視窗開啟)
- Zillow(連結在新視窗開啟)