資料詮釋如何運作
使用「資料詮釋」功能做為增量的出發點,進一步探索資料。此功能所產生的可能詮釋可協助您查看構成檢視中已分析標記或與其相關的不同值。此功能使用統計模型,可告訴您資料來源中資料點的特性,以及資料之間的可能關係(相關性)。這些詮釋提供您其他工具來檢查資料,並尋找下一步探索目標的有趣線索。
附註:「資料詮釋」是找出並說明資料關聯性的工具。它無法告訴您造成這種關係的成因或如何解讀資料。您才是資料的專家。您的專業領域知識和直覺是協助您決定運用不同檢視來進一步探索可能相關之特性的關鍵。
有關「資料詮釋」如何運作以及如何使用「資料詮釋」以增強分析的詳情,請參閱以下「Tableau 大會」簡報:
資料詮釋是(以及不是)
資料詮釋是:
- 利用您領域專業知識的工具和工作流程。
- 一種顯示資料中的關係並建議下一步查看位置的工具。
- 有助於加快資料分析並且讓更廣泛的使用者可存取資料分析的工具和工作流程。
資料詮釋不是:
- 統計測試工具。
- 證明或反駁假設的工具。
- 可為您提供答案或告訴您資料中因果關係之任何資訊的工具。
在標記上執行「資料詮釋」時,請記住以下幾點:
使用可以彙總的精細資料。此功能是特別針對彙總資料的分析所設計。這表示您的資料必須很精細,但是您選取用於「資料詮釋」功能的標記必須在更高的細節層級彙總或摘要。「資料詮釋」功能無法在分解的標記(列層級資料)上以最精細的細節層級執行。
考量資料的型態、大小及基數。雖然「資料詮釋」功能可以用於較小的資料集合,但它需要的資料範圍要夠寬廣,而且包含足夠的標記(粒度),才可以建立模型。
不要假設因果關係。相關性並不代表因果關係。詮釋是根據資料模型而得,但這並不是因果關係。
關聯性表示某些資料變數之間存在的關係,例如 A 和 B。您無法僅從資料看出 A 導致 B 或 B 導致 A 的關係,或者實際上有更複雜的情況。每種情況下的資料模式都是完全相同的,並且演算法無法區分每種情況之間的差異。因為兩個變數一起變更並不意味著其中一個變數會導致另一個變數變更。可能有第三個因素導致二者變更,或者只是巧合,根本沒有任何因果關係。
但有時您會擁有超出資料範圍的外部知識,可幫助您確定具體情況。一種常見的外部知識類型是在實驗中收集資料的情況。如果您知道 B 是透過擲硬幣選出來的,則 A 中任何一致的差異模式(不是隨機雜訊)必然是由 B 導致的。有關這些概念的更詳細深入的介紹,請參閱 Hal Varian 發布的經濟與行銷因果推論(連結在新視窗開啟)一文。
詮釋如何分析和評估
資料詮釋在儀表板或工作表上執行統計分析,以查找極端值標記,或者專門針對您選取的標記執行分析。分析還會考慮目前檢視中未表示的資料來源中可能相關的資料點。
「資料詮釋」功能一開始只會使用視覺效果中顯示的資料,來預測標記的值。接下來才會考量資料來源中的資料(但資料不在目前檢視中),並新增至模型。此模型決定預測標記值的範圍,其在預測值的一個標準差內。
什麼是預期範圍?
標記的預期值是視覺效果中基礎資料預期值範圍的中位數。預期範圍是統計模型為分析標記預測的第 15 個和第 85 個百分位數之間的數值範圍。Tableau 每次對選定標記執行統計分析時都會確定預期範圍。
系統會使用統計模型,以詮釋力來評估可能的詮釋。對於每個詮釋,Tableau 會比較期望值與實際值。
value | 說明 |
---|---|
高於預期 / 低於預期 | 如果期望值摘要指出標記低於預期或高於預期,表示彙總的標記值落在統計模型針對標記預測的標記值範圍之外。如果期望值摘要指出標記略低於或略高於預期,或是在自然的變異範圍中,表示彙總標記值落在預測的標記值範圍內,但低於或高於中位值。 |
期望值 | 若標記具有預期值,則表示其值落在統計模型為該標記預測的預期值範圍內。 |
隨機變異 | 當分析標記的記錄數較少時,可能沒有足夠的資料可供「資料詮釋」來形成具有統計意義的詮釋。如果標記的值超出預期範圍,「資料詮釋」無法確定此意外值是由隨機變化引起的還是由基礎記錄中有意義的差異引起的。 |
沒有詮釋 | 當分析標記值超出預期範圍並且不符合用於「資料詮釋」的統計模型時,不會產生詮釋。 |
用於分析的模型
「資料詮釋」功能會為檢視中的資料建立模型,以預測標記值,然後確定標記是否高於或低於給定模型預測值。接下來,它會考量其他資訊,例如從資料來源新增其他欄到檢視,或標示記錄層級的異常值,做為可能的詮釋。對於每個可能的詮釋,「資料詮釋」功能會套用新模型,並評估在加入新資訊的情況下,標記不符預期的程度為何。系統會在複雜程度(從資料來源新增多少資訊量)和需要詮釋的變異量之間權衡,以為詮釋計分。更好的詮釋是比其詮釋的變異更簡單。
詮釋類型 | 評估 |
---|---|
極值 | 根據視覺化標記的模型,極值是異常值的彙總標記。如果一個記錄值位於資料期望值分配的尾端,則所選標記會被視為包含極值。 比較有極值和無極值的彙總標記來確定極值。如果移除極值會讓標記較不突兀,則此值會獲得較高的分數。 當標記包含極值時,並不自動意味著其是異常值,或者您應將那些記錄排除在檢視之外。您需要根據分析作出自己的決定。詮釋只是指出標記中存在相關的極值。例如,它可以揭示記錄中誤輸入的值,比如香蕉花費 10 美元而不是 10 美分。或者,它可以揭示某個銷售員的季度銷售業績很好。 |
記錄數 | 記錄數詮釋根據彙總計數對彙總總和進行建模;記錄的平均值根據彙總平均值對其進行建模。模型對總和的詮釋越好,分數就越高。 此詮釋會說明總和是否因為計數過高或過低,或平均值過高或過低,而成為相關值。 |
標記的平均值 | 這種類型的詮釋是用於屬於總和的彙總標記。它詮釋了標記是否與其他標記一致,因為就其彙總計數或平均值而言,注意關係 SUM(X) = COUNT(X) * AVG(X)。 此詮釋會說明總和是否因為計數過高或過低,或平均值過高或過低,而成為相關值。 |
具有影響的維度 | 該詮釋根據未視覺化維度的類別之間的細分對分析標記的目標量值進行建模。分析平衡了模型的複雜性和對標記的詮釋程度。 未視覺化維度是資料來源中存在,但目前並未用於檢視中的維度。這種類型的詮釋是用於總和、計數與平均值。 未視覺化維度的模型,是根據詮釋欄的類別值來拆分標記,然後以包含來源視覺化中所有資料點的數值來建立模型。對於每一列,模型會嘗試復原組成標記的每一個個別元素。與使用未視覺化維度值未知的模型相比,當將對應未視覺化維度的組件進行建模並相加時,分析可以指示模型是否能夠更好地預測標記。 彙總維度詮釋會探索在沒有任何條件下,可以詮釋標記數值的程度有多高。接著,模型會以可能詮釋的各欄數值為條件。在詮釋欄分配上加上條件,應可得到更好的預測。 |
具有影響的度量 | 此詮釋根據這種未視覺化的度量對標記建模,彙總為其跨視覺化維度的平均值。未視覺化量值是資料來源中存在,但目前並未用於檢視中的量值。 具有影響的度量詮釋可以顯示未視覺化量值與目標量值之間的線性或二次關係。 |