選擇預測值
使用 Tableau 中的預測建模函數建立預測計算時,您需要選擇預測值。提醒一下,預測值是輸入變數,其值用於預測結果變數,又稱為目標或回應。通常,您將使用您擁有豐富知識領域的資料,並且熟知哪些欄位與預測目標密切相關,而且會成為良好的預測值。但是,最好花時間評估預測值,並確保您明智地選擇這些預測值。您經常想要包含至少一個預測值,而且通常不只一個。
首先,選取您的目標。這聽起來很明顯,但重要的第一步是,確保根據您要預測的內容來選取預測值。例如,與女性預期壽命最相關的領域以及與男性預期壽命最相關的領域可能大不相同。同樣地,與銷售額最相關的領域以及與利潤最相關的領域也可能大不相同。
另外需要注意的預設值是,預測建模函數使用線性回歸做為基礎統計模型。利用此模型,最相關的預測值是那些與目標具有線性關係的預測值。有關使用其他受支援模型的資訊,請參閱選擇預測模型。
為了深入瞭解如何針對您要回答的問題選擇最佳預測值,讓我們看看女性預期壽命資料。若要繼續進行,請從 Tableau Public 下載以下工作簿:為您的預測選擇預測值。
做為預測值的度量
使用度量做為預測值時,可以使用 Tableau 評估其與目標的關聯性。其中一種方法是建立散佈圖。以下,我們將某個國家/地區的女性預期壽命中位數與其他各種度量進行比較。
對於某些度量,例如,嬰兒死亡率和出生率,與「女性預期壽命」有明顯的負相關,從散佈圖的負斜率可以看出。對於其他度量,就不太明顯了。不過,有一點我們可以清楚地看到,GDP 中位數、行動電話使用量中位數,以及平均每人醫療支出中位數呈現 L 型分佈。此 L 形分佈通常表示使用對數轉換有助於更準確地分析您的資料。另一個線索是所有欄的值是否都是正值。在 Tableau 中,您可以藉由編輯膠囊,並將運算式包裝在 LOG 函數中,以使用對數轉換:
這是我們從 L 型分佈(很難區分標度的極值)變成更平均的分佈,該分佈受到標度極值的壓縮較少。
對其他 L 型分佈重複此操作,我們得到以下結果:
決定係數,或 R 平方值
標記越趨近於直線,兩個度量之間的相關性越高。為了幫助評估相關性,您可以新增趨勢線。從「分析」窗格中,將「趨勢線」拖曳到檢視中,並將其放在「線性」中。將游標懸停在趨勢線上可讓您知道 R 平方值或決定係數,該係數表示有多少應變數(目標)是根據自變數(預測值)解釋的。R 平方值接近 1 的預測變數優於 R 平方值接近 0 的預測值。
我們可以從散佈圖看到女性預期壽命中位數的最佳預測值是嬰兒死亡率中位數,其 R 平方值為 0.87:
其他良好預測值為「出生率中位數」(R 平方 = 0.76),以及「平均每人醫療支出中位數」的對數轉換(R 平方 = 0.56)。
在下圖中,我們將「女性預期壽命中位數」對應「女性預期壽命中位數」進行視覺化,產生的視覺效果是一條 45° 角的完美直線:正如所期望的,X 軸上的值與 Y 軸上的值之間有完全相關,其 R 平方值為 1:
但是,如下圖所示,即使 LOG(MEDIAN([GDP])) 的斜率趨勢線比其他趨勢線陡,它的低 R 平方分數也只有 0.169。這是因為該窗格的 X 軸比例所致:
此外,讓我們來看看幾個標記如何大幅影響趨勢線的斜率。放大「營業稅率中位數」的散佈圖,我們可以看到,大部分標記的稅率介於 0 到 1 左右,有六個國家/地區的稅率較高,介於 2 到 3 之間。所有標記的 R 平方值為 0.0879:
但是,讓我們看看如果移除六個標記的叢集會發生什麼情況:
趨勢線幾乎走平,而且 R 平方值落在 0.0006:表示「營業稅率中位數」與「女性預期壽命中位數」之間基本上沒有相關性。當您將資料視覺化,並使用良好的統計方法選取預測值時,必須仔細考量是否有任何離群值或其他資料特性可能會影響您的結論。
做為預測值的維度
使用維度做為預測值時,您可以使用類似的程序來決定相關性。但是,您可能會發現不同維度與目標的關係層級之間存在顯著差異。例如,依「區域」細分時,某個區域可能是非常好的目標預測值,但另一個區域的相關性可能明顯較低。這並非表示您不應該使用該維度做為預測值,但您可能需要考慮使用其他度量或維度是否有助於改善模型,進而有助於改善您的預測。
由於我們已確定資料集的最佳預測值為「嬰兒死亡率中位數」、「出生率中位數」,以及「平均每人醫療支出中位數」的對數轉換,因此,我們將視覺效果限制在這三個變數中:
接著,讓我們藉由將「區域」新增至「標記」卡片上的「色彩」來分區資料,看看視覺效果發生什麼情況:
比較預測值之間的 R 平方值
讓我們看看每個預測值的每個「區域」趨勢線,其 R 平方值如何進行比較:
在上表中,每個預測值的最低 R 平方值以紅色醒目顯示,第二低的 R 平方值以黃色醒目顯示。
歐洲的「嬰兒死亡率中位數」和「出生率中位數」的 R 平方值最低,而非洲「平均每人醫療支出中位數」(以紅色醒目顯示)對數轉換的 R 平方值最低。非洲「嬰兒死亡率中位數」和「出生率中位數」的 R 平方值也較低。
新增維度可以為模型提供更多的資訊,而新增更多資訊可以提高預測的品質。然而,在給定的細分中(在此案例中為「區域」),預測品質可能提升或下降。在某些情況下,您可能希望根據適用於該群組的最佳預測值的度量,為每個細分建立單獨的模型。
在此情況下,「嬰兒死亡率」與所有區域的「女性預期壽命」有相當強的相關性,儘管在非洲和歐洲的相關性較弱;「出生率中位數」對於大洋洲和亞洲是很好的預測值,但與歐洲的「女性預期壽命」幾乎沒有相關性,而「平均每人醫療支出中位數」的對數轉換對於非洲以外的所有區域皆為合理的預測值。我們可以預計,使用所有四個預測值(「嬰兒死亡率」、「出生率」、「對數(醫療支出)」,以及「區域」)建立的模型對於歐洲和非洲國家/地區的預測最不準確;建議深入剖析資料,看看是否有其他或替代的預測值可用於建立更適合歐洲和非洲的模型。
建立您的預測建模函數
現在,我們已經找到了良好的預測值,我們可以建立並套用預測建模函數來看看它的實際效果。
開啟頂端的「分析」功能表,然後選取「建立導出欄位」。
在「計算編輯器」中,命名計算,執行以下操作:
命名計算:Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region
輸入以下公式:
MODEL_QUANTILE(0.5,MEDIAN([Life Expectancy Female]),
LOG(MEDIAN([Health Exp/Capita])),
MEDIAN([Birth Rate]),
MEDIAN([Infant Mortality Rate]),
ATTR([Region]))
此計算將根據我們選取的下列項目,傳回模型化的女性預期壽命中位數範圍的中位數值 (0.5):「醫療支出」、「出生率」、「嬰兒死亡率」,以及「區域」。
接下來,讓我們建立一個散佈圖,同時顯示實際的女性預期壽命中位數和預測的女性預期壽命中位數:
太好了!這些預測與每個區域的實際值幾乎一致。
但是,讓我們再來一次,算出偏離標記最遠的預測。建立另一個計算,稱為 Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region,如下所示:
MEDIAN([Life Expectancy Female]) - [Quantile_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
此殘差計算將傳回預測中位數和實際中位數之間的差,幫助我們瞭解性預期壽命實際中位數和預期中位數之間差異最大的國家/地區。
接下來,讓我們將殘差計算套用至「色彩」:
您可以在上述視覺效果中發現,大多數國家/地區(在大多數區域)的預測值和實際值之間的差異很小。非洲是國家/地區數量最多,差異最大的區域,但讓我們再做一輪,看看我們發現什麼樣的差異。
您可以發現差異範圍介於 -17 到 +9 之間,所以讓我們把視覺效果分成差異小於 ±3 年、差異小於 ±5 年、差異小於 ±10 年,以及差異超過 ±10 年的群組。
再建立另一個計算,稱為 Grouped_Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region,如下所示:
IF [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
<= 3
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region]
>= -3
THEN
"±3"
ELSEIF
[Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 5
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -5
THEN
"±5"
ELSEIF
[Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] <= 10
AND [Residual_LifeExpFemale_HealthExpend,BirthRate,Mortality,Region] >= -10
THEN
"±10"
ELSE
"> ±10"
END
同樣地,讓我們將計算新增至「色彩」:
請注意,絕大多數 3 年內的預測都是不正確的,只有一小部分 10 年以上的預測會偏離。整體而言,相當不錯!
這表示使用此模型可讓我們準確識別女性預期壽命中位數為離群值的國家/地區,或為缺少這些資料的國家/地區提供模型化的女性預期壽命。