向視覺效果中新增趨勢線
您可以在視覺效果中顯示趨勢線以反白顯示資料中的趨勢。您可以發佈包含趨勢線的檢視,並且您可以在 Web 上編輯檢視時向檢視新增趨勢線。
向檢視新增趨勢線時,您可以指定期望的外觀和行為。
向檢視中新增趨勢線
向視覺效果中新增趨勢線:
選取 [分析] 窗格。
從 [分析] 窗格將 [趨勢線] 拖到檢視中,然後將其放在 [線性] 、 [對數] 、 [指數] 、 [多項式] 或 [冪次] 模型類型上。
有關其中每個模型類型的詳情,請參閱趨勢線模型類型。
關於新增趨勢線(以及何時無法新增趨勢線)
若要向檢視新增趨勢線,兩個軸必須包含一個可解釋為數字的欄位。例如,您不能向具有 [Product Category] (產品類別)維度的檢視新增趨勢線,該維度在 [欄] 架上和 [列] 架的 [Profit] (利潤)度量上包含字串。不過,您可以向一段時間內的銷售額檢視新增趨勢線,因為銷售額和時間都可以解釋為數位值。
對於多維資料來源,資料階層實際上包含字串而不是數位。因此,不允許使用趨勢線。此外,所有資料來源上的 [m/d/yy] 和 [mmmm yyyy] 日期格式都不允許使用趨勢線。
如果您啟用趨勢線並以不允許使用趨勢線的方式修改檢視,則將不顯示趨勢線。將檢視變更回允許趨勢線的狀態後,趨勢線會重新顯示。
在許多情況下,Tableau 會自動堆疊條標記。不過,無法針對堆疊的條開啟趨勢線。您可透過清除 [分析] > [堆疊標記] 選項來停用堆疊標記。
編輯趨勢線
向視覺效果中新增趨勢線之後,您可以對其進行編輯以適合您的分析。
編輯趨勢線:
在 Tableau Desktop 中:在視覺效果中以右鍵按一下趨勢線,並選取 [編輯趨勢線] 。
在 Web 編輯模式下:
- 在視覺效果中,按一下趨勢線,然後將游標暫留在趨勢線上。
- 在出現的工具提示中,選取 [編輯] 開啟 [趨勢線選項] 對話方塊。
附註:若要在 Tableau Cloud 或 Tableau Server 中編輯趨勢線,您必須有 Web 編輯權限。
您可以在 [趨勢線選項] 對話方塊中設定以下選項:
選取一種模型類型。有關詳情,請參閱趨勢線模型類型。
選取哪些欄位在趨勢線模型中使用因素。有關詳情,請參閱選取哪些欄位在趨勢線模型中使用因素。
- 使用 [允許按色彩繪製趨勢線] 選項來確定是否要排除色彩。當檢視中有色彩編碼時,可使用此選項來新增一條趨勢線,該趨勢線將忽略色彩編碼而對所有資料建模。
確定是否 [顯示信賴區間] 。預設情況下,當您新增趨勢線時,Tableau 信賴區間會顯示上和下 95% 信賴線。[指數] 模型不支援信賴線。
選取是否將 y 截距強制為零。當您需要讓趨勢線從零開始時,此選項十分有用。僅當 [列] 架和 [欄] 架都包含連續欄位(就像散佈圖那樣)時,才能使用該選項。
決定當您在視覺效果中選取或反白顯示資料時是否顯示重新計算的線。
選取哪些欄位在趨勢線模型中使用因素
對於考慮多個欄位的趨勢模型,您可以忽略要作為趨勢線模型中的因素的特定欄位。
想要刪除因素常常是因為希望將該趨勢線模型基於表中的整個列,而不是按某個欄位的成員或值進行劃分。請看以下範例。下面的檢視顯示了按地區劃分的各產品類別的月銷售額。
可以看到,為每個地區分別建立了一個模型。
現在,在 [趨勢線選項] 對話方塊中取消選取作為該模型中的一個因素的 [Region] 以將其移除。
可以看到,一個類別中的趨勢線模型此時在所有地區中相同。這樣,您就可以根據對於所有地區均相同的趨勢線來比較實際銷售額。
移除趨勢線
若要從視覺效果中移除趨勢線,請將其拖離視覺效果區域。您也可以按一下趨勢線並選取 [移除] 。
若要從檢視中移除所有趨勢線,請選取 [分析] > [趨勢線] > [顯示趨勢線] 。
附註:在 Tableau Desktop 中保留了趨勢線選項,因此如果從 [分析] 功能表中再次選取 [顯示趨勢線] ,則選項與上次設定的一樣。不過,如果您在停用趨勢線的情況下關閉工作簿,則趨勢線選項會恢復為預設設定。
檢視趨勢線或趨勢線模型的說明
新增趨勢線後,您可以顯示有關趨勢線的統計資訊。例如,您可以檢視公式以及 r 平方值和 p 值。有關模型類型和說明中使用的術語的詳情,請參閱趨勢線模型術語和趨勢線模型類型部分。
檢視趨勢線的說明:
- 將游標暫留在趨勢線的任何部分上即可檢視其說明。
僅限 Tableau Desktop
- 在視覺效果中以右鍵按一下趨勢線,然後選取 [描述趨勢線] 。
檢視當前檢視中使用的模型的完整說明:
- 在視覺效果中以右鍵按一下趨勢線,然後選取 [描述趨勢模型] 。
趨勢線模型類型
在以下公式中,X 表示解釋變數, Y 表示反應變數。
線性
對於線性模型類型,公式為:
Y = b0 + b1 * X
其中,b1
是斜率,b0
是線的截距。
對數
對於對數模型類型,公式為:
Y = b0 + b1 * ln(X)
由於不能對小於零的數字定義對數,因此在估算模型之前,解釋變數為負的任何標記將會被篩選掉。避免使用會丟棄某些資料的模型,除非您知道篩選掉的資料是無效的。趨勢線描述報告在模型估算之前有多少標記被篩選掉。
指數
對於指數模型類型,公式為:
Y = exp(b0)* exp(b1 * X)
對於指數模型,自然對數在估算模型之前對反應變數進行轉換,因此,透過插入各種解釋性值來尋找 ln(Y)
的值,可找到檢視中繪製的標記。
ln(Y) = b0 + b1 * X
然後,將會取這些值的冪來繪製趨勢線。您看到的是以下形式的指數模型:
Y = b2*exp(b1 * X)
其中 b2
是 exp(b0)
的值。由於不能對小於零的數字定義對數,因此在估算模型之前,反應變數為負的任何標記將會被篩選掉。
冪次
對於冪次模型類型,公式為:
Y = b0 * X^b1
對於冪次模型,兩個變數均由自然對數在估算模型之前轉換,從而組建此公式:
ln(Y) = ln(b0) + b1 * ln(X)
然後,將會取這些值的冪來繪製趨勢線。
由於不能對小於零的數字定義對數,因此在估算模型之前,反應變數或解釋變數為負的任何標記將會被篩選掉。
多項式
對於多項式模型類型,反應變數被轉換為指定度數的多項式系列。公式為:
Y = b0 + b1 * X + b2 * X^2 + …
對於多項式模型類型,您還必須選取介於 2 和 8 之間的 [度] 。較高的多項式度數會放大資料值之間的差異。如果您的資料增加得非常快,與高序項相比,低序項可能幾乎沒有變化,從而使模型無法準確估算。另外,更複雜的高序多項式模型需要更多資料才能進行估算。檢查各個趨勢線的模型描述,看看裡面是否有指示無法使用此類型的準確模型的紅色警告訊息。
趨勢線模型術語
在檢視趨勢線模型的說明時,會列出多個值。本節討論這些值的含義。
模型公式
這是完整趨勢線模型的公式。該公式反映是否已指定從模型中排除因素。
已建模的觀察值數
檢視中使用的列數。
已篩選的觀察值數
從模型中排除的觀察值數。
模型自由度
完全指定模型所需的參數個數。線性、對數和指數趨勢的模型自由度為 2。多項式趨勢的模型自由度為 1 加上多項式的次數。例如,三次方趨勢的自由度為 4,因為我們需要立方、平方、線性和常量項的參數。
殘差自由度 (DF)
對於固定模型,此值定義為觀察數目減去模型中估算的參數數目。
SSE(平方誤差總和)
誤差是觀察值與模型預測值間的差值。在變異數分析表中,此列實際上是特定列中的較簡單模型與使用所有因素的完整模型的 SSE 間的差值。此 SSE 也對應於較小模型與完整模型的預測值的 [差值平方和] 。
MSE(均方誤差)
術語 MSE 是指 [均方誤差] ,即 SSE 量除以其相應的自由度。
R 平方值
R 平方值是對資料與線性模型的適合程度的測量。它是模型錯誤的變異數(或未解釋的變異數)與資料總變異數的比率。
如果 y 截距由模型確定,則使用以下公式派生 R 平方值:
如果 y 截距強制為 0,則改為使用此公式派生 R 平方值:
在後一種情況下,公式將不一定與 Excel 相符。這是因為在這種情況下 R 平方值並不明確,並且 Tableau 的行為與 R(而不是 Excel)的行為相符。
附註:線性趨勢線模型的 R 平方值等於 CORR 函數結果的平方。有關 CORR 的語法和範例,請參閱Tableau 函數(按字母順序)(連結在新視窗開啟)。
標準誤差
完整模型的 MSE 的平方根。模型公式中 [隨機誤差] 的標準差(變化)的估計值。
p 值(顯著性)
具有以上自由度的 F 隨機變數超出變異數分析表的此列中所觀察的 F 的概率。
變異數分析
此表也稱為 ANOVA 表,其中列出了趨勢線模型中各因素的資訊。值就是將不含相關因素的模型與包含所有因素的完整模型進行比較的結果。
各趨勢線
此表提供了有關檢視中每條趨勢線的資訊。透過檢視該清單,您可瞭解哪些趨勢線(如果有)最具有統計顯著性。此表還列出了每條趨勢線的係數統計資料。列描述了每個趨勢線模型中的每個係數。例如,具有截距的線性模型要求每條趨勢線有兩列。在 [線] 欄中,每條線的 p 值和 DF 跨所有係數列。下方的 [DF] 列顯示了估算每條線期間可用的殘差自由度。
項
獨立項的名稱。
值
獨立項係數的估計值。
StdErr
對係數估計的抽樣分佈範圍的度量。此誤差隨估計中使用的資訊品質和數量的增加而減小。
t 值
用於測試 [係數的真實值為零] 這一 null 假設的統計值。
p 值
在係數的真實值為零時觀察到幅值較大的 t 值的概率。因此,p 值 .05 提供了真實值不為零的 95% 信賴。
評估趨勢線顯著性
若要檢視檢視中任意趨勢線的相關資訊,請將游標暫留在趨勢線上:
工具提示中的第一行顯示用於依據 [Year of Order Date] (訂單日期年份)的值計算 [Profit] (利潤)的等式。
第二行 [R 平方值] 顯示由模型解釋的資料中的變異數與資料中的總變異數的比率。有關詳情,請參閱趨勢線模型術語。
第三行 [P 值] 報告第一行中的等式是隨機機會的結果的概率。p 值越小,模型的顯著性就越高。通常認為等於或小於 0.05 的 p 值已足以滿足要求。
整個模型的顯著性
向檢視新增趨勢線後,您通常想要知道模型的擬合優度,這是模型預測品質的一種度量。此外,您還可能對在模型中起作用的各因素的顯著性感興趣。若要檢視這些數字,請開啟 [描述趨勢模型] 對話方塊,在檢視中以右鍵按一下(在 Mac 上,Control + 按一下)並選取 [趨勢線] > [描述趨勢模型] 。
在測試顯著性時,您關心的是 p 值。p 值越小,模型或因素的顯著性就越高。一個模型可能具有統計顯著性,但其包含的單個趨勢線或單個趨勢線的項對總體顯著性不起作用。
在 [趨勢線模型] 下,尋找顯示模型 p 值(顯著性)的趨勢線。p 值越小,帶和不帶相關度量的模型之間未解釋變異數的差異是隨機機會的結果的可能性就越小。
模型的此 p 值對整個模型的擬合度與僅由總平均值(資料檢視中資料的平均值)群組成的模型的擬合度進行比較。即,該值對模型公式中定量項 f(x) 的說明能力進行評估;各因素固定時,該項可以是線性、多項式、指數或對數項。一一般使用 [95% 信賴] 規則來評估顯著性。因此,如上所述,等於或小於 0.05 的 p 值被視為正常。
分類因素的顯著性
變異數分析表(有時稱為 ANOVA 表)中列出了用作模型中的因素的每個欄位。對於每個欄位,您可看到 p 值與其他值一起顯示。在此情況下,p 值指示該欄位對整個模型的顯著性有多大貢獻。p 值越小,帶欄位和不帶欄位元的模型之間未解釋變異數的差異是隨機機會的結果的可能性就越小。針對每個欄位顯示的值是透過將整個模型與不包括相關欄位元的模型進行比較得到的。
下圖顯示了在過去兩年中三個不同產品類別的季度銷售額檢視的變異數分析表。
可以看到, [Category] 和 [Region] 的 p 值都很小。這兩個因素在此模型中都具有統計顯著性。
有關特定趨勢線術語的資訊,請參閱趨勢線模型術語。
對於 ANOVA 模型,趨勢線由數學公式定義:
Y = factor 1 * factor 2 *
...factorN * f(x) + e
Y
項稱為反應變數,對應於嘗試預測的值。X
項是解釋變數,e (epsilon) 是隨機誤差。運算式中的各個因素對應於檢視中的分類欄位。此外,每個因素都表示為一個矩陣。*
是一種特殊的矩陣乘法運算子,它將兩個具有相同列數的矩陣相乘,並返回一個具有相同列數的新矩陣。這意味著,在運算式 factor
1 * factor 2
中,將會引入因素 1 和因素 2 的成員的所有組合。例如,如果因素 1 和因素 2 都有三個成員,則此運算子將在模型公式中引入總共九個變數。
趨勢線假設
Tableau 趨勢線中報告的 p 值取決於一些關於資料的假設。
第一個假設是,每當執行測試時,平均值模型都是(至少大約是)正確的。
第二個假設是,模型公式中引用的 [隨機誤差] (請參閱趨勢線模型類型)在不同的觀察中是獨立的,並且全部具有相同分佈。如果響應變數在一個類別中的真實趨勢線週圍與在另一個類別中相比具有更多變化,就會違反此約束。
計算趨勢線所需的假設
計算(使用普通最小二乘法)每條趨勢線所需的假設包括:
模型是對實際資料組建過程的準確功能簡化(例如,對數線性關係沒有線性模型)。
誤差平均值為零並且與獨立變數無關(例如,沒有測量獨立變數的誤差)。
誤差具有常量變異數並且彼此無關(例如,誤差分佈不隨獨立變數的增加而增加)。
解釋變數不是彼此的精確線性函數(完全多重共線性)。
關於趨勢線的常見問題
本節介紹有關 Tableau 中的趨勢線的一些常見問題。
如何變更模型中使用的信賴等級?
Tableau 不會強制實施信賴等級。它只是透過顯示 p 值來報告整個模型或特定欄位的顯著性。p 值將測量得到相同趨勢結果的概率,而不考慮維度。例如,基於時間的銷售趨勢 p 值 0.05 意味著有 5% 的幾率會得到相同值,而不考慮時間。
模型的 p 值顯著但變異數分析表中特定欄位的 p 值不顯著意味著什麼?
變異數分析表中的 p 值指示欄位是增加還是降低整個模型的顯著性。p 值越小,帶欄位和不帶欄位元的模型之間未解釋變異數的差異是隨機機會的結果的可能性就越小。針對每個欄位顯示的值是透過將整個模型與不包括相關欄位元的模型進行比較得到的。因此,對於模型的 p 值顯著但特定欄位的 p 值不顯著的情況,雖然您知道模型具有統計顯著性,但您不能確信相關的特定欄位對該模型是否有任何改進。此時需要考慮從模型中移除該因素是否會使情況變好。
變異數分析表中特定欄位的 p 值顯著但模型的 p 值不顯著意味著什麼?
在各區中沒有 [趨勢] 時,可能會出現這種情況。例如,線是平坦的,但平均值隨給定因素發生變化。