Aggiungere linee di tendenza a una visualizzazione
Puoi visualizzare le linee di tendenza in una vista per evidenziare le tendenze dei dati. Puoi pubblicare una vista contenente linee di tendenza e aggiungere linee di tendenza in una vista man mano che viene modificata sul Web.
Quando si aggiungono linee di tendenza a una vista, è possibile specificare le modalità di visualizzazione e comportamento.
Aggiungere linee di tendenza a una vista
Per aggiungere una linea di tendenza a una vista:
Seleziona il riquadro Analisi.
Dal riquadro Analisi, trascina la Linea di tendenza nella vista, quindi rilasciata sul tipo di modello Lineare, Logaritmico, Esponenziale, Polinomico o Power.
Per maggiori informazioni su ognuno di questi tipi di modelli, consulta Tipi di modello di linea di tendenza.
Informazioni sull’aggiunta di linee di tendenza (nonché su quando non è possibile aggiungerle)
Per aggiungere linee di tendenza a una vista, entrambi gli assi devono contenere un campo che può essere interpretato come numero. Ad esempio, non è possibile aggiungere una linea di tendenza a una vista caratterizzata dalla dimensione Categoria prodotto, che contiene stringhe, sullo spazio Colonne e sulla misura Profitto nello spazio Righe. È tuttavia possibile aggiungere una linea di tendenza a una vista di vendite nel tempo, poiché sia le vendite che il tempo possono essere interpretati come valori numerici.
Per le origini dati multidimensionali, le gerarchie di date contengono effettivamente stringhe anziché numeri. Di conseguenza, le linee di tendenza non sono consentite. Inoltre, i formati data 'm/g/aa' e 'mmmm aaaa' in tutte le origini dati non consentono linee di tendenza.
Se hai attivato le linee di tendenza e modifichi la vista in un modo in cui le linee di tendenza non sono consentite, le linee di tendenza non vengono visualizzate. Quando riporti la vista in uno stato che consente le linee di tendenza, queste ultime vengono visualizzate nuovamente.
Tableau impila automaticamente gli indicatori delle barre in molti casi. Non è tuttavia possibile attivare le linee di tendenza per le barre impilate. È possibile disattivare gli indicatori impilati deselezionando l’opzione Analisi > Impila indicatori.
Modificare una linea di tendenza
Dopo aver aggiunto una linea di tendenza alla vista, è possibile modificarla per adattarla all’analisi.
Per modificare una linea di tendenza:
In Tableau Desktop: fai clic con il pulsante destro del mouse su una linea di tendenza nella vista e seleziona Modifica linee di tendenza.
In modalità di editing Web:
- Nella vista, fai clic sulla linea di tendenza e quindi sposta il cursore su di essa.
- Nelle informazioni visualizzate, seleziona Modifica per aprire la finestra di dialogo Opzioni linea tendenza.
Nota: per modificare una linea di tendenza in Tableau Cloud o Tableau Server, è necessario disporre delle autorizzazioni di modifica sul web.
Nella finestra di dialogo Opzioni linea di tendenza puoi configurare le seguenti opzioni:
Selezionare un tipo di modello. Per maggiori informazioni, consulta Tipi di modello di linea di tendenza.
Selezionare i campi da utilizzare come fattori del modello della linea di tendenza. Per maggiori informazioni, consulta Scegliere i campi da utilizzare come fattori del modello della linea di tendenza.
- Decidere se escludere il colore utilizzando l’opzione Consentire una linea di tendenza per colore. Se nella vista sono presenti codifiche del colore, è possibile utilizzare questa opzione per aggiungere una singola linea di tendenza che consente di modellare tutti i dati, ignorando la codifica del colore.
Decidere se Visualizzare le fasce di attendibilità. Le fasce di attendibilità di Tableau mostrano le linee di attendibilità superiore e inferiore del 95% per impostazione predefinita quando si aggiungono linee di tendenza. Le linee di attendibilità non sono supportate per modelli Esponenziali.
Selezionare se desideri Forzare l’intercetta su zero. Questa opzione è utile quando si desidera che la linea di tendenza inizi sullo zero. Questa opzione è disponibile solo quando lo spazio Righe e lo spazio Colonne contengono un campo continuo, come nel caso di un grafico a dispersione.
Decidere se visualizzare le linee ricalcolate quando si selezionano o si evidenziano i dati nella vista.
Scegliere i campi da utilizzare come fattori del modello della linea di tendenza
Per i modelli di tendenza che prendono in considerazione più campi, è possibile eliminare campi specifici come fattori nel modello della linea di tendenza.
Spesso si desidera rimuovere i fattori perché si desidera che il modello della linea di tendenza sia basato sull’intera riga della tabella anziché essere suddiviso dai membri o dai valori di un campo. Prendi in considerazione l’esempio seguente: La vista seguente mostra le vendite mensili per varie categorie di prodotti, suddivise per regione.
Puoi vedere che per ogni regione è stato creato un modello distinto.
Ora rimuovi Regione come fattore nel modello deselezionandolo nella finestra di dialogo Opzioni per le linee di tendenza.
Puoi vedere che il modello della linea di tendenza all’interno di una categoria è ora lo stesso in tutte le regioni. Ciò consente di confrontare le vendite effettive rispetto a una linea di tendenza che è uguale per tutte le regioni.
Rimuovere linee tendenza
Per rimuovere una linea di tendenza da una vista, trascinarla allontanandola dall’area della vista. È inoltre possibile fare clic su una linea di tendenza e selezionare Rimuovi.
Per rimuovere tutte le linee di tendenza dalla vista, seleziona Analisi >Linee di tendenza >Mostra linee di tendenza.
Nota: in Tableau Desktop, le opzioni della linea di tendenza vengono mantenute in modo che se si sceglie di nuovo Mostra linee di tendenza dal menu Analisi, le opzioni sono impostate all’ultima impostazione. Se tuttavia si chiude la cartella di lavoro con le linee di tendenza disattivate, le opzioni delle linee di tendenza vengono ripristinate alle impostazioni predefinite.
Vedere una descrizione di una linea di tendenza o di un modello di linea di tendenza
Dopo aver aggiunto le linee di tendenza, è possibile visualizzare le statistiche sulla linea di tendenza. Ad esempio, è possibile vedere la formula e i valori del coefficiente di determinazione e p. Per maggiori informazioni sui tipi di modello e sui termini utilizzati nelle descrizioni, vedi le sezioni relative ai Termini del modello di linea di tendenza e ai Tipi di modello di linea di tendenza.
Per visualizzare la descrizione di una linea di tendenza:
- Posiziona il puntatore del mouse su una parte di una linea di tendenza per visualizzarne la descrizione.
Solo Tableau Desktop
- Fai clic con il pulsante destro del mouse sulla linea di tendenza nella vista e quindi seleziona Descrivi linea di tendenza.
Per visualizzare una descrizione completa del modello in uso nella vista corrente:
- Fai clic con il pulsante destro del mouse su una linea di tendenza nella vista e quindi seleziona Descrivi modello di tendenza.
Tipi di modello di linea di tendenza
Questi tipi di modello sono disponibili per le linee di tendenza: Lineare, Logaritmico, Esponenziale, Power e Polinomico.
Nelle formule seguenti X rappresenta la variabile esplicativa e Y la variabile di risposta.
Lineare
Con il tipo di modello lineare, la formula è:
Y = b0 + b1 * X
dove b1
è la pendenza e b0
è l’intercetta della linea.
Logaritmico
Con il tipo di modello logaritmico, la formula è:
Y = b0 + b1 * ln(X)
Poiché un logaritmo non è definito per il numero inferiore a zero, gli eventuali indicatori per cui la variabile esplicativa è negativa vengono filtrati prima del calcolo del modello. Evitare di utilizzare un modello che elimina alcuni dati a meno che non si sappia che i dati filtrati non sono validi. La descrizione della linea di tendenza segnala il numero di indicatori filtrati prima del calcolo del modello.
Esponenziale
Con il tipo di modello esponenziale, la formula è:
Y = exp(b0)* exp(b1 * X)
Con un modello esponenziale, la variabile di risposta viene trasformata in base al registro naturale prima di calcolare il modello, in modo che gli indicatori tracciati nella vista vengano individuati facendo clic su diversi valori descrittivi per trovare i valori di ln(Y)
.
ln(Y) = b0 + b1 * X
Questi valori vengono poi esposti per tracciare la linea di tendenza. Quello che viene visualizzato è il modello esponenziale nel formato seguente:
Y = b2*exp(b1 * X)
Dove b2
è il valore di exp(b0)
. Poiché un logaritmo non è definito per i numeri inferiori zero, gli eventuali indicatori per cui la variabile di risposta è negativa vengono filtrati prima del calcolo del modello.
Power
Con il tipo di modello Power, la formula è:
Y = b0 * X^b1
Con un modello Power, entrambe le variabili vengono trasformate in base al registro naturale prima del calcolo del modello in questa formula:
ln(Y) = ln(b0) + b1 * ln(X)
Questi valori vengono poi esposti per tracciare la linea di tendenza.
Poiché un logaritmo non è definito per i numeri inferiori zero, gli eventuali indicatori per cui la variabile esplicativa o di risposta è negativa vengono filtrati prima del calcolo del modello.
Polinomico
Con il tipo di modello polinomico, la variabile di risposta viene trasformata in una serie polinomica del grado specificato. La formula è:
Y = b0 + b1 * X + b2 * X^2 + …
Con un tipo di modello polinomico, è inoltre necessario selezionare un Grado compreso tra 2 e 8. I gradi polinomici più elevati esagerano le differenze tra i valori dei dati. Se i dati aumentano molto rapidamente, è possibile che i termini di ordinamento inferiori non presentino alcuna variazione rispetto ai termini di ordinamento superiori, pertanto è impossibile calcolare correttamente il rendering del modello. Inoltre, i modelli polinomici con ordinamento superiore più complessi richiedono una quantità maggiore di dati per essere calcolati. Verifica la descrizione del modello delle singole linee di tendenza per un messaggio di avviso rosso che indica che un modello preciso di questo tipo non è possibile.
Termini del modello di linea di tendenza
Quando si visualizza la descrizione di un modello di linea di tendenza, sono presenti diversi valori. In questa sezione vengono descritti i singoli valori.
Formula modello
Si tratta della formula per il modello di linea di tendenza completo. La formula riflette se hai specificato di escludere dei fattori dal modello.
Numero di osservazioni modellate
Numero di righe utilizzate nella vista
Numero di osservazioni filtrate
Numero di osservazioni escluse dal modello.
Gradi di libertà del modello
Numero di parametri necessari per specificare completamente il modello. Le tendenze lineari, logaritmiche ed esponenziali hanno gradi di libertà del modello pari a 2. Le tendenze polinomiche hanno gradi di libertà del modello di 1 più il grado del modello polinomico. Ad esempio, una tendenza cubica ha gradi di libertà del modello pari a 4, dato che abbiamo bisogno di parametri per i termini cubo, quadrato, lineare e costante.
Gradi di libertà (DF) residui
Per un modello fisso, questo valore è definito come il numero di osservazioni meno il numero di parametri previsti nel modello.
SSE (somma dei quadrati residui)
Gli errori sono la differenza tra il valore osservato e il valore previsto dal modello. Nella tabella Analisi della varianza, questa colonna è la differenza tra l’SSE del modello più semplice in quella particolare riga e il modello completo, che utilizza tutti i fattori. Il modello SSE corrisponde anche alla somma delle differenze quadrate dei valori previsti dal modello più piccolo e dal modello completo.
MSE (errore quadratico medio)
Il termine MSE fa riferimento all'"errore quadratico medio", ovvero la quantità SSE divisa per i gradi di libertà corrispondenti.
Coefficiente di determinazione
Il coefficiente di determinazione è una misura del modo in cui i dati si adattano nel modello lineare. È il rapporto tra la variazione dell’errore del modello, o una variazione non spiegata, rispetto alla varianza totale dei dati.
Quando l’intercetta è determinata dal modello, il coefficiente di determinazione viene derivato utilizzando l’equazione seguente:
Quando l’intercetta viene impostata forzatamente su 0, il coefficiente di determinazione viene calcolato utilizzando l’equazione seguente:
Nell’ultimo caso, l’equazione non corrisponde necessariamente a Excel. Ciò è dovuto al fatto che il coefficiente di determinazione non è ben definito in questo caso e il comportamento di Tableau corrisponde a quello del coefficiente di determinazione anziché a quello di Excel.
Nota: il valore del coefficiente di determinazione per un modello di linea di tendenza lineare è equivalente al quadrato del risultato della funzione CORR. Vedi Funzioni di Tableau (in ordine alfabetico)(Il collegamento viene aperto in una nuova finestra) per sintassi ed esempi per CORR.
Errore standard
La radice quadrata dell’MSE del modello completo. Una stima della deviazione standard (variabilità) degli "errori casuali" nella formula del modello.
valore p (significatività)
La probabilità che una variabile F casuale con i gradi precedenti di libertà superi il valore F osservato in questa riga della tabella Analisi della varianza.
Analisi della varianza
Questa tabella, nota anche come tabella ANOVA, elenca le informazioni relative a ciascun fattore nel modello di linea di tendenza. I valori sono un confronto del modello senza il fattore in questione all’intero modello, che include tutti i fattori.
Singole linee di tendenza
In questa tabella vengono fornite informazioni su ogni linea di tendenza nella vista. Esaminando l’elenco è possibile vedere quali linee di tendenza, se de caso, sono le più significative dal punto di vista statistico. In questa tabella sono inoltre elencate le statistiche del coefficiente per ogni linea di tendenza. Una linea descrive ciascun coefficiente in ogni modello di linea di tendenza. Ad esempio, un modello lineare con un intercetta richiede due righe per ogni linea di tendenza. Nella colonna Linea, il p-value e il DF per ogni riga riguarda tutte le righe del coefficiente. La colonna DF sotto la figura mostra i gradi di libertà residui disponibili durante la stima di ogni linea.
Termini
Nome del termine indipendente.
Valore
Valore stimato del coefficiente per il termine indipendente.
StdErr
Misura della diffusione della distribuzione di campionamento della stima del coefficiente. Questo errore si riduce all’aumentare della qualità e della quantità delle informazioni utilizzate nella stima.
valore t
La statistica utilizzata per testare l’ipotesi NULL che il valore TRUE del coefficiente è zero.
valore p
Probabilità di osservare un valore t che si ingrandisce in incrementi se il valore TRUE del coefficiente è zero. Quindi, un valore p di 0,05 offre un’attendibilità del 95% che il valore TRUE non sia zero.
Valutare la significatività delle linee di tendenza
Per visualizzare informazioni pertinenti per qualsiasi linea di tendenza nella vista, posiziona il puntatore del mouse su di essa:
La prima riga delle informazioni mostra l’equazione utilizzata per calcolare un valore di Profitto da un valore di Anno della data dell’ordine.
La seconda riga, il valore del coefficiente di determinazione, mostra il rapporto tra la varianza nei dati, come illustrato dal modello, e la varianza totale nei dati. Per maggiori informazioni, consulta i Termini del modello di linea di tendenza.
La terza riga, ovvero il valore P, indica la probabilità che l’equazione della prima riga sia un risultato della possibilità casuale. Più è basso il valore p, più è significativo il modello. Un valore p di 0,05 o minore è spesso considerato sufficiente.
Significatività dell’intero modello
Dopo aver aggiunto una linea di tendenza a una vista, è in genere necessario conoscere il livello di adattamento del modello, ovvero una misura della qualità delle previsioni del modello. Inoltre, potrebbe interessarti conoscere la significatività di ogni fattore che contribuisce al modello. Per visualizzare questi numeri, apri la finestra di dialogo Descrivi modello di tendenza: fai clic con il pulsante destro del mouse (Control-clic su Mac) sulla vista e seleziona Linee di tendenza >Descrivi modello di tendenza.
Quando si testa la significatività, si prendono in considerazione i valori p. Più è basso il valore p, è il modello o il fattore è significativo. È possibile disporre di un modello con significatività statistica ma che contiene una singola linea di tendenza o un termine di una singola linea di tendenza che non contribuisce alla significatività globale.
In Modello di linee di tendenza, cerca la linea che mostra il valore p (significatività) del modello: più piccolo è il valore p, minore è la probabilità che la differenza nella varianza non spiegata tra i modelli con e senza la misura o le misure rilevanti sia stata generata in modo casuale.
Questo valore p per un modello confronta l’aspetto dell’intero modello con l’aspetto di un modello composto esclusivamente da una media (la media dei dati nella vista dati). In altre parole, valuta la potenza esplicativa del termine quantitativo f(x) nella formula del modello, che può essere lineare, polinomico, esponenziale o logaritmico con i fattori corretti. È comune valutare la significatività utilizzando la regola dell'"attendibilità al 95%". Pertanto, come spiegato in precedenza, un valore p di 0,05 o inferiore è considerato buono.
Significatività dei fattori categorici
Nella tabella Analisi della varianza, talvolta definita come tabella ANOVA, viene elencato ogni campo utilizzato come fattore nel modello. Per ogni campo, tra gli altri valori, è possibile vedere il valore p. In questo caso, il valore p indica in che misura tale campo aggiunge significatività all’intero modello. Più piccolo è il valore p meno è probabile che la differenza nella variazione inspiegabile tra i modelli con e senza il campo sia il risultato di un caso casuale. I valori visualizzati per ogni campo sono derivati dal confronto dell’intero modello con un modello che non include il campo in questione.
L’immagine seguente mostra la tabella Analisi della varianza per una vista di vendite trimestrali per i due anni precedenti di tre diverse categorie di prodotto.
Come puoi vedere, i valori p per Categoria e Regione sono entrambi piuttosto piccoli. Entrambi questi fattori sono significativi dal punto di vista statistico in questo modello.
Per informazioni sui termini della linea di tendenza specifici, consulta Termini del modello di linea di tendenza.
Per i modelli ANOVA, le linee di tendenza sono definite dalla formula matematica:
Y = factor 1 * factor 2 *
...factorN * f(x) + e
Il termine Y
è denominato variabile di risposta e corrisponde al valore che si sta tentando di prevedere. Il termine X
è la variabile intrinseca ed e (epsilon) è un errore casuale. I fattori nell’espressione corrispondono ai campi categorici nella vista. Inoltre, ogni fattore è rappresentato come matrice. *
un particolare tipo di operatore di moltiplicazione delle matrici che prende due matrici con lo stesso numero di righe e restituisce una nuova matrice con lo stesso numero di righe. Ciò significa che nell’espressione factor
1 * factor 2
, vengono introdotte tutte le combinazioni dei membri del fattore 1 e del fattore 2. Se, ad esempio, il fattore 1 e il fattore 2 hanno tre membri, nella formula del modello vengono presentate un totale di nove variabili da questo operatore.
Presupposti sulla linea di tendenza
I valori p riportati nelle linee di tendenza di Tableau dipendono da alcuni presupposti relativi ai dati.
Il primo presupposto è che, ogni volta che viene eseguito un test, il modello per il media è (almeno approssimativamente) corretto.
Il secondo presupposto è che gli "errori casuali" indicati nella formula del modello (consulta Tipi di modello di linea di tendenza) sono indipendenti tra diverse osservazioni e che dispongono della stessa distribuzione. Questo vincolo verrebbe violato se la variabile di risposta avesse una variabilità molto più elevata intorno alla linea di tendenza reale in una categoria rispetto a un’altra.
Presupposti necessari per calcolare le linee di tendenza
I presupposti necessari per calcolare (utilizzando il metodo dei minimi quadrati) ogni singola linea di tendenza sono:
Il modello è una semplificazione funzionale precisa del processo di generazione di dati reali (ad esempio, nessun modello lineare per una relazione lineare logaritmica).
La media degli errori è pari a zero e gli errori non sono correlati con la variabile indipendente (ad esempio, nessun errore misura la variabile indipendente).
Gli errori hanno una variazione costante e non sono correlati tra loro (ad esempio, nessun aumento nella diffusione degli errori all’aumentare della variabile indipendente).
Le variabili esplicative non sono funzioni lineari esatte una rispetto all’altra (multicollinearità perfetta).
Domande frequenti sulle linee di tendenza
In questa sezione vengono descritte alcune domande comuni relative alle linee di tendenza in Tableau.
Come è possibile modificare il livello di attendibilità utilizzato nel modello?
Tableau non applica un livello di attendibilità. Segnala la significatività dell’intero modello, o di un campo specifico, mostrando semplicemente il valore p. La valore p misura la probabilità di ottenere lo stesso risultato di tendenza senza prendere in considerazione le dimensioni. Ad esempio, il valore p di una tendenza di vendite per tempo di 0,05 indica che esiste una probabilità del 5% che lo stesso valore possa essere ottenuto senza dover prendere in considerazione il tempo.
Che cosa significa se il valore p per il modello è significativo ma il valore p per il campo specifico nella tabella Analisi della varianza non è significativo?
Il valore p nella tabella Analisi della varianza indica se il campo contribuisce ad aggiungere o ridurre la significatività dell’intero modello. Più piccolo è il valore p meno è probabile che la differenza nella variazione inspiegabile tra i modelli con e senza il campo sia il risultato di un caso casuale. I valori visualizzati per ogni campo sono derivati dal confronto dell’intero modello con un modello che non include il campo in questione. Pertanto, per la situazione in cui il valore p per il modello è significativo, ma il valore p per il campo specifico non lo è, sai che il modello è significativo dal punto di vista statistico, ma non puoi avere la certezza che il campo specifico in questione aggiunga qualcosa alla significatività complessiva del modello. Valutare la possibilità di rimuovere il fattore dal modello.
Che cosa significa se il valore p per il campo specifico nella tabella Analisi della varianza è significativo ma il valore p del modello non è significativo?
Ciò potrebbe verificarsi in caso di assenza di "tendenza" all’interno di ogni riquadro. Ad esempio, le linee sono piatte, ma la media varia in base a un determinato fattore.