Fonctionnement de la prévision dans Tableau
Dans Tableau, la prévision utilise une technique connue sous le nom de lissage exponentiel. Les algorithmes de prévision tentent de trouver un modèle régulier dans les mesures et susceptible d’être répété à l’avenir. Les algorithmes sont relativement simples. Si vous êtes intéressé par la modélisation prédictive, également disponible dans Tableau, consultez Description des fonctions de modélisation prédictive dans Tableau.
Vous ajoutez généralement une prévision à une vue contenant un champ de date et au moins une mesure. Toutefois, en l’absence de date, Tableau peut créer une prévision pour une vue contenant une dimension avec des valeurs de nombres entiers en plus d’une mesure au moins.
Pour plus d’informations sur la création d’une prévision, consultez Créer une prévision. Pour des détails sur la prévision à l’aide d’une dimension de nombre entier, voir Prévision en l’absence de date dans la vue.
Présentation
Tous les algorithmes de prévision sont des modèles simples de processus de création de données (DGP, data generating process) en contexte réel. Pour obtenir une prévision de haute qualité, un modèle simple de DGP doit correspondre le mieux possible au modèle décrit. Les métriques de qualité indiquent le degré de correspondance entre le modèle et le DGP. Si la qualité est faible, la précision mesurée par les bandes de confiance n’a pas d’importance, car elles mesurent la précision basée sur une estimation inexacte.
Tableau sélectionne automatiquement le meilleur des modèles (jusqu’à huit modèles), c’est-à-dire celui qui génère la prévision de la meilleure qualité. Les paramètres de lissage de chaque modèle sont optimisés avant que Tableau n’évalue la qualité de la prévision. La méthode d’optimisation, quant à elle, est globale. Il n’est donc pas impossible de choisir des paramètres de lissage optimaux localement qui ne sont pas également optimaux globalement. Cependant, les paramètres de valeurs initiaux sont sélectionnés conformément aux meilleures pratiques, mais ne sont pas plus optimisés. Les paramètres de valeurs initiaux peuvent donc être bien moins qu’optimaux. Les huit modèles disponibles dans Tableau font partie de ceux décrits sur le site Web OTexts à l’adresse suivante : Une taxonomie des méthodes de lissage exponentiel(Le lien s’ouvre dans une nouvelle fenêtre) (en anglais).
Lorsque la visualisation ne contient pas suffisamment de données, Tableau tente automatiquement d’effectuer une prévision à la granularité temporelle la plus fine. Il agrège ensuite la prévision à la granularité de la visualisation. Tableau fournit des bandes de prédiction qui peuvent être simulées ou calculées à partir d’une équation dont la solution est de forme fermée. Tous les modèles avec un composant multiplicatif ou des prévisions agrégées possèdent des bandes de simulation, alors que les autres modèles utilisent les équations dont la solution est de forme fermée.
Lissage exponentiel et tendance
Le lissage exponentiel modélise de façon redondante les valeurs des prévisions ultérieures des valeurs d’une série chronologique régulière en se basant sur des moyennes pondérées d’anciennes valeurs de la série. Le modèle le plus simple, Lissage exponentiel simple, calcul le niveau suivant ou la valeur lissée à partir d’une moyenne pondérée entre la dernière valeur réelle et la dernière valeur de niveau. La méthode est exponentielle, car la valeur de chaque niveau est influencée par chaque valeur réelle précédente à un niveau décroissant de manière exponentielle (des valeurs plus récentes ont plus de poids).
Les modèles de lissage exponentiel avec des composants de tendance ou de saison sont efficaces lorsque la mesure soumise à la prévision montre une tendance ou une saisonnalité sur la période de la prévision. Tendance est la tendance qu’ont les données à augmenter ou diminuer dans le temps. La Saisonnalité est une variation répétée et prévisible d’une valeur, telle qu’une fluctuation annuelle de la température liée à la saison.
Généralement, plus votre série chronologique dispose de points de données, plus la prévision qui en découle sera bonne. Il est particulièrement important de disposer de données suffisantes si vous souhaitez modéliser la saisonnalité. En effet, le modèle est plus complexe et nécessite plus de vérifications dans le formulaire de données pour pouvoir atteindre un niveau de précision raisonnable. D’un autre côté, si vous prévoyez d’utiliser des données générées par deux DGP différents ou plus, vous obtiendrez une prévision de moins bonne qualité parce qu’un modèle ne peut correspondre qu’à un seul DGP.
Saisonnalité
Tableau recherche un cycle saisonnier avec la longueur la plus typique de l’agrégation chronologique de la série temporelle pour laquelle la prévision est estimée. Par conséquent, si vous procédez à une agrégation par mois, Tableau recherche un cycle de 12 mois ; si c’est par trimestre, Tableau recherche un cycle de quatre trimestres ; si c’est par jour, Tableau recherche une saisonnalité hebdomadaire. Par conséquent, si votre série chronologique présente un cycle de six mois, Tableau trouvera probablement un modèle de 12 mois qui contient deux sous-modèles semblables. Toutefois, s’il existe un cycle de sept mois dans votre série chronologique mensuelle, Tableau ne découvrira probablement aucun cycle. Par chance, les cycles de sept mois sont inhabituels.
Tableau peut utiliser l’une de ces deux méthodes pour dériver la longueur de la saison. La méthode temporelle originale utilise la longueur naturelle de saison correspondant à la granularité temporelle (TG) de la vue. La granularité temporelle désigne l’unité temporelle la plus fine exprimée par la vue. Par exemple, si la vue contient une date verte continue tronquée pour le mois ou des parties de date annuelle ou mensuelle discrètes bleues, la granularité temporelle de la vue est le mois. La nouvelle méthode non temporelle introduite avec Tableau 9.3 utilise la régression périodique pour vérifier les longueurs de saison allant de 2 à 60 pour les longueurs candidates.
Tableau sélectionne automatiquement la méthode la plus appropriée pour une vue donnée. Lorsque Tableau utilise une date pour organiser les mesures dans une vue, si la granularité temporelle est trimestrielle, mensuelle, hebdomadaire, quotidienne ou horaire, les longueurs de saison sont presque certainement 4, 12, 13, 7 ou 24, respectivement. Ainsi seule la longueur naturelle de la granularité temporelle (TG) est utilisée pour créer les cinq modèles saisonniers de lissage exponentiel pris en charge par Tableau. L’AIC des cinq modèles saisonniers et des trois modèles non saisonniers sont comparés et le plus faible est retourné. (Pour une explication de la métrique AIC, voir Descriptions des prévisions.)
Lorsque Tableau utilise une dimension de nombre entier pour la prévision, la seconde méthode est utilisée. Dans ce cas, il n’y a pas de granularité temporelle, donc les longueurs de saison potentielles doivent être dérivées des données.
La seconde méthode est également utilisée si la granularité temporelle est annuelle. Les séries annuelles n’ont généralement pas de saisonnalité, mais si elles en ont, elles doivent également être dérivées des données.
La seconde méthode est également utilisée pour les vues avec une granularité temporelle de minute ou seconde. Si des séries de ce type sont associées à une saisonnalité, les longueurs de saison sont probablement de 60. Toutefois, lors de la mesure d’un processus habituel du monde réel, le processus peut avoir une répétition régulière qui ne correspond pas à l’horloge. De ce fait, pour les minutes et les secondes, Tableau recherche également une longueur différente de 60 dans les données. Cela ne signifie pas que Tableau peut modéliser deux longueurs de saison différentes en même temps. Au lieu de cela, dix modèles saisonniers sont évalués, cinq avec une longueur de saison de 60 et les cinq autres avec la longueur de saison dérivée des données. Quel que soit l’un des dix modèles saisonniers ou des trois modèles non saisonniers affichant l’AIC le plus faible, ce modèle est utilisé pour calculer la prévision.
Pour les séries organisées par années, minute ou seconde, une seule longueur de saison dans les données est testée si le modèle est suffisamment clair. Pour les séries organisées en nombres entiers, jusqu’à neuf longueurs de saison potentielles un peu moins claires sont estimées pour l’ensemble des cinq modèles saisonniers, et le modèle présentant l’AIC le plus faible est retourné. S’il n’y a pas de candidats de longueur de saison probables, seuls les modèles non saisonniers sont estimés.
Étant donné que toutes les sélections sont automatiques lorsque Tableau dérive des longueurs de saison potentielles à partir des données, le type de modèle par défaut « Automatique » dans le menu Type de modèle de la boîte de dialogue Options des prévisions ne change pas. Sélectionner « Automatique sans saisonnalité » améliore les performances en éliminant l’ensemble des recherches de longueur de saison et d’estimation des modèles saisonniers.
L’analyse heuristique que Tableau utilise pour déterminer quand utiliser les longueurs de saison dérivées des données dépend de la distribution d’erreurs pour la régression périodique de la longueur de saison de chaque candidat. Étant donné que l’assemblage de candidats de longueur de saison par régression périodique produit généralement une ou deux longueurs claires gagnantes si les données incluent effectivement une saisonnalité, le retour d’un seul candidat indique une saisonnalité probable. Dans ce cas, Tableau évalue les modèles saisonniers avec tous les candidats pour la granularité par année, minute et seconde. Le retour de moins des dix candidats maximum indique une saisonnalité possible. Dans ce cas, Tableau évalue les modèles saisonniers avec tous les candidats retournés pour les vues organisées par nombres entiers. Le retour du nombre maximum de candidats indique que les erreurs pour la plupart des longueurs sont similaires. L’existence de saisonnalité est donc improbable. Dans ce cas, Tableau évalue uniquement les modèles non saisonniers pour une série organisée par nombres entier ou par année, et uniquement les modèles saisonniers avec une longueur de saison naturelle pour les autres vues organisées selon des données temporelles.
Pour le type de modèle « Automatique » dans les vues organisées par nombre entier, année, minute et seconde, les longueurs de saison possibles sont toujours dérivées des données, qu’elles soient ou non utilisées. Étant donné que l’estimation de modèle demande beaucoup plus de temps que la régression périodique, l’impact sur les performances devrait être modéré.
Types de modèles
Dans la boîte de dialogue Options des prévisions, choisissez le type de modèle que Tableau utilise pour la prévision. Le paramètre Automatique est généralement optimal pour la plupart des vues. Si vous choisissez Personnalisé , il est alors possible de spécifier les caractéristiques de tendance et de saison indépendamment. Pour ce faire, choisissez entre Aucun, Additif et Multiplicatif :
Un modèle additif est un modèle dans lequel les composants du modèle sont ajoutés les uns aux autres, tandis qu’un modèle multiplicatif voit au moins certains composants multipliés. Les modèles multiplicatifs peuvent améliorer de manière significative la qualité de prévision pour des données dont la tendance et la saisonnalité sont affectées par le niveau (magnitude) des données :
Garde à l’esprit qu’il n’est pas nécessaire de créer un modèle personnalisé pour générer une prévision multiplicative : le paramètre Automatique peut déterminer si une prévision multiplicative est appropriée pour vos données. Toutefois, un modèle multiplicatif ne peut être traité lorsque la mesure à soumettre à la prévision présente une ou plusieurs valeurs inférieures ou égales à zéro.
Prévision avec des données temporelles
Lorsque vous effectuez des prévisions avec une date, il ne peut y avoir qu’une date de base dans la vue. Les parties de dates sont prises en charge, mais toutes les parties doivent référer au même champ sous-jacent. Les dates peuvent être sur des Lignes, Colonnes ou Repères (avec l’exception de la cible Infobulle).
Tableau prend en charge trois types de dates, dont deux peuvent être utilisées pour les prévisions :
Les dates tronquées font référence à un point particulier dans l’histoire avec une granularité temporelle spécifique, par exemple février 2017. Elles sont généralement continues, avec un arrière-plan vert dans la vue. Les dates tronquées sont valides pour la prévision.
Les parties de date désignent une section particulière d’une mesure temporelle telle que février. Chaque partie de date est représentée par un champ différent, généralement discret (avec un arrière-plan bleu). La prévision nécessite au moins une partie de date Année. Plus spécifiquement, elle peut utiliser n’importe lequel des ensembles de parties de date suivants pour la prévision :
Année
Année + trimestre
Année + mois
Année + trimestre + mois
Année + semaine
Personnalisé : Mois/Année, Mois/Jour/Année
D’autres parties des données, telles que Trimestre ou Trimestre + Mois ne sont pas valides pour la prévision. Voir Convertir des champs entre discret et continu pour plus de détails sur les différents types de dates.
Les dates exactes réfèrent à un point particulier dans l’histoire avec une granularité temporelle maximum telle que 1er février 2012 à 14:23:45.0. Les dates exactes ne sont pas valides pour les prévisions.
Il est également possible d’effectuer une prévision sans date. Voir Prévision en l’absence de date dans la vue.
Granularité et réduction
Lorsque vous créez une prévision, vous sélectionnez une dimension de date qui indique une unité de temps servant de mesure aux valeurs de dates. Dans Tableau, les dates prennent en charge ces unités de temps, y compris l’année, le trimestre, le mois et le jour. La granularité de la date est l’unité choisie pour la valeur de date.
Les données présentes dans votre mesure ne coïncident généralement pas précisément avec votre unité de granularité. Vous pouvez définir votre valeur de date sur des trimestres, mais vos données réelles peuvent relater une période qui se termine au milieu d’un trimestre (par exemple, à la fin du mois de novembre). Ceci peut entraîner un problème, car la valeur de ce trimestre partiel est traitée par le modèle de prévision en tant que trimestre entier. Cependant, ce trimestre partiel présente généralement une valeur inférieure à celle d’un trimestre entier. Si le modèle de prévision est autorisé à prendre en compte ces données, la prévision sera imprécise. La solution consiste à réduire les données de telle sorte que les périodes de fin pouvant fausser la prévision soient ignorées. Pour supprimer (ou réduire) de telles périodes partielles, utilisez l’option Ignorer la dernière dans la boîte de dialogue Options de prévision. Par défaut, il s’agit de réduire une période.
Obtention de données supplémentaires
Pour estimer une tendance, Tableau nécessite au moins cinq points de données dans la série chronologique. Pour une saisonnalité, il a besoin soit d’un nombre suffisant de points de données pour au moins deux saisons, soit d’une saison et cinq périodes. Par exemple, au moins neuf points de données sont nécessaires pour estimer un modèle avec un cycle saisonnier de quatre trimestres (4 + 5) et au moins 24 pour estimer un modèle avec un cycle saisonnier de douze mois (2 x 12).
Si vous activez la prévision pour une vue ne disposant pas de suffisamment de points de données pour prendre en charge une bonne prévision, Tableau peut parfois récupérer des points de données de manière à produire une prévision valide. Pour ce faire, il envoie une requête à la source de données pour un niveau de granularité plus fin.
Par défaut, si votre vue contient moins de neuf années de données, Tableau envoie une requête à la source de données pour récupérer des données trimestrielles, estimer une prévision trimestrielle et agréger sur une prévision annuelle à afficher dans votre vue. Si le nombre de points de données n’est toujours pas suffisant, Tableau estime une prévision mensuelle et renvoie la prévision annuelle agrégée vers votre vue.
Par défaut, si votre vue contient moins de neuf trimestres de données, Tableau estime une prévision mensuelle et renvoie les résultats d’une prévision trimestrielle agrégée vers votre vue.
Par défaut, si votre vue contient moins de neuf semaines de données, Tableau estime une prévision quotidienne et renvoie les résultats d’une prévision hebdomadaire agrégée vers votre vue.
Si votre vue contient moins de neuf jours de données, Tableau estime, par défaut, une prévision horaire et renvoie les résultats de prévision quotidienne agrégées à votre vue.
Par défaut, si votre vue contient moins de neuf heures de données, Tableau estime une prévision par minute et renvoie les résultats d’une prévision horaire agrégée vers votre vue.
Si votre vue contient moins de neuf minutes de données, Tableau estime, par défaut, une prévision à la seconde et renvoie les résultats de prévision à la minute agrégées à votre vue.
Ces ajustements se produisent en arrière-plan et ne nécessitent aucune configuration. Tableau ne modifie par l’apparence de votre visualisation et ne change pas réellement votre valeur de date. Toutefois, le résumé de la période de prévision dans les boîtes de dialogue Décrire la prévision et Options de prévision refléteront la véritable granularité utilisée.
Tableau ne peut obtenir des données supplémentaires que lorsque l’agrégation de la mesure soumise à la prévision est SUM ou COUNT. Pour obtenir des informations sur les types d’agrégations disponibles et sur la procédure de modification du type d’agrégation, consultez la section Agrégation de données dans Tableau.