Salesforce と Data Cloud の用語を理解する
Tableau Next と Tableau(新しいウィンドウでリンクが開く) はさらに強力な統合を実現するため、データがどこにあるかに関わらず、必要な場所で分析を行える機能を追加しています。これは、Tableau と Data Cloud の用語と考え方に触れる機会がさらに増えているということです。一つのエコシステムに慣れ親しんでいるユーザーにとっては、もう一方のエコシステムは分かりにくかったり、異質なものに感じられたりするかもしれませんが、結局はすべてデータの話です。
このトピックは、どのシステムに慣れているか、どのシステムで作業しているかに関わらず、利用者の方向付けを支援することを目的としています。
データに関する重要な用語と概念
データを表現するための言葉はたくさんあります。最も一般的な意味で、データ セットは扱っているデータの集まりです。
- データベース は、Amazon Redshift、Firebird、Google スプレッドシート、Oracle など、実際にデータを保持しているテクノロジー プラットフォームです。
- データは、多くの場合、データのテーブルとして保存されています。データベースには、複数のテーブルやビューが存在する場合があります。Excel や Google スプレッドシートでは、各シートのタブが 1 つのテーブルです。csv ファイルでは、ファイル全体がテーブルです。
- 必要なデータが複数のテーブルに分散している場合は、それらをあるデータ モデルでつなぎ合わせる必要があります。データ モデルは、テーブルが相互に接続する方法を抽象的に表現したものです。
Salesforce のデータ
Data Cloud では、データはさまざまな概念に分類されます。
| データ型 | 説明 |
|---|---|
| データ ストリーム(新しいウィンドウでリンクが開く) | 元のソース (S3、Amazon、Google BigQuery など) などの接続情報。どのフィールドを取り込むか、どのフィールドがプライマリ キーか、どのような頻度でデータを更新するかなど。 |
| データ レイク オブジェクト (DLO)(新しいウィンドウでリンクが開く) | Data Cloud に取り込まれたデータ、または Snowflake などの外部システムから参照されたデータは、DLO に保存されます。DLO に保管されたデータは、クレンジングされ、変換され、計算と分析のために準備されています。 データの各テーブルは、独自の DLO です。 |
| データ モデル オブジェクト (DMO)(新しいウィンドウでリンクが開く) | 1 つまたは複数のデータ レイク オブジェクトに格納されたデータの構造とスキーマを記述する Data Cloud オブジェクト。DMO は 1 つのデータ テーブルですが、1 つまたは複数の DLO から派生したものです。DMO は DLO のデータを受け取り、信頼性の高い書式にマッピングします。DMO には、ID 解決ルールセットとその他のテンプレート化された書式設定が適用されます。標準 DMO とカスタム DMO があります。 DLO から DMO へのデータ マッピング(新しいウィンドウでリンクが開く)と、多くの DMO のテンプレート化された性質は、Data Cloud が持つ調和の力です。 |
| 計算済みインサイト オブジェクト (CIO)(新しいウィンドウでリンクが開く) | 計算済みインサイトを処理した後に作成されるデータ モデル オブジェクト。計算済みインサイトを使用すると、Data Cloud データのメジャーとディメンションを使用してキューブ型のメトリクスを構築できます。Data Cloud で既存の CIO に接続し、ワークスペースにデータ アセットとして追加できます。 |
| コンマ区切り値 (CSV)(新しいウィンドウでリンクが開く) | テーブルのような形式でデータを格納するテキスト ファイル。CSV ファイルは、アプリケーションやプログラムの間でデータを移動するために一般的に使用されています。 Tableau Next の場合: CSV ファイルを Tableau Next ワークスペースに取り込んだ後、そのデータを DLO として Data Cloud にアップロードして保存することができます。 |
Tableau 利用者のための Salesforce データ オブジェクトについての補足
データ ストリームは、接続情報です。
DLO は、データ ストリームからダンプした生のデータです。各 DLO は、1 つのテーブルです。
Tableau には、直接 DMOに相当するものはありません。DMO は複数の DLO からマッピングでき (データベース内の「ビュー」に似ています)、各 DMO は 1 つのテーブルです。
Tableau には、CIO に相当するものはありません。計算は、他と同様、データソースの単なるフィールドです。
Tableau のデータ
Tableau データ ソース(新しいウィンドウでリンクが開く)は、データベース接続情報、データ モデル、データへのアクセス方法 (認証資格情報など) や更新方法に関する情報、セマンティック情報、さらに場合によってはデータ自体で構成されます。データ ソースを作成および編集するための 2 つの主要な UI 要素は、[データ ソース] タブと [データ] ペインです。
データ ソース タブ: [データ ソース] タブでは、参照元のデータベースまたはファイルへのデータ接続を確立し、関係、結合、ユニオン(新しいウィンドウでリンクが開く)を使用して 1 つまたは複数のデータベースのテーブルを 1 つのデータ ソースに結合してデータ モデルを構築します。データが元のデータベースに残っている場合、それはライブ接続になります。データのコピーを Tableau 自体に抽出として取り込んで、必要に応じて更新することもできます。
データ ペイン: [データ] ペインでは、意味的な情報を取得します。それらの情報には、フィールド名、メンバーのエイリアス、階層、グループ、セット、計算、既定の集計と色、フィールドの説明などがあります。
データ ソース: [データ ソース] タブと [データ] ペインで行った変更を合わせて、データ ソースが形成されます。データ ソースは、パブリッシュされたアセットやファイル、または作成元のワークブック内に含めることができます。
- パブリッシュされたデータ ソース (PDS) は、Tableau Cloud または Tableau Server 上にあるスタンドアロンのアセットです。
- ローカルでは、ファイルベースのバージョンの Tableau データ ソースを持つこともできます。
.tdsは Tableau データ ソースのファイル拡張子であり、データ以外の情報 (接続とセマンティクスのみ) を含みます。.tdsxはパッケージ化された Tableau データ ソースのファイル拡張子であり、データ以外の情報だけでなくデータ自体も含みます。.hyperは、抽出のファイル拡張子であり (以前は.tde)、データのコピー (データ自体) を含みます。
注: パブリッシュされたデータ ソースは、Tableau でセマンティック レイヤーまたはセマンティック モデルに最も近いものです。
Salesforce 利用者のための Tableau データについての補足
Tableau は、ローカルかクラウドベースかを問わず、さまざまなデータベースやテクノロジーからのデータを扱います。データは、Salesforce クラウドからすべての必要なデータ オブジェクトとともに取得されるものではないため、データのモデル化とフォーマットの方法には多くの柔軟性があり、テンプレート化されたデータ書式という現実的な概念はありません。
標準化モデルとセマンティック モデルは、ほとんどの場合、パブリッシュされたデータ ソース (PDS) で取り込まれます。

データ セマンティクスの要点
- データとは、生の事実 (数字、観察結果、測定値) です。
- 情報とは、そのデータを解釈したもの、またはそのデータを処理して理解することで得られる知識のことです。
- セマンティクスとは、基になるデータとそこから得られる情報の間にある踏み石です。
この用語は、言語学におけるセマンティクス (意味論) とシンタックス (構文論) の概念に由来しています。シンタックスはそれをどう言うかであり、セマンティクスはそれが何を意味するか、というものです。この「セマンティクスとはそれが意味するもの」という考え方は、データのコンテキストでのセマンティクスにも引き継がれています。セマンティクスには、データ モデルにおけるテーブルの組み合わせ方、データのフィールドや列に関する情報、それらの相互作用のしかた、既定の集計などの追加情報、生データの上で実行する計算などが含まれます。
データセットに必要な情報がすべて含まれていても、そのデータセットから意味を引き出す方法がわかなければ役に立ちません(新しいウィンドウでリンクが開く)。役に立つにはセマンティクスが必要です。
ビジネスのユース ケースでは、セマンティクスの詳細を切り離すことはできません。セマンティクスとは、データやそのビジネス上の意味を記述することです。セマンティクスは、カテゴリに分類できます。カテゴリには、データ モデル、フィールドのメタデータと説明、デフォルトの集計、階層構造とグループとセット、計算などがあります。
いくつか例を挙げます。
- データ モデル
- データのテーブルを相互につなぎ合わせる方法。4 つの四半期の売上テーブルをユニオンする必要がありますか? 医師のテーブルは患者のテーブルに直接関連付ける必要がありますか、それとも両方を予約テーブルに関連付ける必要がありますか?
- フィールドのメタデータ (フィールド名、データ型、メンバーの別名)
- 「名前」は、取引先の企業名ですか、それとも担当者名ですか?
- 「割引」は、割引が適用されるかどうかを示すブール型フィールドですか、割引のタイプを示す文字列フィールドですか、それとも割引額を示す不連続メジャーですか?
- フィールドの説明
- たとえば、次のようなコメントです。「このデータセットの APR は、Annual Percent Return ではなく、Adjusted Pitching Runs であり、
APR = L * IP - R / pf(P)として計算します。ここで、L: リーグで投球されたイニングあたりの平均ラン数、IP: 投球イニング数、R: 失点数、pf(P): プレーヤーのホームパーク P のパーク ファクター。」
- たとえば、次のようなコメントです。「このデータセットの APR は、Annual Percent Return ではなく、Adjusted Pitching Runs であり、
- 既定の集計
- リストは、COUNT (すべてのインスタンスを数え上げる) で集計しますか、それとも COUNTD (一意の値のみを数え上げる) で集計しますか?
- メジャーの既定の集計は SUM ですか、それとも AVG ですか?
- 階層、セット、グループ
- 大学の学部を集めたものでは、工学部が独立した学部であり、歴史学、文学、哲学、政治学の学部で教養学部を構成する場合があります。
- 計算
- データに元からに存在するフィールドですが、操作したり組み合わせたりする必要のあるフィールドから導き出したフィールドです。たとえば、古くなった対応案件を、スタンダード アカウントでは 10 日間開いているが、プレミアム アカウントでは 2 日間しか開かないと定義することです。
Tableau におけるセマンティクスと Tableau セマンティクス
再利用できるセマンティック レイヤーがなければ、データ モデル、セマンティック定義、計算フィールドは 1 回限りのものとして何度も作成され、非効率さが生まれ、エラーやずれが発生する可能性があります。
Tableau におけるセマンティクス
Tableau 利用者にとって、セマンティクスは目新しいものではありません。単に、データ ソース、特にパブリッシュされたデータ ソース (PDS) の一部でした。パブリッシュされたデータ ソースでは、データのセマンティック定義を制御します。
ビジュアル分析のサイクル(新しいウィンドウでリンクが開く)という Tableau の理念により、セマンティクスはこれまで明確なレイヤーとして抽象化されていませんでした。作成環境は、データ モデル ([データ ソース] タブ) とセマンティクス ([データ] ペイン) を同時に開発する場所です。
Tableau セマンティクス
Tableau セマンティクス(新しいウィンドウでリンクが開く)は、セマンティクスを分析とは異なるレイヤーに分離するアプローチを採用しているため、セマンティック モデルを一度構築すると、さまざまな分析や製品で使用できます。Tableau セマンティクスは、データや分析とは異なるスタンドアロンのセマンティック レイヤーとして、Data Cloud および Tableau Next 環境に適合します。セマンティック レイヤーの単位はセマンティック モデルです。セマンティック モデルには、データのデータ モデルとセマンティック定義の両方が含まれます。Tableau セマンティクスでは、セマンティック モデル ビルダーは、セマンティック モデルを作成するための UI です。これらのセマンティック モデルは、Data Cloud または Tableau Next で構築できます。
また、Tableau 用の Tableau セマンティクス コネクタを使用すると、Tableau Next のセマンティック モデルを使用して Tableau で分析を行うことができます。
