データ戦略
このコンテンツは、Tableau Blueprint の一部です。Tableau Blueprint は、組織がデータの活用方法を拡大および改善して、影響力を強化できるよう支援する成熟したフレームワークです。使用を開始する前に、まず評価(新しいウィンドウでリンクが開く)を受けてください。
組織によって、データインフラストラクチャに必要とされる要件やソリューションはさまざまです。Tableau は、組織の選択を尊重した上で、既存のデータ戦略に統合できます。エンタープライズデータウェアハウスに加えて、クラウドアプリケーションとデータ、ビッグデータデータベース、構造化リポジトリと非構造化リポジトリといった新しいデータソースが組織内外に現れています。Hadoop クラスター、NoSQL データベース、その他多数におけるデータフローを、エンタープライズデータウェアハウス (EDW) を最終地点として、それを中心に一元管理する必要はもうありません。
モダンなデータアーキテクチャは、新しいビジネス要件 (スピード、アジャイル性、ボリューム) と新たなテクノロジーによって促進されます。存在するデータへのアクセスを提供するか、データを他のソースで強化するかは組織が選択できます。そこにクラウドソリューションが加わったことで、インフラストラクチャとサービスはデータパイプラインを数時間で切り替えられるようになり、今までにない方法で組織全体にデータを移動させることができるようになりました。残念ながら、組織のデータ管理ハンドブックがトラディショナルな EDW の単一のデータ格納場所 (バケツ) の思考に基づいている場合には、この新しい機会を大きく逃してしまうことになります。この「バケツ」から「パイプライン」へと移行する上での秘訣は、組織でのデータに関する質問のすべてに 1 つのデータソースで回答することはできない、と認識することです。以下は、モダンなデータアーキテクチャのパターンを示しています。
モダンなデータアーキテクチャ
- 生データ: データのソースです。データプラットフォームに読み込まれ、多くの場合、クリーニングや個人情報 (PII) の検査といった複数の方法で変換される必要があるトランザクションデータなどがあります。
- 準備のためのコンピューティング: 生データの処理に多大なコンピューティングリソースを必要とする可能性があるため、トラディショナルなデータ準備の域を超える必要があります。多くの場合、データサイエンスアプリケーションが利用され、それによって実際に、高い価値をもたらす新しいデータを生み出すことができます。
- ストレージ: データは将来どのように使用されるかわからないため、最新のデータ プラットフォームはデータを保存するという原則に基づいて構築されています。保存される中間データや同一データの異なるバージョンや形式がますます増えていることから、ストレージは階層化されています。
- クエリのためのコンピューティング: 典型的な分析データベースエンジンです。Hyper 抽出だけでなく、Hadoop なども含まれます。
- 分析: Tableau は Analytics に組み込まれています。
Tableau のハイブリッドデータアーキテクチャ
Tableau のハイブリッドデータアーキテクチャでは、ライブ接続またはインメモリの抽出を使用した 2 つのモードでのデータ操作が可能です。これらのモードは、ユースケースに適したオプションを選択するのと同じように簡単に切り替えることができます。
ライブ接続
Tableau のデータコネクタは、すべてのデータをインポートするのではなく、動的なクエリをソースデータベースに直接送信することによって、既存のデータインフラストラクチャを活用します。つまり、分析用に最適化された高速なデータベースに投資している場合、データにライブ接続することで、その投資を活かすことができます。これによって、詳細データはソースシステムに残され、クエリの集計結果が Tableau に送信されます。これはまた、Tableau によって無限のデータ量を効果的に活用できることを意味します。事実、Tableau は、世界最大規模のデータベースの多くでフロントエンドの分析クライアントとなっています。Tableau は、それぞれのデータソースの独自の特性を活用できるように、各コネクタを最適化しています。
インメモリの抽出
トランザクションデータベース上にデータアーキテクチャが構築されている場合、または中核的なデータインフラストラクチャのワークロードを削減したい場合は、Hyper テクノロジーを利用した Tableau データエンジンによって、分析用に最適化されたインメモリのデータストアを利用できます。ユーザーはワンクリックで、データに接続して抽出し、そのデータをインメモリに読み込み、Tableau でクエリを実行することができます。Tableau データ抽出を使用して、データベースに対するクエリの再実行にかかる時間を削減することで、ユーザーエクスペリエンスを大幅に向上させることができます。そして、データベースサーバーを不要なクエリのトラフィックから解放します。
抽出は、頻繁に実行されるクエリのためにリソースを確保することができない、使用頻度の高いトランザクションシステムに最適です。抽出は、毎晩更新されるようにして、日中はユーザーが利用できるようにすることが可能です。また、抽出は定数のレコード、総レコードの割合、またはフィルタリングされた基準に基づいた、データのサブセットとなる場合もあります。Tableau のデータエンジンは、新しいデータで既存の抽出を更新する増分抽出も実行できます。抽出は、データベースを置き換えるためのものではないため、実行する分析に合わせて抽出の規模を調整する必要があります。
参照元のデータソースに直接アクセスできないユーザーとワークブックを共有する必要がある場合、抽出を活用できます。Tableau のパッケージドワークブック (.twbx ファイル形式) には、そのワークブックに使用された分析とデータのすべてが含まれているため、ワークブックを持ち運ぶことも、他の Tableau ユーザーと共有することも可能になります。
抽出を使用してワークブックをパブリッシュする場合、その抽出は Tableau Server または Tableau Cloud にもパブリッシュされます。その後のワークブック操作には、ライブデータを要求するのではなく、その抽出が使用されます。有効にしている場合は、スケジュールに基づいて抽出の自動更新が要求されるようにワークブックを設定することができます。
クエリフェデレーション
さまざまなデータベースやファイルの表に関連データが保存されている場合、クロスデータベース結合を使用して表を結合することができます。クロスデータベース結合を作成するには、表を結合する前に、異なるデータベース (Excel、テキストファイルを含む) のそれぞれを追加して接続することによって、複数接続の Tableau データソースを作成します。クロスデータベース結合は、ライブ接続とインメモリの抽出のどちらでも使用できます。
データ サーバー
Tableau Server および Tableau Cloud に含まれている Data Server は、抽出の共有と一元的な管理、そして共有のプロキシデータベース接続を提供します。これにより、複数のワークブックにわたって抽出やデータ接続を複製することなく、Tableau Server や Tableau Cloud のすべてのユーザーが管理、評価されたデータソースを利用できるようにすることが可能です。
複数のワークブックを 1 つのデータソースに接続できることで、データソースの埋め込み数を最小化し、ストレージスペースと処理時間を節約できるからです。ユーザーが、パブリッシュされたデータソースに接続されたワークブックをダウンロードし、その後、抽出すると、抽出は Tableau Server または Tableau Cloud に保持されるためネットワークトラフィックを抑えることができます。最後に、接続にデータベース ドライバーが必要な場合は、各ユーザーのコンピューター上ではなく Tableau Server 上にのみドライバーをインストールして保持する必要があります。Tableau Cloud でも同様に、サポートされているデータソースのデータベースドライバーは Tableau によって管理されます。
各チームから収集した初期のデータユースケースを使用して、DBA やデータスチュワードは、適切なアクセスパーミッションを持ったユーザーに対して特定された各データソースの認証済みデータソースをパブリッシュします。ユーザーは Tableau Desktop と、Tableau Server または Tableau Cloud から直接、パブリッシュされたデータソースに接続できます。
パブリッシュされたデータソースは、抽出とライブ接続の両方でデータのサイロ状態や信頼されないデータの増大を防ぎます。また、抽出の更新をスケジュールすることができ、組織の全ユーザーが同じ共有データと定義で常に最新の状態を維持できます。パブリッシュされたデータソースは、プロキシデータベース接続を使ってライブデータに直接接続するように構成できます。これは、組織がデータ接続、結合ロジック、メタデータ、計算フィールドを一元的に管理できることを意味します。
それと同時に、セルフサービスや柔軟性を実現するために、ユーザーは新しいデータブレンドや新しい計算の作成によってデータモデルを拡張し、その新しく定義されたデータモデルをアジャイルな方法で本番環境に提供できるようにすることが可能です。つまり、一元的に管理されたデータをそのままの状態に保ちながらも、ユーザーは柔軟性を維持することができます。
認証済みデータソース
データベース管理者やデータスチュワードは、パブリッシュされたデータソースを認証して、データが信頼できることをユーザーに示す必要があります。Tableau Server、Tableau Cloud、Tableau Desktop のいずれでも、認証済みデータソースには固有の認証バッジが示されます。特定のデータソースが信頼できる理由は、証明書に関するメモに入力することができます。これらのメモには、Tableau 全体を通して、このデータソースを表示しているときにアクセスすることができ、データソースの認証者も示されます。認証済みデータソースは検索結果で優先的に扱われ、Tableau Server、Tableau Cloud、Tableau Desktop のデータソースリストで目立つように表示されます。データソースを認証するためのパーミッションは、プロジェクトリーダー、Tableau Cloud サイト管理者、Tableau Server/サイト管理者が保持します。詳しくは、認証済みデータソースをご覧ください。
データ セキュリティ
データセキュリティはすべての企業にとって最重要事項です。Tableau を使用すると、お客様はすでに実装されているデータ セキュリティを基に構築できます。IT 管理者は、データベース認証によるデータベース内のセキュリティ、パーミッションによる Tableau 内のセキュリティ、あるいはその両方を組み合わせたアプローチを柔軟に実装することができます。セキュリティは、ユーザーが Web 上のパブリッシュされたビューから、モバイル デバイスから、または Tableau Desktop や Tableau Prep Builder を通してデータにアクセスしているかに関係なく適用されます。大抵の場合、さまざまなユースケースに対応するための柔軟性を提供するハイブリッドアプローチが好まれます。まずは、データセキュリティを分類して、組織で利用しているさまざまなタイプのデータと機密性レベルを定義することから始めてください。
データベースセキュリティを利用する場合、データベースへの認証にどのような手段を使うかが鍵となります。このレベルの認証は、Tableau Server や Tableau Cloud の認証とは異なります (つまり、ユーザーが Tableau Server や Tableau Cloud にログインしても、データベースにログインしたことにはなりません)。そのため、Tableau Server や Tableau Cloud のユーザーはデータベースレベルのセキュリティを適用するために、データベースへの接続用の認証資格情報 (個人のユーザー名/パスワードまたはサービスアカウントのユーザー名/パスワード) も必要になります。Tableau では、データベースへの読み込みアクセスの認証資格情報を使うだけで、データをさらに保護することができます。これによって、パブリッシャーが誤って参照元のデータを変更してしまうことを防げます。また、場合によっては一時表を作成するためのデータベースユーザーパーミッションを提供すると便利です。一時データは Tableau ではなくデータベースに保存されるため、これにはパフォーマンスとセキュリティの両方でメリットがあります。Tableau Cloud の場合は、自動更新を使用するために、データソースに対する接続情報に認証資格情報を埋め込む必要があります。Google および Salesforce.com のデータ ソースについては、OAuth 2.0 アクセス トークンの形で認証資格情報を埋め込むことができます。
保存中の抽出の暗号化は、.hyper 抽出を Tableau Server に保存しながら暗号化できるデータ セキュリティ機能です。Tableau Server 管理者は、サイト上のすべての抽出の暗号化を実施する、または、特定のパブリッシュ済みワークブックやデータ ソースに関連付けられたすべての抽出の暗号化をユーザーが指定するのを許可できます。詳細については、「保存中の抽出の暗号化」を参照してください。
組織で保存データ抽出の暗号化を展開している場合は、AWS を抽出暗号化用の KMS として使用するように Tableau Server を構成することもできます。AWS KMS または Azure KMS を有効にするには、Tableau Server をそれぞれ AWS または Azure にデプロイし、Tableau Server の Advanced Management のライセンスを取得する必要があります。AWS のシナリオでは、Tableau Server は AWS KMS カスタマーマスターキー (CMK) を使用して、AWS データキーを生成します。Tableau Server は、AWS データ キーを、暗号化されたすべての抽出のルート マスター キーとして使用します。Azure のシナリオでは、Tableau Server は Azure Key Vault を使用してルート マスター キー (RMK) を暗号化します。RMK は暗号化されたすべての抽出に使用します。ただし、AWS KMS または Azure KMS の統合が構成されている場合でも、Tableau Server 上のシークレットのセキュアなストレージには、ネイティブの Java キーストアおよびローカルの KMS が使用されます。AWS KMS または Azure KMS は、暗号化された抽出のルートマスターキーの暗号化にのみ使用されます。詳しくは、「キー管理システム」を参照してください。
Tableau Cloud の場合は、既定ですべてのデータが保存時に暗号化されます。ただし、Advanced Management for Tableau Cloud を使用すれば、顧客管理の暗号化キーを活用してキーのローテーションや監査をより詳細に制御できます。顧客管理の暗号化キーにより、顧客が管理するサイト固有のキーを使用してサイトのデータ抽出を暗号化できるため、セキュリティをさらに強化することができます。Salesforce の Key Management System (KMS) インスタンスには、サイトで暗号化を有効にするユーザー向けに、既定のサイト固有の暗号化キーが格納されます。暗号化プロセスは、キー階層に従います。まず、Tableau Cloud が抽出を暗号化します。次に、Tableau Cloud KMS が、適切なデータキーのキーキャッシュをチェックします。キーが見つからない場合は、キーに関連付けられたキー ポリシーで付与されたパーミッションを使用して、KMS GenerateDataKey API によってキーが生成されます。AWS KMS が CMK を使用してデータキーを生成し、プレーンテキストのコピーと暗号化されたコピーを Tableau Cloud に返します。Tableau Cloud がデータキーのプレーンテキストコピーを使用してデータを暗号化し、暗号化されたデータとともにキーの暗号化コピーを保存します。
Tableau Server と Tableau Cloud のどちらでも、データソースにユーザーフィルターを設定すると、どのユーザーがどのデータを表示できるかを制限することができます。これによって、Tableau Server のログインアカウントに基づいて、ユーザーがパブリッシュされたビューでどのデータを表示できるかをより詳細に管理することができるようになります。このテクニックを使えば、地域マネージャーは、他の地域マネージャーのデータを含めることなく、自身の担当地域のデータのみを表示することができます。これらのデータセキュリティアプローチを使用することで、Tableau Cloud または Tableau Server の幅広いユーザーにセキュアでパーソナライズされたデータと分析を提供できる 1 つのビューまたはダッシュボードをパブリッシュすることができます。詳しくは、「データセキュリティ」および「データ行レベルでのアクセスの制限」をご覧ください。行レベルのセキュリティが分析ユースケースにとって最優先事項の場合は、Tableau Data Management を使用し、仮想接続とデータポリシーを活用して規模に応じてユーザーフィルタリングを実装できます。詳しくは、「仮想接続とデータポリシーについて」をご覧ください。