Tableau Desktop の使用方法(またはサンプルや概念実証コンテンツの作成)を学習する優れた方法は、興味のあるデータ セットを見つけることです。データを使用して回答したい真の疑問がある場合、分析の手順はより簡単でより意味のあるものになります。

データセットの現実

公式ではなく、事業上の認可を受けていないデータによるデータセットを検索しようとすることについては、避けられない 2 つの事実があります。

お探しのものを見つけることはできません。

  • 望むものに対して過度に具体的な先入観を持たないようにしてください。
  • 所定のプロジェクトで使用できる内容について、柔軟でオープンな考えを持ってください。
  • 必要なデータが有料である場合があります。支払う価値があるかどうかを判断を行うことになります。

データをクリーンアップする必要があります。

優れたデータ セットを構成するもの

優れたデータセットとは、目的に合ったデータ セットです。そのニーズが満たされている限り、それは良いデータ セットとなります。ただし、目的に合わない可能性があるデータ セットを排除するのに役立つ考慮事項がいくつかあります。全体として、以下の条件を満たすデータ セットを探します。

  1. 必要な要素が含まれている
  2. 集計されていないデータ
  3. 少なくとも数個のディメンションと数個のメジャーがある
  4. 適切なメタデータまたはデータ ディクショナリがある
  5. 使用可能である(独自形式、乱雑、または面倒なものではない)
スーパーストアがスーパーである理由は何でしょうか?

スーパーストアとは、Tableau Desktop に付属するサンプル データ ソースの 1 つです。なぜこれが優れたデータセットなのでしょうか?

  • 必要な要素: スーパーストアには、日付、地理データ、階層リレーションシップを持つフィールド(カテゴリ、サブカテゴリ、製品)、正および負となるメジャー(利益)などがあります。スーパーストアだけでは作れないチャートの種類は非常に少なく、デモンストレーションには使用できない機能はほとんどありません。
  • 非集計: 行レベルのデータは、トランザクションにあるそれぞれの項目です。これらの項目は、注文レベル(注文 ID による)までロールアップしたり、あるいは任意のディメンション(日付、顧客、地域など)によってロールアップできます。
  • ディメンションとメジャー: スーパーストアには、カテゴリや都市などによって「細かく分割」できるいくつかのディメンションがあります。また、複数のメジャーと日付もあり、これによりチャートの種類や計算ができる可能性があります。
  • メタデータ: スーパーストアには適切に名前が付けられたフィールドと値があります。任意の値が何を意味しているか調べる必要はありません。
  • 小ちく、整っている: スーパーストアは数メガバイトしかないので、Tableau インストーラーでは容量をほとんど取りません。また、それぞれのフィールドに適切な値と優れたデータ構造を持つ、非常に整然としたデータでもあります。

1.優れたデータセットには、目的に必要な要素があります

特定のビジュアライゼーションを構築したり、特定の機能を表示したりするためのデータセットを探している場合は、そのデータセットに必要な種類のフィールドがあるか確認してください。たとえば、マップは優れたビジュアルですが、地理データが必要です。多くの場合、基本的なデモでは日付をドリルダウンする必要があるため、データには少なくとも 1 つの日付フィールドが必要です(ドリルダウンを表示するには、年よりも粒度を大きくする必要があります)。すべてのデータセットがこれらすべての要素を必要とするわけではありません。目的に必要なものを知ることで、重要な要素が欠けているデータ セットを使って時間を無駄にすることがありません。

分析のための共通要素:

  • 日付
  • 地理データ
  • 階層データ
  • 「興味深い」メジャー - 大きさの実質的な変動または正と負の値

一部の機能や viz タイプでは、次のようなデータの特定の性質が必要になる場合があります。 

  • クラスター
  • 予測
  • 傾向線
  • ユーザー フィルター
  • 空間計算
  • 特定の計算
  • ブレットグラフ
  • 管理図

2.適切なデータセットとは非集計(未加工)データである

データが集約されすぎると、分析のためにできることはあまりありません。たとえば、「パンプキン スパイス」をグーグル検索する人々の傾向を見たいけれど、年間データしかない場合は、非常に高いレベルでの概要しか見ることができません。理想的には、日次データを手に入れたいので、スターバックスが #PSL を提供し始めると、巨大なスパイクが確認できます。

非集計としてカウントされるものは、分析ごとに異なる場合があります。プライバシーや実用性のために、一部のデータ セットは一定のレベルよりも粒度が大きくなることはありません。例えば、マラリアの症例を個別に報告しているデータ セットが見つかる可能性は低いため、地域別の月次合計は十分に粒度が細かい可能性があります。

集計と粒度

集計と粒度を理解することは、多くの理由から重要な概念です。有用なデータ セットの検索、必要なビジュアライゼーションの構築、データの正しい結合、LOD 式の使用などに影響します。集約と粒度は一つのスペクトルの両極です。

集約とは、パンプキン パイ用のスパイスの検索をすべて合計したり、特定の日にシアトル周辺の温度測定値すべての平均を取得するなど、データを組み合わせる方法を指します。

  • 規定では、Tableau のメジャーは集計されます。規定の集計は SUM です。集計は、Average、Median、Count Distinct、Minimum などに変更できます。

粒度とは、データの詳細度を表します。データ セット内の行(別名レコード)は何を表していますか?マラリアにかかっている人ですか?その月におけるある地域のマラリアの総症例数ですか?それが粒度です。データの粒度を把握することは、LOD(詳細レベル)式を使用する上で非常に重要です。

詳細については、「集計と粒度に関する無料トレーニング ビデオ」(新しいウィンドウでリンクが開く)、またはヘルプ トピックTableau でのデータ集計を参照してください。

3.優れたデータセットにはディメンションとメジャーが含まれます。

多くの可視化タイプにはディメンションメジャーが必要です

  • ディメンションのみがある場合、ほとんどの場合、カウント、割合の計算、または [レコード数] フィールドの使用に制限されます。
  • メジャーのみがある場合、任意のものによって値を細分化することはできません。データ全体を構成要素に分けたり、全体に対する SUM や AVG などを使って作業することはできます。

これは、ディメンションのみを含むデータセットが役に立たないということではありません。人口統計データはディメンションの多いデータの例であり、人口統計に関する分析は集計や割合によるものが大部分を占めます。しかし、多くの分析が可能なデータセットを作成するには、少なくともいくつかのディメンションとメジャーが必要です。

ディメンションとメジャー、不連続と連続

上の図では、 数値ディメンション は、 連続メジャー 不連続メジャー の両方とは異なり、[マーク] カードに集計はありません。

ディメンションとメジャー

フィールドは、データ ペインのディメンションとメジャーに細分化されます。Tableau では、ディメンションはそれ自体としてビューに現れますが、メジャーは自動的に集約されます。メジャーの規定の集計は SUM です。

  • ディメンションは定性的であり、記述されるものであって、測定されるものではありません。
    • ディメンションは、多くの場合、都市や国、目の色、カテゴリ、チーム名などです。
    • ディメンションは通常、不連続です。
  • メジャーは定量的で、測定および記録 (数値) が可能です。
    • メジャーは、多くの場合、売上高、身長、クリック数などです。
    • 通常、メジャーは連続的です。

フィールドを使用して計算できる場合は、それはメジャーであるはずです。フィールドがメジャーかディメンションかわからない場合は、値を使用して意味のある計算を行うことができるかどうかを考えてみましょう。AVG(RowID)、2つの社会保障番号の合計、または郵便番号を10で割ることに何か意味があるでしょうか?ありません。これらは、たまたま数字として書かれるディメンションだからです。アメリカでは数字しか使われていませんが、どれだけ多くの国が英数字の郵便番号を使っているか考えてみましょう。Tableauは、数値フィールドが実際には ID または郵便番号であり、それらのディメンションを作成しようとしていることを示す多くのフィールド名を認識することができますが、完璧ではありません。「これで計算できるか?」と考えてから、数値フィールドをメジャーまたはディメンションとすべきかどうかを判断し、必要に応じてデータ ペインを再配置します。

: 日付を使用して計算を行うことができますが (DATEDIFF 計算など)、標準的な方法では日付をディメンションとして分類します。

不連続と連続

不連続フィールドまたは連続フィールドは、ディメンションとメジャーの概念について多少一致していますが、同一というわけではありません。

  • 不連続フィールドには、個別の値が含まれています。それらはビューでヘッダーやラベルを作り、ピルは青色です
  • 連続フィールドは、「切れ目のない全体を形成します」。それらはビューで軸を形成し、ピルは緑色です

不連続と連続を理解する方法は、日付フィールドを見ると良いでしょう。日付は、不連続または連続のいずれかとなる場合があります。

  • 10 年または 1 世紀にわたる 8 月の平均気温を見ることは、「8 月」が不連続的で定性的な日付部分として使用されているということになります。
  • 1960 年以降に報告されたマラリア症例の全体的な傾向を見ることは、単一で切れ目のない軸が取られ、日付が連続的で定量的な値として使用されていることを意味します。

詳細については、ピルの種類についての無料トレーニング ビデオ(新しいウィンドウでリンクが開く)、またはヘルプ トピックディメンションとメジャー、青と緑を参照してください。

Tableau で作成されたフィールド

Tableau は、データ セットがどのようなものであれ、自動的に 3 つのフィールドを作成します。

  • メジャー名(ディメンション)
  • メジャー値(メジャー)
  • レコード数(メジャー)

また、データセットに地理的フィールドがある場合、Tableau は [緯度 (生成済み)] と [経度 (生成済み)] のフィールドも作成します。

メジャー名メジャー値は、2 つの極めて有用なフィールドです。 詳細については、無料トレーニング ビデオ(新しいウィンドウでリンクが開く)、またはヘルプ トピックメジャー バリューとメジャー ネームを参照してください。

レコード数は、基本的にそのデータ セットのすべての行に「1」を割り当てるフィールドです。これにより、データ セット内に少なくとも 1 つのメジャーを含めることができ、いくつかの分析に役立ちます。レコードの数が何を意味するかを定義するには、データの粒度(行が表す内容)を理解する必要があります。

ここでは、それぞれの行は 1 日であるため、レコード数は日数になります。

ここでは、それぞれの行は 1 か月であるため、レコード数は月数になります。

4.優れたデータセットにはメタデータまたはデータ ディクショナリがある

データ セットは、そのデータが何であるかを知っている場合にのみ役立ちます 。 適切なデータを探す場合に次のようなファイルを開くことよりもイライラするものはほとんどありません。

完全な数値データのスプレッド シート ビュー

4 または 12 のソースとはどういう意味でしょうか?OTU0-OTU4 のフィールドにはどのような情報があるでしょうか?

優れたデータ セットとは、適切なラベルが付いたフィールドとメンバー、またはデータ ディクショナリがあり、自分で再ラベルできるデータ セットです。スーパーストアについて考えてみましょう。カテゴリとそのメンバーのテクノロジー、家具、オフィス用品など、フィールドとその値が何であるか一見してすぐわかります。または、上の画像にあるマイクロバイオーム データセットについては、それぞれソース(4 は胃で、12 は排泄物)とそれぞれのOTUの分類(OTU3は パラバクテロイデス属の細菌である)を説明するデータ ディクショナリ(新しいウィンドウでリンクが開く)があります。

データ ディクショナリは、メタデータ、インジケーター、変数定義、用語集、その他の任意の数と呼ばれることもあります。その日の終わりに、データ ディクショナリは列の名前と列の中のメンバーに関する情報を提供します。この情報は、次のようないくつかの方法でデータ ソースまたはビジュアライゼーションに取り込むことができます。

  • 列の名前を変更して理解しやすくします(これはデータ セット自体または Tableau で行うことができます)。
  • フィールドのメンバーを最エイリアス化します(これはデータ セット自体または Tableau で行うことができます)。
  • 計算を作成し、データ ディクショナリの情報を追加します。
  • Tableau のフィールドでコメントします(コメントは、オーサリング環境でのみ、パブリッシュされたビジュアライゼーションには表示されません)。
  • データ ディクショナリを別のデータ ソースとして使用し、2 つのデータ ソースを組み合わせます。

データ ディクショナリを失うと、データ セットが役に立たなくなる可能性があります。データ セットをブックマークしている場合は、データ ディクショナリもブックマークします。ダウンロードしている場合は、両方をダウンロードしてどちらも同じ場所に保管してください。

5.適切なデータ セットとは、使用できるデータ セットである

データ セットを理解し、そのデータ セットに必要な情報がある限り、小さなデータ セットでも分析に非常に効果があります。また、小さいデータ セットは格納、共有、およびパブリッシュも簡単で、パフォーマンスが向上する可能性があります。

同様に、ニーズに合った「完璧な」データ セットを見つけたとしても、そのデータ セットにクリーンアップに非現実的な労力が必要な場合は、結局のところ完璧ではありません。乱雑すぎるデータ セットから離れるタイミングを知ることは重要です。

たとえば、このデータ セットは、相対的な文字の頻度に関するウィキペディアの記事から取得されています。このデータ セットは、84 行と 16 列 (1,245 行と 3 列にピボット) として開始されました。Excel ファイルは 16 KB です。しかし、一部のグループ、セット、計算、およびその他の操作により、ロバスト分析と興味深いビジュアルが可能になります。

画像をクリックするとワークブックをダウンロードします。

データのラベル付け直し

適切なデータ セットを見つけたら、多くの場合、ラベルを付け直す必要があります。データのラベル付け直しは、サンプルや概念実証用の仮のデータを作成したり、データを読みやすくしたりするのに役立ちます。

フィールドの名前を変更すると、「売上高」を「パイプライン売上高」または「州」から「県」に名前を変更するなど、Tableau でのフィールドの表示方法が変わります。

再エイリアス化すると、CHN が中国になり、RUS がロシアになるように国フィールドの値を再エイリアス化するなど、フィールドのメンバーの表示方法が変わります。

  • 不連続ディメンション フィールドの値は、メンバーと呼ばれます。再エイリアス化できるのはメンバーだけです。温度のメジャー フィールドを考えてみましょう。データ自体を変更せずに、54°F の値を変更することはできません。しかし、国のフィールドでメンバー「CHN」を「中国」とする再エイリアス化は、別の方法でラベル付けされた同じ情報です。

名前の変更と再エイリアス化は、ほぼ同じことを意味します。フィールドに名前が付けられ、メンバーがエイリアス化されるのは Tableau の慣習です。詳細については、[データ] ペイン内のフィールドの整理とカスタマイズ および ビュー内でメンバー名を変更する別名を作成するを参照してください。

: 名前の変更またはエイリアスの再設定は、Tableau Desktop の外観を変更するだけで、変更は元となるデータに書き戻されません。

仮のデータを作るためにラベルを変更する

既存のデータセットのラベルを変更することは、サンプルや概念実証のコンテンツをより説得力のあるものにする優れた方法です。

  1. 簡単なデータ セット(スーパーストアなど)を使用して、必要なものを作成します(特定のグラフ タイプ、特定機能の表示など)。
  2. 関連するフィールドの名前を変更したり、ツールヒントを変更したり、テキストのアスペクトを変更して、データが実際に表す内容をマスクします。

重要: これは、情報が仮であることが明らかになった場合にのみ行います。人々はそれが実際のデータと思って、分析にそのデータを使用することがないように注意してください。たとえば、色や動物のようなありえない名前や無意味なフィールド名を使用します。

データを使いやすくするために再エイリアス化する

数値エンコードを使用するとデータが理解しにくくなる場合がありますが、データを文字列値ではなく数値として格納する方が効率的です。小さなデータ セットの場合、パフォーマンスに影響を与えない可能性が高いので、データを簡単に理解できることを優先します。

再エイリアス化の欠点は、これらの数値にアクセスできなくなるということです(ソートや色のグラデーションの割り当てなどが難しくなります)。フィールドを複製し、コピーを再エイリアス化することを検討してください。また、Tableau での計算は、元の情報を保持しながら、わかりやすいものにする素晴らしい方法となる可能性があります。

CASE 関数を使用した再エイリアス

計算は、再エイリアス化に非常に強力となる可能性があります。たとえば、CASE 関数を使用すると、基本的に「このフィールドの値が A の場合、X を与えてください。値が B の場合、Y を与えてください」と言うことができます。

ここでは、CASE 関数は、トルネード データ セット内の F スケールを調べ、各数値に関連付けられた記述を提供します。

                    

CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END

これで、元の「F スケール」フィールド(0-5)またはビジュアライゼーションの「F スケールダメージ説明」フィールドのいずれかを使用することを選択できます。

データセットを検索する際のヒント

: 「データ セットの行(別名レコード)は何を表すのか?」という質問に答えられるようにしてください。それを明確に説明できない場合、データを使用できるほど十分に理解できていないか、データの構造が分析に適していない可能性があります。

  • データの取得元を追跡します。
  • データ自体と一緒にデータ ディクショナリ情報を保持します。
  • コンテンツを常に新鮮な状態に維持する必要がある場合は、古いデータを使用しないでください。次のものを探してください。
    • 更新可能なデータ(株式、天候、定期的に公開されたレポートなど)
    • 時代を超越したデータ(さまざまな動物の平均質量は年々変わることはありません)
    • 人為的に過去または将来の日付に変更することで、将来にわたって使用できるデータ
  • 探しているものを Google で検索してみると、驚くかもしれない。
  • データセットの準備に膨大な作業が必要な場合には、そのデータセットをためらわずに見切りをつけてください。

データを探す場所

どこでデータを探すことができますか?データ セットを検索する場所は多数存在する可能性があります。ここでは、使用を開始するためのオプションをいくつか示します。データセットの現実は、これらのサイトにも当てはまることに注意してください。現在考えていることを見つけることはおそらくできません。データを分析できるようにするには、ある程度のクリーニングが必要です。

免責条項: これらの外部ウェブサイトへのリンクが正確そして最新であり、関連性があるように確認する最善の努力を払っていますが、Tableau は外部プロバイダーによって管理されているページの正確さや最新度に関して責任を負いかねます。ここにサイトを掲載することは、いかなるコンテンツや組織を推奨するものではありません。コンテンツに関する質問の答えを求める場合、外部サイトにお問い合わせください。

Tableau Public(新しいウィンドウでリンクが開く) : Tableau Public は、Tableau で使いやすいデータ セットの素晴らしいリソースです。興味のあるトピックにあるワークブックを検索し、インスピレーションを得るために参照し、ワークブックをダウンロードしてデータにアクセスします。または、キュレーションされた サンプルデータ(新しいウィンドウでリンクが開く) をチェックしてください。

Wikipedia テーブル (新しいウィンドウでリンクが開く): スプレッドシートへコピーと貼り付けをしたり、 Tableau への直接コピーと貼り付けをしたり、または Google シートと IMPORTHTML 関数(新しいウィンドウでリンクが開く) を使用してデータの Google スプレッドシートを作成する方法で、ウィキペディアのテーブルからデータを取得します。

Google データセット検索(新しいウィンドウでリンクが開く) : 「断片化されたオンライン データ セットの世界を統合する検索エンジン。」

データは複数形(新しいウィンドウでリンクが開く) : データ セットを含む週刊ニュースレターを購読するか、アーカイブ(新しいウィンドウでリンクが開く) をブラウズ します。

月曜日のメイクオーバー(新しいウィンドウでリンクが開く) :「毎週月曜日に参加して、特定のデータ セットを操作し、より良い、より効果的な視覚化を作成し、情報をよりアクセスしやすくするのに役立ちます。」他のユーザーが同じデータ セットを使用して行ったことを確認したり、分析を開始したり、インスピレーションを与えたりできます。参加するには、Twitterで#makeovermonday(新しいウィンドウでリンクが開く)を使用してください。

その他のサイト

ありがとうございます!