優れたデータセットを検索する
Tableau Desktop の使用方法(またはサンプルや概念実証コンテンツの作成)を学習する優れた方法は、興味のあるデータ セットを見つけることです。データを使用して本当に答えたい疑問があると、分析の手順はよりわかりやすく意味のあるものになります。
データセットの現実
正式な、ビジネスで認められたデータではないデータセットを検索しようとすると、避けられない事実が 2 つあります。
お探しのものが見つかりません。
- 必要なものを厳密に期待するのは避けるようにします。
- 所定のプロジェクトで使用できる内容について、柔軟でオープンな考えを持ってください。
- 必要なデータが有料である場合があります。支払う価値があるかどうかを判断することになります。
データをクリーンアップする必要があります。
- 基本的なクリーニングと加工(新しいウィンドウでリンクが開く)を行い、そのデータが分析に適した構造になるように準備してください。
- 他のデータ セットを取り込む(新しいウィンドウでリンクが開く)必要がある場合があります。
- データ ディクショナリまたはメタデータを持つことは非常に重要です。
- 計算 が必要な場合があります。
優れたデータ セットを構成するもの
優れたデータセットとは、目的に合ったデータ セットです。そのニーズが満たされている限り、それは良いデータ セットと言えます。ただし、目的に合わない可能性があるデータ セットを排除するのに役立つ考慮事項がいくつかあります。全体として、以下の条件を満たすデータ セットを探します。
- 必要な要素が含まれている
- 未集計データである
- 少なくとも 2 つのディメンションと 2 つのメジャーがある
- 適切なメタデータまたはデータ ディクショナリがある
- 使用可能である (独自形式、乱雑、または面倒なものではない)
スーパーストアとは、Tableau Desktop に付属するサンプル データ ソースの 1 つです。なぜこれが優れたデータセットなのでしょうか?
- 必要な要素: スーパーストアには、日付、地理データ、階層リレーションシップを持つフィールド (カテゴリ、サブカテゴリ、製品)、正および負となるメジャー (利益) などがあります。スーパーストアだけでは作れないチャートの種類は非常に少なく、デモンストレーションに使用できない機能はほとんどありません。
- 非集計: 行レベルのデータは、トランザクションにあるそれぞれの項目です。これらの項目は、注文レベル(注文 ID による)までロールアップしたり、あるいは任意のディメンション(日付、顧客、地域など)によってロールアップできます。
- ディメンションとメジャー: スーパーストアには、カテゴリや都市などによって「細かく分割」できるいくつかのディメンションがあります。また、複数のメジャーと日付もあり、これによりチャートの種類や計算ができる可能性があります。
- メタデータ: スーパーストアには適切に名前が付けられたフィールドと値があります。任意の値が何を意味しているか調べる必要はありません。
- 小ちく、整っている: スーパーストアは数メガバイトしかないので、Tableau インストーラーでは容量をほとんど取りません。また、それぞれのフィールドに適切な値と優れたデータ構造を持つ、クリーンなデータでもあります。
1.優れたデータセットには、目的に必要な要素があります
特定のビジュアライゼーションを構築したり、特定の機能を表示したりするためのデータセットを探している場合は、そのデータセットに必要な種類のフィールドがあるか確認してください。たとえば、マップは優れたビジュアルですが、地理データが必要です。多くの場合、基本的なデモでは日付をドリルダウンする必要があるため、データには少なくとも 1 つの日付フィールドが必要です (ドリルダウンを表示するには、年よりも粒度を大きくする必要があります)。すべてのデータセットがこれらすべての要素を必要とするわけではありません。目的に必要なものを知ることで、重要な要素が欠けているデータ セットを使って時間を無駄にすることがありません。
分析のための共通要素:
- 日付
- 地理データ
- 階層データ
- 「興味深い」メジャー - 大きさの大幅な変化、または正か負かの値
一部の機能や viz タイプでは、次のようなデータの特定の性質が必要になる場合があります。
- クラスタ
- 予測
- 傾向線
- ユーザー フィルター
- 空間計算
- 特定の計算
- ブレットグラフ
- 管理図
2.適切なデータセットとは非集計(未加工)データである
データが集約されすぎると、分析のためにできることはあまりありません。たとえば、「パンプキン スパイス」をグーグル検索する人々の傾向を見たいけれど、年間データしかない場合は、非常に高いレベルでの概要しか見ることができません。理想的には、日次データを手に入れたいので、スターバックスが #PSL を提供し始めると、巨大なスパイクが確認できます。
非集計としてカウントされるものは、分析ごとに異なる場合があります。プライバシーや実用性の観点から、データ セットによっては粒度を高めないことがあります。例えば、マラリアの症例を住所ごとに報告しているデータ セットが見つかるとは考えにくいため、地域別の月次集計で十分な粒度が得られるでしょう。
集計と粒度を理解することは、多くの理由から重要な概念です。有用なデータ セットの検索、必要なビジュアライゼーションの構築、データの正しい結合、LOD 式の使用などに影響します。集約と粒度は一つのスペクトルの両極です。
集約とは、パンプキン パイ用のスパイスの検索をすべて合計したり、特定の日にシアトル周辺の温度測定値すべての平均を取得するなど、データを組み合わせる方法を指します。
- 規定では、Tableau のメジャーは集計されます。規定の集計は SUM です。集計は、平均、中央値、個体数、最小値などに変更できます。
粒度とは、データの詳細度を表します。データ セット内の行(別名レコード)は何を表していますか?マラリアにかかっている人ですか?その月におけるある地域のマラリアの総症例数ですか?それが粒度です。データの粒度を知ることは非常に重要です。
詳細については、Tableau でのデータ集計を参照してください。
3.優れたデータセットにはディメンションとメジャーが含まれます。
多くの可視化タイプにはディメンションとメジャーが必要です
- ディメンションのみがある場合、ほとんどの場合、カウント、割合の計算、または [テーブルのカウント数] フィールドの使用に制限されます。
- メジャーのみがある場合、任意のものによって値を細分化することはできません。データ全体を構成要素に分けたり、全体に対する SUM や AVG などを使って作業することはできます。
これは、ディメンションのみを含むデータセットが役に立たないということではありません。人口統計データはディメンションの多いデータの例であり、人口統計に関する分析は集計や割合によるものが大部分を占めます。しかし、多くの分析が可能なデータセットを作成するには、少なくともいくつかのディメンションとメジャーが必要です。
数値ディメンション 連続メジャー 不連続メジャー
ディメンションとメジャー
フィールドは、データ ペインの水平線でディメンションとメジャーに細分化されます。Tableau では、ディメンションはそれ自体としてビューに現れますが、メジャーは自動的に集約されます。メジャーの規定の集計は SUM です。
- ディメンションは定性的であり、記述されるものであって、測定されるものではありません。
- ディメンションは、多くの場合、都市や国、目の色、カテゴリ、チーム名などです。
- ディメンションは通常、不連続です。
- メジャーは定量的で、測定および記録 (数値) が可能です。
- メジャーは、多くの場合、売上高、身長、クリック数などです。
- 通常、メジャーは連続的です。
フィールドを使用して計算できる場合は、それはメジャーであるはずです。フィールドがメジャーかディメンションかわからない場合は、値を使用して意味のある計算を行うことができるかどうかを考えてみましょう。AVG(RowID)、2つの社会保障番号の合計、または郵便番号を10で割ることに何か意味があるでしょうか?ありません。これらは、たまたま数字として書かれるディメンションだからです。アメリカでは数字しか使われていませんが、どれだけ多くの国が英数字の郵便番号を使っているか考えてみましょう。それらは単なるラベルです。Tableauは、数値フィールドが実際には ID または郵便番号であり、それらのディメンションを作成しようとしていることを示す多くのフィールド名を認識することができますが、完璧ではありません。「これで計算できるか?」と考えてから、数値フィールドをメジャーまたはディメンションとすべきかどうかを判断し、必要に応じてデータ ペインを再配置します。
注: 日付を使用して計算を行うことができますが (DATEDIFF 計算など)、標準的な方法では日付をディメンションとして分類します。
不連続と連続
不連続フィールドまたは連続フィールドは、ディメンションとメジャーの概念について多少一致していますが、同一というわけではありません。
- 不連続フィールドには、個別の値が含まれています。それらはビューでヘッダーやラベルを作り、ピルは青色です
- 連続フィールドは「切れ目のない全体を形成します」。それらはビューで軸を形成し、ピルは緑色です
不連続と連続を理解する方法は、日付フィールドを見ると良いでしょう。日付は、不連続または連続のいずれかとなる場合があります。
- 10 年または 1 世紀にわたる 8 月の平均気温を見ることは、「8 月」が不連続的で定性的な日付部分として使用されているということになります。
- 1960 年以降に報告されたマラリア症例の全体的な傾向を見ることは、単一で切れ目のない軸が取られ、日付が連続的で定量的な値として使用されていることを意味します。
詳細については、「ディメンションとメジャー、青と緑」を参照してください。
Tableau は、データ セットがどのようなものであれ、少なくとも 3 つのフィールドを作成します。
- メジャー名(ディメンション)
- メジャー値(メジャー)
- TableName(カウント) (メジャー)
また、データセットに地理的フィールドがある場合、Tableau は [緯度 (生成済み)] と [経度 (生成済み)] のフィールドも作成します。
メジャー名とメジャー値の 2 つのフィールドは有用です。詳細については、「メジャー バリューとメジャー ネーム」を参照してください。
テーブルのカウント数は、行をカウントすることにより、テーブルのレコード数を提供します。これにより、データ セット内に少なくとも 1 つのメジャーを含めることができ、いくつかの分析に役立ちます。行数が何を意味するかを定義するには、データの粒度 (行が何を表しているか) を理解する必要があります。
ここでは、各行はある日であるため、レコード数は日数になります。
ここでは、各行はある月であるため、レコード数は月数になります。
4.優れたデータセットにはメタデータまたはデータ ディクショナリがある
データ セットは、そのデータが何であるかを知っている場合にのみ役立ちます。適切なデータを探す場合に次のようなファイルを開くことよりもイライラするものはほとんどありません。
優れたデータ セットとは、適切なラベルが付いたフィールドとメンバー、またはデータ ディクショナリがあり、自分で再ラベルできるデータ セットです。スーパーストアについて考えてみましょう。カテゴリとそのメンバーのテクノロジー、家具、オフィス用品など、フィールドとその値が何であるか一見してすぐわかります。または、上の画像にあるマイクロバイオーム データセットについては、それぞれソース(4 は胃で、12 は排泄物)とそれぞれのOTUの分類(OTU3は パラバクテロイデス属の細菌である)を説明するデータ ディクショナリ(新しいウィンドウでリンクが開く)があります。
データ ディクショナリは、メタデータ、インジケーター、変数定義、用語集、その他の任意の数と呼ばれることもあります。その日の終わりに、データ ディクショナリは列の名前と列の中のメンバーに関する情報を提供します。この情報は、次のようないくつかの方法でデータ ソースまたはビジュアライゼーションに取り込むことができます。
- 列の名前を変更して理解しやすくします(これはデータ セット自体または Tableau で行うことができます)。
- フィールドのメンバーを最エイリアス化します(これはデータ セット自体または Tableau で行うことができます)。
- 計算を作成し、データ ディクショナリの情報を追加します。
- Tableau のフィールドでコメントします(コメントは、オーサリング環境でのみ、パブリッシュされたビジュアライゼーションには表示されません)。
- データ ディクショナリを別のデータ ソースとして使用し、2 つのデータ ソースを組み合わせます。
データ ディクショナリを失うと、データ セットが役に立たなくなる可能性があります。データ セットをブックマークしている場合は、データ ディクショナリもブックマークします。ダウンロードしている場合は、両方をダウンロードしてどちらも同じ場所に保管してください。
5.適切なデータ セットとは、使用できるデータ セットである
データ セットを理解し、そのデータ セットに必要な情報がある限り、小さなデータ セットでも分析に非常に効果があります。また、小さいデータ セットは格納、共有、およびパブリッシュも簡単で、パフォーマンスが向上する可能性があります。
同様に、ニーズに合った「完璧な」データ セットを見つけたとしても、そのデータ セットにクリーンアップに非現実的な労力が必要な場合は、結局のところ完璧ではありません。乱雑すぎるデータ セットから離れるタイミングを知ることは重要です。
たとえば、このデータ セットは、相対的な文字の頻度に関するウィキペディアの記事から取得されています。このデータ セットは、84 行と 16 列 (1,245 行と 3 列にピボット) として開始されました。Excel ファイルは 16 KB です。しかし、一部のグループ、セット、計算、およびその他の操作により、ロバスト分析と興味深いビジュアルが可能になります。
データのラベル付け直し
適切なデータ セットを見つけたら、多くの場合、ラベルを付け直す必要があります。データのラベル付け直しは、サンプルや概念実証用の仮のデータを作成したり、データを読みやすくしたりするのに役立ちます。
フィールドの名前を変更すると、「売上高」を「パイプライン売上高」または「都道府県」から「地方」に名前を変更するなど、Tableau でのフィールドの表示方法が変わります。
再エイリアス化すると、CHN が中国になり、RUS がロシアになるように国フィールドの値を再エイリアス化するなど、フィールドのメンバーの表示方法が変わります。
- 不連続ディメンション フィールドの値は、メンバーと呼ばれます。再エイリアス化できるのはメンバーだけです。温度のメジャー フィールドを考えてみましょう。データ自体を変更せずに、54°F (12℃) の値を変更することはできません。しかし、国フィールドでメンバー「CHN」を「中国」と再エイリアス化しても、別の方法でラベル付けしただけの同じ情報です。
名前の変更と再エイリアス化は、ほぼ同じことを意味します。フィールドに名前が付けられ、メンバーがエイリアス化されるのは Tableau の慣習です。詳細については、データ ペイン内のフィールドの整理とカスタマイズ および ビュー内でメンバー名を変更する別名を作成するを参照してください。
注: 名前の変更またはエイリアスの再設定は、Tableau Desktop の外観を変更するだけで、変更は元となるデータに書き戻されません。
仮のデータを作るためにラベルを変更する
既存のデータセットのラベルを変更することは、サンプルや概念実証のコンテンツをより説得力のあるものにする優れた方法です。
- 簡単なデータ セット(スーパーストアなど)を使用して、必要なものを作成します(特定のグラフ タイプ、特定機能の表示など)。
- 関連するフィールドの名前を変更したり、ツールヒントを変更したり、テキストのアスペクトを変更して、データが実際に表す内容をマスクします。
重要: これは、仮の情報であることが明らかな場合にのみ行います。人々にそれが実際のデータと思われて、分析にそのデータを使用されることがないように注意してください。たとえば、色や動物のようなありえない名前や無意味なフィールド名を使用します。
データを使いやすくするために再エイリアス化する
数値エンコードを使用するとデータが理解しにくくなる場合がありますが、データを文字列値ではなく数値として格納する方が効率的です。小さなデータ セットの場合、パフォーマンスに影響を与えない可能性が高いので、データを簡単に理解できることを優先します。
再エイリアス化の欠点は、これらの数値にアクセスできなくなるということです(ソートや色のグラデーションの割り当てなどが難しくなります)。フィールドを複製し、コピーを再エイリアス化することを検討してください。また、Tableau での計算は、元の情報を保持しながら、わかりやすいものにする素晴らしい方法となる可能性があります。
CASE 関数を使用した再エイリアス
計算は、再エイリアス化に非常に強力となる可能性があります。たとえば、CASE 関数を使用すると、基本的に「このフィールドの値が A の場合、X を与えてください。値が B の場合、Y を与えてください」と言うことができます。
ここでは、CASE 関数は、トルネード データ セット内の F スケールを調べ、各数値に関連付けられた記述を提供します。
CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END
これで、元の「F スケール」フィールド(0-5)またはビジュアライゼーションの「F スケールダメージ説明」フィールドのいずれかを使用することを選択できます。
データセットを検索する際のヒント
注: 「データ セットの行(別名レコード)は何を表すのか?」という質問に答えられるようにしてください。それを明確に説明できない場合、データを使用できるほど十分に理解できていないか、データの構造が分析に適していない可能性があります。
- データの取得元を追跡します。
- データ自体と一緒にデータ ディクショナリ情報を保持します。
- コンテンツを常に新鮮な状態に維持する必要がある場合は、古いデータを使用しないでください。次のものを探してください。
- 更新可能なデータ(株式、天候、定期的に公開されたレポートなど)
- 時代を超越したデータ(さまざまな動物の平均質量は年々変わることはありません)
- 人為的に過去または将来の日付に変更することで、将来にわたって使用できるデータ
- 探しているものを Google で検索してみると、驚くかもしれない。
- データセットの準備に膨大な作業が必要な場合には、そのデータセットをためらわずに見切りをつけてください。
データを探す場所
どこでデータを探すことができますか?データ セットを検索する場所は多数存在する可能性があります。ここでは、使用を開始するためのオプションをいくつか示します。データセットの現実は、これらのサイトにも当てはまることに注意してください。現在考えていることを見つけることはおそらくできません。データを分析できるようにするには、ある程度のクリーニングが必要です。
免責条項: これらの外部ウェブサイトへのリンクが正確そして最新であり、関連性があるように確認する最善の努力を払っていますが、Tableau は外部プロバイダーによって管理されているページの正確さや最新度に関して責任を負いかねます。ここにサイトを掲載することは、いかなるコンテンツや組織を推奨するものではありません。コンテンツに関する質問の答えを求める場合、外部サイトにお問い合わせください。
Tableau Public(新しいウィンドウでリンクが開く): Tableau Public は、Tableau で使いやすいデータ セットの素晴らしいリソースです。興味のあるトピックにあるワークブックを検索し、インスピレーションを得るために参照し、ワークブックをダウンロードしてデータにアクセスします。または、キュレーションされた サンプルデータ(新しいウィンドウでリンクが開く) をチェックしてください。
Wikipedia テーブル(新しいウィンドウでリンクが開く): スプレッドシートへコピーと貼り付けをしたり、 Tableau への直接コピーと貼り付けをしたり、または Google シートと IMPORTHTML 関数(新しいウィンドウでリンクが開く) を使用してデータの Google スプレッドシートを作成する方法で、ウィキペディアのテーブルからデータを取得します。
Google データセット検索(新しいウィンドウでリンクが開く): 「断片化されたオンライン データ セットの世界を統合する検索エンジン。」
データは複数形(新しいウィンドウでリンクが開く) : データ セットを含む週刊ニュースレターを購読するか、アーカイブ(新しいウィンドウでリンクが開く) をブラウズ します。
月曜日に模様替え(新しいウィンドウでリンクが開く):「毎週月曜日には、所定のデータ セットを操作して、より良い、より効果的なビジュアライゼーションを作成し、情報によりアクセスしやすくなるようにご協力ください。」他のユーザーが同じデータ セットを使用して行ったことを確認したり、分析を開始したり、インスピレーションを与えたりできます。参加するには、Twitterで#makeovermonday(新しいウィンドウでリンクが開く)を使用してください。
その他のサイト
- Tableau Web データ コネクタ(新しいウィンドウでリンクが開く)
- Data.world(新しいウィンドウでリンクが開く) およびその WDC for Tableau(新しいウィンドウでリンクが開く)
- Github Open Data(新しいウィンドウでリンクが開く)
- Kaggle(新しいウィンドウでリンクが開く)
- datahub.io(新しいウィンドウでリンクが開く)
- r/datasets(新しいウィンドウでリンクが開く)
- WHO(新しいウィンドウでリンクが開く)
- Data.UN.org(新しいウィンドウでリンクが開く)
- WorldBank(新しいウィンドウでリンクが開く)
- data.gov(新しいウィンドウでリンクが開く)、data.gov.au(新しいウィンドウでリンクが開く)、data.gov.uk(新しいウィンドウでリンクが開く) など
- Airbnb(新しいウィンドウでリンクが開く)
- Yelp(新しいウィンドウでリンクが開く)
- Zillow(新しいウィンドウでリンクが開く)