優れたデータセットを検索する
Tableau Desktop の使用方法(またはサンプルや概念実証コンテンツの作成)を学習する優れた方法は、興味のあるデータ セットを見つけることです。データを使用して本当に答えたい疑問があると、分析の手順はよりわかりやすく意味のあるものになります。
データセットの現実
正式な、ビジネスで認められたデータではないデータセットを検索しようとすると、避けられない事実が 2 つあります。
お探しのものが見つかりません。
- 必要なものを厳密に期待するのは避けるようにします。
- 所定のプロジェクトで使用できる内容について、柔軟でオープンな考えを持ってください。
- 必要なデータが有料である場合があります。支払う価値があるかどうかを判断することになります。
データをクリーンアップする必要があります。
- 基本的なクリーニングと加工(新しいウィンドウでリンクが開く)を行い、そのデータが分析に適した構造になるように準備してください。
- 他のデータ セットを取り込む(新しいウィンドウでリンクが開く)必要がある場合があります。
- データ ディクショナリまたはメタデータを持つことは非常に重要です。
- 計算 が必要な場合があります。
優れたデータ セットを構成するもの
優れたデータセットとは、目的に合ったデータ セットです。そのニーズが満たされている限り、それは良いデータ セットと言えます。ただし、目的に合わない可能性があるデータ セットを排除するのに役立つ考慮事項がいくつかあります。全体として、以下の条件を満たすデータ セットを探します。
- 必要な要素が含まれている
- 未集計データである
- 少なくとも 2 つのディメンションと 2 つのメジャーがある
- 適切なメタデータまたはデータ ディクショナリがある
- 使用可能である (独自形式、乱雑、または面倒なものではない)
1.優れたデータセットには、目的に必要な要素があります
特定のビジュアライゼーションを構築したり、特定の機能を表示したりするためのデータセットを探している場合は、そのデータセットに必要な種類のフィールドがあるか確認してください。たとえば、マップは優れたビジュアルですが、地理データが必要です。多くの場合、基本的なデモでは日付をドリルダウンする必要があるため、データには少なくとも 1 つの日付フィールドが必要です (ドリルダウンを表示するには、年よりも粒度を大きくする必要があります)。すべてのデータセットがこれらすべての要素を必要とするわけではありません。目的に必要なものを知ることで、重要な要素が欠けているデータ セットを使って時間を無駄にすることがありません。
分析のための共通要素:
- 日付
- 地理データ
- 階層データ
- 「興味深い」メジャー - 大きさの大幅な変化、または正か負かの値
一部の機能や viz タイプでは、次のようなデータの特定の性質が必要になる場合があります。
- クラスタ
- 予測
- 傾向線
- ユーザー フィルター
- 空間計算
- 特定の計算
- ブレットグラフ
- 管理図
2.適切なデータセットとは非集計(未加工)データである
データが集約されすぎると、分析のためにできることはあまりありません。たとえば、「パンプキン スパイス」をグーグル検索する人々の傾向を見たいけれど、年間データしかない場合は、非常に高いレベルでの概要しか見ることができません。理想的には、日次データを手に入れたいので、スターバックスが #PSL を提供し始めると、巨大なスパイクが確認できます。
非集計としてカウントされるものは、分析ごとに異なる場合があります。プライバシーや実用性の観点から、データ セットによっては粒度を高めないことがあります。例えば、マラリアの症例を住所ごとに報告しているデータ セットが見つかるとは考えにくいため、地域別の月次集計で十分な粒度が得られるでしょう。
3.優れたデータセットにはディメンションとメジャーが含まれます。
多くの可視化タイプにはディメンションとメジャーが必要です
- ディメンションのみがある場合、ほとんどの場合、カウント、割合の計算、または [テーブルのカウント数] フィールドの使用に制限されます。
- メジャーのみがある場合、任意のものによって値を細分化することはできません。データ全体を構成要素に分けたり、全体に対する SUM や AVG などを使って作業することはできます。
これは、ディメンションのみを含むデータセットが役に立たないということではありません。人口統計データはディメンションの多いデータの例であり、人口統計に関する分析は集計や割合によるものが大部分を占めます。しかし、多くの分析が可能なデータセットを作成するには、少なくともいくつかのディメンションとメジャーが必要です。
4.優れたデータセットにはメタデータまたはデータ ディクショナリがある
データ セットは、そのデータが何であるかを知っている場合にのみ役立ちます。適切なデータを探す場合に次のようなファイルを開くことよりもイライラするものはほとんどありません。
4 または 12 のソースとはどういう意味でしょうか?OTU0-OTU4 のフィールドにはどのような情報があるでしょうか?
優れたデータ セットとは、適切なラベルが付いたフィールドとメンバー、またはデータ ディクショナリがあり、自分で再ラベルできるデータ セットです。スーパーストアについて考えてみましょう。カテゴリとそのメンバーのテクノロジー、家具、オフィス用品など、フィールドとその値が何であるか一見してすぐわかります。または、上の画像にあるマイクロバイオーム データセットについては、それぞれソース(4 は胃で、12 は排泄物)とそれぞれのOTUの分類(OTU3は パラバクテロイデス属の細菌である)を説明するデータ ディクショナリ(新しいウィンドウでリンクが開く)があります。
データ ディクショナリは、メタデータ、インジケーター、変数定義、用語集、その他の任意の数と呼ばれることもあります。その日の終わりに、データ ディクショナリは列の名前と列の中のメンバーに関する情報を提供します。この情報は、次のようないくつかの方法でデータ ソースまたはビジュアライゼーションに取り込むことができます。
- 列の名前を変更して理解しやすくします(これはデータ セット自体または Tableau で行うことができます)。
- フィールドのメンバーを最エイリアス化します(これはデータ セット自体または Tableau で行うことができます)。
- 計算を作成し、データ ディクショナリの情報を追加します。
- Tableau のフィールドでコメントします(コメントは、オーサリング環境でのみ、パブリッシュされたビジュアライゼーションには表示されません)。
- データ ディクショナリを別のデータ ソースとして使用し、2 つのデータ ソースを組み合わせます。
データ ディクショナリを失うと、データ セットが役に立たなくなる可能性があります。データ セットをブックマークしている場合は、データ ディクショナリもブックマークします。ダウンロードしている場合は、両方をダウンロードしてどちらも同じ場所に保管してください。
5.適切なデータ セットとは、使用できるデータ セットである
データ セットを理解し、そのデータ セットに必要な情報がある限り、小さなデータ セットでも分析に非常に効果があります。また、小さいデータ セットは格納、共有、およびパブリッシュも簡単で、パフォーマンスが向上する可能性があります。
同様に、ニーズに合った「完璧な」データ セットを見つけたとしても、そのデータ セットにクリーンアップに非現実的な労力が必要な場合は、結局のところ完璧ではありません。乱雑すぎるデータ セットから離れるタイミングを知ることは重要です。
たとえば、このデータ セットは、相対的な文字の頻度に関するウィキペディアの記事から取得されています。このデータ セットは、84 行と 16 列 (1,245 行と 3 列にピボット) として開始されました。Excel ファイルは 16 KB です。しかし、一部のグループ、セット、計算、およびその他の操作により、ロバスト分析と興味深いビジュアルが可能になります。
画像をクリックするとワークブックをダウンロードします。
データのラベル付け直し
適切なデータ セットを見つけたら、多くの場合、ラベルを付け直す必要があります。データのラベル付け直しは、サンプルや概念実証用の仮のデータを作成したり、データを読みやすくしたりするのに役立ちます。
フィールドの名前を変更すると、「売上高」を「パイプライン売上高」または「都道府県」から「地方」に名前を変更するなど、Tableau でのフィールドの表示方法が変わります。
再エイリアス化すると、CHN が中国になり、RUS がロシアになるように国フィールドの値を再エイリアス化するなど、フィールドのメンバーの表示方法が変わります。
- 不連続ディメンション フィールドの値は、メンバーと呼ばれます。再エイリアス化できるのはメンバーだけです。温度のメジャー フィールドを考えてみましょう。データ自体を変更せずに、54°F (12℃) の値を変更することはできません。しかし、国フィールドでメンバー「CHN」を「中国」と再エイリアス化しても、別の方法でラベル付けしただけの同じ情報です。
名前の変更と再エイリアス化は、ほぼ同じことを意味します。フィールドに名前が付けられ、メンバーがエイリアス化されるのは Tableau の慣習です。詳細については、データ ペイン内のフィールドの整理とカスタマイズ および ビュー内でメンバー名を変更する別名を作成するを参照してください。
注: 名前の変更またはエイリアスの再設定は、Tableau Desktop の外観を変更するだけで、変更は元となるデータに書き戻されません。
仮のデータを作るためにラベルを変更する
既存のデータセットのラベルを変更することは、サンプルや概念実証のコンテンツをより説得力のあるものにする優れた方法です。
- 簡単なデータ セット(スーパーストアなど)を使用して、必要なものを作成します(特定のグラフ タイプ、特定機能の表示など)。
- 関連するフィールドの名前を変更したり、ツールヒントを変更したり、テキストのアスペクトを変更して、データが実際に表す内容をマスクします。
重要: これは、仮の情報であることが明らかな場合にのみ行います。人々にそれが実際のデータと思われて、分析にそのデータを使用されることがないように注意してください。たとえば、色や動物のようなありえない名前や無意味なフィールド名を使用します。
データを使いやすくするために再エイリアス化する
数値エンコードを使用するとデータが理解しにくくなる場合がありますが、データを文字列値ではなく数値として格納する方が効率的です。小さなデータ セットの場合、パフォーマンスに影響を与えない可能性が高いので、データを簡単に理解できることを優先します。
再エイリアス化の欠点は、これらの数値にアクセスできなくなるということです(ソートや色のグラデーションの割り当てなどが難しくなります)。フィールドを複製し、コピーを再エイリアス化することを検討してください。また、Tableau での計算は、元の情報を保持しながら、わかりやすいものにする素晴らしい方法となる可能性があります。
CASE 関数を使用した再エイリアス
計算は、再エイリアス化に非常に強力となる可能性があります。たとえば、CASE 関数を使用すると、基本的に「このフィールドの値が A の場合、X を与えてください。値が B の場合、Y を与えてください」と言うことができます。
ここでは、CASE 関数は、トルネード データ セット内の F スケールを調べ、各数値に関連付けられた記述を提供します。
CASE [F-scale]
WHEN "0" THEN "Some damage to chimneys; branches broken off trees; shallow-rooted trees pushed over; sign boards damaged."
WHEN "1" THEN "The lower limit is the beginning of hurricane wind speed; peels surface off roofs; mobile homes pushed off foundations or overturned; moving autos pushed off the roads..."
WHEN "2" THEN "Roofs torn off frame houses; mobile homes demolished; boxcars overturned; large trees snapped or uprooted; highrise windows broken and blown in; light-object missiles generated."
WHEN "3" THEN "Roofs and some walls torn off well-constructed houses; trains overturned; most trees in forest uprooted; heavy cars lifted off the ground and thrown."
WHEN "4" THEN "Well-constructed houses leveled; structures with weak foundations blown away some distance; cars thrown and large missiles generated."
WHEN "5" THEN "Strong frame houses lifted off foundations and carried considerable distances to disintegrate; ... trees debarked; steel reinforced concrete structures badly damaged."
END
これで、元の「F スケール」フィールド(0-5)またはビジュアライゼーションの「F スケールダメージ説明」フィールドのいずれかを使用することを選択できます。
データセットを検索する際のヒント
注: 「データ セットの行(別名レコード)は何を表すのか?」という質問に答えられるようにしてください。それを明確に説明できない場合、データを使用できるほど十分に理解できていないか、データの構造が分析に適していない可能性があります。
- データの取得元を追跡します。
- データ自体と一緒にデータ ディクショナリ情報を保持します。
- コンテンツを常に新鮮な状態に維持する必要がある場合は、古いデータを使用しないでください。次のものを探してください。
- 更新可能なデータ(株式、天候、定期的に公開されたレポートなど)
- 時代を超越したデータ(さまざまな動物の平均質量は年々変わることはありません)
- 人為的に過去または将来の日付に変更することで、将来にわたって使用できるデータ
- 探しているものを Google で検索してみると、驚くかもしれない。
- データセットの準備に膨大な作業が必要な場合には、そのデータセットをためらわずに見切りをつけてください。
データを探す場所
どこでデータを探すことができますか?データ セットを検索する場所は多数存在する可能性があります。ここでは、使用を開始するためのオプションをいくつか示します。データセットの現実は、これらのサイトにも当てはまることに注意してください。現在考えていることを見つけることはおそらくできません。データを分析できるようにするには、ある程度のクリーニングが必要です。
免責条項: これらの外部ウェブサイトへのリンクが正確そして最新であり、関連性があるように確認する最善の努力を払っていますが、Tableau は外部プロバイダーによって管理されているページの正確さや最新度に関して責任を負いかねます。ここにサイトを掲載することは、いかなるコンテンツや組織を推奨するものではありません。コンテンツに関する質問の答えを求める場合、外部サイトにお問い合わせください。
Tableau Public(新しいウィンドウでリンクが開く): Tableau Public は、Tableau で使いやすいデータ セットの素晴らしいリソースです。興味のあるトピックにあるワークブックを検索し、インスピレーションを得るために参照し、ワークブックをダウンロードしてデータにアクセスします。または、キュレーションされた サンプルデータ(新しいウィンドウでリンクが開く) をチェックしてください。
Wikipedia テーブル(新しいウィンドウでリンクが開く): スプレッドシートへコピーと貼り付けをしたり、 Tableau への直接コピーと貼り付けをしたり、または Google シートと IMPORTHTML 関数(新しいウィンドウでリンクが開く) を使用してデータの Google スプレッドシートを作成する方法で、ウィキペディアのテーブルからデータを取得します。
Google データセット検索(新しいウィンドウでリンクが開く): 「断片化されたオンライン データ セットの世界を統合する検索エンジン。」
データは複数形(新しいウィンドウでリンクが開く) : データ セットを含む週刊ニュースレターを購読するか、アーカイブ(新しいウィンドウでリンクが開く) をブラウズ します。
月曜日に模様替え(新しいウィンドウでリンクが開く):「毎週月曜日には、所定のデータ セットを操作して、より良い、より効果的なビジュアライゼーションを作成し、情報によりアクセスしやすくなるようにご協力ください。」他のユーザーが同じデータ セットを使用して行ったことを確認したり、分析を開始したり、インスピレーションを与えたりできます。参加するには、Twitterで#makeovermonday(新しいウィンドウでリンクが開く)を使用してください。
その他のサイト
- Tableau Web データ コネクタ(新しいウィンドウでリンクが開く)
- Data.world(新しいウィンドウでリンクが開く) およびその WDC for Tableau(新しいウィンドウでリンクが開く)
- Github Open Data(新しいウィンドウでリンクが開く)
- Kaggle(新しいウィンドウでリンクが開く)
- datahub.io(新しいウィンドウでリンクが開く)
- r/datasets(新しいウィンドウでリンクが開く)
- WHO(新しいウィンドウでリンクが開く)
- Data.UN.org(新しいウィンドウでリンクが開く)
- WorldBank(新しいウィンドウでリンクが開く)
- data.gov(新しいウィンドウでリンクが開く)、data.gov.au(新しいウィンドウでリンクが開く)、data.gov.uk(新しいウィンドウでリンクが開く) など
- Airbnb(新しいウィンドウでリンクが開く)
- Yelp(新しいウィンドウでリンクが開く)
- Zillow(新しいウィンドウでリンクが開く)