データに関する基礎知識2

前回はデータの基礎に関して、データの概念及びきれいなデータ vs きたないデータ等について見ていきました。BIを活用するためにはデータについてしっかり押さえておく必要があり、今回はその続きについて見ていきたいと思います。

データに関するキーワード

思えば新入社員の時、右も左も分からない中、どこから仕事を覚えようかと葛藤した日々がありました。体系的に研修を受けられ、かつ有能な上司に恵まれていれば苦労は和らぎますが、最後は自分の努力に掛かっています。当時のことを振り返ると、まず一番最初に実施したのが仕事に関する言葉(キーワード)をひたする覚えていたことでした。その業界で使われる専門用語はもとより、一般常識として知っておくべきキーワードをメモして、まるで学生時代に英単語を覚えていたかのような日々だったと記憶しています。

データに関して学ぶ場合も同じことが言えます。一番シンプルな質問として、

”データ”というキーワードを含む単語を複数挙げてみて下さい

で考えると、いくつ言えるのでしょうか。ここで、あえて複数のキーワードを挙げてみると、「データ分析」、「データベース」、「データソース」、「データサイエンス」等、旬なキーワードがいくつか出てくるかと思いますが、他にも下記のようなキーワードが沢山あります。

  • データ入力
  • データ抽出
  • データ集計
  • データ分析
  • データマイニング(解析)
  • データアナリティクス
  • データセット
  • データベース
  • データベースアドミニストレーター(DBA)
  • データスチュワード(=DBA)
  • データインフォームド
  • データインテリジェンス
  • データドリブン
  • データレイク
  • データウェアハウス
  • データマート
  • データアナリスト
  • データコンサル(タント)
  • データエンジニア
  • データクレンジング
  • データラングリング
  • データガバナンス
  • データディスカバリー
  • データクオリティ
  • データソース
  • データテーブル
  • データアイランド
  • データサイズ
  • データサイエンス
  • データタイプ(データの属性)
  • データストレージ
  • データカルチャー
  • データプラットフォーム
  • データサンプル
  • データカンパニー
  • ビッグデータ
  • スモールデータ
  • データサイロ
  • 構造化データ
  • 非構造化データ
  • データピープル
  • データアニマル
  • データジャンキー

最後の3つはパリピに因んでのご愛敬ですが、思いつくだけでもこれだけの単語が存在します。ここでは重要なことは、”データ”という言葉自体が横文字キーワードであり、上記のキーワードも殆どがこれに当たることです。すなわち、データ関連の仕事をしていると、嫌でもこのようなキーワードを覚えることになり、可能であればこれらのキーワードが何を意味しているのかを調べて理解することです。最初は分からなくともまずはここから始めてみるというのでも良いかと思います。

データの種類

データには様々な種類がありますが、基本的には① 構造化データと② 非構造化データで構成されています。中には、その中間の形を取っているケース(例:JSON等)もありますが、BIで分析を行うためには①の構造化データが必要になります。

f:id:marshal115:20210922164803p:plain

データアイランドという言葉がありますが、これはデータソースがまるでアイランド(島)のように、散らばっていることを意味します。BIで分析するためにはこれらデータソースからのデータを取得して、構造化データとして1箇所にまとめる必要があり、この取得の段階で必要となるテクノロジーがPower Queryとなります。

データの種類という意味で言えば、データソース別に構造化・非構造化に分かれている場合があり、例えばCSVやTextといった形式のファイルであれば構造化された状態であるケースが多く、BS/PL(損益計算書貸借対照表)のような状態のデータであれば、帳票ベースのデータである可能性が高いため、非構造化データとなります。

非構造化データは分析に適していない形式のデータであるが、Power Queryで構造化データに変換していき、最終的に構造化データとなって初めて、BI上で分析ができるようになります。

データセット

「データセット」という言葉がありますが、”データ分析用のデータ”を意味しています。Excel内のテーブル形式のデータは列単位で計算を行っており、これらは構造化データをベースとしていますので、このテーブルがデータセットに当たります。

f:id:marshal115:20210922171538p:plain

一方、テーブルとなっていない状態のデータであっても、マニュアル集計した状態であってもデータセットと呼ぶことができます。詰まる所、我々が一般的にデータ(強いて言えば、分析用のデータ)と称しているものは、その殆どがデータセットとなります。

下図はSQLサーバーに入っているデータベースですが、各テーブルに入っているデータをデータセットと呼ぶことができます。データベースに入っているデータは取得と変換に際して最もパフォーマンスが高く、幸運にも社内でそのような環境があれば、データ分析に際しては積極的に活用していくと良いでしょう。

f:id:marshal115:20210922172100p:plain

ただし、これはユーザー目線のコメントであり、実際にデータベースを管理する人(DBA:データベース・アドミニストレーター)がデータウェアハウス(DWH)を高い専門知識(SQL)でメンテナンスを行っていくことになります。DWHは構造化データを格納する場所であるため、DBAの役割は非常に重要となることは言うまでもありません。そういう意味で、あなたがデータ分析を行う立場の人であれば、社内で最も親しくすべき人はDBAであり、そのような人がいない場合、自分がDBAになることを考えてみるのも良いかもしれません。

メタデータ

メタデータは”データのデータ”、言い換えれば”データに関する情報・属性”のことを意味します。Power Queryエディタの画面で考えると、以下のようになります。

f:id:marshal115:20210922173542p:plain

この例ではクエリ「SampleData」に対して、初期画面では[Content]、[Name]、[Attibutes]等の列があり、[Attributes]のRecordからは更に当該クエリの属性(例:Kind(ファイルの種類)、Size(データサイズ:バイト表記)、ChangeTime(更新日)等のメタデータを見ることができます。

メタデータはデータ分析の前段階で把握しておくべき情報であり、例えば分析に必要と思われるデータセット(テーブル)の元々の列名が何列あって、各列の中身がどのような項目(文字列 or 数値)で構成されているか、各列におけるデータの濃度(カーディナリティ:列に占めるユニークな値が多いほど、カーディナリティは高い)がどのような分布となっているか等、データモデルを構築する前段階で把握しておくべき情報が多くあります。

ここで留意してほしい点は”データ分析”ではなく、データ分析を可能にするための”データモデル”というキーワードであり、ここを最適化しないことにはBIで最高のパフォーマンスで分析を行うことができないのです。

データ分析の考え方

Excelにおけるピボットテーブルは偉大な発明である

という言葉、どこで見たか忘れましたが、まさにその通りだと思います。思えば新卒で仕事を始めた時、データ分析業務をやっていたにも関わらず、ピボットテーブルという概念を数ヵ月知りませんでした。当時の業務がそれを必要とするものではなかった、そしてそのような機能があることを周りが教えてくれなかった、というのが原因でしたが、今思えばずいぶん非効率なことをやっていたものです。

データ分析を適切に行うためにはツールが必要で、そのツールはExcelでもPower BIのようなBIツールでも構いません。ただ、分析の基礎は常に

ハイレベル(ざっくり)からディテール(詳細)

へ流れていく法則があり、上位階層(大分類といった階層)から下位階層(商品といった細かい部分)へドリルダウンし、各階層におけるデータのバラツキを確認しながら行っていくものです。上位階層の数字を見たい場合、データは下位階層から集計された数値であり、ピボットテーブルがないとなかなか厳しいわけです。

データを集計し、ピボットテーブルで各階層別に分析を行っていき、最終的に要因特定に際して定量的要素+定性的解釈を与えていきます。

f:id:marshal115:20210922180720p:plain

ピボットテーブルはそのような分析に際して、階層別に数値を集計しつつ、好きな切り口(下図では、分類Gと分類名、YearMonth = 202103、202102の2ヵ月)で分析できることを可能にしてくれます。

f:id:marshal115:20210922181423p:plain

一方、Excelではなく、Power BIでデータ分析を考えてみると、

BIは集計した結果を分かりやすく表現してくれるもの

ということに気が付くはずです。くどいようですが、これは言い換えれば、

BIで構築したビジュアル(チャート等) はピボットテーブルの概念と等しい

ことになります。

分かりやすい例として下図と下表を見てください。

f:id:marshal115:20210922181100p:plain

図(チャート)は売上と粗利率のトレンドを表示したものですが、実は表も同じことを示したものです。そう、上図と上表はまったく切り口から別々の表現(ビジュアル)で見たものであり、上表はExcelのピボットテーブルと同じものとなります。何度も言いますが、

BIにおけるチャートはピボットテーブルをグラフィカルに可視化したもの

となります。上図の例でいえば、売上高の積み上げチャートの各分類は表内のA-EやF-Jを積み上げたものであり、粗利率こそ1つのラインチャートとなって推移していますが、実際には下図のように、全体の粗利率を示しています。

f:id:marshal115:20210922182229p:plain

ピボットの概念を理解することはPower BIにおける各種チャートを作る際に役立つものであり、逆に言えばこの概念を常に念頭に入れて分析業務(チャート作成等も含む)を行うべきです。

まとめ

2回に分けてデータに関する基礎知識を紹介してきました。分かってる部分もあれば、よく考えてみないと気付かない部分もあったのではないかと思います。

  • データに強くなるには、まずはキーワードを覚える(理解する)ところから始めると良い
  • データの種類・データセットの考え方について理解しておくと良い
  • メタデータは普通の人であれば考えることもない概念かもしれないが、データ分析を効率良く行うための有力な情報である
  • データ分析の基本的な考え方はピボットテーブルを理解することからスタートする。分析に際しては、ハイレベルから考えていき、ドリルダウン(下の階層までどんどん分解)していくことが基本的なスタンスとなる