Power BIの差別化要素3 -ETL機能

Power BIの差別化要素その3は、ETL機能*1(Power Query)となります。本ブログのメイントピックですので、ブログの検索窓で「Power Query」をして頂くと殆どの記事とマッチすると思います。Power Queryの醍醐味については活用している本人が最も知っており、逆に言えば使ってみないとその凄さに気が付かないことになります。

  •  ツール費用(無料)
  • モデリング機能(データモデル、複合モデル)
  • ETL機能( Power Queryによるステップ記録機能で完全自動化)
  • Excelで分析」機能
  • 時系列操作関数の扱いやすさ
  • 関数言語(Excelから継承した関数の数々)及びクエリ言語
  • 計算エンジン(SSAS Tabularモデルをベースとした強力な分析エンジン)
  • Microsoftの他のサービスとの連携
  • 1つのテクノロジー(BIとしてのExcel
  • SaaS型BIソリューション

接続データソース

BIツールを使用する場合、ETLプロセスは必要不可欠なものとなります。Power QueryはPower BIとExcelに備えつけられた最強のETL機能であり、様々なソースデータをクレンジングし、データ分析ができる構造化されたデータセット(Structured Dataset)に変換していく機能です(下図)。

f:id:marshal115:20210422114723p:plain

Power QueryはBIテクノロジーを学ぶ上で非常に重要であり、特に現在はセルフサービスBI*2が主流であることから、ExcelCSV、Webサイトといったソース先からデータを集計し、分析用データセットに変換するニーズが高まっています。

Power BIが接続可能なデータソース(標準コネクタ)ですが、下記より確認ができます。

出所:https://powerquery.microsoft.com/connectors/

現時点、標準コネクタで接続可能なデータソースは140種類以上もあり、これから更に増えていくことが予想されます。

なお、上記BIレポートの使い方は例えば、左下のランキングチャートでFileをクリックすると、右側に対象となるデータソースが出現しますので、Fileタイプに対応するデータソースを確認することができます。

f:id:marshal115:20210422123547p:plain

Power Queryによるデータ抽出

Power QueryはユーザーフレンドリーなUI*3と慣れ親しんだExcel感覚の操作で手軽にデータを抽出することができます。手作業でデータを整形する場合と比べ、圧倒的な効率アップを実現できます。

例えば、Power Queryの中で最も強力な機能の1つとして、ピボットの解除がありますが、帳票式のデータを一瞬で分析用書式に変換することができます。

また、ExcelCSVのデータ結合も手軽にできることから、VBAを使ってデータを集計する必要もなく、Power Queryの特徴である”メモリー・フットプリント*4の実現を極力抑える"ことにより、データ集計がサクッと出来てしまいます。ExcelCSVのデータ結合に関する詳細は以下の記事を参照。

また、Webソースからデータを抽出することも簡単にできるため、例えば以下の記事のように、接続可能なデータソースを公式HPより抽出し、個人の参考とすることも可能になります。

Power BIやExcelでPower Queryを使用できることから、ビジネスユーザーが自分たちでデータクレンジングを行うことができるようになります。他社BIツールでもこれを実現できているところはありますが、私の知る限り、Excelとの親和性、使い勝手、クエリ速度、データセット構築時の柔軟性等、あらゆる面において

BIツールに付属するETL機能として、(多くの意味で)最高にパフォーマンスが良い

のがPower Queryとなります。「BIツールに付属する」がポイントで、サードパーティ製のETLツールが使い勝手が良いもの、機能性の高いものはあるものの、追加コストがかかることやBIとの連携という部分において、やはりBIツール内でETL機能が内蔵されていたほうが”データの入り口から出口まで一気通貫”という意味で魅力的であると(個人的に)思います。

過去の話になりますが、Pivotテーブルの登場が革新的な発明であったと言われていたように、実はPower Queryも同じくらいインパクトの大きいものであると言われています。Excelが世界で最も使用されているビジネスアプリケーションですが、このExcelでルーチン業務を何度も何度も繰り返していた日々が苦痛で仕方がなかったのが、Power Queryが導入されたことで圧倒言う間に”闇から解放”されたわけです。

Power Queryに関する調査

以下は2018年、自社にてPower Queryに関するアンケートを取った結果です。計11名に対して以下のような質問をしました。

Q1: PQを使用して仕事が楽になりましたか?

Q7: PQを学ぶ意義はあると思いますか?

Q8: 数字分析を行う他の人(データアナリスト、FA、経理等)にPQをお勧めしますか?

f:id:marshal115:20210422230415p:plain

ご覧の通り、Q1を除き、全ての回答者がYesと回答をしています。Power Queryの”ゴリ押し”ではないことが証明された瞬間だったのを覚えています。なお、私はクエリ至上主義者であり、現在はどのようなデータセットでも、まずはクエリで最適化できるのではないか、というところからスタートするようにしています。

また、元MicrosoftのPower Query開発チームの責任者だったDATACHANTのGilさんが、Power Queryがビジネスに与えるインパクと題して、サーベイを行っています。直近は2020年12月末時点のものが載っており、私も回答に参加しましたが、非常に興味深い結果となりました。質問が不確定要素の高い定量的な内容(例:Power Queryを使用したことで年間どれだけの経費節減を実現できたと思うか、あるいは、何日分の業務を短縮できたか、等)も含みますが、平均値を見ればよい参考になりますので、紹介しておきます。

英語が苦手な方向けに結論だけ要約しますと、

  • Power Queryのおかげで、平均的に30%も業務時間の削減に成功
  • 中級者は初心者より2.7倍の時間削減を実現
  • Power Queryによって、年間で平均8万ドルのコスト削減に繋がっている。中級者は3.7万ドルであるが、上級者は8.7万ドルとなった
  • 全世界のPower Queryのユーザーは392万人という推定であるが、1.35億人になるポテンシャルを持つ。1.35億人というのは全世界のExcelユーザーのような気がしないでもないが、この計算結果からすると現時点の導入率は2.9%(392万÷1.35億)になる

その他、興味深い話がいろいろあるので、興味ある方は上記ブログを読んでみてください。

まとめ

  • Power QueryはPower BIやExcelにおいて、最強のETL機能である
  • Power BIでは当たり前の機能であるが、ExcelにPower Queryの機能が内蔵されていることを多くの人は知らない
  • Excelで使った場合のほうが便利な場合もあり、大幅な業務改善を実現可能
  • BIツールに内蔵されたPower QueryのETL機能はツールとのシナジーが非常に高く、革新的なテクノロジーの1つであると言える

差別化要素の3番目はPower Queryでしたが、”使ってみたらその凄さが分かる”という言葉を何度も繰り返すのに値するものと思います。

*1:Extract, Transform, Loadの略。データの取得・変換・ロード機能であり、データを分析できる書式に変換する機能

*2:ビジネスユーザーがIT部門の負担を最小化し、自分たちでデータを抽出・変換し、BIソリューションを実現すること

*3:ユーザーインターフェース

*4:簡単に言えば、データ等の読み込み