テクテク日記

テクテク=テクノロジー&一歩ずつ(テクテク)

Microsoft Fabricの登場

米国時間2023年5月23日から開催されたMicrosoft Buildは、歴史的な瞬間となりました。データアナリティクスの世界において世界初となるエンドツーエンド(E2E)のSaaS*1型アナリティクスサービス、Microsoft Fabric(以降「Fabric」)の登場です。Microsoft Fabricは業界の常識を覆すほどのインパクトを持ち、ビッグデータ分析、セルフサービス分析、データサイエンスプロジェクトなど、あらゆるデータニーズを満たす革新的なクラウドサービスが誕生しました。

Microsoft Power BIの製品チームに所属していることもあり、Fabricについては入社時に知るようになりました。今回のMicrosoft Buildでその瞬間に立ち会えることができ、非常に嬉しく思います。今まではPower BIを広める立場ということで他のAzureサービス*2との関わりが限られていましたが、パッケージ化されたデータ分析サービスの登場により、様々な可能性が広がることが期待できそうです。

技術の詳細等についてはFabricの公式Docsから拾って頂きたいのですが、このブログではその登場背景や概念等についてかみ砕いて分かりやすく解説していきたいと思います。なお、始め方についてはこちらライセンスについてはこちらをご参照ください。

Fabricって何?

Fabricはアパレル業界にいる方からすると「布」とか「生地」を真っ先に思い浮かべると思いますが、「構造」や「骨組み」といった意味もあります。ネーミングの由来は分かりませんが、Fabricについて分かりやすく一言で言うと

Power BIAzure Synapse Analyticsの結婚

になります。

言い換えれば、Power BIと同じ環境(SaaS)にSynapse(PaaS*3)が入ってきたことにより、より手軽かつ素早くデータを統合・変換・分析できるようになったということです。Power BIについて知っている人は多いと思いますが、Synapseはデータ分析とデータ統合のためのクラウドベースのサービスであり、データウェアハウス、ビッグデータ処理、AI/機械学習など、さまざまなワークロード*4をサポートしています。

後ほどFabricについてもう少し詳述しますが、FabricはMicrosoftのデータ基盤に対するブランドかつ製品群であり、Office Suites(Excel, Word, PowerPoint等)をイメージして頂くと分かりやすい。

特徴として、全てのデータ一つの場所で整理し、チームコラボによって価値を作り出せることが挙げられます。

6つのエクスペリエンス(のち7つ)

  1. Data Factory(DF)
  2. Synapse Data Engineering(DE)
  3. Synapse Data Warehouse(DW)
  4. Synapse Data Science(DS)
  5. Synapse Real-Time Analytics(RTA
  6. Power BI(PBI)
    ※ カッコ内は全て略称。分かりやすくするため、Synapseは便宜上、略称から更に省略。なお、もう一つData Activatorというエクスペリエンスがありますが、2023/5/24時点ではPrivate Preview

上図はFabricのエクスペリエンスをまとめたものです。OneLakeは、SaaS基盤の上に構築されており、ADLS(Azure Data Lake Storage)Gen2*5を利用しています。これにより、単一のSaaSエクスペリエンスをベースとしたプロ開発者と市民開発者の両方に役立つデータを提供する仕組みが実現されています。

各エクスペリエンスには様々な呼び方があります。以下は参考までにいくつか挙げておきます。

  • エクスペリエンス
  • ワークロード
  • プロダクト
  • (場合によっていは)コンピュート(エンジン)

全てが同じことを指しており、公式Docsではエクスペリエンス、通常の話し言葉ではワークロードと表現することが多いようです。以下、使用例となります。

  • Fabricで最も学習コストの高いワークロードは何ですか?
  • Fabricの環境において、ストレージ*6とコンピュートは完全に分離されている
  • FabricにおけるPower BI以外のプロダクトで興味があるものは何でしょうか?

なお、コンピュートだけ少し注意が必要です。例えばDWの下にはストレージレイヤーが含まれていますが、コンピュートは”計算処理"を意味するため、エクスペリエンスの中でも処理機能を指す意味合いが強い。

本来であれば各エクスペリエンスについて説明すべきでしょうが、それをやってしまうと途方もない長さになってしまいますので、公式Docsに譲るとします。今はただ、

データという世界において、SaaSベースで入口から出口(データの投入~データの可視化)まで一気通貫(E2E)でシームレスにデータソリューションを構築することが可能になった

と押さえておけば問題ありません。また、従来はPower BIという1つのワークロードを使用していましたが、新たなワークロードの登場により、新たなペルソナ(主に各エクスペリエンスの専門家)がSaaS型のサービスを利用できるようになったことも覚えておくと良いでしょう。

なぜFabricなのか?

ここから、なぜFabricを選ぶと良いのか、その付加価値がどこにあるのかについて紹介したいと思います。可能な限り分かりやすい表現にしていますが、全て吸収しきれなくても心配する必要はありません。なぜなら、新しいテクノロジーは地球上関わる全ての人が学ぶ必要があるためです。自分1人ではない、皆お互い支え合っていこう、というモチベーションが大切です。Fabricの登場により、Azureやデータエンジニアリング*7に関する膨大な専門用語が登場しますが、少しずつChatGPTも活用しながら理解していけば良いと思います。

  1. エンドツーエンド(E2E)のSaaS型データアナリティクス基盤の提供により、データサイロ(データの分断)を排除
  2. シンプルさ(Simplicity)に重点を置いたデザイン及び構想
  3. 全てのペルソナ(ビジネスユーザー、アナリスト、データエンジニア、データベース管理者、データサイエンティスト、BI開発者、レポート作成者等)のニーズを満たし、チームコラボをより強力なものに
  4. 異なるワークロードを個別に選択する複雑性を排除し、最高のコストパフォーマンスを提供
  5. 将来のデータ戦略がデータメッシュを起点とし、事業部別・プロジェクト単位でのデータ活用を促す
  6. One○(OneLake, One Security、OneCopy等)というアーキテクチャでこれらを実現
  7. Lakehouseアーキテクチャにより、業界最高の分析パフォーマンスを実現(Direct Lake等)

上記全てがFabricの構想を物語りますが、顧客は常に最適なアナリティクス・ツールを求めており、自社のニーズに合わせて異なる分析基盤(プラットフォーム)を組み合わせることも珍しくありません。しかし、これらをシームレスに機能させ結果を導き出すことは困難かつ複雑です。

このような顧客の体験を改善するため、Fabricはワンストップショッピングのソリューションとして提供され、Power BIの成功に倣い、顧客に今までにない付加価値を提供することができるでしょう。

Power BIユーザーにとって何が変わるのか?

Fabricは異なるペルソナを1つの屋根(SaaS)に招待し、チームコラボレーションをより強固なものにしていきます。この中には当然Power BIユーザーも含まれますので、Power BIユーザーの観点から見て何か変わるのでしょうか。私が考えるに、

何も変わらない場合もあれば、全てが変わる場合もある

ことになると思います。ちょっと例えがユニークかもしれませんが、以下を例にしてみます。

  • 学校に例えるなら、元々英語が得意だった学校に、海外から日本に永住予定の多くの人々が流入し、言語に関して圧倒的な多様性が生まれる
    = Power BI + Synapse
  • 新しい生徒が増えたせいで新しい言語が増え、学ぶコンテンツや学習曲線が一気に増加
    = Power Query (M)、DAXPython, T-SQLSparkSQL, KQL, etc
  • 全ての言語を学ぶ必要はないが、ある程度必要な言語を知っておくと何かと便利
    = スケーラブルなエンドツーエンド(E2E)ソリューションの実現
  • 言語は異なっていても、教材はほぼ一種類
    = Delta Parquet
  • イデアとして「真ん中にレイク、周りに言語」
    = Lake at the center (Lake-centric), languages around the corner

Fabricはペルソナ別に使うワークロードが異なりますので、例えば以下のようになります。

  • Data Factory (DF): アナリスト、データエンジニア
  • Data Engineering (DE): データエンジニア、データサイエンティスト
  • Data Warehouse (DW): アナリスト、データエンジニア、データベース管理者
  • Data Science (DS): データサイエンティスト
  • Real-Time Analytics (RTA): データサイエンティスト、データエンジニア、アナリスト
  • Power BI (PBI): ビジネスユーザー、アナリスト、BI開発者、レポート作成者

このように、複数のペルソナが複数のワークロードを使うこともありますし、1つのワークロードを1つのペルソナが利用することもあります。しかし、重要なのは、すべてのペルソナが同じプラットフォームでデータエステー*8に関する処理を実行できることです。

FabricはSaaS型ですので、初期設定のコストを最小限に抑え、すぐに始めることができます。また、セルフサービス担当者とプロ開発者の両方のニーズを満たすことができます。

もう一度Microsoft Fabricとは何か?

ここまで読んで頂くとある程度Fabricに対する理解が深まったと思いますが、ここからは少しテクニカルな部分も書いていきます。

  • Power BIのワークスペースSaaS版のSynapse(SynapseはPaaS扱い)を追加したもの
  • 気がつくと、Power BIのワークスペースがFabricワークスペースに移行され、Power BIの容量(キャパシティ)がFabric容量に置き換わっている
  • Power BIのテナントにはFabricのエクスペリエンスが自動的に組み込まれている
  • Power BI Premium容量と同じように、特定のコンピュート量が割り当てられる(SynapseのDWU*9は不要に)
  • サーバーレスSQLプール専用SQLプールが1つに統合(全てはData Lakehouseという概念に)
  • Azureポータル、サブスクリプション、ストレージの作成は不要。 ユーザーはAzureを使っていることにさえ気づかない
  • Fabricは、買う人・払う人・作る人がしっかり分かれている。Azureでは、ソリューションを構築する人は、購入する力も持っていなければならない
  • FabricはFabric vs PaaS(例:Synapse)ではない。Fabricが未来となります。Synapseはすぐになくなることはないが、中長期的には全てFabricへマイグレートを推奨
  • Fabricは、部門ごとのプロジェクトはもちろん、最大規模のデータウェアハウス、データレイクハウス、データサイエンス・プロジェクトなど、顧客のデータ資産全体を運用

上記は公式Docsで見つけるのが難しい部分だと思いますので、ご参考までに覚えて頂ければと思います。

Power BIの今後

さて、Fabricについて一通り概要を解説しましたが、Power BIはどのような形として存続していくのでしょうか?以下、4つの柱で簡単に説明します。

① Power BIが目指す未来

Microsoft Power BIはツール・サービスの使いやすさだけでなく、BI業界において引き続き圧倒的なリーダーとなることを目指しています。2023年にはGartnerによるMQの発表も行われましたが、Microsoftは他社を引き離し、業界のリーダーの地位を維持しています。なお、これはFabricが発表される前に決まったことですので、来年(2024年)の発表が楽しみです。

Magic Quadrant for Analytics and BI platforms depicting several different vendors in various quadrants (Challengers, Niche Players, Visionaries, and Leaders). Microsoft is placed in the “leader” quadrant.

Microsoft Officeとの連携

Microsoftのミッションは『Do more with less(より少ない労力でより多くのことを実現する)』です。情報ワーカー(Information Worker)が最も慣れ親しんでいる生産性ツールはMicrosoft Officeであり、Microsoftの目標はすべてのOfficeユーザーにPower BIを活用してもらうことです。

文章を作成する場合はWord、プレゼンテーション資料を作成する場合はPowerPoint、データ分析にはPower BIとExcelを利用するなど、Power BIをこの「当たり前」のエコシステムに組み込むことに力を注いでいます。

Fabricの登場により、「エンタープライズへ偏っていく」という考えを持つ人がいてもおかしくありませんが、実際には「セルフサービスユーザーがあってのエンタープライズソリューション」となります。つまり、Officeユーザーがより少ない時間でより付加価値の高い業務を実現できるよう、ツールや使い勝手の改善を進めていく予定です。

③ Fabricのワークロードの一部

既に説明してきました通り、Power BIはこれまでSaaSで大成功を収めてきましたが、Fabricの登場により「Power BIだけの世界は終わりました」・・・というわけではありません。私の解釈では、Fabricの登場により「Power BIだけの世界に、新たな選択肢が増え、より多くの企業に柔軟性の高いソリューションを提供できるようになった」となります。

「ワークロードを使うかどうか、どのように使うのか」はその企業次第です。例えば、既存で使用しているツールの棚卸を行い、Fabricのトライアルおよびその後のPoC*10を経て、性能テストやコスト削減の可否を判断し、削減できた分を人的投資に回すといった戦略を採択する企業が増えてくるかもしれません。

人的投資に余裕がない場合、既存の従業員がアップスキルを行うことで、新たな分野でエキスパートとなるシナリオも考えられます。例えば、これまでPower BIの開発に携わってきた人がデータエンジニアリングの世界でSparkを学び、よりスケーラブルなデータ活用環境を実現し、社内のデータ活用をさらに高度化させるといった例も考えられます。このような場合、時間はかかるかもしれませんが、既存の知識やスキルを活かしながら新たな分野に進出することで、組織内のデータ活用の能力を向上させることができます。

④ AIによりDo More with Less体験の提供

最後にPower BIとCopilotの融合が間もなく始まります。2023/5/24時点ではまだ試すことはできないですが、Private Previewを経てPublic Previewとして提供される予定です。時期については不明ですが、そう遠くない将来になるでしょう。

www.youtube.com

最初は、Power BI Desktopで自然言語で作成したいメジャーについて言及し、DAXコードが自動生成される機能が提供される予定です。これにより、ユーザーは直感的な自然言語で指示を出すだけで、必要なメジャーを簡単に作成することができます。

また、ユーザーが提供した命令文に基づいてレポートが自動生成される機能も提供される予定です。これにより、ユーザーは自分が本当に作りたいレポートのテンプレートとして使用できるかもしれません。命令文を入力するだけで、必要なデータの抽出、可視化、分析が自動的に行われ、迅速にレポートを作成することができます。

動画を観てもお分かりですが、Microsoftは全ての製品にCopilotを搭載すると発表しており、Power BIに限らず、他のFabricエクスペリエンスにも搭載されることが決まっています。使うタイミング次第ですが、大幅な業務改善に繋がる可能性を大きく秘めていると思います。

今後の立ち回り(Power BIユーザーとして)

最後に、Power BIユーザーとして、Fabricに対する"立ち回り"について、以下の4つの考えを共有したいと思います。

  1. 基礎概念について理解する
  2. 新しい用語を学ぶ
  3. Power BIは今後Fabricの一部となることを受け入れる
  4. 必要に応じてアップスキルする

1ですが、Fabricの基礎概念をしっかり把握することは、自分に合ったPower BIの活用方法を見つける上で重要だと信じています。Fabricによって実現できる世界を理解し、Fabricの環境の有無によって異なるシナリオを考えてみることは価値があります。セルフサービスユーザーにとって、Power BI以外のFabricワークロードを使用しなくても良い場合もあり、その場合はFabric容量の購入が必要ないかもしれません。ただし、現在のトレンドから考えると、Fabricのような環境がますます一般的になっていくことは間違いありません。そのため、Fabricの基礎概念をしっかり学んでおくことは重要で、道のりは長いかもしれませんが、将来の展望を考えながら学習に取り組んでいくと良いでしょう。

リソース

2の新しい用語を学ぶことは、先ほどの基礎概念に関連しています。それだけでなく、社内のさまざまな部署とのコラボレーションにおいても大いに役立ちます。技術的な話題についてスムーズに会話を進めることができるだけでなく、チーム間の関係構築や人間関係の発展にも寄与するかもしれません。完璧に理解する必要はありませんが、少しでも話が通じることができる場合、相手チームからの対応も異なる可能性があります。

3番目の考え方は、一部のPower BIユーザーがPower BIに特化しており、Fabricの登場に動じない、自身の業務に関係がないと考えている場合に該当します。この考え方自体を否定するつもりはありませんし、本来の業務に関連しない場合には特にそうです。しかし、Power BIがFabricの一部となることが決まった以上、他のワークロードが目に入るようになることは避けられません。したがって、「受け入れる」という意味での考え方が重要になります。

最後の考え方は、自己のスキルアップに関連し、将来のキャリアやジョブチェンジの可能性にも繋がることになります。自身が興味を持つ新しいスキルを学ぶことは、会社や自身のキャリアに貢献する可能性があります。優先順位を考えることは重要ですが、最終的には「自分がどうなりたいのか」という視点に立って人生の選択肢を考えることも大切ですので、”意識高め”な人はどんどん新しい知識を吸収しましょう。

最後に

Microsoft Fabricは、業界初のエンドツーエンドのデータアナリティクス基盤として位置付けられます。SaaSの観点から考えると、Power BI以外の全てのサービスが新しい世界となります。Public Preview期間中には、ぜひ無料トライアルを通じてお試しいただき、フィードバックをお寄せいただけると幸いです。フィードバックは、Twitterを通じてでも、本ブログを通じてでも構いませんので、どうぞお気軽にご提供ください。貴重なご意見をお待ちしております。

*1:Software as a Serviceの略。ユーザーはソフトウェアを自分のコンピュータにインストールすることなく、インターネット経由でサービスにアクセス可能。ソフトウェアの管理やメンテナンスは提供元の企業が行い、ユーザーは利用料金を支払ってサービスを利用。サブスクリプション型ビジネスモデルと同じ

*2:AzureはMicrosoftが提供するクラウドコンピューティングプラットフォーム。さまざまなクラウドサービスが提供されており、Power BIもそのうちの1つ。特徴として、仮想マシン、データベース、ストレージ、人工知能、分析、ウェブアプリケーションなど、さまざまな用途に対応したサービスを利用できる点が挙げられる

*3:PaaS(Platform as a Service)は、クラウドコンピューティングモデルの一つであり、開発者がアプリケーションの開発や実行に必要なプラットフォームを提供するサービス。PaaSを利用すると、インフラストラクチャやミドルウェアの管理をせずに、アプリケーションの開発に集中することが可能。SaaSよりも初期設定に時間が必要とされ、細かい設定ができる一方でサービスを開始できるまでに時間が掛かってしまうことがある

*4:あらゆるコンピュータ上で実行されるあらゆるプログラムまたはアプリケーションを指す

*5:Azureのクラウドストレージサービスであり、大容量かつ高い拡張性を持つデータレイク

*6:データや情報を一時的に保存したり永続的に保持したりするための装置やメディア

*7:意思決定や分析、機械学習モデルのトレーニング等、データ活用を行うために大量のデータを効果的に処理し、データパイプラインを構築するための技術とプラクティスの集合体、あるいはその作業

*8:組織のストレージインフラと保管されているデータの組み合わせ

*9:Synapse Data Warehouse Unitsは、データウェアハウスの処理能力を表す単位です。具体的には、データの並列処理、メモリの使用、およびクエリの実行に関連するリソースの量を示します。つまり、DWUが高いほど、データウェアハウスがより多くの作業を同時に処理できるようになります

*10:Proof of Concept:概念実証。新たなアイデアやコンセプトの実現可能性やそれによって得られる効果などについて検証