データに関する基礎知識1

本ブログはBIテクノロジーに関する紹介ですが、そもそもテクノロジーを学ぶ目的の1つがデータを有効活用することにあります。

テクノロジー × データ = 意思決定

というのがキーワードですが、今回は”データ”についていろいろ考えてみたいと思います。

データとは

会社における業務の殆どはデータがなければ先に進まないものであり、財務部門であれば損益計算書(PL)や貸借対照表(BS)を作るための数字、営業部門であれば営業成績に関する数値、コールセンターであればクレーム数や顧客対応に関する満足度のアンケート結果、経営企画であれば全社の経営状況を把握するための数値など、データがなければビジネスが成り立ちません。

これらは簡単な例ですが、実際に「データとは何か?」を周りに質問してみると、意外と答えに困る反応をされるかもしれません。データはそこら中にあるもので、なんとなくイメージは持てるけど、「データとは〇〇である」とはっきり答えを持っている人はデータ分析のスペシャリストでない限り、明白な定義を持っていないのではないだろうか。

データとは、

  • 数字・文字列等の羅列
  • コンピューターが理解する言語
  • 人間が何かをする際に役に立つ情報

等、定義は様々であり、対象物によって異なってきます。しかし、人間という立場から見ると、一番最後の項目がしっくりくるのかもしれません。

ここで重要なことは、

自分はデータとは無縁の世界にいると思っている人は、自分でも気づかずに常にデータと接している可能性が高い

ということです。これは、組織の役職に関係なく、例えば会社でサポートの役割を担うアシスタントはデータ分析の前段階となるデータ入力や、顧客への請求書の送付、経費精算のサポート等、形は違えど常に何かしらデジタル化が可能な情報のやり取りを行っています。これらの情報は一度デジタル化されると、それ自体が”データ化”され、将来何かしらの形で利用されることになります。また、例えそれらがデジタル化されていなくとも、紙ベースの情報であったとしてもそれ自体がデータであることに変わりなく、用途別に必要になる場合があります。

冒頭で「テクノロジー × データ = 意思決定」とありますが、データを活用できるようになるためにはテクノロジーの力が必要であり、意思決定(何かの判断)として効率良く利用できるようになるためには、テクノロジーと一緒に活用する必要がある、という意味になります。

きれいなデータ vs きたないデータ

データ分析、あるいはそれに近いことをやったことがある人であれば、会話の中で常に「データがきれい」とか「データがきたない」という表現を耳にしたことがあるかと思います。「きれいなデータ」と「きたいないデータ」とは、何が違うのでしょうか?この違いを理解するため、簡単な例を用意しました。

下記データは「きれいなデータ」と「きたないデータ」のどちらに属しますか?
ヒント:データソースは厚生労働省が毎日発表している新型コロナウィルスの都道府県別陽性者数(累積)、データ形式はPDF

f:id:marshal115:20210918131708p:plain

あまりにも漠然とした質問になっていますが、例えば「このデータを過去から集計して、陽性者の動向を知りたい」と会社の上司に言われた場合、言われた人はどのように思うのでしょうか?

「いや、これデータ集計したら大変なことになるでしょ」という人もいれば、「見たままじゃないですか?過去データも?面倒ー、こんなデータではグラフにもできないし」

と恐らく殆どの人が”きたないデータ”として一蹴するでしょう。

それでは次の例はどうでしょうか?

f:id:marshal115:20210918132328p:plain

Excelできれいに集計された試算表ですが、こちらは果たして「きれいなデータ」、それとも「きたないデータ」でしょうか?

ここでお気づきの方が出てくると思いますが、実は答えとして分析用データとして考えれば「きたないデータ」、その形(例:帳票といったクロス集計された状態)が最終アウトプットであれば「きれいなデータ」と考えることができ、言い換えれば

「きれい」 or 「きたない」は、用途別に定義が異なる

ことになります。

ただし、一般的に「きれいなデータ」の定義は

分析に適したデータ(構造化データ)

と考えて差し支えません。分析を行うためにはExcelやBIツールが必要となりますが、結局のところ、最初のキーワード「テクノロジー × データ」の部分に戻るわけです。

この「分析に適したデータ」という部分は更に以下3つの要素に影響されます。

  1. データの取得難易度

  2. データ形式

  3. データ整備の手間

一つずつ見ていきます。最初の「データの取得難易度」ですが、これは例えば「データはあるけど、どこに存在しているか分からない」、「どこにデータがあるかは分かるけど、特定の数字(例:売上高)を構成する数字が多くあり、正確な値を取得しようとすると、システム上の数値と個別管理の数値を無理やり合計する必要がある」等、データの存在を特定する手間、データ品質に対する不安があったりする場合、分析に進むのが非常に難しくなることが考えられます。すぐにデータにアクセスできるかどうかが重要となってきます。

次にデータタイプ(データ形式)ですが、Excel, CSV, TXT, PDF, Web, データベース等、様々なデータソースが存在しており、これら全てが最初から「きれいなデータ」として存在しているわけではありません。また、BIから各ソースに接続した際のデータの取得と変換におけるパフォーマンスも異なっており、例えば、SQLサーバー等のデータベースからデータを抽出した場合と、複数シートの帳票から構成されたExcelからデータを取得した場合では、どちらがパフォーマンスが高いかは言わずと知れたことになります。

f:id:marshal115:20210918134451p:plain

最後に、データ整備の手間はデータタイプと関連することですが、Power Query等でデータに接続した際、変換作業に手間がかかるかどうかが重要なポイントとなります。データタイプがExcel等であればシート、(テーブルで持っていない場合は)各シートに存在するデータ、そのデータで不要な行や列の削除等、データ整備に時間がかかる場合がありますが、CSVのような形式であれば利用できるデータは1つ(Excelで開くと1シート)となるため、作業の手間が減るだけでなく、CSVでは不要な書式も含まれないため、データ抽出のパフォーマンスもExcelより高くなります。

このように、分析に適したデータを考える場合、様々な側面から考慮する必要があり、BIという観点から考えると、CSVやデータベースからデータを取得できれば、

分析に適した”最適な”データ

を活用できそうです。

まとめ

  • データには様々な定義があるが、人間の立場から考えると、何かをする際に役に立つ情報として考えることができる
  • 「きれいなデータ」と「きたないデータ」の違いは、用途別に定義が異なることであり、一般的に前者は”分析に適したデータ”を意味する
  • データを有効活用するためには、データの取得難易度、取得するデータのタイプ、データ整備の手間を総合的に考える必要がある

次回はデータについてもう少し違った観点から見ていきたいと思います。