データは資源であるとか、産業の原油である、ということは以前からよく言われます。 大きな可能性はあるものの、そのままの形では使えず、利用目的に合わせて探し出し、掘り出し、精製する必要がある、ということがこの例えで言われていることでしょう。
確かに、何らかのデータを使おうとする場合は、どんな質のデータがどれだけあるか、利用に耐えるかなど、様々な角度から検討する必要があります。
そこで、まずデータを可視化して見て、出てきたいろいろな仮説や疑問点について深掘りする、というが一般的なデータ利活用の進め方です。
可視化の際も目的を置く必要がある
一方、まず可視化とはいえども、「なぜそのデータを見るのか」という目的はおろそかにできません。やみくもに可視化してもコストに対する効果は得られないばかりか、いろいろな弊害を生むこともあり得ます。
また、可視化と称して細かすぎる情報、誤った情報や誤解させる情報を広めてしまえば、組織全体のデータ利活用から遠ざかることも考えられます。
ここではデータ可視化の際に必要な観点について考えてみます。
可視化の定義
まず、データの可視化とはなんでしょうか。一般的には、元のデータをグラフなどに変換してビジュアル化したり、集計して数値を出したりすることを指すと思います。
一方で、可視化と分析はどう違うのでしょうか。可視化に求められていることを明確にするために、いったん以下のように定義し、可視化を分析と分けて考えていきます。
可視化とは、元データを意味中立の形で表現する作業
機能としては翻訳に近いと考えられます。利用意図や仮説は必要ありません。
一方、分析は元データに意味づけをする作業
可視化と異なり、常に何らかの利用意図や仮説を前提としたうえで、それを補強するためのものです。
可視化に求められること
上記のように分析との線引きをすることによって、可視化に求められていることを以下のように説明することができます。
可視化はデータをそのままの意味で表現する
可視化とはあくまでデータを見やすくするために行うものであり、意味を変えたり不純物を混ぜてしまえば可視化ではありません。 グラフ化や集計に当たって、欠損値の補間や補正、推定をしたりすることがありますが、可視化ではあくまで表現上の理由でこれを行います。推定自体を目的とする場合は、可視化ではなく分析とみなすことができると考えます。
可視化は解釈や示唆を含まない
解釈や示唆は、「どんなデータをどう可視化するか」という観点としてはあり得ますが、可視化そのものではありません。 たとえば、記事や論文の中でデータをグラフ化したりして引用する場合は、記事や論文の全体は1つの分析ですが、その中に掲載されたグラフや表自体は(予測や推定が含まれていなければ)可視化になります。
これはある意味当然の話で、グラフや表自体が解釈や示唆であるならば、それは論旨の裏付けになりません。どのように作られたものであれ、あくまで本論が説く解釈や示唆から中立であるからこそ裏付けになりえます。
可視化の4つのステップ
データを可視化する目的はなんでしょうか。大きく以下の4ステップに分けることができると考えています。
STEP1.データ自体の確認
データ自体をまず確認する目的で可視化する場合です。社内データベースから普段使っていないデータを出す場合や、外部データを利用する場合などは、定義や取得方法、更新頻度を確認し、きちんとメンテナンスされているのか、利用に足るものかを実際に使う人含め判断する必要があります。
このSTEPでは、現時点では必ずしも正しい情報ではなく、可視化の形も最適化されていないことが前提です。誤解されないよう、可視化の際も、見る人にそれを明確に伝えることが望ましいです。
STEP2.データから得られる知識の獲得
手持ちのデータから事実を発見する目的で可視化する場合です。官公庁が発表する公的統計や、Web上に存在する各種のデータサイトなどが含まれます。 具体的に誰にどう役立つかは検討せず、あくまでデータを解釈するための可視化です。全数を把握したり、順位付けや比較などの可視化が主になります。
このSTEPでは、示唆の獲得を行うための材料を準備するのが目的であるため、データの全体を俯瞰的に見ることが望ましいです。まず全体を置いたうえで、どこまで細かく見られるのかを示せる帰納的なストーリーにするとわかりやすくなります。
STEP3.意思決定や行動につながる示唆の獲得
データを行動につなげる具体的な示唆を得るために、分析の一部として可視化する場合です。記事や論文、発表資料などの論旨に対してデータの裏付けを載せる場合が該当します。 特定の仮説や文脈に沿って、「データから言いたいこと」に焦点を当てた可視化を行います。
またこのSTEPで、可視化のみでは十分な裏付けが得られない場合にデータ分析が入ってくることがあります。
このSTEPは演繹的なものなので、データの全体は必要ないことがほとんどでしょう。一方、前のSTEPでデータの全体を確認し、どんなデータであるかを理解していてはじめて、正しいデータを選んで適切に加工することができます。
STEP4.示唆に基づく行動の振り返り
すでにデータから得た示唆に従って行動し、その振り返りを行うために可視化する場合です。データと実際の行動が密に結びついている場合です。
行動を詳細に振り返り、反省点や新たな示唆を得て次の行動に活かすための可視化を行います。
可視化の際に起き得るいくつかの問題
上記のようにステップを区切ることにより、可視化の際に起き得るさまざまな問題を整理することができます。
可視化したデータが信頼されない
当然のことながら、「どんなデータなのか」「正しいのか」の確認や説明もなく、いきなり知識や示唆を与えようとするのはどんな場合でも間違いです。上記でいうSTEP1と2を踏まずにいきなり3につなげようとするケースはとても多いと思います。
可視化する場合は、誰かがそれに基づいて行動してしまった場合のリスクを考える必要があります。また、そのようなデータを可視化する場合は、データの不備や特徴を把握したうえで、何について不明であるかを明記することが望ましいです。
可視化が細かくなりすぎる
STEP2「知識の獲得」を目的とする場合は、データを全体で俯瞰するトップダウンの可視化が主になります。一方、示唆を求める場合は、具体的な仮説や文脈に絞り込んだボトムアップや細部の可視化が求められます。仮説に関係ない範囲の全体の情報はかえって邪魔になります。
この2つが混同されると、絞り込む必要のない細部までグラフ化したり、示唆が欲しいときに詰め切れていない、というようなちぐはぐなことが起きます。
可視化が行動につながらない
業務上のKPIを決める場合などに特に起きやすいこととして、実際にそれに従って行動すべきデータかどうかわからないものを、無理に行動に結びつけてしまうケースがあります。
STEP3「示唆の獲得」のプロセスを踏んだうえで、仮説を整理したうえで行動を行わなければ良い結果に結びつかないどころか、行動を誤らせることになります。
話題性でとどまってしまう
目的を持っていない場合の可視化は、実際の利活用における重要性より話題性を重視したデータの選択や可視化になりやすいです。特に、「まず可視化してみる」場合は、興味関心の高いデータ項目や、特徴が選ばれやすくなります。また、話題性の特徴から、無理やり示唆に結びつけようとする傾向もあり、信頼性の問題ともかかわってきます。
示唆を得てもらうためにまずは興味を持ってもらう、という位置づけを明確にした上で、可視化の範囲が限定的になっていないかという点を常に確認することが重要と考えます。
0コメント