前記事「データ分析はサイエンスかアートか」で検討しましたが、データ分析には確かに属人的、またはアート的な側面があります。
しかし、どのような分析をするにしても、データの背景にある現実を経験し、解釈しなければできない、というのであれば、そもそもデータ分析者とは何の専門家なのでしょうか。
統計学を適用する際は対象分野の知識が必要
話は変わりますが、「統計学とは学問なのか?」という疑問はいつも提示されてきました。まぎれもなく統計学は数学の一分野であり、その学問の成果が、他の分野で広く利用されています。 しかし、統計学を学んだからと言って、他の分野にすぐ適用できるかというとそうではありません。なぜなら、統計学で解きたい特定の現実を解釈するために必要な知識や経験がないからです。 そして、それをカバーするために、統計学者は特定の専門分野の学者と組んで作業したり、または自分でそれを学んだりする必要があります。
そうだからといって、統計学者は対象とする分野の専門家ではなく、間違いなく統計の専門家です。統計の専門家であればこそ、適切な手法を適切な「場合」に適用できるのです。その「適切な場合」がより増えれば、学問としての統計学はそれだけ社会的価値を持つことになるでしょうが、一体それを個別の場合にどう判断すべきかは、統計学自体は解を持ちません。これはデータ分析の問題とほぼ同じです。
それにしても、データ分析が業となる前は、このような問題は大きくなかった、というのが個人的な意見です。だれでもPCでデータ分析ができるようになり、データへのアクセスが飛躍的に簡単になったからこそ、このような問題が起きてきたと思います。 今と昔とはどう違うのでしょうか。
上記のような課題感から、データ分析の実務が属人的にならざるを得ない理由を以下で考えてみます。理由は大きく3つあります。
理由1:理論モデルの代わりに洞察を使わざるを得ない
計算機が普及する前、統計分析をするのは主に大学の研究者でした。研究者が統計分析をする場合、学術的な考察に基づく理論モデルや仮説がまずあって、それを検証するために分析モデルを作って実行する場合がほとんどです。
また、統計分析のための計算機リソースは極めて貴重なもので、大学や研究機関、大企業に限られた数があるのみでした。コンピュータは順番待ちで、まず物理学、次いで数学のために優先順位があり、経済学などの他の学問で使われることはまれだったということです。昔の論文を読むと、重回帰分析などでも手で計算していた例が多く見られます。
そのようにデータ分析の資源は貴重なものであったため、データの背後にある現実の考察や理論化はすでにいやというほど行っており、それをようやく実証できる貴重な機会がデータ分析、ということが多かったと思います。
一方で、今は誰でもすぐ計算機リソースを使えることもあり、データ分析の課題は様々です。マーケティング等、理論モデルよりもまずデータがあるということのほうが多いでしょう。また、理論も日進月歩であり、ある程度定式化された経験、知識が常に手の届くところにあるわけではありません。むしろ、直接の担当者に経験や知識が乏しく、その理論化や定式化をしたいからデータ分析をしています、というケースが多いのではないでしょうか。その場合、データ分析者は自ら現実を洞察し、どんなモデルで課題を解決できるか考えなければ仕事になりません。
理由2:すでにあるデータを吟味、評価して使わざるを得ない
理学、医学、心理学などの実験に重きを置く領域では、理論を実証するために利用するデータを自ら設計、取得するのが基本です。その際は、外部のノイズによりデータが汚染されることを極力防ぐ実験設計やサンプリングを行います。
一方、データ分析の実務で使うデータは、基本的に分析のために取得されたわけではないデータです。取得方法が目的に合っているか、データは偏っていないか、何かの要因で汚染されていないか、データと現実の関係を踏まえて、分析者は自分で考えなければなりません。
マーケティング等の現実世界の分析では、データ取得のための実験室的環境を用意することはほぼ不可能です。いくらサンプリングを精緻に行っても、サンプル自体が必ず何らかの外部要因の影響を受けています。現実の因果関係がデータセットの中で完結していることのほうが稀であり、検証や検定の前提が成立しているのかどうか、データにない要因がデータに与えている影響についても判断しなければなりません。これらはデータ分析の考え方の一部ではあるものの、実際に適用する際は、間違いなく世間知の領域です。
理由3:個別の新しい課題を解決しなければならない
仮にデータ分析がサイエンスであるとしたら、それは課題そのものを一般化できた場合です。課題を定式化、類型化したうえでどう解くかソリューションとして固めれば、データや使う人が変わったとしても、分析によって常に解を与えることができます。
一方で、データ分析の課題は、特定の会社や個人に属する課題であり、また新しい課題です。なぜなら、他社事例などで「こうすれば一般的にうまくいく」汎用性、再現性が担保された課題であれば、わざわざ自分で分析してそれを見つける必要がないからです。「その人や組織の」「特定の・独特の」「新しい」「他で解決策や事例が見つからない」課題を解決したいから自ら分析をするのです。
そして、新しい課題に対しては、課題そのものを吟味し、その背景にある現実を明確にしたうえで、常に新しい解決手段を構築しなければなりません。それを検討するのはデータ分析者の仕事であり、その意味で、常に踏み込んだ姿勢が求められます。一方、課題そのものの定式化や類型化についての深い考察は、場合にもよりますが、データ分析を業とする人の仕事の範囲からは外れていることが多いでしょう。
データ分析が属人的なものにならざるを得ない、と考えられる3つの理由を上に挙げました。
一方、「属人的なんだからこれでいいじゃん」というわけではなく、そのデメリットもあります。教育や普及の問題、分析に対する客観的評価の問題、分析に基づく行動の責任問題など、検討しなければならない課題があります。それについては次の記事で考えます。
0コメント