データ分析とは「サイエンス」か「アート」か



アメリカの大学院でリサーチアシスタントを始めたころ、指導教授からこんな意味のことを言われたことがあります。  

「データアナリシスはサイエンスでなくアートだから、好きなようにやれ」

なかなか思い切ったことを仰るなあと、いまでも忘れずに覚えています。  


一方で、当時は経済学が専門であったため、そのことについて深く考えることはありませんでした。経済学は学問ではありますが、現実の現象を解釈する「観点や切り口」の違いによりさまざまな理論があり得る世界です。「現実のどの部分を切り取ってどう定式化するか」という意味では、経済理論は画家や建築家の世界と同じようなレベルでアートかもしれず、そこに矛盾を感じることはあまりありませんでした。  


しかし、帰国してクライアント向けデータ分析の仕事をし、教育や普及という側面に関わるようになったとき、データ分析自体のアート的な側面について、再度深く考えるようになりました。 



データ分析のアート的な部分は「現実の解釈と表現」


英語でもアート(art)とは基本的に芸術一般を指しますが、日本語と同じく、「属人的な技術」を指す際に使われることもあります。たとえば、政治や交渉などの名人芸、職人芸を指す際もやはりアートが使われます。データ分析がアートだというときは、どちらかというとこの「その人でなければできない」職人芸的部分を指すものでしょう。  


その意味で、データ分析における属人的でアート的な部分について考えると、それは「データ分析を行う際の、自己の社会的な経験やものの見方に基づく洞察や判断」であると思います。 データ分析に求められているのは昔も今も現実をどう解釈し、どうモデル化するか、という作業です。そして現実の解釈においては、データサイエンティストと言えども、専門性と直接関係していない自分自身の世間知をフルに活用して業務を遂行しています。 


たとえば、より現実に合った結果を出すためにパラメータやモデル式を調整する、あるいは、このデータは信頼性に欠けるので使用しない、といった実務上の判断は、目の前のデータから背景にある現実を推測して総合的に判断するものです。そして、それができるかできないかはデータの背景にある現実の理解と自分自身の経験であり、データ分析の教科書に載っている話ではありません。 


一方で、そもそもそんなことでいいのか、という観点もあると思います。データサイエンスである以上、データのみを対象にすべきで、そこに分析者の予見が入ってはいけないのではないでしょうか。また、分析する人によって結果が違うなど、あってはならないのではないでしょうか。


しかし現実の問題として、データ分析者は業務において自分自身のさまざまな世間知を使っています。その理由は、実際に分析結果が利用されるのは、データの背後の現実であり、その背後の因果関係に影響を与えるためだからです。そして、現実に合わないデータやモデルや結果は、何かが間違っているからです。


もちろん世間知には限りがあるので、より深い知識が欲しいときには、知っている人に聞かなければ正しい答えは出てきません。いつ何を聞けばよいか?を判断するのも、データ分析の技術の一部でしょう。


では、なぜデータ分析は実務において属人的なものになっているのでしょうか。 それについては、次の記事で考えていきます。 

データ分析の実務が本質的に属人的である、その3つの理由

ヨカヤム

「現場を助ける、人を活かす」データ利活用