#03 因果関係を見抜く / 4. 因果関係の定義: ホンモノとニセモノ

=====================
《ビジネス×サイエンス》
#03 因果関係を見抜く

   ■ 0. 「ビジネス×サイエンス」の背景
   ■ 1. <導入> 「データいじり」を乗り越える
   ■ 2. <ビジネス編(前)> ビジネスケーススタディ: データが結論を導くとき
   ■ 3. <ビジネス編(後)> ビジネス上のキーポイント: 原因と結果の落とし穴
   ■ 4. <サイエンス編(前)> 因果関係の定義: ホンモノとニセモノ (このページ)
   ■ 5. <サイエンス編(後)> 定量的手法: 因果関係を数字で測る
=====================

<サイエンス編>

■4. <サイエンス編(前)> 因果関係の定義: ホンモノとニセモノ

ここまでの<ビジネス編>では、因果関係を見抜くことこそが「ビジネスの羅針盤」となることを見てきました。「原因と結果」の関係を知ることがすなわち「手段と目的」を結びつけることであり、企業経営における指針の役目を果たす、というわけです。

この「原因と結果」の関係、単純なように思えて、きちんと定義するだけでも実は奥深いものです。

「自分が知りたいのは実際の計算のノウハウだ」という方も多いでしょうから、具体的な計算手法も取り上げましょう。ですが、計算手法を知っているだけでは本当に大事なことは見えてきません。特にこの「因果関係」に関しては、「偽の因果関係」を信じ込んでしまい、全く的外れな場所に多大な時間とコストを掛けてしまっている例をいくつも見かけます。具体的な計算式に進む前に、この「因果関係」の正体を少し考えてみましょう。

 

■4.1 「因果関係」の正体

「因果関係」とはそもそも何でしょうか。陥りやすいケースを見ながら考えてみましょう。

============
(事例)

台所用洗剤メーカーが、自社製品を利用している消費者のグループインタビューを1グループ6人で5グループ実施しました。出席した人に自社製品の何が良いかを質問しました。

自社製品についての評価で、「よい」と答えた人の人数は以下のようになりました。

図:自社製品を評価した人の割合

この結果では、最も多くの消費者が評価しているのは「洗浄能力が高いこと」、となりました。
============

では、このメーカーが次にすべきことは、洗浄能力をさらに高めた商品を開発することでしょうか?

必ずしもそうではありません。

この30人の消費者が最近買っていない他社製品について同様の質問をしたところ、他社製品についても同様に「洗浄能力が高い」を高く評価していたとしましょう。彼らは自分が買った製品も買っていない製品も同様に「洗浄能力が高い」と評価しているなら、これが選択要因になっているとは考えられません。

一方、自社製品ではそこそこ評価の高かった「安心して使える」が、他社製品に対する評価では低かったとしましょう。であれば、自社製品の評価の絶対値では「洗浄能力が高い」のほうが上回っていたとしても、実際に選択要因になっているのは「安心して使える」のほうだと推定することができます。

図:自社・他社の比較

(さらに、他社製品を選んでいる消費者を集めて質問したとき、他社製品ユーザーは他社製品のほうが「安心して使える」と評価しているなら、この推定はさらに強化されます。)

この例で何を考え違えていたか、そもそも「因果関係」とは何かを整理してみましょう。

 

「因果関係(causality, causal relationship)」と言うからには、二つの事象(event)が存在し、一方が「原因(cause)」に、もう一方が「結果(effect, result)」になります。二つの事象の間に因果関係が存在する場合、
   (1) 「原因」事象は、他のいくつかの「原因」事象と揃うことで、「結果」事象を生じさせる
   (2) 「原因」事象がもしも起こっていなければ、「結果」事象は起こっていない(または起こる確率が低くなる)
   (3) 「結果」事象は「原因」事象よりも時間的に後に起こっている
が満たされるはずです。

図:上記の3条件

例えば、『「1923年の関東大地震」は「大火災」の原因だった』、と言えます。「地震動」、「ちょうどお昼時で火が使われていたこと」、「木造家屋が密集していたこと」が揃うことで「結果」として「大火災」が生じました。「地震動」がなければ、残り2つの条件が揃っていても大火災は生じていませんでした。

 

先の台所用洗剤の例で欠けていたのは何でしょうか。

「原因」候補の「洗浄能力を高く評価される」の時に「購入される」という「結果」だったことは確かめていました。ですが、その「原因」候補がない時には「結果」が生じないことを確かめなかったために、本当は存在しない因果関係を見てしまったのでした。

======
(論理学が得意な人向けの補足)

因果関係と論理学の条件の関係は、どちらも「AならばB(If A, then B)」という表現が使われますが、これらは区別する必要があります。

   ・「みかんが果物ならば、東京は関東にある」
   ・「みかんが野菜ならば、東京は関西にある」

これはどちらも論理学の条件文としては「真」です。論理学で「AならばB」は、「AとBがどちらも真」であるか、「Aが偽でBは任意」であれば真だからです。一方、当然ながらこれらはどちらも因果関係ではありません。

因果関係の条件は、論理学の言葉で書けば、”an Insufficient but Necessary part of a condition which is itself Unnecessary but Sufficient for the result”。頭文字を取って「INUS条件」とも呼ばれます。
======

 

■4.2 因果関係と相関関係

では、「原因」候補があるときには「結果」が生じ、「原因」候補がないときには「結果」が生じない、この2つが確かめられたときは、必ず「因果関係」が存在すると言ってよいでしょうか。

「原因」候補と「結果」とがどちらも0/1で表現できる場合は以下のような表になるはずです。

1:「結果」あり 0:「結果」なし
1:「原因」あり 140 60
0:「原因」なし 80 120

あるいは、「原因」候補と「結果」とがどちらも連続的なスケールの場合は、以下のような散布図になるでしょう。

数学的には明らかに「相関関係(correlation, correlative relationship)」があると言えます。

前半の<ビジネス編>で見た様々なケースはいずれもその計算手順は、明示的なものもそうでないものも、相関関係の強さやその構造を描き出していました。「データいじり」ではなく目的意識を持って原因と結果の関係をあぶり出そうとする思考のセンスを持っていれば、形の違いはあれど原因と結果の間の相関関係を考えるというプロセスになることを様々な形で見たものでした。

とすると、今度は「じゃあいつでも相関係数を計算すれば因果関係を調べられるんだな」と、深く考えずに機械的に計算する習慣をつけ始めてしまう人もいます。ですが、計算方法を暗記して数字ばかりを見るようになると、大きな落とし穴があるものです。

相関関係が「因果関係のニセモノ」になるケースを見てみましょう。

 

1.同時に発生

一例として、日本の出生数と交通事故死者数を比べてみましょう。

図:年間の出生数と交通事故死者数。1992-2012

20年間の出生数と交通事故死者数を散布図にプロットすると、強い相関関係がある場合の図のように見えます。相関関係を証明するに十分のサンプル数もあるように見えます。このときの回帰式

  y = 0.0348 x -31.678
(y:交通事故死者数/千人、x:出生数/千人)

となりました。出生数が1000人減ると、交通事故死者数は35人減る・・・これは本当でしょうか。

この結論は実際には、「出生数の増減」と「交通事故死者数の増減」という二つの事象はたまたま同じ時期に起こっていただけで、その間に因果関係はほとんどありません。赤ちゃんの数が減ると交通事故も減るようにも思えますが、実際には交通事故死者の6割は60歳以上の高齢者です。交通事故死者数が減っている理由は主に交通法規の徹底や安全技術の向上によるものと言われています。

図:出生数と交通事故死数の推移

どこに考え違いがあったのかというと、散布図に打った点の数が多くても、これは2つの事象が同時に起こっただけなので、その間に因果関係を推定するには全く不十分なわけです。

 

2.逆の因果関係

次のパターンは少し複雑になりますが、ひっかかりやすさも高くなってきます。

ここまで何度か紹介してきたのと同様の形式で、自社サービスがどんな心理的な価値を提供すれば消費者に選んでもらえるかを検証するとしましょう。

=============
(設計)
・「結果」=各社のサービスを購入して利用する
・「原因」=各社のサービスに以下の価値を感じる:「心地よいと感じる」、「大切にされると感じる」、「優越感を感じる」、「人に話したくなる」、「リラックスできる」、「慣れていると感じる」、「安心感がある」、「得をしたと感じる」、「自分らしいと感じる」

(質問)
・Q1. あなたは○○社のサービスを直近3ヶ月の間に購入しましたか?
  1.はい / 2.いいえ
・Q2. あなたは○○社のサービスは以下の文章に当てはまると思いますか?
  「心地よいと感じる」、「大切にされると感じる」、・・・

(分析結果)

=============

さて、この結果、額面通りそのままで使っていいでしょうか。

このような設計自体は、消費者・顧客の心理を探る方法として筆者もよく使用します。きちんと設計してきちんと読み取れば、顧客の無意識の心理まで読み解いて経営の指針を定めるのにも十分役に立つものです。

ただ、十分に気をつけなければ含意を読み違うことになります。「人に話したくなる」から選ぶ、「大切にされていると感じる」から選ぶ、は因果関係としておおよそ正しいでしょう。一方、「慣れていると感じる」から選ぶ、はどうでしょうか。このときは、「選んでいるから」慣れていると感じる、という逆方向の因果関係が強く存在するはずです。そのため、本来見極めたい因果関係の強さよりも計算上の因果関係が強く出てしまうので、差し引いて見なければいけません。「安心感がある」にも少しその傾向があるでしょう。

とはいえ、「慣れ」や「安心感」は、顧客の選択に影響を与える半ば無意識の心理として重要なものですから、これらの情報自体は顧客の心理を理解するのに欠かせないものです。「ニワトリとタマゴ」の関係にあって因果関係をきれいに切り出すことは難しいですが、このような影響があることを念頭に置きながら読み取らなければ、誤解に気づかないまま、ちぐはぐな経営計画が出来上がってしまいます。

 

3.交絡

3つ目のパターンは複雑度もまた上がりますが、最も重要なケースでもあります。

ある業界では、市場シェアの7割をA社が抑え、残り3割をB,C社で分け合っています。A社は少々強引な営業スタイルで知られ、店舗では店員にかなり露骨に購入を勧められる、郵送のDMもEメールもどんどん送られてきて迷惑、と口々に言われます。自慢の品揃えと安さでリピーターは多いですが、その強引なスタイルは熱心なリピーターでも辟易としています。

B社からの相談で、どうすればシェアを拡大してA社の独走に待ったを掛けられるか、を考えることになりました。

「利用している会社」と「各社のイメージ」を消費者に質問し、相関係数を取ってみました。

図:分析結果

この結果から、「価格が安い」、「展示点数が多い」、「店舗へのアクセスがよい」などは納得できる結果です。ですが、「接客が積極的」、「DMやメールがよく届く」は額面通りにとってよいでしょうか。

 

種明かしをしましょう。各社についての回答を合計した集計表は、単純化すると以下のような形です。

(合計) その会社を
利用している
その会社を
利用していない
    合計     利用している
人の割合
「接客が強引」
当てはまる
620 580 1200 52%
「接客が強引」
当てはまらない
380 1420 1800 21%

これを見ると明らかに相関関係があるように見えます。ですが、先程の集計表をA社とB,C社に分けてみると以下のようになります。

(A社に対して) その会社を
利用している
その会社を
利用していない
    合計     利用している
人の割合
「接客が強引」
当てはまる
560 240 800 70%
「接客が強引」
当てはまらない
140 60 200 70%
(B社に対して) その会社を
利用している
その会社を
利用していない
    合計     利用している
人の割合
「接客が強引」
当てはまる
30 170 200 15%
「接客が強引」
当てはまらない
120 680 800 15%
(C社に対して) その会社を
利用している
その会社を
利用していない
    合計     利用している
人の割合
「接客が強引」
当てはまる
30 170 200 15%
「接客が強引」
当てはまらない
120 680 800 15%

実際のところ、どの会社の利用者かに関わらず同じ割合で「接客が強引」とA社を評価しており、「接客が強引」という要素は利用に影響を与えていません。ですが、回答者の多数を占める7割の人が「利用しているのはA社」と答えており、彼らの多くは「利用している会社は接客が強引」と答えることになるので、全体で見ると多数の人が「自分は接客が強引な会社を利用している、接客が強引でない会社は利用していない」と答えている集計結果になるのです。

このように、本当は全く購入意向に影響を与えていない要素が、相関係数だけを見ていると非常に重要な要素であるかのように見えてしまっていたことになります。これを額面通り受け取っていたら、B社は、強引な接客、不快なほど多頻度なメールを真似することがシェアを拡大してA社を追う手段だと思い込み、無意味な施策に多額のコストを掛けてかえって顧客に嫌われる結果となっていたはずです。

 

ここで結果を大きく狂わせていたのは「交絡(confounding)」と呼ばれる現象です。もっと分かりやすい例で見てみましょう。

国内で、「個人の年収・資産残高」と「生活習慣」の関係を見たとしましょう。

例えば、「朝6時までに起床する人」ほど「純資産残高が5千万円を越える人」が多い、という関係から、何が言えるでしょうか。早起きすると貯金が得意になるのでしょうか。もしくは逆に、貯金を心掛けると朝早く目覚めるようになるのでしょうか。

あるいは、事務職のうち「一日平均の労働時間が14時間を越える人」は「年収が1千万円を越える人」が多い、という関係から、何が言えるでしょうか。深夜まで働くようにすると年収が増えるでしょうか。もしくは逆に、年収が増えてくると深夜まで働きたくなるものでしょうか。

背後の仕掛けはとても単純です。前者の例は、「中高年の人」は、早起きの人が多く、住宅ローンの返済を終えて数千万円の純資産を持つ人が多い。後者の例は、「裁量労働制の専門職の人」は、長時間労働の人が多く、1千万円以上の年収の人が多い。その単純な事実が、二つの要素の間に相関関係を生んでいたのです。

前者の例の「中高年」、後者の例の「裁量労働制の専門職」を、「交絡因子(confounding factor)」と呼びます。もともと原因・結果の候補として考えていた二つの要素には因果関係は存在せず、それとは別の交絡因子を共通の原因として、二つの要素が結果として生じていた、と理解できます。

 

■4.3 本当に見ようとしているのは何か

原因と結果の関係を解き明かすのは、このように一筋縄ではいかないものです。ここまで見てきた「因果関係のホンモノとニセモノ」の構造を整理してみましょう。

図:因果関係と3つのニセモノ

これらはホンモノもニセモノもいずれも、データ上は相関関係として捉えられるだけです。これは数理的な技術によって解消される性質のものではなく、取り扱う現象の性質を見極める眼が必要とされるものなのです。

 

著名な大企業でも、「我が社には最新の統計手法を駆使した特殊な分析技術があります」などと謳って、その分析技術に格好つけた命名をして数千万円や数億円の高額の価格を設定している企業に限って、ここにあげたような落とし穴にことごとくはまってしまっているものです。

営業用資料の見た目や営業トークが洗練されている企業でも、自らが使っている計算手法にどのような意味があるかを、実際にデータ処理を行っている作業要員さえもよく理解していないことが多いものです。ましてや、プロジェクト管理を行っているその上司は、営業担当者としてごまをすったり偉そうに戦略を語ったりするのは大得意でも、実際の作業で何の計算を行っているかは全く分からずブラックボックスとしてしか扱えない人がほとんどだと思います。試しに、市場調査会社やコンサルティング会社の営業マンがデータ分析を説明してきたら一言、「因果関係と相関関係はどういう時に違いが生じますか?」と聞いてみてください。一瞬戸惑って表情がゆがみ、すぐに正気を取り戻して話をそらしたごまかしの説明を(芸術的になめらかな口調で)繰り広げる様子を観察すれば、自分で売りつけようとしているものを自分で理解しているかどうか、簡単に判別できるはずです。営業マンが計算式まではそらんじられないのはよいとしても、因果関係と相関関係の違いさえ分かっていないなら、統計手法を使った最適なソリューションを提供できるとはとても思えません。

 

とても頭がよい人たちで構成されているはずの企業で、なぜそのような失態になってしまうのでしょうか。

「車輪の再発明はするな」と言われることがあります。既に発明された車輪をもう一度自分で考え出そうと時間を費やすのではなく、車輪はもう存在するものとしてそこから先を考えよう、という趣旨です。この言葉自体は広く流布しているものですが、これを誤解して、一度発明されたものはブラックボックスとして扱えばよい、と考える風潮があるように思います。よい自動車を作るためには、車輪を再発明する必要はありませんが、車輪はどのような力学的構造で成り立っていて、なぜ効率的な移動を可能にするのか、は自ら理解する必要があるのです。

「車輪の再発明は必要ない」を言い訳に、「車輪の理解」までも怠ってしまうことが、ビジネス戦略に関わる業界全体の質的停滞を招いているのではないでしょうか。

 

結局、根底にあるのは、「本当に見ようとしているのは何か」を見失ってしまうことなのではないでしょうか。前半で取り上げた、やみくもにデータをこねくり回すのではなく目的を達するために因果関係を導出すべし、という観点も同じことです。これも一見全く当たり前のことのように思えますが、こういった視点を持ってデータを扱っている人は稀にしかお会いすることがありません。データや統計手法といったものの取り回し方で精一杯で、本来自分はそれを使って何をしようとしていたのか、を人は往々にして見失ってしまうのです。

一方で、自然科学の研究を生業としている方には、ここで書いていることはあまりに当然で簡単すぎて馬鹿馬鹿しい、と思われることでしょう。
博士号取得者の就職難が言われる中でも、ビジネスの世界にはこれらの能力を持った人材が価値を発揮できる場所が確実に存在すると筆者は考えています。もちろん、前半で触れたようにビジネスでこれらの能力を活用するには、自然科学とは縁のない戦略的思考が必須であり、簡単にはいかないのですが。

 

では、最後のページでは、結局のところ実務上必要な、具体的な数値化の計算手法を見てみましょう。

>>5. <サイエンス編(後)> 定量的手法: 因果関係を数字で測る

=====================
《ビジネス×サイエンス》
#03 因果関係を見抜く

   ■ 0. 「ビジネス×サイエンス」の背景
   ■ 1. <導入> 「データいじり」を乗り越える
   ■ 2. <ビジネス編(前)> ビジネスケーススタディ: データが結論を導くとき
   ■ 3. <ビジネス編(後)> ビジネス上のキーポイント: 原因と結果の落とし穴
   ■ 4. <サイエンス編(前)> 因果関係の定義: ホンモノとニセモノ (このページ)
   ■ 5. <サイエンス編(後)> 定量的手法: 因果関係を数字で測る
=====================