シグナル&ノイズ -天才データアナリストの「予測学」- | 一般社団法人 中部品質管理協会

一般社団法人 中部品質管理協会は、品質管理を中心とする管理技術・マネジメント手法を教育・普及する専門機関です。QC検定®対応講座も開催しています。

ホーム > シグナル&ノイズ -天才データアナリストの「予測学」-

著者、ネイト・シルバーは、米大統領選で「オバマの勝利」を完璧に予測したというデータアナリストである。ビッグデータの解析というよりも情報洪水の中から真実(シグナル)を見出すためのデータの見方、考え方について、経済、金融市場、医療、天気予報、地震、野球、ギャンブル、テロリズム等、経済、社会のデータを取り上げ、有益な助言を与えてくれる。数多くの参考文献からの広範な知識、執筆取材の行動力に感心する。

アウト・オブ・サンプルに注意。2008年のリーマンショックの原因は、不動産ローンのディフォールトにあり、それは、ローンの格付会社が、今まで経験しなかった住宅バブルの状況下で、正しく評価できなかったことによる。飲酒運転をしない時の事故確率がたとえ1/1万であったとしても、飲酒運転をした時の事故確率が予測できないのと同じように、アウト・オブ・サンプルの予測であったのである。

シグナルとノイズ。天気予報は短期的で、天候の物理モデル、データベ-スの進歩によって精度のよい予測が可能になってきた。それに対して、地球温暖化等の長期の気候予測はまだまだである。例えば、100年で3℃の平均気温変化を解析しようとすると、1年で、0.03℃の変化をシグナルとして捉えることが必要になり、朝晩の気温変化5℃、年間の気温変化30℃のノイズと比べると微々たるものであり、その難しさが想像できる。

シグナルの発見。革新者というものは、大きく考えると同時に小さく考える。新しいアイディアは、他の人が面倒くさがり、取り組まないような問題の細部に宿っているものである。ツールや習慣を改善して、あるべき場所にあるアイディアや情報を積極的に探す。そして、それを見つけたら、利用して勝利につなげるためのスキルを磨くことである。

 定性的データを大切にせよ。アメリカでは、「マネーボール」という本以来、野球選手の実績統計データを、選手の評価に使うことが始まった。しかし、スカウトのプロは、定量的なデータだけでなく、定性的な情報(選手の準備と仕事に対する姿勢、集中力、競争力と自信、ストレス管理と謙虚さ、適応力と学習能力)にも注目し、評価するプロセスも大切にしている。危険信号となるものを見出すために、インタビューに十分時間を割くという。

過剰適合(オーバーフィッティング)に注意。ノイズをシグナルと間違え、データの中のノイズに適合してしまうことを過剰適合といい、逆に、ノイズからシグナルを検出できないことを適合不足という。2011.3.11の東日本大震災は予測できたか。地震の予測には、横軸にマグニチュード、縦軸に発生確率の対数をとると、べき乗則の直線で表すことができる(グーテンベルグ・リヒターの法則という)。1964年以降、45年間のデ-タから検討したところ、M7.5あたりで、少し傾きが変化している。この変化をシグナルとして過剰適合してしまうと、1300年に1回の予測、ノイズと考えると300年に1回の予測となり、答えが異なってくる。地震は、時期の予測はできないが、確率はこの法則を使えば予測できる。

相関からは因果関係を読めない。1967~1997年の31年間のアメリカンフットボールのスーパーボールの勝者が、NFLのチームの場合、その年の株価は平均14%上昇し、AFLのチームの場合、その年の株価は10%下落するというデータがある。かなりの有意水準で相関があるが、因果関係は何もない。このような間違いをしていることが多い。

 

-1-

人間の理解が重要。人は選挙で勝てそうな候補を支援したいと思い、世論調査を参考にする。デザイナーが今年の流行色を言うと、その色の服が大量に生産される、というような現象を自己成長予言という。逆に、同じナビシステムを多くの人が使っていると、GPSが指示する方向の道が渋滞する現象を、自己破壊予言という。予測という行為自体が人間の行動に影響するのである。よりよい予測をするためには、人間を理解し、どのようにシグナルを

解釈しているかを知ることが大切である。

ベイズ統計の活用。著者が予測の精度を改善するために推奨しているのは、従来からのフィッシャーの頻度主義に対抗するベイズ統計である。ベイズ予測の例。マンハッタンの高層ビルに飛行機が衝突する事前確率をX=0.005%と見積もる。テロリストが攻撃するという条件で、飛行機が衝突する確率が、Y=100%、テロリストが攻撃していない(たとえば事故)条件で、飛行機が衝突する確率が、0.008%とする。1機目の飛行機が衝突した場合、これがテロ攻撃であるとする事後確率は、XY/(XY+Z(1-X))で計算され、38%となる。さらに、2機目の飛行機が衝突した場合、テロ攻撃である事後確率は99.99%となる。

ベイズ統計のもとでは完璧な予測はありえない。常に未完であり、常に磨かれテストが行われる。「知っていること」と「知っていないこと」の溝を埋める戦略がベイズ統計による予測である。逆説的に、「間違えれば間違えるほど、間違いは減っていく」と言っている。

日本の統計家の西内 啓氏は、解説で、ベイズ統計は「予測のためのモデル」、フィッシャー統計は「洞察のためのモデル」である。私たちが工学、農学、医学等の領域で使っているフィッシャー統計では、実験でコントロールしている要因が多く、実験のランダム化のようなノイズの影響を回避する方法を持っているのが特徴である、と説明している。

事例 テロリズムの統計学。アメリカのシンクタンクは、著者をはじめ、物理者、マーケティング、刑事等、異質の専門家を集めて、真珠湾攻撃(アメリカにとっては最初のテロ)から9.11テロまで、過去のテロを分析して、テロ攻撃を防止する方策を検討している。

太平洋戦争時、アメリカは、当時ハワイにいた日本人による破壊行動を心配していたが、日本艦隊からの送信の停止を見落としたことを反省している。これは、前述のアウト・オブ・サンプルと同じである。人間は、「なじみのないこと」を「起こりそうもないこと」と思う傾向がある。自分にとって好ましいシグナル、あるいは楽観的な確率を示すシグナルに気をとられてしまうのである。そして、そういうシグナルを見抜けなかった重要な要因の一つに「想像力の欠如」を挙げている。ペンタゴンはハイジャックされた旅客機がペンタゴンに突入することを想定したが、その戦争シミュレーションを却下したという。日本のカミカゼも自爆攻撃であったが、それらの教訓が、9.11に生かされなかったのである。

さらに、地震の発生確率がべき乗則に従うのと相似で、テロの発生確率と死亡者数はべき乗則に従うことを使って、9.11以上のテロ(地震でいえば、M9以上)の可能性として、10年以内に大量破壊兵器によるテロが起きる確率は、50%を超えると予測している。

予測には、理論によるモデル構築と、客観的な確からしさを与えるデータの質と量が伴わなければならない。その両方を継続的に改善していくことが予測技術の進歩につながる。

日ごろ、予測等、データを見て判断する場合、そのシグナルとノイズを区別して考えることが重要であり、ノイズに惑わされない冷静さ、必要なシグナルを獲得して活用するセンス、シグナルとノイズの違いを見分ける科学的思考が求められている。    (杉山 哲朗)

 

-2-