CDが売れるとサバが獲れる!?疑似相関に騙されるな!
最近、「疑似相関」というものを調べてます。
音楽CDが売れるとサバの漁獲量が増える?相関関係の不思議な話 - ビッグデータレポート - ヤフー株式会社
つい先日、このブログでも食べログ3.8問題を検証した記事を紹介しましたが、あちらは検証にデータを用いたのに対し、こちらはそのデータが当てにならない場合があるという話です。
曰く、「Yahoo!ショッピングで音楽CDが売れると、サバの漁獲量が上がる」。
もう一つ、似たような話を。
アイスクリームが殺人事件を呼ぶ? | アメリカ | 最新記事 | ニューズウィーク日本版 オフィシャルサイト
「アイスクリームが売れると、殺人事件が増える」。
・・・んなわけないですよね、常識的に考えて。いずれの例も、とても因果関係があるとは思えない事例です。
これは、偶然の一致による疑似相関というやつです。(「疑似」を「擬似」と書く場合もあり)
もっとも、こういう場合があります。
有名な例でいけば、「小学生は身長が高いほど、計算能力が高い」。
これは偶然ではなく、本当にこういうデータが出ます。
ですが、対象が小学1年~6年までとしていて、簡単に言えば「年齢が高いほど、身長も高く、計算能力も高くなる」のを、身長と計算能力だけで見たら相関があるように見えてしまう例です。
つまり、同じ要因に起因する2つの現象に相関があるように見えてしまう。これも疑似相関の一種です。
こんなものに騙されないと思ってはいけません。
世の中に出ているこの手の話題には、結構紛らわしいものもあります。
例えば、最近話題になっているのは、「犬を飼うと寿命が延びる」という話。
とある科学雑誌の論文らしいですが、これも疑似相関じゃないかと疑っている人がいます。
確かに、調査結果はその通りなんですが、例えばここに「収入」や「住環境」など別の因子があると、どうなっていたか?
もしかすると、別の要因との相関が高い者同士が、たまたまこういう結果を招いている可能性があります。
データというものは大事ですが、データをうのみにするのも考えもの。
今やネット時代、ビッグデータ時代といわれており、大量のデータが氾濫する時代。
この手のデータの根拠は、作ろうと思えば作れてしまう時代でもあります。
一つ間違えれば、おかしな投資をしたり、特定の食品ばかり食べたり、犬を飼う羽目になったりします。
なんだかおかしいなと思ったら、一歩引いて根拠を探るという努力も必要ですね。
« アメリカの核ミサイルシステムからついに8インチフロッピーディスクが消える! | トップページ | うちの「ハズレiPhone」はiPhone 6s »
「数値解析系」カテゴリの記事
- Tanuki-8Bの4ビット量子化ggufモデルでRAGをやってみました(2024.09.14)
- 純日本産なローカルLLM「Tanuki-8B」を試してみた(2024.09.02)
- 東京のセールスフォースに行ってきました(2024.07.24)
- ローカルLLM「Llama-3-ELYZA-JP-8B」にいろいろ聞いてみた(2024.07.01)
- ElyzaのLlama3ベースの言語モデル「Llama-3-ELYZA-JP-8B」のRAGが予想以上に賢かった件(2024.06.27)
« アメリカの核ミサイルシステムからついに8インチフロッピーディスクが消える! | トップページ | うちの「ハズレiPhone」はiPhone 6s »
コメント