暇であるための生活

暇じゃなくても暇でありたい

現代ビジネスの「金メダルの数とGDPの関係」の記事の違和感

オリンピックでのメダル獲得数とGDPの関係について、講談社「現代ビジネス」の記事を読んで、統計トリックがトリックにもなってないほどひどいのでちょっと取り上げてみる。

感覚的に「先進国のほうがメダルを多く取ってる」というイメージがあるけど、実際算出してみたっていう記事。

 

gendai.ismedia.jp

 

おかしいのは↓の図1。

 

f:id:himatuna:20160822173710p:plain

          図1

 

統計を少しでもやったことある人、理系な人からしたら”どう見てもおかしい”近似曲線。

基本的に「外れ値」がある場合は、外れ値によって近似曲線も相関係数も大きく変わってしまうため、信頼はできないんだけど、外れ値も含めて算出した相関係数を記事の根拠にしているからとても違和感なわけです。

とは言え、外れ値が偶然にも近似曲線に乗っている可能性もあるので、軽く自分でグラフを作ってみて検証してみる。

 

そもそもデータの使い方、おかしい

まずは国連からGDPをとってきて、同じ散布図を作ってみたもの(図2)

f:id:himatuna:20160822223931p:plain

と、これを作った時点で、作ったことを後悔した。

そもそもGDPの2000年代平均を算出することに意味があるのだろうか。

答えはもちろん、「無い」。

GDPはほぼ全ての国で毎年上がっている。中国なんて平均だと45億ドルだが、2014年は100億を突破している。GDPで国力を測るというのであれば、せめて年ごとの偏差値でも出した方がまだマシだろう。

 

まあ実用的にどの算出方法が良いかは僕にはわからんけど、ここで言いたいのは「経年で大きく変化するGDPを平均値として単一の指標化するのは絶対に間違っている」ということ。

(そしてなぜ僕の作った散布図の相関係数は氏の作った相関係数より遥かに低いのだろうか?)

そもそも論として僕が以降検証してみる意味もないんだけど、一応データ検証という意味で相関について見てみよう。

 

外れ値を含むな

さて、外れ値を含むというのが如何に相関係数において害悪か、というのは見れば明らかだと思う。アメリカというどう見ても外れ値のデータを除いた図をかいてみる。(図3)

f:id:himatuna:20160822224101p:plain

さて、相関係数が随分と小さくなった。

ちなみに相関関数の目安として、

      0.7以上:強い相関

      0.4~0.7:やや相関

      0.2~0.4:弱い相関

         0~0.2:ほぼ相関なし

ということが言われている。

細かい算出方法は置いておくとして、米国1ヶ国を入れるか入れないかでここまで大きく変わってしまうことからわかるように、外れ値を入れたまま相関係数を算出すると誤った値が出てくる可能性が高い(まあ”誤った”という表現は正しくないが、、、)

 

GDPごとに群を形成しているのでは?

さて、次にGDPの低いところにデータが固まっていることに誰もが気がつく。これも相関係数の算出には少しよくない気がする。

ということで、GDPが5,000億ドル以下の国について見てみる。

f:id:himatuna:20160822224628p:plain

これでGDP5,000億ドル以下の国に関しては「GDPと金メダルの数に相関は無い」と言い切ってもいいだろう。確実にGDP以外の要因が大きい。

 

では逆に5000億ドル以上の国はどうなの?ということで見てみる。(図5)

f:id:himatuna:20160822225503p:plain

ここでようやく、メダル数とGDPには相関がある程度見られると言えるだろう。

GDPが5,000億ドル以上の国力の大きい国に関しては、GDPとメダル獲得数に一定の相関がある」といったところか。

そして遂に、「日本の金メダル数は少ない」と言える。一方で「アメリカ・ロシア・中国はメダル数が多い」と言える。(あれ、これって軍事費が高い国…?)

 

だから何、って

別にいいんだけど、講談社ともあろう大手が、たかがwebされどweb、こんな似非統計すら校閲に引っかからないなんて酷すぎるのでは…?ということが言いたかった。

もっとしっかり記事を書いてください!!!

ネット記事って大抵あてにはならないけど、講談社くらいのネームバリューあるなら、やっぱり最低限の信頼は必要だよ。

特に中途半端な科学的手法を使うのはよくない。非科学的な手法ならいくらでもでたらめ記事書いていいと思うけど、科学は科学。NO似非科学

 

うん。実際それ以上でもなんでもなくて、一応批判するなら自分でもデータをいじってみた方が良いかなと思ってデータいじってみたんだけど、特に何も生まなかったしただの時間の無駄だった…(っておい)

 でもデータを見るのは楽しい

 

 

ちょっと思ったこと

と、僕自身がスクリーニングによって無理矢理相関関係を導いてみたところで、かなり恣意的な相関の出し方ではある。GDP5000億以下は無視しよう!ってのはかなり強引。

(まあ言いたいのは僕はこうやって求めるよ!ってことじゃなくて、この記事は酷い!ってことだから…という言い訳)

 

というわけで僕が金メダルの獲得確率をデータから求めようと普通に考るとすると、、、の思考。

①競技人口が多いと獲得確率増える

・・・当然。強い選手が出てくる可能性が高まる。

GDPが高いと獲得確率増える

・・・GDPというよりもスポーツへの投資額。普通に考えたらGDPが高い=投資額も高い、だからGDPが高くてメダル数が少ないと、投資額がGDPに比べて低いと言えなくもない。

③人種の違いによって獲得確率変わる

・・・これは正直、どうしようもないと思う。

 

というわけで、「競技人口×GDP×多様性」、これで分析すると、なかなかおもしろそうなデータは得られそう。

ただ結局は「競技人口を増やせばメダルは増える」って結論になっちゃいそうな気もするけど…

 

あとさっき書いたように軍事費ってもしかしたら関係なくもないかも。軍事費は軍事的な緊張度みたいのが現れる部分だけど、つまり対他国の闘争心のインディケータになる的な感じ。同様の理由でロシアのメダル数が多いのはやっぱりソ連時代の栄光と米国への対抗心だと思うんだけど、どうなんだろう。

 

いつか時間あったらちょっとやってみようかな。時間ないけど。