スポンサーサイト -- このエントリーを含むはてなブックマーク

上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。


AKB48総選挙の結果を統計学で予測してみる -- このエントリーを含むはてなブックマーク

統計学+εといいつつ、統計ネタを全然書いていないので
このへんで少し統計解析に触れてみよう。

海外から見ている日本の様子は、
1に原発、2に原発、3、4がなくて、5にAKB48総選挙
という感じなのでこの総選挙の結果を予測してみる。

アイドルの人気は刻一刻と変化する時間の関数だ。
これはCDの売り上げや握手に並んだ人数といったもので測ることもできるが
インターネットのトラフィック・データを用いると簡単に時系列にすることができる。
Google はこうしたデータを「Google トレンド」としてデータ化している。
例えば、今回の選挙の速報で上位5人に入ったアイドル達の
検索件数は以下のグラフのようになっている。

GoogleTrend画像

なお縦軸は、インターネットでの総検索件数に対する
該当キーワードの比率を数値化している。
グラフは前田敦子の平均が1となるように標準化されているが
標準化前のデータもダウンロードすることができる(ただし単位は不明)。

今回の総選挙を予測するために、
まずは昨年(2010年)の選挙結果(上位13人)とインターネットでの検索件数
を見てみよう(下図)。


2010年結果


速報での得票数と速報後の得票数の相関係数(*1)は
0.923 と非常に高くなっているが、
投票締め切り直前の一週間(*2)の検索件数と合計得票数の相関係数も
0.919 と非常に高くなっている(*3)。
そこで、「速報での得票数」と「直前の検索件数」を
二つのデータから、重回帰分析を用いて
合計得票を説明する式を作る。
得られた式は、以下の通りだ。

合計得票数 = 2.919×「速報での得票数」 + 601.4×「直前の検索件数」

「直前の検索件数」は有意な変数とならなかったものの、
予測力に関してはこのファクターを考慮した方がやや高い
との結果が得られた。

この式の右辺を今年のデータに当てはめて合計得票数を予測してみると、
結果は以下のようになる。


2011年予測

なお、直近のデータとしては
5/27-6/2の一週間のデータを用いている。

昨年の関係式が今年の結果にどの程度当てはまるかは分からないが、
試しに検索件数一単位あたりの速報時点での得票数(1-13位までの合計)を計算してみると、
2010年の912票に対して2011年は921票
と比較的安定していることが分かった。
また「人気の割に毎回得票が伸びないメンバーがいる」と言われているが
検索件数と得票数の関係においてはそうした傾向は見当たらなかった。

予測結果を見ると、1位の大島優子と2位の前田敦子の順位は変わらないが
比率で見ると差が縮まっており予断を許さない。
3位の柏木由紀は更に票を伸ばすものの上位2人には遠く及ばない。
4位以下はかなりの混戦だが、篠田麻里子と板野友美が追い上げて
順位をやや上げるという結果に。松井玲奈も順位は変わらないものの
かなりの追い込みを見せている。
高橋みなみ、渡辺麻友、指原莉乃はやや順位を落とす予想となった。
なお、ここでは速報での上位13人を対象に予測を行ったため、
速報段階で14位以下のメンバーが13位以内に浮上する点は
考慮していない。

と、一応時事ネタに乗っかって予測してみたものの、
私自身、あまりこの予測に信憑性があるとは思っていない。
統計解析とは個別の標本の特性が未知の場合に優位性がある分析方法だ。
13匹のマウスを使った動物実験の分析には持ってこいだが、
個人情報が豊富に存在する13人のアイドルの得票結果を
予測するにはもっと多くの情報を考慮する必要があるだろう。



↓今ならまだ投票に間に合います!(投票は6月8日15時まで)

 


予想1位:大島優子
 


予想2位:前田敦子
 


予想3位:柏木由紀
 


予想4位:篠田麻里子



予想5位:高橋みなみ



(*1)
相関係数は、-1と1の間の値をとる。
正の値であれば正の相関があることを示し、
この値が1に近いほど強い正の相関があることを示す。

(*2)
Google.com (米国ページ)で
2010/5/30-2010/6/5 までの一週間のデータを用いた。
なお、地域は「日本」を指定した。

(*3)
「直前の一週間の検索件数」と「速報後の得票数」で見ても相関係数はほぼ変わらない。
また速報前の検索件数は、速報前後のいずれの得票数とも相関は高くなかった。

スポンサーサイト


テーマ : AKB48(秋葉原48)
ジャンル : アイドル・芸能

コメントの投稿

非公開コメント

No title

最高に面白い!こういう先生に統計学を教わりたいですねv-87

No title

Ryoさん:

あー、ありがとうございます。ポストを用意して下されば行きましょうw

私は前田敦子です

Willy さん
私は前田敦子です。(といっても、投票もしないし、何だか事情も飲み込めておりません)唯一、彼女だけ識別出来ます。

柏木由紀って、坂本九とは無関係ですよね。(おやじすぎる)

No title

ysJournalさん:

前田敦子っていうのは、内容いまいちなのに選挙にだけ強いオバマみたいなキャラですよ?

No title

はてブで、予想が当たれば「才能の無駄使い」、はずれれば「あたまがわるい」といったタグがつけられる、書き手にとって微妙に残念な記事になる予感がしますがいかがでしょう。ブクマ1000ぐらい目指すならGoogle Imageをつかって肌の露出度(画像の色情報のヒストグラムから推定)の総計と得票の相関などまで計算すればよかったかもしれません。

それはそうと僕は柏木由紀さんの谷間に期待したいです。

No title

>はてブで、予想が当たれば「才能の無駄使い」、
>はずれれば「あたまがわるい」といったタグがつけられる

あながち間違っているとも言えません。

「Everyday、カチューシャ」の柏木由紀が右端に写ってる写真は
どこで彼女を切るかを相当議論したのではないか、
などと言い始めると3次元の美女からキモいと言われるので気をつけましょう。

No title

多重共線性では?

No title

>多重共線性では?

それもあります。

No title

>「Everyday、カチューシャ」の柏木由紀が右端に写ってる写真は
>どこで彼女を切るかを相当議論したのではないか、

上は含めても下の方は微妙なところでカットするところが日本人らしく奥ゆかしいということですね。

No title

>日本人らしく奥ゆかしい

というより全身入れると他のメンバーが文句を言いそうです。
順位と露出の関係というやつでしょう。

管理人のみ閲覧できます

このコメントは管理人のみ閲覧できます

No title

akb48の第三回総選挙の予想順位のやつで、高橋 みなみの速報の得票が、8633票だったのですが、
ほんとの得票は、8833票なんです。(うちまちがいってことです)
なので高橋 みなみの速報の得票が、8833票だとしても順位が変わらないかおしえてほしいのです。

No title

ほうめいさん:

あれ?すみません。きちんとしたソースを用いるべきでした。
確かに、8833票ならば、29300票程度で4位になりますね。

No title

AKBは本当に人気だよね。。
売り上げは買い占めてる奴がいるからどうかとは思うけど、アイドルとしては絶好調だ

No title

いつも楽しく拝見させて頂いております。
個人ブログは結局言いたいことが曖昧で読むに耐えませんが、ロスジェネやリフォームの見積りの回など、先生のブログはいつも過程が詳しく、また結果がはっきりと出るのでスッキリと読めます。
RSSからiPhoneで読んでいますが、通勤や休憩時の貴重な時間となっています。

No title

TKさん:

ご愛読ありがとうございます。今後もよろしくお願い致します。

No title

完璧は当然無理としてかなりいい線いったのではないでしょうか、この予想。

No title

毒之助さん:

そうですかね?1位を当てられなかったのか悔しい。実は、前田敦子の検索件数は使用したデータの最後2~3日でかなり上がっていたんです。まだ、修行が足りません。

実はAKBの歌って2~3回しか聞いたことない…。iTunesあたりで買ってみるか…。

No title

>実は、前田敦子の検索件数は使用したデータの最後2~3日でかなり上がっていた

自分の金ぶち込んでるギャンブルだったらそらもう悔しいでしょうが、AKB48総選挙の予想外しても世界経済危機になるわけでもないですしね(笑)。秋元康+電通が裏で情報操作してるかもしれないし(笑)。

まあ傾向分かっていたのならもう少し解析頑張ればブクマ30ぐらいまではいったのかもしれません。

No title

>毒之助さん:

時々、こういう色モノでどのくらいアクセスが取れるか見ているといったところです。
リンクからAKBのCDを買って頂いた方もいらっしゃいます。
とりあえず、この企画はまずまず成功という感じでした。
プロフィール

Willy

Author:Willy
日本の某大数学科で修士課程修了。
金融機関勤務を経て、米国の統計学科博士課程に留学。
2009年、某州立大数学科専任講師。2010年、助教。2016年、准教授。

検索フォーム
Twitter

Twitter < > Reload

お勧めの本
1.ルベーグ積分30講
―― 統計学を学ぶために。
   小説のように読める本。
   学部向け。


2.Matematical Statistics and Data Analysis
―― WS大指定教科書。
   応用も充実。学部上級。

全記事表示

全ての記事を表示する

最近のコメント
訪問者数 (UA)
アクセスランキング
[ジャンルランキング]
海外情報
35位
アクセスランキングを見る>>

[サブジャンルランキング]
北アメリカ
6位
アクセスランキングを見る>>
人気記事Top10


(はてなブックマークより)

カテゴリー
最近のトラックバック
お勧めブログ
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。