統計学とは意味を考えずにデータを処理する方法 -- このエントリーを含むはてなブックマーク

Apeescape さんにリンクを紹介して頂いた xkcd の
「学問分野を純度の順に並べてみた」の一コマを見て
統計屋の観点から一つコメントしておきたくなった。

XKCD-purity.png

このマンガにおける
「社会学 < 心理学 < 生物学 < 化学 < 物理 < 数学」
という順番は、左側が右側の分野の応用になっているという関係になっている。
ここで注目すべき点は、左側は右側から演繹的に導けると仮定している点にある。
しかし、実際にはノイズの問題や、計算量の問題、実証の規模の問題があり、
社会学をこの経路をたどって数学を使って演繹的に導くことは事実上不可能だろう。

ここで、統計屋が取るのが以下の方法だ。
「社会学 <- 統計学 < 数学」
ここで、"<-"は演繹的ではなく帰納的な方法によっている。
簡単に言えば、観察された事象の意味は考えずに分析するということだ。
こうした方法によって、統計学は途中のステップを飛ばすことができる。

途中のステップを飛ばしている以上、
「データの意味を考えずに分析する」という事は、
統計学では特に重要なことである。

例えば、得られた1万件のデータのうち、異常値が5件あったとしよう。
個別にこの5件を調べれば、なんらかの理由が見つかるかも知れないが、
各々理由をつけてこの5個を除くのはいかにもad hoc だ。
5件だけを個別にいわば「演繹的に」処理し、
残りの9995件を「帰納的に」処理しているのが理由である。

9995件を帰納的に処理するのなら、
5件についても何らかの純粋に客観的な手続きに従って
除くべきだろう。

統計学では、データの意味を考えてはいけないのだ。


ブログ内の関連記事:
統計モデルは正しいか?
統計学=数学的基礎+モデリング
統計学に必要なもの
数学とは何か?

スポンサーサイト


テーマ : 自然科学
ジャンル : 学問・文化・芸術

コメントの投稿

非公開コメント

bad data

同じ統計学関連でも、話題によって食いつき度が段違いですね。

初歩の統計学しか習ってないのですが,データをみたら先ずbad dataを排除する事が一番最初にやる事と教わりました。(教わったと思います!?)これは既にデータのレンジ等を先に決めているという事ですよね。

経済データだと、例えば国家予算を超える金額だとか、100年返済のモーゲージだとか、常識(?)の範囲で処理出来そうですが、自然科学でも同じような感覚で分かっている人は仕分け出来るのでしょうか?

書いてある事は、理解出来るような気がするし、結論の「データの意味を考えてはいけない」は分かるのですが、bad dataの説明の所で、話が切れるような感じがします。

数学弱いので、ついて行けないだけの事かもしれません。だらだらとすみません。

No title

>データをみたら先ずbad dataを排除する事が一番最初にやる事と教わりました。

その通りです。私はそれに何百時間もかけてきました。もっとかも知れません。
実際にはそれをやらないと中々意味のある解析はできないです。
大きいデータであればあるほどそうであることが多いです。

しかし、私が自分なりに出した今のところベストな答えが
「統計学では、データの意味を考えてはいけないのだ。」
です。この理想がなければデータを分析する技術も上がらないし
統計学も進歩しないと思います。

---
以下余談です。
前から思っていたのですが、YSJournal さんと私って文章に対する考え方がかなり違いますよね。
一言で言うと、私の考え方がちょっとおかしいと思うのですが。
例えば、今回の記事を読んだ方が
「統計って異常値除かないとなかなかうまくいかないよね」
と思うだろうということは、私の方としても想定済みなんです。
だから、きちんと全ての方に分かって頂くためには、
「現実としては異常値除かないとうまくいかないんだけど、
理想としては自動的に処理できたらいいですねー。」
と書けばいいんだと思うんですが
私はそういう文章があまり好きではないのです。
なので結論、比喩、極論、皮肉などの形で書きたいことだけ書いて、
後は各々解釈して下さい、という文章にしてしまうことがままあります。
このあたりの記事もご参考になさって下さい:
http://wofwof.blog60.fc2.com/blog-entry-150.html

私のような文の書き方がコミュニケーションの観点から
あんまり褒められたものではないということは自分でも分かっているのですが
読者の方々にはそういったわがままに付き合って頂いていると思っています(感謝!)。

YSJournalさんには、そんな独りよがりの記事にいつも丁寧なお返事を
頂いてしまって、少し恐縮しておりますので少し説明させて頂きました。
というわけで今後も「しょーもない書き方だなw」と少し突きはなしつつ、
引き続きご愛読いただければ幸いです。

ご丁寧な返事に感謝

Willyさん
丁寧な解説ありがとうございました。文章以前に頭の構造も違いそうで、私の頭はいつもストール気味ですが、今後とも楽しまさせていただきます。数学や統計学に興味あるのですが、いつも片思いです。今後とも幅広くお願いします。超ド素人級の質問、コメントで混ぜっ返す事をお約束致します。

単純な間違いではない、bad dataの解析、つまり定性的な分析も面白そうですね。Outliners というベストセラーは、そういう事を書いてあるのだったと思います。

bad dataを排除した帰納的な分析結果は、数学的に美しいものになるのでしょうか?

余り意味の無い独り言なので、気にしないで下さい。今後とも愛読します。

文章の考え方

ブログ記事ではなく、コメントへのコメントなんですけれど、同じくブログを書いてる者として思うところがあったので。

>なので結論、比喩、極論、皮肉などの形で書きたいことだけ書いて、
後は各々解釈して下さい、という文章にしてしまうことがままあります。

私は皮肉こそ余り書かないですが、ポジションを取るという意味では同じように考えるところがあります。
ブログというのは難しいメディアで、雑誌などと違い読者層が多様で、共有する前提を想定しづらい。
また、ブックマークメディアやTwitterなどの普及のおかげで、それまでの文脈を知らずにその記事だけ読む「一見さん」もたくさんいますしね。

最近はある程度想定される反論も踏まえて全体感を持って書かないと、反論がたくさん来たり、それが元で荒れたり、ということもあるので、書くように心がけてはいます。
でもそうすると、好きなこと、思ったことが書けなくなってしまうんですよね。
やたら説明ばかりで長くなり、論旨がぼやけてしまうし。

養老たけしさんが以前、「Web上のメディアは自然と反論を想定して書いてしまうため、主張が弱くなりがちである」と言ってましたが、全くその通りだと思いました。
あれだけの読者が読んでるのに、極論で詳細かかずにポジション取りまくる池田信夫さんとか、正直すごいと思いますよ・・。

以上、人のブログのコメント欄を勝手に使ってぼやいてしまいました。
Willyさんには是非このままの文体で続けて欲しいです。

統計学

YSJournalさん:
>bad dataを排除した帰納的な分析結果は、数学的に美しいものになるのでしょうか?

統計の実証分析って、数学の人からみるとかなり汚い(=場当たり的だ)と思うんですよ。
本来は、データを所与とすれば、外れ値の処理、モデル選択から結論まで、客観的な
手続きに従って進むべきだと思います。

それが数学的に美しいものになるとベストなのですが、もしかすると、というか恐らく
いろんな力技でつなぎ合わせた工学的な手法になるのかも知れないですね。そういう
世界になってくると、統計も個人プレーで進めるのが難しくなるかも知れません。

No title

Lilacさん:

>極論で詳細かかずにポジション取りまくる池田信夫さんとか、正直すごいと思いますよ・・。

あのブログは無茶苦茶言ってることも結構多いと思うんですが、
それでも読む気にさせてしまうところが凄いです。
激しい反対意見なんかは削除しているんだと思いますが、
それでも大丈夫なのはそれだけアテンションが集まってるっていうことですよね。

>Willyさんには是非このままの文体で続けて欲しいです。

はい。基本的にそういう文しか書けないので大丈夫です(笑)。
こんな書き方でも案外炎上ってしないものなんだなー、と思ったりしています。
仮に、Willy死*ね、とか書かれても私は消さないつもりですが。

炎上

Willyさん

話がずれすぎたので流石にこれで終わりにしますが・・・

>こんな書き方でも案外炎上ってしないものなんだなー、と思ったりしています。

多くの場合「炎上」にせよ、悪質なコメントは同じIPアドレスの人が違う名前をかたって書き込んでます。
悪質な人はProxyなどでIPを変えて書き込んだりしますが、文脈や書き込むタイミングで同一人物だと分かったりします。
まあ、何かがきっかけで傷ついたりした人なんでしょうね。
結局、政治的な話題でも無い限り、一般人の書いているブログにそこまでやる人は、いくら匿名だって世の中にそんなにはいないってことなんですよ。

>仮に、Willy死*ね、とか書かれても私は消さないつもりですが。

私も「それは書いた側の倫理観の問題だから」と最近まで消さない方針でやっていたんですが、
ブログ界の大先輩でもある某女史二人に「ネガコメは放置しておくと来た人が嫌な思いをするのでやめたほうがいい」と言われ、なるほどと思い、消すことにしました。
池田信夫さんとこは承認制ですから、単なるネガコメは載せてないのだと思いますよ。

ただ、色んな考え方がありますよね。

ブログ

>私も「それは書いた側の倫理観の問題だから」と最近まで消さない方針で
>やっていたんですが、ブログ界の大先輩でもある某女史二人に
>「ネガコメは放置しておくと来た人が嫌な思いをするのでやめたほうがいい」
>と言われ、なるほどと思い、消すことにしました。

ブログの内容や読者層との兼ね合いもありますが、
やはりどれくらい読まれているブログか、ということにもよると思います。
Lilac さんのブログは最近かなりアクセスが多そうですから、
ネガコメ全て放置は適切でないと私も思います。
コメント欄が割と面白いのは金融日記ですね。
かなり読まれてるけど、コメントはほぼ全て承認してそうです。

あと、私もアダルト系とかはさすがに消してます(笑)。

No title

一万件もデータにあったら、9995件が示す分布から5件が標準偏差の何倍であるからして異常である、という判断は十分に客観的なのではないですか?

異常値の除去

毒の助さん:

大事なのはどういった基準で異常値を除去するかということですね。
除去するのはいいとしても、気を付けないと、
分散を過小推定してしまう様なリスクが高くなります。
そういうところをシステマティックにやる必要が有ります。
プロフィール

Willy

Author:Willy
日本の某大数学科で修士課程修了。
金融機関勤務を経て、米国の統計学科博士課程に留学。
2009年、某州立大数学科専任講師。2010年、助教。2016年、准教授。

検索フォーム
Twitter

Twitter < > Reload

お勧めの本
1.ルベーグ積分30講
―― 統計学を学ぶために。
   小説のように読める本。
   学部向け。


2.Matematical Statistics and Data Analysis
―― WS大指定教科書。
   応用も充実。学部上級。

全記事表示

全ての記事を表示する

最近のコメント
訪問者数 (UA)
アクセスランキング
[ジャンルランキング]
海外情報
13位
アクセスランキングを見る>>

[サブジャンルランキング]
北アメリカ
3位
アクセスランキングを見る>>
人気記事Top10


(はてなブックマークより)

カテゴリー
最近のトラックバック
お勧めブログ