mathematics

統計の初歩:データに語らせる統計解析のはなし

2016年6月5日 日曜日

昨日、土曜日は雨だったので読書を中心に一日を過ごした。

居間では灯油のストーブで暖房し、寝室ではデロンギのオイルヒーターで暖房、6月というのに寒いことである。農家の話では、この寒さのためにアスパラが芽を出さず困っているとのこと。

*****

大村平 改訂版 統計のはなし 基礎・応用・娯楽 日科技連 2002年(初版は1969年)

大村平 改訂版 統計解析のはなし データに語らせるテクニック 日科技連 2006年(初版は1980年)

大村平 改訂版 QC数学のはなし 品質管理を支える統計の初歩 日科技連 2014年(初版は2003年)

*****

この節では、むずかしい数学は全くつかっていません。それにもかかわらず、もっともらしい推理が書かれているではありませんか。元来、統計の大部分は、むずかしい数学を必要としないものです。データをいろいろな方向から公平に見ること、そして、たくさんのデータから得た結論には重きをおき、少しのデータから帰納した結論は、偶然の結果ではなかったかと疑ってみる、そういう考えかたさえ見失わなければ、統計の本質は十分に身につけているということができるのです。(大村、統計のはなし、p279)

*****

自由度には、まいど泣かされてしまい、ゆううつです。で、こういうとき
 自由度=(行の数−1)(列の数−1)
と覚えておいていただきましょうか。(大村、統計解析のはなし、p183)

一般に、レベルの数をrとすると、データの数はrの二乗、使った平均値は3r+1、そのうち独立出ないのが3つありますから
 rの二乗-(3r+1-3)=(r-1)(r-2)
が自由度となります。(大村、統計解析のはなし、p196脚注より)
(補注:rの二乗をうまくパソコン/ワードプレスでタイプできないのです。申し訳ありません。)

*****

そこで、思い切って発想を転換します。σの代わりにsを使っても誤差が出ないように、分布の数表のほうを作り直してしまいましょう。既成の数表のままで問題が解決しなければ、新しい数表を作ってでも問題を解決してしまおうというたくましい開拓者魂がここに見られます。  こういうわけで、sの値を使ってμを区間推定しても誤差を伴わない数表を作ろうと思うのですが、どうせ新しい数表を作るのなら、なるべく正規分布の数表と考え方を合わせましょう。(大村、t分布の導入の記載より引用、「QC数学のはなし」、p90)

*****

「大村平 改訂版 統計のはなし 基礎・応用・娯楽 日科技連 2002年(初版は1969年)」の読書ノート、昨年の2月に書いたもの、以下、再録します:

2015年2月22日 日曜日 曇り

大村平 統計のはなし、土曜日から始めて、本日で読了。確率本と同じく、すでにある程度の素養のある人であれば閾は低くあっという間に読めてしまうはずである。が、今回私はじっくりしっかり読んでいく必要があった。

これはりっぱな統計入門書だ。たとえば、4章の「ばらつきの法則:正規分布のはなし」では、正規分布の加法性に関して、具体的な事例を挙げながらゆっくり説明されていて、これならだれでも「わかった!」と確信しながら初歩の基盤を築いてゆける。

 5章も丁寧な一章だ。「見本で全体を推計する その1.標準偏差がわかっているとき」として、母集団の標準偏差がすでにわかっている場合(実際にはこういう場合はほとんどないのだが)、
 
 一つの見本で何がわかるか という節を設けて、
  不偏推定値、区間推定、信頼区間、信頼水準などの言葉の意味が説明される。
 
ついで、次の節が、二つの見本で何がわかるか。
  前の章で詳しく理解した正規分布の加法性がここで生きてくる。

 ついで、次の節が、n個の見本で何がわかるか。
  ここまで丁寧に説明してあれば、
「n個の標本の平均値」の平均値は μ
「n個の標本の平均値」の標準偏差は σ/√n 
  であることがスムーズに理解される。

ここまで丁寧な統計入門書は、本書に出会うまで見たことがなかった。

そしていよいよ6章、その2.標準偏差がわかていないとき 見本で全体を推定する へと進む。

標本標準偏差 s のほうが 母標準偏差 σ より小さくなる傾向があり、その傾向はデータの数が少ないほど著しいことが丁寧に説明される。「なにしろ、s を計算していく過程を見ると、s がもっとも小さくなるように標本が勝手に自分達だけで平均値を決めてやっているのですから・・・」(本書、p110)

ついで、標準偏差を推定する 節で、水増し係数表を用いて行う母標準偏差の不偏推定。

次の節で、標本の中の最大の値と最小の値の差、つまりレンジ(range)と割引き係数表を用いて、簡単に不偏推定値を求める方法。

当然の疑問として・・・
水増し係数で修正した値と、割引き係数で補正した値とが、互いに推理の仕方が異なっているために結論が同じにはならないことを説明。「推理の方法が異なると差ができるのは推理に誤差があるから」を示すイラスト付き。(本書、p115)

 n が増えても推定の精度がほとんど良くならないので、n を増やすのは有利ではありません。(本書、p115)確かに割引き係数表をみればその辺の事情が良く理解できる。この本は実に親切だ。

t分布、そしてついにt分布表を用いて標本平均と標本標準偏差の値から母集団の母平均 μ を 〜% の確率で ##〜&& の間にあると推定できるところまで到達する。(同書、p120-4)説明の道のりは長いけれども、丁寧だから道に迷うことがない。

7章は検定のはなし。両側検定、片側検定。t分布を利用したt検定。

*****

**********