離散分布
ベルヌーイ分布
コイントス。裏と表で(一般的には)出る確率が異なっていてもよい
x=1なら表、x=0なら裏,
マルチヌーイ分布 (カテゴリカル分布)
kx=0,1 でなく、x = 0,1,2...N-1 をとり得る
ベルヌーイ分布と同じような式で表せる
二項分布
ベルヌーイ分布の多試行版
※ cf. 多項分布
連続分布
ガウス分布
真の分布が分からなくてもサンプルが多ければ正規分布に近づくと言われている?
中心極限定理のことを言ってるのかな?
例えば 二項分布のnを大きくすると近づくらしい..
8 : 統計的推定とは
標本から、母集団の統計量を知ることを、統計的推定という
ここでいう母数 = 母集団の統計的パラメータ (母集団の要素数ではない)
点推定 - 平均値などを1つの値に推定する
区間推定 - 幅をもたせた推定
9
推定量 (estimator) : パラメータを推定するために利用する関数, 計算方法・計算式
推定関数ともいう
例: 導関数
推定値 (estimate) : 実際に試行を行った結果から計算した値
例: 導関数に値を入れて、実際に得られた特定の点における微分値
真の値 に対して を推定値/推定量として書くことがある
のようになにかの関数になっていれば推定量
点推定の例
10 : 平均の推定
標本平均 = 母集団から取り出した標本の平均値
の特徴
一致性: サンプル数が大きくなれば、母集団の値に近づく
注意: 一致性をもたない統計量もある
不偏性: サンプル数がいくらであっても、その期待値は、母集団の値と同様
数式で表すと
ここの期待値は、標本そのものを増やして、それらの平均とるイメージ
11 分散の推定
推定標本分散 =
一致性 有り
不変性 無し
母分散に対して小さくなると知られている
補正方法 倍にする = n で割るところを n-1 で割っている
定性的な説明 : 平均を決めた上で計算している = 標本の自由度が 1データ分減っている.
12 情報をどのように数量化するのか
箱の中の点の数が 1個増えたことに簡単に気づけるのは前者
箱の中の点が 11個のA, 12個のBを比べる
箱の中の点が 1個のC, 2個のDを比べる
元の量に対しての増減の違いが重要なのでは?
A, B の場合
C, D の場合
点10個のE, 20個のFを比べるケースは、 となるが、たしかに簡単.
個数は数えられなくても明らかに違うのが分かる
情報の変化量が比で表されるならば、情報量そのものを知るには積分(和文)すればよい → 対数関数
13 : 自己情報量
動画では、" は、x という事象に対する場合の数と捉えると、逆数は確率" というような説明がされていたが、この議論あまり直感的に感じられないなぁ。
前節の例では、"点の数"という整数値で議論されていたが、実際には微分値として扱っているので、"1個の差を見つたい" と言う例にこだわらず, 最初から 場合の数が n 個のときの情報量を で定義できるとして、その関数 の形を見つける問題を考えていた、と思った方がわかりやすい.
単位
対数の底が2のとき、単位はビット
対数の底がeのとき、単位はナット(nat)
情報理論という分野で情報量が定義された時の使われ方
0/1のスイッチを使って情報を表す場合の、スイッチの数を計算する (bit)
14 : シャノンエントロピー
自己情報量の期待値 :
積分で計算することももちろんあるが、ここでは和文で表記する
例: コイン投げ (表が出る確率 )
平均値が一番高いのは のとき
-> コイン投げたときに、表裏出る確率が等しいときが、一回投げたときに得られる情報量が大きい
確率 0 とか 1
投げる前からどちらが出るか分かっているのだから、結果を見て得られる情報量はゼロ
エントロピー自体を誤差関数のように使って、問題を解くことがある
分布の違いを表す量
ある事象が、分布 に従う想定を持っていたが、実際に観測されたデータが従う分布は という状況を想定する
より新しい情報である の分布を使って 期待値を計算する
15 : カルバック・ライブラー ダイバージェンス (KLダイバージェンス)
期待値の中身 は 分布 の情報量の差
"距離っぽい" 特性として ならばゼロとなるような量として定義
数学的な意味で距離の公理を満たすわけではないので注意が必要だが、カルバック・ライブラー情報量 とか、かるバック・ライブラー距離 という呼び方をされる
16 : 交差エントロピー
期待値の中身は、分布Qの自己情報量
KLダイバージェンスのような距離っぽさっは無いが、分布 の関係を表す項だけをシンプルに含む
の関係
しかし、交差エントロピーが使われるようになった経緯は、もともとはKLダーヴァージェンスとは関係ない
シャノンエントロピーのような情報の価値を計算したい
リアルな状況では、想定した分布 と観測から得られる分布 はことなる状況が多々ある
下記のような日程・内容で取り組んだ
線形代数は 2/10-15 の間に少しずつ消化。それからしばらく、勤め先の業務の忙しさにかまけて1ヶ月計画的に放置したが、その後 3/16-18, 22 に統計学の講義動画を試聴。内容に応じて 1.2-1.5倍速で再生しつつ、基本的には動画を止めずにメモを箇条書きレベルでまとめていった。合計 5h 程度。
3/28, 29に動画講義のまとめを行う。基本的には、動画視聴中の箇条書きメモを markdown として整形しつつ、読み返して講義の内容を思い出せないところがあれば、少し見返して補った。合計 2h 程度。
3/30。演習は 20分、ステージテストは 35分 なので 合計約 1h。スタートテストと同じく、Python のインタプリタを起動して検算できるようにしつつも、紙・鉛筆も用意して、適宜使いやすい方を使う。
以上、合計 8h で終了。
演習については、線形代数の四則演算をのぞけば、 用語の定義自体を問題文で説明した上でシンプルな問に答えさせる問題や、用語の定義自体の理解を問う問題が大半だった。実力試し・理解度確認のための演習というより、講義動画の理解を助けるものという印象。例えば、自己情報量やエントロピーの説明は、講義と若干違う説明の仕方がされており、個人的には演習の説明のほうがすっきり理解できる。講義動画見ながら該当箇所の演習をやればよかったな、と思う。(次からそうしよう)
元々の計画では、3月中にステージ2まで終わらせる予定だったので、計画を下記のように見直した。
~2021/2/15 : スタートテスト (2021/02/07完了)
~2021/3/30 : ステージ1 (2021/03/30完了)
~2021/4/18 : ステージ2
~2021/5/09 : ステージ3
~2021/6/06 : ステージ4
~2021/6/27 : 復習 -> 修了テスト
~2021/7/15 : Eもぎライト -> 今後の計画具体化
~2021/7/30 : シラバスの未習箇所の学習
~2021/8/26 : 全体の復習
2021/8/27,28: E資格 受験
ステージ2,3,4 のボリュームが読めないので、上記を少し前倒しですすめられるといいなとは思っている。
ラビットチャレンジの修了が後ろ倒しになったが、最近E資格を取得された方の話を聞く限り、修了後の勉強期間にそこまで長い時間を設けなくて良さそうな印象だったので問題ないと考える。