音ゲー、fps、DTM、プログラミング雑記置き場

ブログタイトル通りに雑記を垂れ流す。

【数学】Fwd:ほぼゼロから学び直す高校数学 #1>分散、標準偏差

  • 次回:#2 確率分布(確率関数)

【数学】Fwd:ほぼゼロから学び直す高校数学 #2>確率分布(確率関数) - 音ゲー、fps、DTM、プログラミング雑記置き場

本記事の注意点

  • 筆者は統計学も大学の応用数学もまじめに専攻してません!
    • 自分が理解するためにかみ砕いた記事の為語弊もあります。
  • 各単語や公式の成り立ちや背景にフォーカスをあてて書いているので、
    この記事を読んで○○が解けるとかはないです。
    • 参考書というよりはエッセー感覚で読んでいただけると幸いです。

単語のおさらい

  • 分散
    • 母集団でデータが平均からどれくらい外れているかを示す値
    • 標準偏差のべき乗
  • 偏差
    • 母集団に対し、「特定の」データがどれくらい外れているかを示す値
  • 標準偏差

分散と標準偏差の関係

  • 分散がある母集団のデータのばらつきを示すなら、標準偏差なんて指標いらないのでは?

    • 分散を算出する際の兼ね合いで標準偏差を使用せざるを得なくなる
  • 分散も平均と同じように各データの偏差をデータ数で割ればデータ全体の 指標(=分散)が求められそう

  • ただ偏差は平均に対してのプラスマイナスの値なのですべて足し合わせると0に収束してしまう
    • そうなると計算式(2)の分子が0となり、結果分散も0なり指標として使用できない
    • 偏差がすべてマイナス、プラスというケースはありえず、もしそうなるなら
      平均自体が下がるか上がるはず。
    • 平均に対しプラスorマイナスが混在することで初めて
      データのばらつき(分散)という概念が生まれる
  • そのため、分散をべき乗ベースで考えれば正負がなくなるので有用な値が取得できる

  • 以下、分散(標準偏差)を求める式

    • (2)で分かるように分散も平均と同じように各データの偏差 x _ {1}-\overline{x} _ {1}
      求めて、その和をデータ数nで割っている
  • (1),(2)が分散 \sigma^{2}、(3)が標準偏差 \sigmaの算出式

 \sigma ^{2}=\dfrac{1}{n}\sum ^{n}_{i-1}\left( x_{i}-\overline{x}\right) ^{2} \tag{1}
 \sigma ^{2}= \dfrac{\left( x_{1}-\overline{x}_{1}\right) ^{2}}{n}+\dfrac{\left( x_{2}-\overline{x}_{2}\right) ^{2}}{n}+\ldots +\dfrac{\left( x_{n}-\overline{x}_{n}\right) ^{2}}{n} \tag{2}


 \sigma =\sqrt{\sigma ^{2}} \tag{3}

よくきく偏差値の式を考えてみる

  • 下記が偏差値の導出式
    • 偏差値は標準偏差を10固定にし、値の平均値を50になるように調整している
    • N:データの大きさ、 x _ {i} :データの各値、 \mu _ {x} :平均値、 \sigma _ {x} :標準偏差
 \begin{aligned}\\ T_{i}=\dfrac{10\left( x_{i}-\mu _ {x}\right) }{i\sigma _{x}}+50\end{aligned} \tag{4}
  • 上記の式がイメージしづらいから百分率の計算と照らし合わせる
    • MAX=500、MIN=0の250というデータを%表現する際を考える
    • 下記式だと250:実値、500:全量、100:百分率に落とし込む重みづけの定数

 \dfrac{250}{500}\times 100=50\left( \% \right) \tag{5}

  • 偏差値の式(4)に当てはまると、

    •  x_{i}-\mu  _ {x}:特定データの偏差(実値)
    •  \sigma _{x}:全データを加味した偏差(全量)
    •  10:標準偏差10に固定するための重みづけの定数
  • 式(4)の最後の+50は何してるの?

    • 偏差値 T_{i}の対象のある母集団の平均点が50になる場合を考える
    • 当然、すべて同じ値なら各データの偏差も0になる
      •  x_{i}-\mu  _ {x} = 0となり (6)より+50が必要なのがイメージしやすい
 T_{i}=\dfrac{10\times 0}{\sigma _{x}}+50=50 \tag{6}

あとがき

  • 分散の2乗の値でも有効に使用できるケースがあるらしい(確率関数絡み)
    • だから、本文にかいてある分散の値は有用でないみたいな書き方してるのでだいぶ語弊あり
  • 高校時代は数学の定義は暗記でゴリ押しして、大学数学で無事撃沈した
    • 数学の数式は定義以外は証明(導出)できるので、
      結果でなくプロセスに焦点をあてて学習すべきと今更反省
  • というか高校で分散とか確率分布とかやった記憶がない

6/20 追記(有識者の知人のフィードバック反映)

  • 連続した値など一意に値を出せない>身長:170.3333みたいになる
    • 実験等では平均±標準偏差で使用するデータで扱う
      (1回だけの試行データを結果として扱うべきでない)
  • 偏差をすべて足したら0になる問題、絶対値でもいけるけどべき乗のが計算の都合がいいからってだけらしい

参考サイト