統計検定3級の勉強していますが、様々な公式が出てきます。
そんなに難しい公式はないのですが、覚えることがそこそこ多く油断はできないですね。
そこで統計検定3級で出てきた数学の公式についてまとめてみましたので紹介します。
今回はデータ分析で出てくる公式です。全て知っている人は3級は問題なく合格できると思います。
はじめに
一般財団法人 統計質保証推進協会によって開催されている検定です。
その名の通り、統計学に関する知識や活用力を評価する検定試験です。
統計学を学びたい人にはお勧めの資格となっております。
試験の概要につきましては、以下の記事を参照ください。
統計検定3級の試験範囲について
統計検定3級の試験範囲は以下のとおりです。
- データの種類(量的変数、質的変数、名義尺度、順序尺度、間隔尺度、比例尺度)
- 標本調査と実験(母集団と標本、実験の基本的な考え方、国勢調査)
- 統計グラフとデータの集計(1変数データ、2変数データ)
- 時系列データ(時系列グラフ、指数(指標)、移動平均)
- データの散らばりの指標(四分位数、四分位範囲、分散、標準偏差、変動係数)
- データの散らばりのグラフ表現(箱ひげ図、はずれ値)
- 相関と回帰(散布図、擬相関、相関係数、相関と因果、回帰直線)
- 確率(独立な試行、条件付き確率)
- 確率分布(確率変数の平均・分散、二項分布、正規分布、二項分布の正規近似)
- 統計的な推測(母平均・母比率の標本分布、区間推定、仮説検定)
平均、中央値といった基本的なことから始まり、標準偏差、分散、そして確率など様々な内容が含まれています。
統計学を理解するうえで、基本となる内容が徹底的に網羅されているといった印象です。
データの分析で出てくる主な数式はこちら!
平均値
変数xが、x1, x2, x3…xn とN個の値を取っていくとき、平均は次の式で定義されます。
$$平均 = \frac{1}{N}\sum_{i = 1}^{n} x_i$$
総和記号のΣについては、割愛させていただきます。
標準偏差・分散
データの散らばり具合を考えるために、各測定値から平均を引いた偏差を考えます。
変数をxと表すとき、i番目の測定値xiの偏差は次の式で定義されます。
$$偏差 = 測定値 – 平均値 = x_i – \overline{x} (\overline{x} : 平均)$$
なお、各々の偏差の合計は0になります。
そこで、データ全体の散らばり具合を考える場合は、偏差そのものではなく、偏差の絶対値の平均値(平均偏差)である
$$平均偏差 = \frac{1}{N}\sum_{i = 1}^{n} | x_i – \overline{x} |$$
または、偏差を平方した値の平均値である分散が利用されます。
$$分散 = \frac{1}{N}\sum_{i = 1}^{n} ( x_i – \overline{x} )^{2}$$
分散の単位は測定値の平方で平均値とは単位が異なるため解釈が難しいです。
そこで、分散の正の平方根を取ってその値を標準偏差と呼びます。
記号では、分散をs^2、標準偏差をsと表します。
変動係数
2つの集団の分布のちらばりを比較する場合、平均値が大きく異なると判断が難しくなります。
また、測定単位の異なる変数については、平均や標準偏差を比較することに意味はありません。
この場合、データに標準化または基準化を施し、統一した基準で比較することがあります。
変数の標準化は各測定値xi、 i = 1,2,3…nに対して、次のように標準化ziを求めることです。
$$z_i = \frac{測定値 – 平均値}{標準偏差} = \frac{x_i – \overline{x}}{s} $$
この処理によって標準化された値は平均値0、標準偏差1の無名数となります。
標準化の変形としては、成績の偏差値があります。
相関係数
2つの変数の相関を数値として見るための指標に用いられます。
たとえば、2変数の関係の強さを測る指標として共分散があります。
xとyの測定値からなるデータを
$$(x_1, y_1), (x_2, y_2), … , (x_n, y_n)$$
と表すと、2変数の共分散は以下の式で定義されます。
$$共分散 = \frac{1}{n}\sum_{i = 1}^{n} ( x_i – \overline{x} )( y_i – \overline{y} )$$
共分散が正の相関のときは正の値、負の相関の場合は負の値をとります。
共分散により、2つの変数の関係の強さを求めることができますが、この場合では変数の単位に依存して変化してしまいます。
この点を修正した相関関係を図る尺度として相関係数があります。
相関係数rは以下の式で定義されます。
$$r = \frac{s_xy}{s_x s_y} (s_x: xの標準偏差、s_y: yの標準偏差)$$
相関係数は標準化された値同士の共分散とも考えられます。
おわりに
今回は統計検定3級に出てくる数学の公式についてまとめました。
平均、標準偏差、分散あたりはまだ知っていましたが、2つ以上の変数が出てくると少しややこしくなってきたので覚えるのに苦労しております。
問題集など活用しながら確実に理解を深めてまいります。
次回は確率や区間推定あたりをまとめていく予定です。