グループ化されたデータ

グループ化されたデータとは、変数の個々の観測値をグループに集約することで形成されるデータであり、これらのグループの頻度分布は、データの要約や分析に便利な手段となります。グループ化には主に2つの種類があります。1つは単次元変数のデータのビン化（個々の数値をビン内のカウントに置き換える）で、もう1つは多次元変数をいくつかの次元（特に独立変数）でグループ化し、グループ化されていない次元（特に従属変数）の分布を取得する方法です。

例

グループ化されたデータの考え方は、次の生のデータセットを検討することで説明できます。

表1:*生徒グループが簡単な数学の問題に答えるのにかかった時間（秒）*
20	25	24	33	13	26	8	19	31	11	16	21	17	11	34	14	15	21	18	17

上記のデータは、いくつかの方法でグループ化して頻度分布を構築できます。一つの方法は、間隔を基準とすることです。

上記のデータにおける最小値は8、最大値は34で、標本平均値は19.7秒です。8から34までの区間は、より小さなサブ区間（クラス区間と呼ばれる）に分割されます。各クラス区間について、その区間に含まれるデータ項目の数を数えます。この数は、そのクラス区間の頻度と呼ばれます。結果は、以下の頻度表として表されます。

表2:*生徒グループが簡単な数学の問題に答えるのにかかった時間（秒）の頻度分布*
所要時間（秒）	頻度
5 ≤ t < 10	1
10 ≤ t < 15	4
15 ≤ t < 20	6
20 ≤ t < 25	4
25 ≤ t < 30	2
30 ≤ t < 35	3

データをグループ化する別の方法は、数値間隔ではなく、質的な特性値を使用することです。例えば、上記の例で、生徒が3つのタイプに分類されるとします。1) 回答時間が5～14秒の場合は正常範囲外、2) 回答時間が15～24秒の場合は正常、3) 回答時間が25秒以上の場合は正常範囲外です。グループ化されたデータは次のようになります。

表3: *3種類の学生の頻度分布*
	頻度
正常以下	5
普通	10
正常範囲を超える	5

データのグループ化のもう一つの例として、一般的によく使われる数値の使用が挙げられます。これらの数値は、実際にはカテゴリーに割り当てる「名前」です。例えば、あるクラスの生徒の年齢分布を見てみましょう。生徒は10歳、11歳、12歳です。これらは10歳、11歳、12歳の年齢グループです。10歳グループの生徒は10歳0日から10歳364日までで、年齢を連続尺度で見ると平均年齢は10.5歳です。グループ化されたデータは次のようになります。

表4：*生徒の年齢分布*
年	頻度
10	10
11	20
12	10

グループ化されたデータの平均

データが抽出された母集団の平均の推定値は、グループ化されたデータから次のように計算できます。 ${\bar {x}}$

{\bar {x}}={\frac {\sum {f\,x}}{\sum {f}}}.

この式では、xはクラス間隔の中点、fはクラス頻度を表します。この式の結果は、グループ化されていないデータの標本平均とは異なることに注意してください。上記の例におけるグループ化されたデータの平均は、次のように計算できます。

授業間隔	周波数（f）	中点（x）	FX
5以上、10未満	1	7.5	7.5
10 ≤ t < 15	4	12.5	50
15 ≤ t < 20	6	17.5	105
20 ≤ t < 25	4	22.5	90
25 ≤ t < 30	2	27.5	55
30 ≤ t < 35	3	32.5	97.5
合計	20		405

したがって、グループ化されたデータの平均は

{\bar {x}}={\frac {\sum {f\,x}}{\sum {f}}}={\frac {405}{20}}=20.25

上記の例 4 のグループ化されたデータの平均は、次のように計算できます。

年齢層	周波数（f）	中点（x）	FX
10	10	10.5	105
11	20	11.5	230
12	10	12.5	125
合計	40		460

したがって、グループ化されたデータの平均は

{\bar {x}}={\frac {\sum {f\,x}}{\sum {f}}}={\frac {460}{40}}=11.5

参照

参考文献

ニューボルド, P.; カールソン, W.; ソーン, B. (2009). 『ビジネスと経済のための統計学（第7版）』ピアソン・エデュケーション. ISBN 978-0-13-507248-6。