グループ化されたデータ

グループ化されたデータとは、変数の個々の観測値をグループに集約することで形成されるデータであり、これらのグループの頻度分布は、データの要約や分析に便利な手段となります。グループ化には主に2つの種類があります。1つは単次元変数のデータのビン化(個々の数値をビン内のカウントに置き換える)で、もう1つは多次元変数をいくつかの次元(特に独立変数)でグループ化し、グループ化されていない次元(特に従属変数)の分布を取得する方法です

グループ化されたデータの考え方は、次の生のデータセットを検討することで説明できます。

表1:生徒グループが簡単な数学の問題に答えるのにかかった時間(秒)
202524331326819311116211711341415211817

上記のデータは、いくつかの方法でグループ化して頻度分布を構築できます。一つの方法は、間隔を基準とすることです。

上記のデータにおける最小値は8、最大値は34で、標本平均値は19.7秒です。8から34までの区間は、より小さなサブ区間(クラス区間と呼ばれる)に分割されます。各クラス区間について、その区間に含まれるデータ項目の数を数えます。この数は、そのクラス区間の頻度と呼ばれます。結果は、以下の頻度表として表されます。

表2:生徒グループが簡単な数学の問題に答えるのにかかった時間(秒)の頻度分布
所要時間(秒)頻度
5 ≤ t < 101
10 ≤ t < 154
15 ≤ t < 206
20 ≤ t < 254
25 ≤ t < 302
30 ≤ t < 353

データをグループ化する別の方法は、数値間隔ではなく、質的な特性値を使用することです。例えば、上記の例で、生徒が3つのタイプに分類されるとします。1) 回答時間が5~14秒の場合は正常範囲外、2) 回答時間が15~24秒の場合は正常、3) 回答時間が25秒以上の場合は正常範囲外です。グループ化されたデータは次のようになります。

表3: 3種類の学生の頻度分布
頻度
正常以下5
普通10
正常範囲を超える5

データのグループ化のもう一つの例として、一般的によく使われる数値の使用が挙げられます。これらの数値は、実際にはカテゴリーに割り当てる「名前」です。例えば、あるクラスの生徒の年齢分布を見てみましょう。生徒は10歳、11歳、12歳です。これらは10歳、11歳、12歳の年齢グループです。10歳グループの生徒は10歳0日から10歳364日までで、年齢を連続尺度で見ると平均年齢は10.5歳です。グループ化されたデータは次のようになります。

表4:生徒の年齢分布
頻度
1010
1120
1210

グループ化されたデータの平均

データが抽出された母集団の平均推定値は、グループ化されたデータから次のように計算できます。

この式では、xはクラス間隔の中点、fはクラス頻度を表します。この式の結果は、グループ化されていないデータの標本平均とは異なることに注意してください。上記の例におけるグループ化されたデータの平均は、次のように計算できます。

授業間隔周波数(f中点(xFX
5以上、10未満17.57.5
10 ≤ t < 15412.550
15 ≤ t < 20617.5105
20 ≤ t < 25422.590
25 ≤ t < 30227.555
30 ≤ t < 35332.597.5
合計20405


したがって、グループ化されたデータの平均は


上記の例 4 のグループ化されたデータの平均は、次のように計算できます。

年齢層周波数(f中点(xFX
101010.5105
112011.5230
121012.5125
合計40460


したがって、グループ化されたデータの平均は

参照

参考文献

  • ニューボルド, P.; カールソン, W.; ソーン, B. (2009). 『ビジネスと経済のための統計学(第7版)』ピアソン・エデュケーション. ISBN 978-0-13-507248-6
「https://en.wikipedia.org/w/index.php?title=Grouped_data&oldid=1296173870」から取得