学生と学童 - 勉強の支援。 データをグループ化し、分布系列を構築する

この講義では、統計データのグループ化とは何か、それが分布系列とどのように関係するのかについて説明しました。ここでは、離散分布系列と変分分布系列とは何かについても学ぶことができます。

分布系列は統計系列の一種であり(統計ではこの他に動態系列も使用されます)、社会生活の現象に関するデータを分析するために使用されます。 バリエーション シリーズを構築することは、誰にとっても非常に実行可能な作業です。 ただし、覚えておく必要があるルールもあります。

離散変分分布系列を構築する方法

例1. 調査対象となった 20 世帯の子供の数に関するデータがあります。 離散変動系列を構築する 家族分布子供の数によって.

0 1 2 3 1
2 1 2 1 0
4 3 2 1 1
1 0 1 0 2

解決:

  1. まずはテーブル レイアウトから始めて、そこにデータを入力していきます。 分布行には 2 つの要素があるため、テーブルは 2 つの列で構成されます。 最初の列は常にオプションです - 私たちが研究している内容 - タスクからその名前を取ります(条件にタスクが含まれる文の終わり) - 子供の数によって– これは、私たちの選択肢が子供の数であることを意味します。

2 番目の列は頻度です。調査中の現象でバリアントが発生する頻度です。列の名前もタスクから取得します。 家族分布 – これは、私たちの頻度が、対応する数の子供を持つ家族の数であることを意味します。

  1. ここで、ソース データから少なくとも 1 回出現する値を選択します。 私たちの場合はそうです

そして、このデータをテーブルの最初の列に論理的な順序で配置しましょう。この場合は 0 から 4 まで増加します。

最後に、バリアントの各値が何回出現するかを数えてみましょう。

0 1 2 3 1

2 1 2 1 0

4 3 2 1 1

1 0 1 0 2

その結果、子供の数ごとの家族分布の完全なテーブルまたは必要な行が得られます。

エクササイズ . 企業の従業員 30 人の料金カテゴリに関するデータがあります。 料金カテゴリごとの労働者の分布に関する離散的な変動シリーズを構築します。 2 3 2 4 4 5 5 4 6 3

1 4 4 5 5 6 4 3 2 3

4 5 4 5 5 6 6 3 3 4

区間変分分布系列を構築する方法

間隔分布系列を構築し、その構築が離散系列とどのように異なるかを見てみましょう。

例2。 16の企業が受け取った利益の額、100万ルーブルに関するデータがあります。 — 23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63. 利益量別の企業分布の区間変動系列を構築し、等間隔の 3 つのグループを特定します。

もちろん、シリーズを構築する一般原則は同じ 2 つの列、同じオプションと頻度のままですが、この場合、オプションは間隔内に配置され、頻度は異なる方法でカウントされます。

解決:

  1. 前のタスクと同様に、テーブル レイアウトを構築することから始めて、そこにデータを入力します。 分布行には 2 つの要素があるため、テーブルは 2 つの列で構成されます。 最初の列は常にオプションです - 私たちが研究しているもの - その名前はタスク (条件にタスクが含まれる文の終わり) から取得します - 利益の量 - つまり、オプションは受け取った利益の量です。

2 番目の列は頻度 (研究対象の現象でこのバリアントがどのくらいの頻度で発生するか) です。また、列の名前はタスク (企業の分布) から取得します。つまり、頻度は、対応する利益を持つ企業の数です。この場合は区間に該当します。

その結果、テーブルのレイアウトは次のようになります。

ここで、i は間隔の値または長さです。

Xmax および Xmin – 属性の最大値と最小値、

n は問題の条件に応じて必要なグループの数です。

この例の間隔のサイズを計算してみましょう。 これを行うには、初期データの中から最大と最小のデータを見つけます。

23 48 57 12 118 9 16 22 27 48 56 87 45 98 88 63 – 最高額は 1 億 1,800 万ルーブル、最低額は 900 万ルーブル。 公式を使って計算してみましょう。

計算では、期間内に 36、(3) という数値が得られました。このような状況では、計算後に最大データが失われないように、間隔の値を切り上げる必要があります。そのため、計算では次の値が使用されます。その間隔は3,640万ルーブルです。

  1. 次に、この問題のオプションである間隔を構築しましょう。 最初の間隔は最小値から構築され始め、間隔の値がそれに加算され、最初の間隔の上限が取得されます。 次に、最初の間隔の上限が 2 番目の間隔の下限となり、それに間隔の値が加算され、2 番目の間隔が取得されます。 などを条件に応じて何度でも繰り返して間隔を構築します。

間隔の値を 36.4 に四捨五入せず、36.3 のままにしていた場合、最後の値は 117.9 になることに注意してください。 データの損失を避けるためには、間隔値をより大きな値に丸める必要があります。

  1. それぞれの特定の間隔に該当する企業の数を数えてみましょう。 データを処理するときは、特定の間隔内の間隔の上限値は考慮されない(この間隔には含まれない)が、次の間隔では考慮される(間隔の下限は含まれる)ことに注意する必要があります。 (この間隔には含まれません)、最後の間隔は除きます。

データ加工を行う際には、選択したデータを記号や色で示すと処理が簡単になります。

23 48 57 12 118 9 16 22

27 48 56 87 45 98 88 63

最初の間隔を黄色で示します。9 から 45.4 までの間隔にどれだけのデータが含まれるかを決定します。この 45.4 は 2 番目の間隔で考慮されます (データ内にある場合)。結果として、次のようになります。第1期は7社。 など、すべての間隔にわたって続きます。

  1. (追加アクション) 各期間および一般的に企業が受け取る利益の総額を計算してみましょう。 これを行うには、異なる色でマークされたデータを合計し、合計利益値を取得します。

最初の間隔では - 23 + 12 + 9 + 16 + 22 + 27 + 45 = 1億5,400万ルーブル。

2番目の間隔の場合、48 + 57 + 48 + 56 + 63 = 2億7,200万ルーブル。

3番目の間隔の場合、118 + 87 + 98 + 88 = 3億9,100万ルーブル。

エクササイズ . 30人の預金者の銀行の預金額、千ルーブルに関するデータがあります。 150、120、300、650、1500、900、450、500、380、440、

600, 80, 150, 180, 250, 350, 90, 470, 1100, 800,

500, 520, 480, 630, 650, 670, 220, 140, 680, 320

建てる インターバルバリエーションシリーズ預金の規模に応じた預金者の分布。等間隔で 4 つのグループを区別します。 グループごとに、デポジットの合計金額を計算します。

統計資料を要約する最も簡単な方法は、系列を構築することです。 統計調査の概要の出力は分布系列になる場合があります。 統計における分布系列は、定性的または量的のいずれかの特性に従って、集団単位をグループに順序付けして分布したものです。 系列が定性ベースで構築されている場合は属性と呼ばれ、定量ベースで構築されている場合は変分と呼ばれます。

変動系列は、変動 (X) と周波数 (f) の 2 つの要素によって特徴付けられます。 バリアントは、集団の個々の単位またはグループの特性の個別の値です。 特徴の特定の値が何回出現するかを示す数値は、頻度と呼ばれます。 周波数を相対数で表すと、周波数と呼ばれます。 変動系列は、境界「開始」と「終了」が定義されている場合は間隔的であることができ、研究対象の特性が特定の数値によって特徴付けられている場合は離散的であることができます。

例を使用してバリエーション系列の構築を見てみましょう。

。 また、工場の作業場の 1 つで働く 60 人の労働者の料金カテゴリーに関するデータもあります。

料金カテゴリに従って労働者を配分し、バリエーション シリーズを構築します。

これを行うには、特性のすべての値を昇順で書き留め、各グループのワーカーの数を数えます。

表1.4

カテゴリ別の労働者の分布

ワーカーランク(X)

従業員数

人(女)

全体の % (特に)

研究対象の特性 (作業者のランク) が特定の数値で表される変分離散系列を受け取りました。 わかりやすくするために、バリエーション シリーズを図で示します。 この分布系列に基づいて分布曲面を構築しました。

米。 1.1. 料金カテゴリー別の労働者の分布を示すポリゴン

次の例を使用して、等間隔の区間系列の構築を考えます。

。 50社の固定資本の価値に関するデータが100万ルーブルで知られている。 固定資本コスト別に企業の分布を示すことが求められています。

固定資本コスト別に企業の分布を示すために、まず強調したいグループの数の問題を解決します。 5 つの企業グループを特定することにしたとします。 次に、グループ内の間隔のサイズを決定します。 これを行うには、次の式を使用します。

私たちの例によると。

間隔の値を属性の最小値に加算することにより、固定資本コストごとに企業のグループが得られます。

double 値を持つユニットは、それが上限として機能するグループに属します (つまり、属性の値 17 は最初のグループに、24 は 2 番目のグループに、というようになります)。

各グループ内の工場の数を数えてみましょう。

表1.5

固定資本価値別企業分布(百万ルーブル)

固定資本コスト
百万ルーブルで (×)

企業数
(周波数) (f)

累積周波数
(累計)

この分布によれば、変分区間系列が得られ、そこから 36 社が 1,000 万から 2,400 万ルーブル相当の固定資本を保有していることがわかります。 等

間隔分布系列は、ヒストグラムの形式でグラフで表すことができます。

データ処理の結果は次のとおりです。 統計表。 統計テーブルには、独自の主語と述語が含まれています。

主題とは、特徴づけられる全体、または全体の一部です。

述語は主語を特徴づける指標です。

テーブルは、単純なテーブルとグループテーブル、組み合わせテーブル、述語の単純な展開と複雑な展開によって区別されます。

件名の簡単な表には、個々の単位のリストが含まれています。

件名に単位のグループ化が含まれる場合、そのようなテーブルはグループ テーブルと呼ばれます。 たとえば、従業員数ごとの企業グループ、性別ごとの人口グループなどです。

組み合わせテーブルの主題には、2 つ以上の特性に従ったグループ化が含まれます。 たとえば、人口は教育、年齢などによって性別ごとにグループに分割されます。

組み合わせテーブルには、多数のインジケーターの関係と、空間と時間の両方でのそれらの変化のパターンを特定して特徴付けることができる情報が含まれています。 主題を作成するときに表を明確にするために、2 つまたは 3 つの特徴に限定し、それぞれについて限られた数のグループを形成します。

テーブル内の述語はさまざまな方法で開発できます。 述語を単純に開発すると、そのすべてのインジケーターが互いに独立して配置されます。

述語の複雑な開発では、インジケーターが互いに組み合わされます。

表を作成するときは、研究の目的と処理された資料の内容に基づいて作成する必要があります。

統計には表のほかに、グラフや図も使用されます。 図 – 統計データは幾何学的形状を使用して表現されます。 グラフは線形グラフと棒グラフに分けられますが、図形グラフ (図と記号)、円グラフ (円は人口全体の大きさとみなされ、個々のセクターの面積はその比重または割合を表示します) もあります。成分)、放射状チャート(極座標に基づいて作成)。 カートグラムは、概略地図または敷地計画と図を組み合わせたものです。

現代の科学開発を実行する際に特に重要である大量の情報を処理する場合、研究者はソース データを正しくグループ化するという重大な課題に直面します。 データが本質的に離散的である場合、これまで見てきたように、問題は発生しません。必要なのは各特徴の頻度を計算することだけです。 研究中の特性が 継続的な(実際にはこれが一般的です)、特徴グループ化間隔の最適な数を選択することは決して簡単な作業ではありません。

連続確率変数をグループ化するには、特性の変動範囲全体を特定の数の間隔に分割します。 に。

グループ化された間隔 (継続的な) バリエーションシリーズは、属性 () の値によってランク付けされた間隔と呼ばれます。ここで、i 番目の間隔に該当する観測値の数、または相対頻度 () は、対応する頻度 () とともに示されます。

特性値の間隔

私の周波数

ヒストグラムそして 蓄積 (オギバ)、すでに詳しく説明しましたが、これはデータ視覚化の優れた手段であり、データの構造の基本的なアイデアを得ることができます。 このようなグラフ (図 1.15) は、連続データが離散データの場合と同じ方法で構築されますが、連続データが可能な値の領域を完全に満たし、任意の値を取るという事実のみを考慮しています。

米。 1.15。

それが理由です ヒストグラムと累積の列は互いに接しており、属性値が可能な範囲に収まらない領域があってはなりません(つまり、図 1.16 のように、ヒストグラムと累積には、調査対象の変数の値が含まれない横軸に沿った「穴」があってはなりません)。 バーの高さは、頻度 (特定の間隔内にある観測値の数)、または相対頻度 (観測値の割合) に対応します。 間隔 交差してはなりません通常は同じ幅です。

米。 1.16

ヒストグラムとポリゴンは確率密度曲線(微分関数)の近似です f(x)確率論の過程で考慮される理論的な分布。 したがって、それらの構築は定量的連続データの一次統計処理において非常に重要であり、その外観によって仮説的な分布法則を判断することができます。

累積 - 間隔変動系列の累積された周波数 (周波数) の曲線。 累積分布関数のグラフは累積分布関数と比較されます。 F(x)、確率論コースでも説明します。

基本的に、ヒストグラムと累積の概念は、それらのグラフがそれぞれ確率密度関数と分布関数の経験的推定値であるため、連続データとその間隔変動系列に特に関連付けられています。

区間変動系列の構築は、区間の数を決定することから始まります。 k.そして、この課題はおそらく、研究中の問題の中で最も難しく、重要であり、物議をかもしている課題です。

ヒストグラムが滑らかになりすぎるため、間隔の数が小さすぎてはなりません( 平滑化しすぎた)、元のデータの変動性の特徴がすべて失われます - 図 1.17 では、図のグラフと同じデータがどのように変化するかがわかります。 1.15、より少ない数の間隔でヒストグラムを作成するために使用されます (左のグラフ)。

同時に、間隔の数は大きすぎてはなりません。大きすぎると、数値軸に沿って調査データの分布密度を推定できなくなります。ヒストグラムの平滑化が不十分になります。 (滑らかさが足りない)、空の間隔があり、不均一です (図 1.17、右のグラフを参照)。

米。 1.17。

最も望ましい間隔数を決定するにはどうすればよいでしょうか?

1926 年に遡ると、ハーバート スタージェスは、研究対象の特性の元の値のセットを分割する必要がある間隔の数を計算するための公式を提案しました。 この公式は本当に非常に人気があります。ほとんどの統計教科書でこの公式が提供されており、多くの統計パッケージがデフォルトでこの公式を使用しています。 これがどの程度正当化されるのか、そしてすべての場合において、非常に深刻な問題です。

では、スタージェスの公式は何に基づいているのでしょうか?

二項分布を考えてみましょう。その上限にはランク付けされた系列の最後の番号が含まれます。

区間系列を作成します (表 2.3)。

報告年の第 1 四半期におけるロシア連邦のいずれかの地域における企業の分布と平均管理者数の一連の区間

結論。最大の企業グループは管理者の平均数が 25 ~ 30 人であるグループで、これには 8 社 (27%) が含まれています。 マネージャーの平均数が 40 ~ 45 人の最小グループには、1 社 (3%) のみが含まれています。

テーブルのソース データを使用します。 2.1、および管理者の数による企業の分布の区間系列 (表 2.3)、 必須経営者の数と企業の売上高との関係を分析的にグループ化し、それに基づいて、これらの特性間の関係の有無についての結論を導き出します。

解決:

分析的なグループ化は、因子の特性に基づいて行われます。 この問題では、因子特性 (x) は管理者の数、結果特性 (y) は売上高です (表 2.4)。

今すぐ構築しましょう 分析的なグループ化(表 2.5)。

結論。構築された分析グループのデータに基づくと、営業マネージャーの数が増加すると、グループ内の企業の平均売上高も増加し、これらの特性間に直接的な関連性が存在することがわかります。

表2.4

分析グループを構築するための補助テーブル

管理者の数、人数、

会社番号

売上高、百万ルーブル、年

" = 59 f = 9.97

I-™ 4 -ゆ.22

74 '25 1PY1

U4 = 7 = 10,61

= ’ =10,31 30

表2.5

報告年の第 1 四半期におけるロシア連邦のいずれかの地域における売上高の企業マネージャーの数への依存性

テスト問題
  • 1. 統計的観察の本質とは何ですか?
  • 2. 統計的観察の段階に名前を付けます。
  • 3. 統計観察の組織形態は何ですか?
  • 4. 統計的観察の種類に名前を付けます。
  • 5. 統計概要とは何ですか?
  • 6. 統計レポートの種類に名前を付けます。
  • 7. 統計的グループ化とは何ですか?
  • 8. 統計グループの種類に名前を付けます。
  • 9. 配信シリーズとは何ですか?
  • 10. 分布行の構造要素に名前を付けます。
  • 11. 配信シリーズを構築する手順は何ですか?