変動シリーズの統計。 分布とグループ化シリーズ

グループ化-これは、集団を何らかの形で均質なグループに分割することです。

サービスの割り当て. オンライン計算機を使用すると、次のことができます。

  • バリエーション シリーズを作成する、ヒストグラムとポリゴンを構築します。
  • 変動の指標 (平均、最頻値 (グラフを含む)、中央値、変動範囲、四分位数、十分位数、四分位数の微分係数、変動係数、およびその他の指標) を見つけます。

命令。 系列をグループ化するには、結果の変動系列のタイプ (離散または間隔) を選択し、データ量 (行数) を指定する必要があります。 結果の解は、Word ファイルに保存されます (統計データのグループ化の例を参照してください)。

グループ化がすでに行われていて、 離散変動系列また インターバルシリーズの場合、オンライン計算機変動指標を使用する必要があります。 分布のタイプに関する仮説の検証サービスを利用して制作した配信形態の検討。

統計グループの種類

バリエーションシリーズ. 離散確率変数の観測の場合、同じ値が複数回発生する可能性があります。 確率変数 x i のそのような値が記録され、n 回の観測で出現する回数 n i を示します。これは、この値の頻度です。
連続確率変数の場合、実際にはグループ化が使用されます。
  1. 類型分類-これは、調査対象の質的に異質な集団をクラス、社会経済的タイプ、同質のユニットグループに分割したものです。 このグループ化を構築するには、Discrete variational series パラメーターを使用します。
  2. 構造的グループ化と呼ばれます、均質な集団が、いくつかのさまざまな特徴に従ってその構造を特徴付けるグループに分割されます。 このグループ化を構築するには、Interval シリーズ パラメーターを使用します。
  3. 研究された現象とその特徴の間の関係を明らかにするグループ化は呼ばれます 分析グループ(系列の分析グループを参照)。

例 #1。 表 2 に従って、ロシア連邦の 40 の商業銀行の分布系列を作成します。 得られた分布系列に基づいて、以下を決定します。商業銀行 1 つあたりの平均利益、商業銀行 1 つあたりの平均的な信用投資、利益の最頻値と中央値。 四分位数、十分位数、変動範囲、平均線形偏差、標準偏差、変動係数。

解決:
章で 「統計系列の種類」離散シリーズを選択します。 [Excel から貼り付け] をクリックします。 グループ数: スタージェス式による

統計的グループ分けの原則

昇順で並べられた一連の観測値は、変動系列と呼ばれます. グループ化記号人口が別々のグループに分割される記号です。 グループのベースと呼ばれています。 グループ化は、量的特性と質的特性の両方に基づくことができます。
グループ化の基礎を決定した後、研究集団を分割するグループの数の問題を決定する必要があります。

統計データの処理にパソコンを使用する場合、オブジェクトの単位のグループ化は標準的な手順を使用して実行されます。
そのような手順の 1 つは、スタージェスの式を使用して最適なグループ数を決定することに基づいています。

k = 1+3.322*lg(N)

ここで、k はグループの数、N は集団単位の数です。

部分間隔の長さは、h=(x max -x min)/k として計算されます。

次に、これらの間隔での観測値のヒット数をカウントします。これは頻度 n i として取得されます。 値が5未満の周波数はほとんどありません(n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
区間の中点x i =(c i-1 +c i )/2が新しい値として取られる。

例 #3。 5%セルフランダムサンプルの結果、以下の水分量別製品分布が得られました。 計算: 1) 湿度の平均パーセンテージ; 2) 湿度の変化を特徴付ける指標。
計算機を使用して解を求めた: 例 No. 1

バリエーション シリーズを構築します。 見つかった系列に基づいて、分布ポリゴン、ヒストグラム、累積を作成します。 最頻値と中央値を決定します。
ソリューションをダウンロード

. 選択的観察の結果によると (サンプル A 付録):
a) 一連のバリエーションを作る。
b) 相対度数と累積相対度数を計算する。
c) ポリゴンを構築します。
d) 経験的分布関数を構成します。
e) 経験的分布関数をプロットします。
f) 数値特性の計算: 算術平均、分散、標準偏差。 解決

表 4 (付録 1) に示され、オプションに対応するデータに基づいて、以下を実行します。

  1. 構造グループ化に基づいて、グループ数が 6 であると仮定して、等閉間隔を使用して変分頻度および累積分布シリーズを作成します。結果を表およびグラフで表示します。
  2. 以下を計算して、変分分布系列を分析します。
    • 特徴の算術平均値;
    • モード、中央値、第 1 四分位数、第 1 および第 9 十分位数。
    • 標準偏差;
    • 変動係数。
  3. 結論を導き出します。

必須: シリーズをランク付けし、間隔分布シリーズを構築し、範囲および間隔シリーズの平均、平均分散、最頻値、および中央値を計算します。

初期データに基づいて、離散変分系列を構築します。 統計表と統計グラフの形で提示します。 2)。 初期データに基づいて、等間隔の間隔変動系列を作成します。 間隔の数を自分で選択し、この選択について説明します。 得られた変動系列を統計表および統計グラフの形式で表示します。 使用する表とグラフの種類を示します。

判断する目的で 中程度の期間でのカスタマーサービス 年金基金、クライアント数が非常に多い、自己ランダム非反復サンプリングのスキームに従って、100クライアントの調査が実施されました。 調査結果を表に示します。 探す:
a)0.9946の確率で、年金基金のすべての顧客の平均サービス時間が結論付けられる境界;
b) サービス期間が 6 分未満のすべてのファンド顧客の割合が、サンプル内のそのような顧客の割合と 10% (絶対値で) を超えて異なる確率。
c) 0.9907 の確率で、サービス期間が 6 分未満のすべてのファンド顧客の割合は、サンプル内のそのような顧客の割合と 10% を超えないと主張できます (絶対値)。
2. タスク 1 に従って、Pearson の X 2 検定を使用して、有意水準 α = 0.05 で、確率変数 X (顧客サービス時間) が通常の法則に従って分布するという仮説を検定します。 経験的分布のヒストグラムと対応する正規曲線を 1 つの図面に作成します。
ソリューションをダウンロード

100 アイテムのサンプルが与えられます。 必要:

  1. ランク付けされた変分シリーズを構築します。
  2. 級数の最大項と最小項を見つけます。
  3. 間隔シリーズを構築するための変動範囲と最適な間隔の数を見つけます。 間隔シリーズの間隔の長さを見つけます。
  4. 間隔シリーズを構築します。 構成された間隔に入るサンプルの要素の頻度を見つけます。 各間隔の中点を見つけます。
  5. 度数のヒストグラムと多角形を作成します。 正規分布と比較します (分析的およびグラフィカルに)。
  6. 経験分布関数をプロットします。
  7. サンプルの数値特性を計算します: サンプル平均と中央サンプルモーメント。
  8. 標準偏差、歪度、尖度の近似値を計算します (MS Excel 分析パッケージを使用)。 おおよその計算値を正確な値と比較します (MS Excel の式を使用して計算);
  9. 選択したグラフィック特性を対応する理論上の特性と比較します。
ソリューションをダウンロード

出力と利益額、百万ルーブルに関する次のサンプル データ (10% サンプル、機械的) があります。 元のデータによると:
タスク 13.1.
13.1.1. 等間隔で 5 つのグループを形成する、利益額による企業分布の統計系列を構築します。 分布系列プロットをプロットします。
13.1.2. 企業の一連の分布の数値的特性を利益額で計算します: 算術平均、標準偏差、分散、変動係数 V. 結論を導き出します。
タスク 13.2.
13.2.1. 0.997 の確率で、一般集団における 1 つの企業の利益額が確定される境界を決定します。
13.2.2. ピアソンの x2 基準を使用して、有意水準 α で、確率変数 X (利益の額) が正規法則に従って分布しているという仮説を検定します。
タスク 13.3.
13.3.1. サンプル回帰式の係数を決定します。
13.3.2. 製造された製品のコスト (X) と企業あたりの利益額 (Y) の間の相関関係の存在と性質を確立します。 散布図と回帰直線をプロットします。
13.3.3. 線形相関係数を計算します。 スチューデントの t 検定を使用して、相関係数の有意性を確認します。 チャドック尺度を使用して、要因 X と Y の間の関係の近さについて結論を導き出します。
ガイドライン . タスク 13.3 は、このサービスを使用して実行されます。
ソリューションをダウンロード

タスク. 以下のデータは、クライアントが契約を締結するのに費やした時間を表しています。 提示されたデータの間隔変動シリーズ、ヒストグラムを作成し、数学的期待値の偏りのない推定値、分散の偏りのある偏りのない推定値を見つけます。

例。 表2によると:
1) ロシア連邦の 40 の商業銀行のディストリビューション シリーズを構築します。
A) 利益額による。
B) 信用投資額による。
2) 得られた分布系列に従って、以下を決定します。
A) 商業銀行あたりの平均利益。
B) 商業銀行あたり平均の信用投資。
C) 利益の最頻値と中央値。 四分位数、十分位数。
D) クレジット投資の最頻値と中央値。
3) パラグラフ 1 で得られた分布系列に従って、以下を計算します。
a) 変動範囲
b) 平均直線偏差;
c) 標準偏差
d) 変動係数。
必要な計算を表形式で記録します。 結果を分析します。 あなた自身の結論を導き出してください。
結果の分布系列をプロットします。 最頻値と中央値をグラフィカルに決定します。

解決:
等間隔のグループ化を構築するには、統計データのグループ化サービスを使用します。

図 1 - パラメータの入力

パラメータの説明
行数: 生データの量。 シリーズの次元が小さい場合は、その番号を示します。 選択範囲が十分に大きい場合は、[Excel から貼り付け] ボタンをクリックします。
グループ数: 0 - グループ数は、スタージェス式によって決定されます。
特定のグループ数が指定されている場合は、それを指定します (たとえば、5)。
行タイプ: 離散系列。
重要なレベル: たとえば、 0.954 。 このパラメーターは、平均の信頼区間を定義するために設定されます。
サンプル: たとえば、10% の機械的サンプリングが行われます。 番号 10 を指定します。 このデータでは、 100 を指定します。

バリエーション シリーズ: 定義、種類、主な特徴。 計算方法
ファッション、中央値、医学および統計研究における算術平均
(条件付きの例を示します)。

変分系列は、調査中の特性の一連の数値であり、大きさが互いに異なり、特定の順序(昇順または降順)で配置されています。 系列の各数値はバリアント (V) と呼ばれ、この系列の構成でこのバリアントまたはそのバリアントがどのくらいの頻度で発生するかを示す数値は頻度 (p) と呼ばれます。

変動シリーズを構成する観測のケースの総数は、文字 n で示されます。 研究された特性の意味の違いは、バリエーションと呼ばれます。 変数の符号に定量的な尺度がない場合、変動は定性的と呼ばれ、分布系列は属性と呼ばれます (たとえば、疾患の転帰、健康状態などによる分布)。

変数の記号が量的な表現を持つ場合、そのような変動は量的と呼ばれ、分布系列は変分と呼ばれます。

変分シリーズは、バリアントの発生頻度に応じて、量的形質の性質に応じて、単純で重み付けされた、不連続と連続に分けられます。

単純な変分系列では、各変種は 1 回だけ発生します (p=1)。加重変種では、同じ変種が数回発生します (p>1)。 このようなシリーズの例については、本文の後半で説明します。 量的属性が連続的である場合、つまり 整数値の間には中間の小数値があり、変分系列は連続と呼ばれます。

例: 10.0 - 11.9

14.0~15.9など

量的符号が不連続の場合、つまり その個々の値(オプション)は互いに整数だけ異なり、中間の小数値を持たない場合、変動シリーズは不連続または離散と呼ばれます。

心拍数に関する前の例のデータを使用する

21 人の生徒について、バリエーション シリーズを作成します (表 1)。

表1

脈拍数(bpm)ごとの医学生の分布

したがって、変分系列を構築することは、既存の数値(オプション)を体系化し、合理化することを意味します。 特定の順序 (昇順または降順) に対応する頻度で並べます。 検討中の例では、オプションは昇順で配置され、不連続 (離散) 整数として表現されます。各オプションは複数回発生します。 加重、不連続、または離散変分系列を扱っています。

原則として、調査している統計母集団の観測値の数が 30 を超えない場合は、調査中の特性のすべての値を、表のように昇順で変分系列に配置するだけで十分です。 1、または降順。

大量に観察 (n>30)、発生するバリアントの数が非常に多くなる可能性があります。この場合、間隔またはグループ化された変分系列がコンパイルされます。この場合、後続の処理を簡素化し、分布の性質を明確にするために、バリアントはグループに結合されます。 .

通常、グループ オプションの数は 8 ~ 15 の範囲です。

少なくとも 5 つある必要があります。 そうしないと、粗すぎて過度に拡大され、変動の全体像がゆがみ、平均値の精度に大きな影響を与えます。 グループオプションの数が 20 ~ 25 を超えると、平均値を計算する精度が向上しますが、属性のバリエーションの特徴が大幅に歪められ、数学的処理がより複雑になります。

グループ化されたシリーズをコンパイルするときは、考慮する必要があります

- バリアント グループは、特定の順序 (昇順または降順) で配置する必要があります。

- バリアント グループの間隔は同じである必要があります。

− 間隔の境界の値は一致してはなりません。 個々のオプションをどのグループに帰属させるかは明確ではありません。

- 間隔の制限を設定するときは、収集された資料の質的特徴を考慮する必要があります(たとえば、大人の体重を調べる場合、3〜4 kgの間隔が許容され、最初の数か月の子供の場合) 100 g を超えてはなりません。)

試験前の 55 人の医学生の脈拍数 (1 分あたりの拍数) に関するデータを特徴付けるグループ化された (間隔) シリーズを作成しましょう: 64、66、60、62、

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

グループ化されたシリーズを作成するには、次のものが必要です。

1. 間隔の値を決定します。

2. バリエーション シリーズのバリエーションのグループの中間、開始、および終了を決定します。

● 間隔 (i) の値は、予想されるグループの数 (r) によって決定されます。グループの数は、特別なテーブルに従って観測数 (n) に応じて設定されます。

観測数に応じたグループ数:

私たちの場合、55 人の学生に対して、8 ~ 10 のグループを構成することが可能です。

間隔 (i) の値は、次の式によって決定されます。

i = Vmax-Vmin/r

この例では、間隔の値は 82-58/8= 3 です。

間隔値が小数の場合、結果は整数に切り上げられる必要があります。

平均にはいくつかの種類があります。

●算術平均、

●幾何平均、

●調和平均、

●二乗平均平方根、

●ミディアムプログレッシブ、

●中央値

医療統計では、算術平均が最もよく使用されます。

算術平均 (M) は、母集団全体の特徴である典型的な値を決定する一般化値です。 M を計算する主な方法は、算術平均法とモーメント法 (条件付き偏差) です。

算術平均法は、単純算術平均と加重算術平均の計算に使用されます。 算術平均値の計算方法の選択は、変動シリーズのタイプによって異なります。 各バリアントが 1 回だけ発生する単純な変分系列の場合、単純な算術平均は次の式によって決定されます。

ここで、М – 算術平均値。

V は可変機能 (オプション) の値です。

Σ - アクション - 合計を示します。

n は観測の総数です。

算術平均の計算例は簡単です。 35 歳の 9 人の男性の呼吸数 (1 分あたりの呼吸数): 20、22、19、15、16、21、17、23、18。

35歳の男性の呼吸数の平均レベルを決定するには、次のことが必要です。

1. すべてのオプションを昇順または降順で配置して、変分シリーズを作成します。単純な変分シリーズが得られました。 バリアント値は 1 回だけ発生します。

M = ∑V/n = 171/9 = 1 分間に 19 回の呼吸

結論。 35 歳の男性の呼吸数は、平均して 1 分間に 19 回です。

バリアントの個々の値が繰り返される場合、各バリアントを 1 行に書き出す必要はありません; 発生するバリアントのサイズ (V) をリストし、次にそれらの繰り返しの数を示すだけで十分です (p )。 このように選択肢に対応する頻度の数に応じて、いわば重み付けされた変分級数を加重変分級数と呼び、計算された平均値が算術加重平均です。

算術加重平均は次の式で決定されます。 M= ∑Vp/n

ここで、n は度数の合計 - Σр に等しい観測値の数です。

算術加重平均の計算例。

今年の第 1 四半期に地元の医師によって治療された 35 人の急性呼吸器疾患 (ARI) 患者の障害期間 (日数) は、6、7、5、3、9、8、7、5、6 でした。 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 、7日。

急性呼吸器感染症患者の障害の平均期間を決定する方法は次のとおりです。

1. 加重変分系列を作成しましょう。 個々のバリアント値が数回繰り返されます。 これを行うには、すべてのオプションを対応する頻度で昇順または降順に並べ替えることができます。

この場合、オプションは昇順です。

2. 次の式を使用して算術加重平均を計算します: M = ∑Vp/n = 233/35 = 6.7 日

障害期間別の急性呼吸器感染症患者の分布:

就労不能期間(Ⅴ) 患者数 (p) VP
∑p = n = 35 ∑Vp = 233

結論。 急性呼吸器疾患患者の障害期間は平均6.7日でした。

モード (Mo) は、バリエーション シリーズの中で最も一般的なバリエーションです。 表に示されている分布の場合、モードは 10 に等しいバリアントに対応し、他のものよりも頻繁に - 6 回発生します。

入院期間別の患者分布 病院用ベッド(日数)

p

調査中のデータには「最も頻繁に」発生する観測がいくつかあるため、モードの正確な値を決定するのが難しい場合があります。

中央値 (Me) は、バリエーション シリーズを 2 つの等しい半分に分割するノンパラメトリック インジケーターです。同じ数のオプションが中央値の両側にあります。

たとえば、表に示されている分布の場合、中央値は 10 です。 この値の両側は 14 番目のオプションにあります。 数字の 10 はこのシリーズの中心的な位置を占めており、中央値です。

この例の観測数が偶数 (n=34) の場合、中央値は次のように決定できます。

私 = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

これは、シリーズの中央が 17 番目のオプションに該当することを意味します。これは中央値 10 に相当します。表に示されている分布の算術平均は次のとおりです。

M = ∑Vp/n = 334/34 = 10.1

したがって、Table からの 34 個の観測について。 Mo=10、Me=10、算術平均 (M) は 10.1 です。 この例では、3 つの指標はすべて等しいか、互いに近いことがわかりましたが、それらは完全に異なります。

算術平均は、すべての影響の結果として得られる合計です。例外なく、特定の現象またはセットに対して非定型であることが多い極端なものを含め、すべてのバリアントがその形成に関与します。

モードと中央値は、算術平均とは対照的に、変数属性のすべての個々の値の値 (極端なバリアントの値と系列の分散度) に依存しません。 算術平均は観測全体の質量を特徴付け、最頻値と中央値は全体を特徴付けます。

大きさ(増加または減少)によってランク付けされた、特定の実験または観察で調査されたパラメーターの値のセットは、変動系列と呼ばれます。

上限血圧閾値を取得するために 10 人の患者の血圧を測定したと仮定しましょう: 収縮期血圧、すなわち たったひとつの数字。

10 回の観測における動脈収縮期圧の一連の観測 (統計母集団) が次の形式を持っていると想像してください (表 1)。

表1

変分系列のコンポーネントはバリアントと呼ばれます。 バリアントは、研究対象の形質の数値を表します。

観察の統計セットから変分シリーズを構築することは、セット全体の特徴を理解するための最初のステップにすぎません。 次に、研究された量的形質の平均レベル(血中タンパク質の平均レベル、 平均体重患者、麻酔開始までの平均時間など)

平均レベルは、平均と呼ばれる基準を使用して測定されます。 平均値は、定性的に均一な値の一般化された数値特性であり、1 つの属性に従って統計母集団全体を 1 つの数値で特徴付けます。 平均値は、所与の観測セットにおける特性の特徴である一般を表します。

一般的に使用される平均には、最頻値 ()、中央値 ()、算術平均 () の 3 種類があります。

平均値を決定するには、個々の観測結果を使用して、それらを変動シリーズの形式で記述する必要があります (表 2)。

ファッション- 一連の観測で最も頻繁に発生する値。 この例では、モード = 120 です。変動シリーズに繰り返し値がない場合、モードはないと言います。 複数の値が同じ回数繰り返される場合、それらの最小値がモードとして使用されます。

中央値- 分布を 2 つの等しい部分に分割する値。昇順または降順で並べられた一連の観測値の中心値または中央値。 したがって、変分級数に5つの値がある場合、その中央値は変分級数の3番目のメンバーに等しく、級数に偶数のメンバーがある場合、中央値はその2つの算術平均です中央観測、すなわち 系列に 10 個の観測値がある場合、中央値は 5 個と 6 個の観測値の算術平均に等しくなります。 私たちの例では。

最頻値と中央値の重要な特徴に注意してください。それらの値は極端なバリアントの数値の影響を受けません。

算術平均次の式で計算されます。

ここで、 は - 番目の観測値で、 は観測数です。 私たちの場合。

算術平均には、次の 3 つのプロパティがあります。

真ん中のものは、バリエーションシリーズの真ん中の位置を占めています。 厳密に対称的な行で。

平均値は一般化した値であり、ランダムな変動であり、個々のデータの違いは平均の後ろに表示されません。 それは、人口全体の特徴である典型を反映しています。

平均からのすべてのバリアントの偏差の合計はゼロに等しくなります: . 平均からのバリアントの偏差が示されます。

変動シリーズは、バリアントとそれに対応する頻度で構成されます。 得られた 10 個の値のうち、120 は 6 回、115 は 3 回、125 は 1 回検出されました。 頻度 () - 母集団内の個々のオプションの絶対数。このオプションがバリエーション シリーズで何回発生するかを示します。

バリエーション シリーズは、シンプル (頻度 = 1) またはグループ化された短縮形 (それぞれ 3 ~ 5 個のオプション) にすることができます。 単純なシリーズは、少数の観測 () で使用され、グループ化され、多数の観測 () で使用されます。

グループ化方法により、測定も可能 変化(変動性、ゆらぎ) 兆候。 人口単位の数が比較的少ない場合、変動は、人口を構成する一連の単位のランク付けに基づいて測定されます。 行が呼び出されます ランク付けされたユニットが昇順(降順)に配置されている場合。

ただし、ランク付けされたシリーズは、変動の比較特性が必要な場合の指標となります。 さらに、多くの場合、特定の系列の形で表現することは実際には困難な、多数のユニットからなる統計的集計を処理する必要があります。 この点で、統計データの最初の一般的な知識のために、特に兆候の変化の研究を容易にするために、研究された現象とプロセスは通常グループにまとめられ、グループ化の結果はグループテーブルの形で作成されます.

グループ テーブルに 2 つの列しかない場合 - 選択した機能 (オプション) とグループの数 (周波数または周波数) に応じたグループは、呼び出されます。 配布に近い。

分布範囲 -属性のバリアントと頻度を含む 2 つの列を持つグループ テーブルに表示される、1 つの属性による最も単純なタイプの構造的グループ化。 多くの場合、このような構造的グループ化により、つまり 分布系列の編集により、最初の統計資料の研究が始まります。

選択されたグループが頻度だけでなく他の統計的指標によっても特徴付けられる場合、分布シリーズの形での構造的グループ化は、真の構造的グループ化に変えることができます。 分布系列の主な目的は、特徴の変動を調べることです。 分布系列の理論は、数学的統計学によって詳細に展開されます。

配信シリーズは、 限定的な(属性によるグループ化。たとえば、性別、国籍、婚姻状況などによる人口の分割)および 変分的(定量的特性によるグループ化)。

バリエーションシリーズは、2 つの列を含むグループ テーブルです。1 つの量的属性に基づくユニットのグループ化と、各グループ内のユニット数です。 変動シリーズの間隔は、通常、等しく形成され、閉じています。 変動系列は、1 人あたりの平均現金収入に関するロシアの人口の次のグループ化です (表 3.10)。

表 3.10

2004 年から 2009 年の 1 人当たり平均所得によるロシアの人口分布

1 人当たりの平均現金収入による人口グループ、rub./month

グループ内の人口 (全体の %)

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

25,000.0以上

全人口

変分級数は、離散型と間隔型に分けられます。 離散バリエーション シリーズは、狭い範囲内で変化する個別の機能のバリアントを組み合わせたものです。 離散変分系列の例は、次の分布です。 ロシアの家族お子様の人数に合わせて。

間隔変分系列は、広範囲にわたって変化する連続機能または離散機能のバリアントを組み合わせたものです。 間隔系列は、1 人あたりの平均現金収入に関するロシアの人口分布の変分系列です。

離散変分級数は、実際にはあまり使用されません。 一方、グループの構成は、調査されたグループ化特性が実際に持つ特定のバリアントによって決定されるため、それらをコンパイルすることは難しくありません。

間隔変分系列は、より広く普及しています。 それらをコンパイルする際に、グループの数だけでなく、確立する必要がある間隔のサイズについても難しい問題が生じます。

この問題を解決するための原則は、統計グループを構築するための方法論に関する章に記載されています (パラグラフ 3.3 を参照)。

変動シリーズは、さまざまな情報をコンパクトな形式に折りたたんだり圧縮したりする手段であり、調査対象のセットに含まれる現象の兆候の違いを調査するために、変動の性質についてかなり明確な判断を下すために使用できます。 しかし、最も重要な バリエーションシリーズそれらに基づいて、バリエーションの特別な一般化特性が計算されるという事実にあります(第7章を参照)。

状態:

18歳、38歳、28歳、29歳、26歳、38歳、34歳、22歳、28歳、30歳、22歳、23歳、35歳、33歳、27歳、24歳、30歳、32歳、28歳の年齢構成データあり、25、29、26、31、24、29、27、32、25、29、29。

    1. 間隔分布系列を構築します。
    2. シリーズのグラフィック表現を構築します。
    3. 最頻値と中央値をグラフィカルに決定します。

解決:

1) スタージェスの公式によれば、人口は 1 + 3.322 lg 30 = 6 グループに分割されなければなりません。

最高年齢は 38 歳、最低年齢は 18 歳です。

間隔の幅 間隔の端は整数でなければならないため、母集団を 5 つのグループに分割します。 間隔幅 - 4。

計算を容易にするために、データを昇順に並べてみましょう: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29 、29、30、30、31、32、32、33、34、35、38、38。

従業員の年齢分布

グラフィカルに、シリーズはヒストグラムまたはポリゴンとして表示できます。 ヒストグラム - 棒グラフ。 列のベースは間隔の幅です。 バーの高さは周波数に等しくなります。

多角形 (または分布多角形) は、度数のグラフです。 ヒストグラムに従って構築するには、長方形の上辺の中点を接続します。 極端な x 値からの間隔の半分に等しい距離で x 軸上のポリゴンを閉じます。

モード (Mo) は、調査中の特性の値であり、特定の集団で最も頻繁に発生します。

ヒストグラムからモードを決定するには、最も高い四角形を選択し、この四角形の右の頂点から前の四角形の右上隅まで線を引き、モーダル四角形の左の頂点から次の長方形の左頂点。 これらの線の交点から、x 軸に垂線を引きます。 横軸はファッションになります。 Mo ≒ 27.5。 これは、この人口の最も一般的な年齢が 27 ~ 28 歳であることを意味します。

中央値 (Me) は、調査中の特性の値であり、順序付けられた変動シリーズの中間にあります。

累積によって中央値を見つけます。 Cumulate - 累積度数のグラフ。 横座標は系列の変形です。 縦軸は累積度数です。

累積の中央値を決定するには、累積度数の 50% (この場合は 15) に対応するポイントを縦軸に沿って見つけ、それを通る直線を Ox 軸に平行に引き、それに垂直な線を引きます。累積との交点からの x 軸。 横軸は中央値です。 私は ≈ 25.9 です。 これは、この母集団の労働者の半数が 26 歳未満であることを意味します。