Statistika variačních řad. Distribuční a seskupovací řady

seskupení- jde o rozdělení populace do skupin, které jsou nějakým způsobem homogenní.

Přidělení služby. Pomocí online kalkulačky můžete:

  • vytvořit variační sérii, vytvořte histogram a mnohoúhelník;
  • najít variační ukazatele (průměr, modus (včetně grafických), medián, variační rozsah, kvartily, decily, kvartilový koeficient diferenciace, variační koeficient a další ukazatele);

Návod. Chcete-li seskupit řadu, musíte vybrat typ výsledné řady variací (diskrétní nebo interval) a zadat množství dat (počet řádků). Výsledné řešení se uloží do souboru Word (viz příklad seskupování statistických dat).

Pokud již bylo seskupení provedeno a diskrétní variační série nebo intervalové řady, pak musíte použít online kalkulačku Variační indikátory. Testování hypotézy o typu distribuce vyrobeno pomocí služby Studie formy distribuce.

Typy statistických seskupení

Variační série. V případě pozorování diskrétní náhodné veličiny se lze se stejnou hodnotou setkat vícekrát. Takové hodnoty náhodné proměnné x i jsou zaznamenávány, což značí n i, kolikrát se objeví v n pozorováních, to je frekvence této hodnoty.
V případě spojité náhodné veličiny se v praxi používá seskupování.
  1. Typologické seskupení- jde o rozdělení studované kvalitativně heterogenní populace na třídy, socioekonomické typy, homogenní skupiny jednotek. K vytvoření tohoto seskupení použijte parametr Diskrétní variační řada.
  2. Strukturální seskupení se nazývá, ve kterém je homogenní populace rozdělena do skupin, které charakterizují její strukturu podle nějakého proměnlivého znaku. Chcete-li vytvořit toto seskupení, použijte parametr řady intervalů.
  3. Seskupení, které odhaluje vztah mezi zkoumanými jevy a jejich rysy, se nazývá analytická skupina(viz analytické seskupení řad).

Příklad #1. Podle tabulky 2 postavte distribuční sérii pro 40 komerčních bank Ruské federace. Podle získaných distribučních řad určete: průměrný zisk na jednu komerční banku, úvěrové investice v průměru na jednu komerční banku, modální a mediánovou hodnotu zisku; kvartily, decily, variační rozsah, střední lineární odchylka, směrodatná odchylka, variační koeficient.

Řešení:
V kapitole "Typ statistické řady" vyberte Diskrétní řadu. Klikněte na Vložit z Excelu. Počet skupin: podle Sturgessova vzorce

Principy vytváření statistických seskupení

Série pozorování uspořádaná ve vzestupném pořadí se nazývá série variací. seskupovací znak je znak, kterým se populace dělí na samostatné skupiny. Říká se tomu základ skupiny. Seskupování může být založeno na kvantitativních i kvalitativních charakteristikách.
Po určení základu seskupení by se měla rozhodnout otázka počtu skupin, do kterých by měla být studovaná populace rozdělena.

Při použití osobních počítačů pro zpracování statistických dat se seskupování jednotek objektu provádí standardními postupy.
Jeden takový postup je založen na použití Sturgessova vzorce k určení optimálního počtu skupin:

k = 1+3,322*lg(N)

Kde k je počet skupin, N je počet jednotek populace.

Délka dílčích intervalů se vypočítá jako h=(x max -x min)/k

Poté spočítejte počet zásahů pozorování v těchto intervalech, které jsou brány jako frekvence n i . Málo frekvencí, jejichž hodnoty jsou menší než 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Středy intervalů x i =(c i-1 +c i)/2 jsou brány jako nové hodnoty.

Příklad č. 3. Jako výsledek 5% samo-náhodného vzorku bylo získáno následující rozdělení produktů podle obsahu vlhkosti. Vypočítejte: 1) průměrné procento vlhkosti; 2) indikátory charakterizující změny vlhkosti.
Řešení bylo získáno pomocí kalkulačky: Příklad č. 1

Sestavte sérii variací. Na základě nalezené řady sestrojte distribuční polygon, histogram a kumulaci. Určete režim a medián.
Stáhnout řešení

Příklad. Podle výsledků selektivního pozorování (příloha A vzorku):
a) vytvořit řadu variant;
b) vypočítat relativní četnosti a akumulované relativní četnosti;
c) postavit mnohoúhelník;
d) sestavit empirickou distribuční funkci;
e) vykreslit empirickou distribuční funkci;
f) vypočítat číselné charakteristiky: aritmetický průměr, rozptyl, směrodatnou odchylku. Řešení

Na základě údajů uvedených v tabulce 4 (Příloha 1) a odpovídajících vaší možnosti proveďte:

  1. Na základě strukturního seskupení sestavte variační četnostní a kumulativní distribuční řady pomocí stejných uzavřených intervalů za předpokladu, že počet skupin je 6. Výsledky prezentujte v tabulce a graficky.
  2. Analyzujte variační distribuční řady výpočtem:
    • aritmetická střední hodnota prvku;
    • modus, medián, 1. kvartil, 1. a 9. decil;
    • standardní odchylka;
    • variační koeficient.
  3. Vyvodit závěry.

Požadováno: k seřazení řad sestavte intervalovou distribuční řadu, vypočítejte průměr, střední rozptyl, modus a medián pro danou řadu a intervalovou řadu.

Na základě počátečních dat sestrojte diskrétní variační řadu; prezentovat jej ve formě statistické tabulky a statistických grafů. 2). Na základě počátečních dat sestrojte řadu intervalových variací se stejnými intervaly. Sami si zvolte počet intervalů a vysvětlete tuto volbu. Výslednou variační řadu prezentujte ve formě statistické tabulky a statistických grafů. Uveďte typy použitých tabulek a grafů.

Za účelem stanovení střední doba trvání zákaznický servis v důchodový fond, jejíž počet klientů je velmi velký, byl proveden průzkum u 100 klientů podle schématu samonáhodného neopakovaného výběru. Výsledky průzkumu jsou uvedeny v tabulce. Nalézt:
a) hranice, ve kterých je s pravděpodobností 0,9946 uzavřena průměrná doba obsluhy všech klientů penzijního fondu;
b) pravděpodobnost, že se podíl všech klientů fondu s délkou služby kratší než 6 minut neliší od podílu těchto klientů ve vzorku maximálně o 10 % (v absolutní hodnotě);
c) objem převzorkování, u kterého lze s pravděpodobností 0,9907 tvrdit, že podíl všech klientů fondu s délkou služby kratší než 6 minut se od podílu těchto klientů ve vzorku neliší o více než 10 % (v absolutní hodnota).
2. Podle úlohy 1 pomocí Pearsonova X 2 testu na hladině významnosti α = 0,05 otestujte hypotézu, že náhodná veličina X - doba obsluhy zákazníka - je distribuována podle normálního zákona. Sestrojte na jednom výkresu histogram empirického rozdělení a odpovídající normálovou křivku.
Stáhnout řešení

Uveden vzorek 100 položek. Nezbytné:

  1. Sestavte seřazenou variační sérii;
  2. Najděte maximální a minimální členy řady;
  3. Najděte variační rozsah a počet optimálních intervalů pro konstrukci intervalové řady. Najděte délku intervalu intervalové řady;
  4. Sestavte intervalovou řadu. Najděte frekvence prvků vzorku spadajících do složených mezer. Najděte středy každého intervalu;
  5. Sestrojte histogram a mnohoúhelník frekvencí. Porovnejte s normálním rozdělením (analyticky a graficky);
  6. Nakreslete empirickou distribuční funkci;
  7. Vypočítejte numerické charakteristiky vzorku: střední hodnotu vzorku a centrální moment vzorku;
  8. Vypočítejte přibližné hodnoty směrodatné odchylky, šikmosti a špičatosti (pomocí analytického balíku MS Excel). Porovnejte přibližné vypočítané hodnoty s přesnými (vypočtené pomocí vzorců MS Excel);
  9. Porovnejte vybrané grafické charakteristiky s odpovídajícími teoretickými.
Stáhnout řešení

Máme následující ukázkové údaje (10% vzorek, mechanické) o výstupu a výši zisku, miliony rublů. Podle původních údajů:
Úkol 13.1.
13.1.1. Sestavte statistickou řadu rozdělení podniků podle výše zisku a vytvořte pět skupin ve stejných intervalech. Graf distribuce série grafy.
13.1.2. Vypočítejte číselné charakteristiky řady rozdělení podniků podle výše zisku: aritmetický průměr, směrodatná odchylka, rozptyl, variační koeficient V. Vyvodit závěry.
Úkol 13.2.
13.2.1. Určete hranice, ve kterých je s pravděpodobností 0,997 uzavřena výše zisku jednoho podniku v obecné populaci.
13.2.2. Pomocí Pearsonova x2-kritéria na hladině významnosti α otestujte hypotézu, že náhodná veličina X – výše zisku – je rozdělena podle normálního zákona.
Úkol 13.3.
13.3.1. Určete koeficienty vzorové regresní rovnice.
13.3.2. Stanovte přítomnost a povahu korelace mezi náklady na vyrobené produkty (X) a výší zisku na podnik (Y). Nakreslete bodový graf a regresní přímku.
13.3.3. Vypočítejte lineární korelační koeficient. Pomocí Studentova t-testu ověřte významnost korelačního koeficientu. Udělejte závěr o blízkosti vztahu mezi faktory X a Y pomocí Chaddockovy škály.
Směrnice . Úloha 13.3 se provádí pomocí této služby.
Stáhnout řešení

Úkol. Následující údaje představují množství času stráveného klienty při uzavírání smluv. Sestavte intervalovou variační řadu prezentovaných dat, histogram, najděte nezkreslený odhad matematického očekávání, zkreslený a nezkreslený odhad rozptylu.

Příklad. Podle tabulky 2:
1) Vytvořte distribuční sérii pro 40 komerčních bank Ruské federace:
A) výší zisku;
B) podle výše úvěrových investic.
2) Podle získané distribuční řady určete:
A) průměrný zisk na komerční banku;
B) úvěrové investice v průměru na komerční banku;
C) modální a střední hodnota zisku; kvartily, decily;
D) modální a střední hodnota úvěrových investic.
3) Podle distribuční řady získané v odstavci 1 vypočítejte:
a) rozsah variací;
b) průměrná lineární odchylka;
c) směrodatná odchylka;
d) variační koeficient.
Zaznamenejte potřebné výpočty do tabulky. Analyzujte výsledky. Udělejte si vlastní závěry.
Vyneste výslednou distribuční řadu. Určete režim a medián graficky.

Řešení:
Pro vytvoření seskupení se stejnými intervaly využijeme službu Seskupování statistických dat.

Obrázek 1 - Zadávání parametrů

Popis parametrů
Počet řádků: množství nezpracovaných dat. Pokud je rozměr série malý, uveďte její číslo. Pokud je výběr dostatečně velký, klikněte na tlačítko Vložit z Excelu.
Počet skupin: 0 - počet skupin bude určen Sturgessovým vzorcem.
Pokud je zadán konkrétní počet skupin, zadejte jej (například 5).
Typ řádku: Samostatná řada.
Úroveň významnosti: například 0,954 . Tento parametr je nastaven tak, aby definoval interval spolehlivosti pro průměr.
Vzorek: Například je provedeno 10% mechanického vzorkování. Uveďte číslo 10. Pro naše údaje uvádíme 100 .

Variační řady: definice, typy, hlavní charakteristiky. Způsob výpočtu
móda, medián, aritmetický průměr v lékařských a statistických studiích
(Ukažte na podmíněném příkladu).

Variační řada je řada číselných hodnot studovaného znaku, které se od sebe liší svou velikostí a jsou uspořádány v určitém pořadí (ve vzestupném nebo sestupném pořadí). Každá číselná hodnota řady se nazývá varianta (V) a čísla, která ukazují, jak často se ta či ona varianta vyskytuje ve složení této řady, se nazývají četnost (p).

Celkový počet případů pozorování, ze kterých se variační řada skládá, se označuje písmenem n. Rozdíl ve významu studovaných charakteristik se nazývá variace. Pokud proměnný znak nemá kvantitativní míru, variace se nazývá kvalitativní a distribuční řada se nazývá atributivní (například rozdělení podle výsledku onemocnění, zdravotního stavu atd.).

Pokud má proměnný znak kvantitativní vyjádření, nazývá se taková variace kvantitativní a distribuční řada se nazývá variační.

Variační řady se dělí na nespojité a spojité - podle charakteru kvantitativního znaku, jednoduché a vážené - podle četnosti výskytu varianty.

V jednoduché variační řadě se každá varianta vyskytuje pouze jednou (p=1), ve vážené řadě se stejná varianta vyskytuje vícekrát (p>1). Příklady takových sérií budou diskutovány dále v textu. Pokud je kvantitativní atribut spojitý, tzn. mezi celočíselnými hodnotami jsou mezilehlé zlomkové hodnoty, variační řada se nazývá spojitá.

Například: 10,0 - 11,9

14,0 - 15,9 atd.

Pokud je kvantitativní znak nespojitý, tzn. jeho jednotlivé hodnoty (možnosti) se od sebe liší celým číslem a nemají mezilehlé zlomkové hodnoty, variační řada se nazývá nespojitá nebo diskrétní.

Použití údajů z předchozího příkladu o tepové frekvenci

pro 21 studentů sestavíme variační řadu (tabulka 1).

stůl 1

Rozdělení studentů medicíny podle tepové frekvence (bpm)

Sestavit variační řadu tedy znamená systematizovat, zefektivnit stávající číselné hodnoty (možnosti), tzn. uspořádat v určitém pořadí (ve vzestupném nebo sestupném pořadí) s odpovídajícími frekvencemi. V uvažovaném příkladu jsou opce uspořádány vzestupně a jsou vyjádřeny jako nespojitá (diskrétní) celá čísla, každá možnost se vyskytuje vícekrát, tzn. jedná se o váženou, nespojitou nebo diskrétní variační řadu.

Pokud počet pozorování ve statistické populaci, kterou studujeme, zpravidla nepřesahuje 30, pak stačí uspořádat všechny hodnoty studovaného znaku do variační řady v rostoucím pořadí, jako v tabulce. 1, nebo v sestupném pořadí.

Na ve velkém počtu pozorování (n>30), počet vyskytujících se variant může být velmi velký, v tomto případě se sestavuje intervalová nebo seskupená variační řada, ve které se pro zjednodušení následného zpracování a objasnění podstaty rozdělení varianty spojí do skupin .

Obvykle se počet skupinových možností pohybuje od 8 do 15.

Musí jich být alespoň 5, protože. v opačném případě bude příliš hrubé, nadměrné zvětšení, které zkresluje celkový obraz variací a značně ovlivňuje přesnost průměrných hodnot. Když je počet skupinových možností větší než 20–25, přesnost výpočtu průměrných hodnot se zvyšuje, ale vlastnosti variace atributu jsou výrazně zkreslené a matematické zpracování se stává složitější.

Při sestavování seskupené řady je třeba počítat

− skupiny variant musí být umístěny v určitém pořadí (vzestupně nebo sestupně);

- intervaly ve skupinách variant by měly být stejné;

− hodnoty hranic intervalů by se neměly shodovat, protože nebude jasné, ve kterých skupinách jednotlivé možnosti přiřadit;

- při stanovení limitů intervalů je nutné vzít v úvahu kvalitativní vlastnosti shromážděného materiálu (například při studiu hmotnosti dospělých je přijatelný interval 3-4 kg a pro děti v prvních měsících Životnost by neměla přesáhnout 100 g.)

Sestavme seskupenou (intervalovou) řadu, která charakterizuje údaje o tepové frekvenci (počet tepů za minutu) pro 55 studentů medicíny před zkouškou: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

K vytvoření seskupené série potřebujete:

1. Určete hodnotu intervalu;

2. Určete střed, začátek a konec skupin varianty variační řady.

● Hodnota intervalu (i) je určena počtem očekávaných skupin (r), jejichž počet je stanoven v závislosti na počtu pozorování (n) podle zvláštní tabulky

Počet skupin v závislosti na počtu pozorování:

V našem případě pro 55 studentů je možné sestavit 8 až 10 skupin.

Hodnota intervalu (i) je určena následujícím vzorcem -

i = Vmax-Vmin/r

V našem příkladu je hodnota intervalu 82-58/8= 3.

Pokud je hodnota intervalu zlomkové číslo, výsledek by měl být zaokrouhlen nahoru na celé číslo.

Existuje několik typů průměrů:

● aritmetický průměr,

● geometrický průměr,

● harmonický průměr,

● střední kvadratická hodnota,

● středně progresivní,

● medián

V lékařské statistice se nejčastěji používají aritmetické průměry.

Aritmetický průměr (M) je zobecňující hodnota, která určuje typickou hodnotu, která je charakteristická pro celou populaci. Hlavní metody pro výpočet M jsou: metoda aritmetického průměru a metoda momentů (podmíněné odchylky).

K výpočtu prostého aritmetického průměru a váženého aritmetického průměru se používá metoda aritmetického průměru. Volba metody pro výpočet aritmetického průměru závisí na typu variační řady. V případě jednoduché variační řady, ve které se každá varianta vyskytuje pouze jednou, je jednoduchý aritmetický průměr určen vzorcem:

kde: М – aritmetický průměr;

V je hodnota proměnného prvku (opcí);

Σ - označuje akci - sčítání;

n je celkový počet pozorování.

Příklad výpočtu aritmetického průměru je jednoduchý. Dechová frekvence (počet dechů za minutu) u 9 mužů ve věku 35 let: 20, 22, 19, 15, 16, 21, 17, 23, 18.

K určení průměrné úrovně dechové frekvence u mužů ve věku 35 let je nutné:

1. Sestavte variační řadu seřazením všech možností vzestupně nebo sestupně. Získali jsme jednoduchou variační řadu, protože variantní hodnoty se vyskytují pouze jednou.

M = ∑V/n = 171/9 = 19 dechů za minutu

Závěr. Dechová frekvence u mužů ve věku 35 let je v průměru 19 dechů za minutu.

Pokud se jednotlivé hodnoty varianty opakují, není třeba každou variantu vypisovat na řádek, stačí uvést velikosti varianty, které se vyskytují (V) a vedle uvést počet jejich opakování (p ). taková variační řada, ve které jsou opce jakoby váženy podle počtu jim odpovídajících frekvencí, se nazývá vážená variační řada a vypočtená průměrná hodnota je aritmetickým váženým průměrem.

Aritmetický vážený průměr je určen vzorcem: M= ∑Vp/n

kde n je počet pozorování rovný součtu frekvencí - Σr.

Příklad výpočtu aritmetického váženého průměru.

Délka invalidity (ve dnech) u 35 pacientů s akutním respiračním onemocněním (ARI) léčených místním lékařem během prvního čtvrtletí běžného roku byla: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 dní.

Metodika pro stanovení průměrné doby trvání invalidity u pacientů s akutními respiračními infekcemi je následující:

1. Postavme váženou variační řadu, protože hodnoty jednotlivých variant se několikrát opakují. Chcete-li to provést, můžete uspořádat všechny možnosti ve vzestupném nebo sestupném pořadí s odpovídajícími frekvencemi.

V našem případě jsou možnosti ve vzestupném pořadí.

2. Vypočítejte aritmetický vážený průměr pomocí vzorce: M = ∑Vp/n = 233/35 = 6,7 dne

Rozdělení pacientů s akutními respiračními infekcemi podle délky invalidity:

Délka pracovní neschopnosti (V) Počet pacientů (p) vp
∑p = n = 35 ∑Vp = 233

Závěr. Délka invalidity u pacientů s akutním respiračním onemocněním byla v průměru 6,7 dne.

Mode (Mo) je nejběžnější variantou v řadě variací. Pro rozdělení uvedené v tabulce odpovídá režim variantě rovné 10, vyskytuje se častěji než ostatní - 6krát.

Rozdělení pacientů podle délky pobytu nemocniční postel(ve dnech)

PROTI
p

Někdy je obtížné určit přesnou hodnotu modu, protože ve studovaných datech může být několik pozorování, která se vyskytují „nejčastěji“.

Medián (Me) je neparametrický ukazatel, který rozděluje variační řadu na dvě stejné poloviny: stejný počet možností je umístěn na obou stranách mediánu.

Například pro rozdělení uvedené v tabulce je medián 10, protože na obou stranách této hodnoty se nachází na 14. možnosti, tzn. číslo 10 zaujímá centrální pozici v této řadě a je jejím mediánem.

Vzhledem k tomu, že počet pozorování v tomto příkladu je sudý (n=34), lze medián určit následovně:

Já = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

To znamená, že střed řady připadá na sedmnáctou možnost, což odpovídá mediánu 10. Pro rozdělení uvedené v tabulce je aritmetický průměr:

M = ∑Vp/n = 334/34 = 10,1

Takže pro 34 pozorování z tabulky. 8, dostali jsme: Mo=10, Me=10, aritmetický průměr (M) je 10,1. V našem příkladu se ukázalo, že všechny tři ukazatele jsou stejné nebo blízko sebe, ačkoli jsou zcela odlišné.

Aritmetický průměr je výsledný součet všech vlivů, na jeho vzniku se podílejí všechny varianty bez výjimky, včetně extrémních, často atypických pro daný jev či soubor.

Modus a medián, na rozdíl od aritmetického průměru, nezávisí na hodnotě všech jednotlivých hodnot proměnného atributu (hodnoty krajních variant a stupeň rozptylu řady). Aritmetický průměr charakterizuje celý objem pozorování, modus a medián charakterizuje objem

Soubor hodnot parametru studovaného v daném experimentu nebo pozorování, seřazený podle velikosti (zvýšení nebo snížení), se nazývá variační řada.

Předpokládejme, že jsme měřili krevní tlak deseti pacientům, abychom získali horní práh TK: systolický tlak, tzn. pouze jedno číslo.

Představte si, že série pozorování (statistická populace) arteriálního systolického tlaku v 10 pozorováních má následující podobu (tabulka 1):

stůl 1

Komponenty variační řady se nazývají varianty. Varianty představují číselnou hodnotu studovaného znaku.

Konstrukce variační řady ze statistického souboru pozorování je pouze prvním krokem k pochopení vlastností celého souboru. Dále je nutné určit průměrnou hladinu studovaného kvantitativního znaku (průměrná hladina krevních bílkovin, Průměrná hmotnost pacienti, průměrná doba do začátku anestezie atd.)

Průměrná úroveň se měří pomocí kritérií, která se nazývají průměry. Průměrná hodnota je zobecňující číselná charakteristika kvalitativně homogenních hodnot, charakterizující jedním číslem celou statistickou populaci podle jednoho atributu. Průměrná hodnota vyjadřuje obecnost, která je charakteristická pro vlastnost v daném souboru pozorování.

Běžně se používají tři typy průměrů: modus (), medián () a aritmetický průměr ().

Pro stanovení jakékoli průměrné hodnoty je nutné použít výsledky jednotlivých pozorování, zapsat je ve formě variační řady (tab. 2).

Móda- hodnota, která se vyskytuje nejčastěji v sérii pozorování. V našem příkladu je režim = 120. Pokud v řadě variací nejsou žádné opakující se hodnoty, říkají, že žádný režim neexistuje. Pokud se několik hodnot opakuje stejný počet opakování, pak se jako režim použije nejmenší z nich.

Medián- hodnota rozdělující rozdělení na dvě stejné části, střední nebo střední hodnota řady pozorování uspořádaných ve vzestupném nebo sestupném pořadí. Pokud je tedy ve variační řadě 5 hodnot, pak se její medián rovná třetímu členu variační řady, pokud je v řadě sudý počet členů, pak je medián aritmetickým průměrem jejích dvou centrální pozorování, tzn. pokud je v sérii 10 pozorování, pak se medián rovná aritmetickému průměru 5 a 6 pozorování. V našem příkladu.

Všimněte si důležité vlastnosti režimu a mediánu: jejich hodnoty nejsou ovlivněny číselnými hodnotami krajních variant.

Aritmetický průměr vypočítá se podle vzorce:

kde je pozorovaná hodnota v -tém pozorování a je počet pozorování. Pro náš případ.

Aritmetický průměr má tři vlastnosti:

Prostřední zaujímá ve variační řadě střední pozici. V přísně symetrické řadě.

Průměr je zobecňující hodnota a náhodné výkyvy, rozdíly v jednotlivých datech nejsou za průměrem viditelné. Odráží to typické, co je charakteristické pro celou populaci.

Součet odchylek všech variant od průměru je roven nule: . Udává se odchylka varianty od průměru.

Variační řada se skládá z variant a jim odpovídajících frekvencí. Z deseti získaných hodnot bylo číslo 120 zjištěno 6krát, 115 - 3krát, 125 - 1krát. Frekvence () – absolutní počet jednotlivých možností v populaci, udávající, kolikrát se tato možnost vyskytuje ve variační řadě.

Série variací mohou být jednoduché (frekvence = 1) nebo seskupené zkrácené, každá s 3-5 možnostmi. Používá se jednoduchá řada s malým počtem pozorování (), seskupená - s velkým počtem pozorování ().

Metoda seskupování také umožňuje měřit variace(proměnlivost, kolísání) znaků. U relativně malého počtu jednotek populace se variace měří na základě seřazené řady jednotek, které tvoří populaci. Řádek se nazývá zařadil pokud jsou jednotky uspořádány vzestupně (sestupně).

Seřazené řady jsou však spíše orientační, pokud je potřeba srovnávací charakteristika variace. Navíc se v mnoha případech musíme vypořádat se statistickými agregáty skládajícími se z velkého počtu jednotek, které je prakticky obtížné reprezentovat ve formě konkrétní řady. V tomto ohledu se pro počáteční obecné seznámení se statistickými údaji a zejména pro usnadnění studia variace znaků obvykle studované jevy a procesy spojují do skupin a výsledky seskupování jsou sestavovány ve formě skupinových tabulek. .

Pokud jsou v tabulce skupin pouze dva sloupce - skupiny podle zvolené vlastnosti (možností) a počtu skupin (frekvence nebo frekvence), je tzv. blízko distribuce.

Rozsah distribuce - nejjednodušší typ strukturního seskupení podle jednoho atributu, zobrazený v tabulce skupin se dvěma sloupci obsahujícími varianty a četnosti atributu. V mnoha případech s takovýmto strukturním seskupením, tzn. se sestavováním distribučních řad začíná studium výchozího statistického materiálu.

Strukturální seskupení ve formě distribuční řady se může proměnit ve skutečné strukturální seskupení, pokud jsou vybrané skupiny charakterizovány nejen četností, ale i dalšími statistickými ukazateli. Hlavním účelem distribučních řad je studovat variace vlastností. Teorii distribučních řad podrobně rozvíjí matematická statistika.

Distribuční řady se dělí na atributivní(seskupení podle atributivních vlastností, např. rozdělení obyvatelstva podle pohlaví, národnosti, rodinného stavu atd.) a variační(seskupení podle kvantitativních charakteristik).

Variační série je tabulka skupin, která obsahuje dva sloupce: seskupení jednotek podle jednoho kvantitativního atributu a počet jednotek v každé skupině. Intervaly ve variačních řadách jsou obvykle stejné a uzavřené. Variační řada je následující seskupení ruské populace z hlediska průměrného peněžního příjmu na hlavu (tabulka 3.10).

Tabulka 3.10

Rozložení ruské populace podle průměrného příjmu na hlavu v letech 2004-2009

Skupiny obyvatelstva podle průměrného peněžního příjmu na hlavu, rub./měsíc

Obyvatelstvo ve skupině v % z celku

8 000,1-10 000,0

10 000,1-15 000,0

15 000,1-25 000,0

Více než 25 000,0

Celá populace

Variační řady se zase dělí na diskrétní a intervalové. Oddělený Variační série kombinují varianty diskrétních prvků, které se liší v úzkých mezích. Příkladem diskrétní variační řady je rozdělení ruské rodiny podle počtu dětí.

Interval Variační série kombinují varianty buď spojitých prvků, nebo diskrétních prvků, které se mění v širokém rozsahu. Intervalová řada je variační řada rozložení ruské populace z hlediska průměrného peněžního příjmu na hlavu.

Diskrétní variační řady se v praxi příliš často nepoužívají. Jejich sestavení přitom není obtížné, protože složení skupin je určeno konkrétními variantami, které studované seskupovací charakteristiky skutečně mají.

Více rozšířené jsou intervalové variační řady. Při jejich sestavování vyvstává obtížná otázka počtu skupin a také velikosti intervalů, které by měly být stanoveny.

Zásady pro řešení této problematiky jsou uvedeny v kapitole o metodice sestavování statistických seskupení (viz odstavec 3.3).

Variační řady jsou prostředkem ke sbalení nebo komprimaci různorodých informací do kompaktní podoby, lze je použít k poměrně jasnému úsudku o povaze variace, ke studiu rozdílů ve znacích jevů zahrnutých ve zkoumaném souboru. Ale to nejdůležitější variační série spočívá v tom, že na jejich základě jsou vypočteny speciální zobecňující charakteristiky variace (viz kapitola 7).

Stav:

K dispozici jsou údaje o věkovém složení pracovníků (roky): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Sestavte intervalovou distribuční řadu.
    2. Vytvořte grafické znázornění série.
    3. Graficky určete režim a medián.

Řešení:

1) Podle Sturgessova vzorce musí být populace rozdělena do 1 + 3,322 lg 30 = 6 skupin.

Maximální věk je 38, minimální 18.

Šířka intervalu Protože konce intervalů musí být celá čísla, rozdělíme populaci do 5 skupin. Šířka intervalu - 4.

Pro usnadnění výpočtů uspořádejme data ve vzestupném pořadí: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29 , 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Věkové rozložení pracovníků

Graficky lze řadu zobrazit jako histogram nebo polygon. Histogram - sloupcový graf. Základem sloupce je šířka intervalu. Výška lišty se rovná frekvenci.

Polygon (nebo distribuční polygon) je graf frekvencí. Abychom jej sestavili podle histogramu, spojíme středy horních stran obdélníků. Polygon uzavřeme na ose x ve vzdálenostech rovných polovině intervalu od krajních hodnot x.

Modus (Mo) je hodnota zkoumaného znaku, který se v dané populaci vyskytuje nejčastěji.

Chcete-li určit režim z histogramu, musíte vybrat nejvyšší obdélník, nakreslit čáru z pravého vrcholu tohoto obdélníku do pravého horního rohu předchozího obdélníku a nakreslit čáru z levého vrcholu modálního obdélníku do levý vrchol dalšího obdélníku. Z průsečíku těchto čar nakreslete kolmici k ose x. Abscisa bude móda. Po ≈ 27.5. To znamená, že nejčastější věk v této populaci je 27-28 let.

Medián (Me) je hodnota studovaného znaku, který je uprostřed uspořádané série variací.

Medián najdeme kumulací. Cumulate - graf akumulovaných frekvencí. Úsečky jsou varianty řady. Ordináty jsou akumulované frekvence.

Abychom určili medián pro kumulaci, najdeme na ose pořadnice bod odpovídající 50 % nashromážděných frekvencí (v našem případě 15), protáhneme jím přímku rovnoběžnou s osou Ox a nakreslíme kolmici k osa x z bodu jejího průsečíku s kumulací. Abscisa je střední. Já ≈ 25.9. To znamená, že polovina pracovníků v této populaci je mladší 26 let.