Údaje o variační řadě v tabulce. Definice variačních řad

Soubor předmětů nebo jevů spojených nějakým společným znakem nebo vlastností kvalitativní nebo kvantitativní povahy se nazývá objekt pozorování .

Jakýkoli objekt statistického pozorování se skládá ze samostatných prvků - pozorovací jednotky .

Výsledky statistického pozorování jsou číselné informace - data . Statistická data - jedná se o informace o tom, jaké hodnoty zaujala vlastnost, která je pro výzkumníka zajímavá, ve statistické populaci.

Pokud jsou hodnoty prvku vyjádřeny jako čísla, pak se prvek nazývá kvantitativní .

Pokud rys charakterizuje nějakou vlastnost nebo stav prvků populace, pak se tento rys nazývá kvalitní .

Pokud jsou všechny prvky populace předmětem studia (nepřetržité pozorování), pak se nazývá statistická populace Všeobecné.

Pokud je část prvků obecné populace předmětem výzkumu, pak se nazývá statistická populace selektivní (selektivní) . Vzorek z populace se vybírá náhodně, takže každý z n členů vzorku má stejnou šanci být vybrán.

Hodnoty atributu se mění (proměňují) při přechodu z jednoho prvku populace na druhý, proto se ve statistikách také nazývají různé hodnoty atributu možnosti . Opce se obvykle označují malými latinskými písmeny x, y, z.

Sériové číslo se nazývá varianta (hodnota funkce). hodnost . x 1 - 1. možnost (hodnota 1. funkce), x 2 - 2. možnost (hodnota 2. funkce), x i - i-tá možnost (i-tá hodnota podepsat).

Je volána řada hodnot atributů (možností) uspořádaných vzestupně nebo sestupně s odpovídajícími váhami variační řada (distribuční řada).

Tak jako váhy frekvence nebo frekvence.

Frekvence(m i) ukazuje, kolikrát se ta či ona varianta (hodnota rysu) vyskytuje ve statistické populaci.

Frekvence nebo relativní frekvence(w i) ukazuje, jaký podíl jednotek populace má jednu nebo druhou variantu. Frekvence se vypočítá jako poměr frekvence té či oné varianty k součtu všech frekvencí v řadě.

. (6.1)

Součet všech frekvencí je 1.

. (6.2)

Variační řady jsou diskrétní a intervalové.

Série diskrétních variací obvykle se staví v případě, že se hodnoty zkoumané charakteristiky mohou od sebe lišit alespoň o nějakou konečnou hodnotu.

V diskrétních variačních řadách jsou specifikovány bodové hodnoty prvku.

Celkový pohled na řadu diskrétních variací je uveden v tabulce 6.1.

Tabulka 6.1

kde i = 1, 2, …, l.

V intervalových variačních řadách v každém intervalu se rozlišují horní a dolní hranice intervalu.

Rozdíl mezi horní a dolní hranicí intervalu se nazývá intervalový rozdíl nebo délka (velikost) intervalu .

Hodnota prvního intervalu k 1 je určena vzorcem:

k 1 = a 2 - a 1;

druhý: k 2 = a 3 - a 2; …

poslední: k l = a l - a l -1 .

Obecně intervalový rozdíl k i se vypočítá podle vzorce:

k i \u003d x i (max) - x i (min) . (6.3)

Pokud má interval obě hranice, pak se nazývá ZAVŘENO .

První a poslední interval může být OTEVŘENO , tj. mají jen jednu hranici.

Například první interval může být specifikován jako "až 100", druhý - "100-110", ... , předposlední - "190-200", poslední - "200 a více". Je zřejmé, že první interval nemá spodní hranici a poslední nemá horní hranici, oba jsou otevřené.

Otevřené intervaly musí být často podmíněně uzavřeny. K tomu se obvykle hodnota prvního intervalu rovná hodnotě druhého a hodnota posledního - hodnota předposledního. V našem příkladu je hodnota druhého intervalu 110-100=10, proto bude spodní hranice prvního intervalu podmíněně 100-10=90; hodnota předposledního intervalu je 200-190=10, proto bude horní hranice posledního intervalu konvenčně 200+10=210.

Kromě toho se v intervalových variačních řadách mohou vyskytovat různě dlouhé intervaly. Pokud mají intervaly ve variační řadě stejnou délku (intervalový rozdíl), jsou volány stejné velikosti , v opačném případě - nerovný.

Při konstrukci intervalové variační řady často vyvstává problém volby velikosti intervalů (intervalový rozdíl).

Chcete-li určit optimální velikost intervalů (v případě, že je řada konstruována se stejnými intervaly), použijte Sturgessův vzorec:

, (6.4)

kde n je počet jednotek populace,

x (max) a x (min) - největší a nejmenší hodnoty variant řady.

K charakterizaci variačních řad se spolu s frekvencemi a frekvencemi používají akumulované frekvence a frekvence.

Kumulativní frekvence (frekvence) ukažte, kolik jednotek populace (jaká část z nich) nepřekračuje danou hodnotu (možnost) x.

Akumulované frekvence ( v i) podle diskrétní řady lze data vypočítat pomocí následujícího vzorce:

. (6.5)

Pro intervalovou variační řadu je to součet četností (četností) všech intervalů, které nepřesahují tento interval.

Oddělený variační série lze graficky znázornit pomocí polygonové rozložení frekvencí nebo frekvencí.

Při konstrukci distribučního polygonu jsou hodnoty atributu (možnosti) vyneseny podél osy úsečky a frekvence nebo frekvence jsou vyneseny podél osy pořadnice. Na průsečíku charakteristických hodnot a jejich odpovídajících frekvencí (frekvencí) jsou vyneseny body, které jsou zase spojeny segmenty. Takto získaná lomená čára se nazývá mnohoúhelník rozložení frekvencí (frekvence).

x k
x2
x 1 x i


Rýže. 6.1.

Intervalové variační řady lze graficky znázornit pomocí histogramy, tj. sloupcový graf.

Při sestavování histogramu podél úsečky jsou vyneseny hodnoty studovaného prvku (intervalové hranice).

V případě, že jsou intervaly stejně velké, lze frekvence nebo frekvence vykreslit podél osy y.

Pokud jsou intervaly jiná velikost, podél osy y je nutné vykreslit hodnoty absolutní nebo relativní hustoty rozdělení.

Absolutní hustota- poměr frekvence intervalu k velikosti intervalu:

; (6.6)

kde: f(a) i - absolutní hustota i-tého intervalu;

m i - frekvence i-tého intervalu;

k i - hodnota i-tého intervalu (intervalový rozdíl).

Absolutní hustota ukazuje, kolik jednotek populace je na jednotkový interval.

Relativní hustota- poměr frekvence intervalu k velikosti intervalu:

; (6.7)

kde: f(o) i - relativní hustota i-tého intervalu;

w i - frekvence i-tého intervalu.

Relativní hustota ukazuje, jaká část jednotek populace připadá na intervalovou jednotku.

a l
a 1 x i
a 2

Jak diskrétní, tak intervalové variační řady lze graficky znázornit jako kumulativní a ogivní.

Při stavbě kumuluje Podle dat diskrétní řady ukazuje úsečka hodnoty atributu (možnosti) a ordináta ukazuje akumulované frekvence nebo frekvence. Na průsečíku hodnot funkce (možností) a jim odpovídajících akumulovaných frekvencí (frekvencí) se vytvářejí body, které jsou zase spojeny segmenty nebo křivkou. Takto získaná přerušovaná čára (křivka) se nazývá kumulativní (kumulativní křivka).

Při konstrukci kumulace podle dat intervalové řady jsou hranice intervalů vyneseny na úsečku. Úsečky bodů jsou horní hranice intervalů. Ordináty tvoří akumulované frekvence (frekvence) odpovídajících intervalů. Často se přidává ještě jeden bod, jehož úsečka je spodní hranicí prvního intervalu a pořadnice je nula. Spojením bodů se segmenty nebo křivkou získáme kumulaci.

Ogiva je konstruován podobně jako kumulace, pouze s tím rozdílem, že body odpovídající akumulovaným frekvencím (frekvencím) jsou vyneseny na ose x a charakteristické hodnoty (možnosti) jsou vyneseny na ose pořadnice.

Při zpracování velkého množství informací, což je zvláště důležité při provádění moderního vědeckého vývoje, stojí výzkumník před vážným úkolem správně seskupovat výchozí data. Pokud jsou data diskrétní, pak, jak jsme viděli, nejsou žádné problémy - stačí vypočítat frekvenci každého prvku. Pokud má studovaná vlastnost kontinuální znaku (což je v praxi běžnější), pak není volba optimálního počtu intervalů pro seskupení znaku v žádném případě triviální úlohou.

Pro seskupení spojitých náhodných proměnných je celý variační rozsah prvku rozdělen do určitého počtu intervalů Na.

Seskupený interval (kontinuální) variační řada nazývané intervaly seřazené podle hodnoty znaku (), kde je spolu s odpovídajícími četnostmi () označen počet pozorování, která spadala do r"-tého intervalu, nebo relativní četnosti ():

Charakteristické intervaly hodnot

mi frekvence

sloupcový graf A kumulovat (ogiva), které jsme již podrobně probrali, jsou vynikajícím nástrojem pro vizualizaci dat, který vám umožní získat primární porozumění datové struktuře. Takové grafy (obr. 1.15) jsou sestaveny pro spojitá data stejným způsobem jako pro diskrétní data, pouze s přihlédnutím k tomu, že spojitá data zcela vyplňují oblast svých možných hodnot, nabývajících hodnot.

Rýže. 1.15.

Proto sloupce na histogramu a kumulaci musí být v kontaktu, nesmí mít oblasti, kde hodnoty atributu nespadají do všech možných(tj. histogram a kumulace by neměly mít podél osy x "otvory", do kterých neklesají hodnoty studované proměnné, jako na obr. 1.16). Výška sloupce odpovídá četnosti - počtu pozorování, která spadají do daného intervalu, nebo relativní četnosti - podílu pozorování. Intervaly nesmí přecházet a jsou obvykle stejně široké.

Rýže. 1.16.

Histogram a polygon jsou aproximací křivky hustoty pravděpodobnosti (diferenciální funkce) f(x) teoretické rozdělení, uvažované v kurzu teorie pravděpodobnosti. Proto má jejich konstrukce takový význam při primárním statistickém zpracování kvantitativních spojitých dat - podle jejich formy lze usuzovat na zákon hypotetického rozdělení.

Kumulovat - křivka akumulovaných četností (četností) intervalových variačních řad. Graf integrální distribuční funkce je porovnán s kumulací F(x), také zvažován v kurzu teorie pravděpodobnosti.

V zásadě jsou pojmy histogram a kumulace spojeny přesně se spojitými daty a jejich intervalovými variačními řadami, protože jejich grafy jsou empirickými odhady funkce hustoty pravděpodobnosti a distribuční funkce.

Konstrukce intervalové variační řady začíná určením počtu intervalů k. A tento úkol je možná nejtěžší, nejdůležitější a nejkontroverznější ve zkoumané problematice.

Počet intervalů by neměl být příliš malý, protože histogram bude příliš hladký ( vyhlazené), ztrácí všechny rysy variability výchozích dat - na Obr. 1.17 vidíte, jak stejná data, na kterých jsou grafy na Obr. 1.15 se používají ke konstrukci histogramu s menším počtem intervalů (levý graf).

Počet intervalů by zároveň neměl být příliš velký - jinak nebudeme schopni odhadnout hustotu distribuce studovaných dat podél číselné osy: histogram se ukáže jako nevyhlazený (nevyhlazený) s nevyplněnými intervaly, nerovnoměrné (viz obr. 1.17, pravý graf).

Rýže. 1.17.

Jak určit nejpreferovanější počet intervalů?

Již v roce 1926 navrhl Herbert Sturges vzorec pro výpočet počtu intervalů, do kterých je nutné rozdělit počáteční sadu hodnot studovaného atributu. Tento vzorec se skutečně stal velmi populárním - většina statistických učebnic ho nabízí a mnoho statistických balíčků jej používá standardně. Zda je to oprávněné a ve všech případech je velmi vážná otázka.

Na čem je tedy Sturgesův vzorec založen?

Zvážit binomické rozdělení/ O.Yu. Ermolajev. - M.: Nakladatelství Flint Moskevského psychologického a sociálního institutu, 2012. - 335s.

Podle míry variace lze posuzovat homogenitu populace, stabilitu jednotlivých hodnot znaků a typičnost průměru. Na jejich základě jsou vyvíjeny indikátory blízkosti vztahu mezi znaky, indikátory pro posouzení přesnosti selektivního pozorování.

Existují změny v prostoru a změny v čase.

Variace v prostoru je chápána jako kolísání hodnot prvku v jednotkách populace představujících samostatná území. Pod variací v čase se rozumí změna hodnot atributu v různých časových obdobích.

Pro studium variací v distribuční řadě jsou všechny varianty hodnot atributů uspořádány vzestupně nebo sestupně. Tento proces se nazývá pořadí řad.

Nejjednodušší známky variace jsou minimum a maximum- nejmenší a největší hodnota atributu v souhrnu. Počet opakování jednotlivých variant hodnot vlastností se nazývá frekvence opakování (fi). Vhodné je nahradit frekvence frekvencemi - wi. Frekvence - relativní ukazatel četnosti, který lze vyjádřit ve zlomcích jednotky nebo procentech a umožňuje porovnávat variační řady s různým počtem pozorování. Vyjádřeno vzorcem:

kde Xmax, Xmin - maximální a minimální hodnoty atributu v agregaci; n je počet skupin.

K měření variace znaku se používají různé absolutní a relativní ukazatele. Mezi absolutní variační ukazatele patří variační rozpětí, průměrná lineární odchylka, rozptyl, směrodatná odchylka. Mezi relativní ukazatele fluktuace patří oscilační koeficient, relativní lineární odchylka, variační koeficient.

Příklad nalezení variační řady

Cvičení. Pro tento vzorek:

  • a) Najděte variační řadu;
  • b) Sestrojte distribuční funkci;

č.=42. Ukázkové položky:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Řešení.

  • a) konstrukce řazené variační řady:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • b) konstrukce diskrétní variační řady.

Vypočítejme počet skupin ve variační řadě pomocí Sturgessova vzorce:

Vezměme počet skupin rovný 7.

Když známe počet skupin, vypočítáme hodnotu intervalu:

Pro usnadnění konstrukce tabulky vezmeme počet skupin rovný 8, interval bude 1.

Rýže. 1 Objem prodeje zboží obchodem za určité časové období

Variační řady: definice, typy, hlavní charakteristiky. Způsob výpočtu
móda, medián, aritmetický průměr v lékařských a statistických studiích
(Ukažte na podmíněném příkladu).

Variační řada je řada číselných hodnot studovaného znaku, které se od sebe liší svou velikostí a jsou uspořádány v určitém pořadí (ve vzestupném nebo sestupném pořadí). Každá číselná hodnota řady se nazývá varianta (V) a čísla, která ukazují, jak často se ta či ona varianta vyskytuje ve složení této řady, se nazývají četnost (p).

Celkový počet případů pozorování, ze kterých se variační řada skládá, se označuje písmenem n. Rozdíl ve významu studovaných charakteristik se nazývá variace. Pokud proměnný znak nemá kvantitativní míru, variace se nazývá kvalitativní a distribuční řada se nazývá atributivní (například rozdělení podle výsledku onemocnění, zdravotního stavu atd.).

Pokud má proměnný znak kvantitativní vyjádření, nazývá se taková variace kvantitativní a distribuční řada se nazývá variační.

Variační řady se dělí na nespojité a spojité - podle charakteru kvantitativního znaku, jednoduché a vážené - podle četnosti výskytu varianty.

V jednoduché variační řadě se každá varianta vyskytuje pouze jednou (p=1), ve vážené řadě se stejná varianta vyskytuje vícekrát (p>1). Příklady takových sérií budou diskutovány dále v textu. Pokud je kvantitativní atribut spojitý, tzn. mezi celočíselnými hodnotami jsou mezilehlé zlomkové hodnoty, variační řada se nazývá spojitá.

Například: 10,0 - 11,9

14,0 - 15,9 atd.

Pokud je kvantitativní znak nespojitý, tzn. jeho jednotlivé hodnoty (možnosti) se od sebe liší celým číslem a nemají mezilehlé zlomkové hodnoty, variační řada se nazývá nespojitá nebo diskrétní.

Použití údajů z předchozího příkladu o tepové frekvenci

pro 21 studentů sestavíme variační řadu (tabulka 1).

stůl 1

Rozdělení studentů medicíny podle tepové frekvence (bpm)

Sestavit variační řadu tedy znamená systematizovat, zefektivnit stávající číselné hodnoty (možnosti), tzn. uspořádat v určitém pořadí (ve vzestupném nebo sestupném pořadí) s odpovídajícími frekvencemi. V uvažovaném příkladu jsou opce uspořádány vzestupně a jsou vyjádřeny jako nespojitá (diskrétní) celá čísla, každá možnost se vyskytuje vícekrát, tzn. jedná se o váženou, nespojitou nebo diskrétní variační řadu.

Pokud počet pozorování ve statistické populaci, kterou studujeme, zpravidla nepřesahuje 30, pak stačí uspořádat všechny hodnoty studovaného znaku do variační řady v rostoucím pořadí, jako v tabulce. 1, nebo v sestupném pořadí.

Na ve velkém počtu pozorování (n>30), počet vyskytujících se variant může být velmi velký, v tomto případě se sestavuje intervalová nebo seskupená variační řada, ve které se pro zjednodušení následného zpracování a objasnění podstaty rozdělení varianty spojí do skupin .

Obvykle se počet skupinových možností pohybuje od 8 do 15.

Musí jich být alespoň 5, protože. v opačném případě bude příliš hrubé, nadměrné zvětšení, které zkresluje celkový obraz variací a značně ovlivňuje přesnost průměrných hodnot. Když je počet skupinových možností větší než 20–25, přesnost výpočtu průměrných hodnot se zvyšuje, ale vlastnosti variace atributu jsou výrazně zkreslené a matematické zpracování se stává složitější.

Při sestavování seskupené řady je třeba počítat

− skupiny variant musí být umístěny v určitém pořadí (vzestupně nebo sestupně);

- intervaly ve skupinách variant by měly být stejné;

− hodnoty hranic intervalů by se neměly shodovat, protože nebude jasné, ve kterých skupinách jednotlivé možnosti přiřadit;

- při stanovení limitů intervalů je nutné vzít v úvahu kvalitativní vlastnosti shromážděného materiálu (například při studiu hmotnosti dospělých je přijatelný interval 3-4 kg a pro děti v prvních měsících Životnost by neměla přesáhnout 100 g.)

Sestavme seskupenou (intervalovou) řadu, která charakterizuje údaje o tepové frekvenci (počet tepů za minutu) pro 55 studentů medicíny před zkouškou: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

K vytvoření seskupené série potřebujete:

1. Určete hodnotu intervalu;

2. Určete střed, začátek a konec skupin varianty variační řady.

● Hodnota intervalu (i) je určena počtem očekávaných skupin (r), jejichž počet je stanoven v závislosti na počtu pozorování (n) podle zvláštní tabulky

Počet skupin v závislosti na počtu pozorování:

V našem případě pro 55 studentů je možné sestavit 8 až 10 skupin.

Hodnota intervalu (i) je určena následujícím vzorcem -

i = Vmax-Vmin/r

V našem příkladu je hodnota intervalu 82-58/8= 3.

Pokud je hodnota intervalu zlomkové číslo, výsledek by měl být zaokrouhlen nahoru na celé číslo.

Existuje několik typů průměrů:

● aritmetický průměr,

● geometrický průměr,

● harmonický průměr,

● střední kvadratická hodnota,

● středně progresivní,

● medián

V lékařské statistice se nejčastěji používají aritmetické průměry.

Aritmetický průměr (M) je zobecňující hodnota, která určuje typickou hodnotu, která je charakteristická pro celou populaci. Hlavní metody pro výpočet M jsou: metoda aritmetického průměru a metoda momentů (podmíněné odchylky).

K výpočtu prostého aritmetického průměru a váženého aritmetického průměru se používá metoda aritmetického průměru. Volba metody pro výpočet aritmetického průměru závisí na typu variační řady. V případě jednoduché variační řady, ve které se každá varianta vyskytuje pouze jednou, je jednoduchý aritmetický průměr určen vzorcem:

kde: М – aritmetický průměr;

V je hodnota proměnného prvku (opcí);

Σ - označuje akci - sčítání;

n je celkový počet pozorování.

Příklad výpočtu aritmetického průměru je jednoduchý. Dechová frekvence (počet dechů za minutu) u 9 mužů ve věku 35 let: 20, 22, 19, 15, 16, 21, 17, 23, 18.

K určení průměrné úrovně dechové frekvence u mužů ve věku 35 let je nutné:

1. Sestavte variační řadu seřazením všech možností vzestupně nebo sestupně. Získali jsme jednoduchou variační řadu, protože variantní hodnoty se vyskytují pouze jednou.

M = ∑V/n = 171/9 = 19 dechů za minutu

Závěr. Dechová frekvence u mužů ve věku 35 let je v průměru 19 dechů za minutu.

Pokud se jednotlivé hodnoty varianty opakují, není třeba každou variantu vypisovat na řádek, stačí uvést velikosti varianty, které se vyskytují (V) a vedle uvést počet jejich opakování (p ). taková variační řada, ve které jsou opce jakoby váženy podle počtu jim odpovídajících frekvencí, se nazývá vážená variační řada a vypočtená průměrná hodnota je aritmetickým váženým průměrem.

Aritmetický vážený průměr je určen vzorcem: M= ∑Vp/n

kde n je počet pozorování rovný součtu frekvencí - Σр.

Příklad výpočtu aritmetického váženého průměru.

Délka invalidity (ve dnech) u 35 pacientů s akutním respiračním onemocněním (ARI) léčených místním lékařem během prvního čtvrtletí běžného roku byla: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 dní.

Metodika pro stanovení průměrné doby trvání invalidity u pacientů s akutními respiračními infekcemi je následující:

1. Postavme váženou variační řadu, protože hodnoty jednotlivých variant se několikrát opakují. Chcete-li to provést, můžete uspořádat všechny možnosti ve vzestupném nebo sestupném pořadí s odpovídajícími frekvencemi.

V našem případě jsou možnosti ve vzestupném pořadí.

2. Vypočítejte aritmetický vážený průměr pomocí vzorce: M = ∑Vp/n = 233/35 = 6,7 dne

Rozdělení pacientů s akutními respiračními infekcemi podle délky invalidity:

Délka pracovní neschopnosti (V) Počet pacientů (p) vp
∑p = n = 35 ∑Vp = 233

Závěr. Délka invalidity u pacientů s akutním respiračním onemocněním byla v průměru 6,7 dne.

Mode (Mo) je nejběžnější variantou v řadě variací. Pro rozdělení uvedené v tabulce odpovídá režim variantě rovné 10, vyskytuje se častěji než ostatní - 6krát.

Rozdělení pacientů podle délky pobytu nemocniční postel(ve dnech)

PROTI
p

Někdy je obtížné určit přesnou hodnotu modu, protože ve studovaných datech může být několik pozorování, která se vyskytují „nejčastěji“.

Medián (Me) je neparametrický ukazatel, který rozděluje variační řadu na dvě stejné poloviny: stejný počet možností je umístěn na obou stranách mediánu.

Například pro rozdělení uvedené v tabulce je medián 10, protože na obou stranách této hodnoty se nachází na 14. možnosti, tzn. číslo 10 zaujímá centrální pozici v této řadě a je jejím mediánem.

Vzhledem k tomu, že počet pozorování v tomto příkladu je sudý (n=34), lze medián určit následovně:

Já = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

To znamená, že střed řady připadá na sedmnáctou možnost, což odpovídá mediánu 10. Pro rozdělení uvedené v tabulce je aritmetický průměr:

M = ∑Vp/n = 334/34 = 10,1

Takže pro 34 pozorování z tabulky. 8, dostali jsme: Mo=10, Me=10, aritmetický průměr (M) je 10,1. V našem příkladu se ukázalo, že všechny tři ukazatele jsou stejné nebo blízko sebe, ačkoli jsou zcela odlišné.

Aritmetický průměr je výsledný součet všech vlivů, na jeho vzniku se podílejí všechny varianty bez výjimky, včetně extrémních, často atypických pro daný jev či soubor.

Modus a medián, na rozdíl od aritmetického průměru, nezávisí na hodnotě všech jednotlivých hodnot proměnného atributu (hodnoty krajních variant a stupeň rozptylu řady). Aritmetický průměr charakterizuje celý objem pozorování, modus a medián charakterizuje objem

Stav:

K dispozici jsou údaje o věkovém složení pracovníků (roky): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Sestavte intervalovou distribuční řadu.
    2. Vytvořte grafické znázornění série.
    3. Graficky určete režim a medián.

Řešení:

1) Podle Sturgessova vzorce musí být populace rozdělena do 1 + 3,322 lg 30 = 6 skupin.

Maximální věk je 38, minimální 18.

Šířka intervalu Protože konce intervalů musí být celá čísla, rozdělíme populaci do 5 skupin. Šířka intervalu - 4.

Pro usnadnění výpočtů uspořádejme data ve vzestupném pořadí: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29 , 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Věkové rozložení pracovníků

Graficky lze řadu zobrazit jako histogram nebo polygon. Histogram - sloupcový graf. Základem sloupce je šířka intervalu. Výška lišty se rovná frekvenci.

Polygon (nebo distribuční polygon) je graf frekvencí. Abychom jej sestavili podle histogramu, spojíme středy horních stran obdélníků. Polygon uzavřeme na ose x ve vzdálenostech rovných polovině intervalu od krajních hodnot x.

Modus (Mo) je hodnota zkoumaného znaku, který se v dané populaci vyskytuje nejčastěji.

Chcete-li určit režim z histogramu, musíte vybrat nejvyšší obdélník, nakreslit čáru z pravého vrcholu tohoto obdélníku do pravého horního rohu předchozího obdélníku a nakreslit čáru z levého vrcholu modálního obdélníku do levý vrchol dalšího obdélníku. Z průsečíku těchto čar nakreslete kolmici k ose x. Abscisa bude móda. Po ≈ 27.5. To znamená, že nejčastější věk v této populaci je 27-28 let.

Medián (Me) je hodnota studovaného znaku, který je uprostřed uspořádané série variací.

Medián najdeme kumulací. Cumulate - graf akumulovaných frekvencí. Úsečky jsou varianty řady. Ordináty jsou akumulované frekvence.

Abychom určili medián pro kumulaci, najdeme na ose pořadnice bod odpovídající 50 % nashromážděných frekvencí (v našem případě 15), protáhneme jím přímku rovnoběžnou s osou Ox a nakreslíme kolmici k osa x z bodu jejího průsečíku s kumulací. Abscisa je střední. Já ≈ 25.9. To znamená, že polovina pracovníků v této populaci je mladší 26 let.