Variationsseriedata i tabellen. Definition av variationsserier

En uppsättning objekt eller fenomen förenade av någon gemensam egenskap eller egenskap av kvalitativ eller kvantitativ karaktär kallas föremål för observation .

Varje objekt för statistisk observation består av separata element - observationsenheter .

Resultaten av statistiska observationer är numerisk information - data . Statistisk data - det här är information om vilka värden egenskapen av intresse för forskaren har antagit i den statistiska populationen.

Om värdena för en funktion uttrycks som siffror, anropas funktionen kvantitativ .

Om ett särdrag kännetecknar någon egenskap eller tillstånd hos elementen i befolkningen, anropas särdraget kvalitet .

Om alla delar av befolkningen är föremål för studier (kontinuerlig observation), så kallas den statistiska populationen allmän.

Om en del av beståndsdelarna i den allmänna befolkningen är föremål för forskning, så kallas den statistiska populationen selektiv (selektiv) . Ett urval från populationen dras slumpmässigt så att var och en av de n urvalsmedlemmarna har lika stor chans att bli valda.

Värdena för attributet ändras (varierar) när man flyttar från ett element i populationen till ett annat, därför kallas också olika värden för attributet i statistiken alternativ . Alternativ betecknas vanligtvis med små latinska bokstäver x, y, z.

Serienummer variant (funktionsvärde) kallas rang . x 1 - 1:a alternativet (1:a funktionsvärde), x 2 - 2:a alternativet (2:a funktionsvärde), x i - i-te alternativet (i-te värdet skylt).

En serie attributvärden (alternativ) ordnade i stigande eller fallande ordning med motsvarande vikter kallas variationsserie (distributionsserie).

Som vågar frekvenser eller frekvenser visas.

Frekvens(m i) visar hur många gånger den eller den varianten (funktionsvärde) förekommer i den statistiska populationen.

Frekvens eller relativ frekvens(w i) visar hur stor andel av befolkningsenheterna som har en eller annan variant. Frekvensen beräknas som förhållandet mellan frekvensen för en eller annan variant och summan av alla frekvenser i serien.

. (6.1)

Summan av alla frekvenser är 1.

. (6.2)

Variationsserier är diskreta och intervall.

Diskret variationsserie de byggs vanligtvis i händelse av att värdena för egenskapen som studeras kan skilja sig från varandra med åtminstone något ändligt värde.

I diskreta variationsserier anges punktvärden för en funktion.

Den allmänna översikten av den diskreta variationsserien visas i tabell 6.1.

Tabell 6.1

där i = 1, 2, … , l.

I intervallvariationsserier i varje intervall urskiljs intervallets övre och nedre gränser.

Skillnaden mellan de övre och nedre gränserna för intervallet kallas intervallskillnad eller längden (storleken) på intervallet .

Värdet på det första intervallet k 1 bestäms av formeln:

k 1 = a 2 - a 1;

andra: k 2 = a 3 - a 2; …

sista: k l = a l - a l -1 .

I allmänhet intervallskillnad k i beräknas med formeln:

k i \u003d x i (max) - x i (min) . (6.3)

Om ett intervall har båda gränserna kallas det stängd .

De första och sista intervallen kan vara öppen , dvs. har bara en kant.

Till exempel kan det första intervallet anges som "upp till 100", det andra - "100-110", ... , det näst sista - "190-200", det sista - "200 och mer". Det är uppenbart att det första intervallet inte har någon nedre gräns, och det sista har ingen övre gräns, båda är öppna.

Ofta måste öppna intervall vara villkorligt stängda. För att göra detta tas vanligtvis värdet på det första intervallet lika med värdet på det andra och värdet på det sista - värdet på det näst sista. I vårt exempel är värdet på det andra intervallet 110-100=10, därför kommer den nedre gränsen för det första intervallet villkorligt att vara 100-10=90; värdet på det näst sista intervallet är 200-190=10, därför kommer den övre gränsen för det sista intervallet konventionellt att vara 200+10=210.

Dessutom kan intervall av olika längd förekomma i intervallvariationsserien. Om intervallen i variationsserien har samma längd (intervallskillnad) kallas de lika stora , annars - olika.

När man konstruerar en intervallvariationsserie uppstår ofta problemet med att välja storlek på intervallen (intervallskillnad).

För att bestämma den optimala storleken på intervallen (i händelse av att en serie konstrueras med lika intervall), tillämpa Sturgess formel:

, (6.4)

där n är antalet befolkningsenheter,

x (max) och x (min) - de största och minsta värdena av varianterna av serien.

För att karakterisera variationsserierna, tillsammans med frekvenserna och frekvenserna, används de ackumulerade frekvenserna och frekvenserna.

Kumulativa frekvenser (frekvenser) visa hur många enheter av befolkningen (vilken del av dem) som inte överstiger ett givet värde (alternativ) x.

Ackumulerade frekvenser ( v i) enligt de diskreta seriedata kan beräknas med följande formel:

. (6.5)

För en intervallvariationsserie är detta summan av frekvenserna (frekvenserna) av alla intervall som inte överskrider detta.

Diskret variationsserie kan representeras grafiskt med polygonfördelning av frekvenser eller frekvenser.

När du konstruerar en fördelningspolygon, plottas värdena för attributet (alternativen) längs abskissaxeln, och frekvenser eller frekvenser plottas längs ordinataaxeln. I skärningspunkten mellan de karakteristiska värdena och deras motsvarande frekvenser (frekvenser) plottas punkter, som i sin tur är förbundna med segment. Den streckade linjen som sålunda erhålls kallas polygonen för fördelningen av frekvenser (frekvenser).

x k
x2
x 1 x i


Ris. 6.1.

Intervallvariationsserier kan representeras grafiskt med hjälp av histogram, dvs. stapeldiagram.

När du konstruerar ett histogram längs abskissan, plottas värdena för den studerade egenskapen (intervallgränser).

I händelse av att intervallen är av samma storlek, kan frekvenser eller frekvenser plottas längs y-axeln.

Om intervallerna är olika storlek, längs y-axeln är det nödvändigt att plotta värdena för den absoluta eller relativa distributionstätheten.

Absolut densitet- förhållandet mellan intervallets frekvens och storleken på intervallet:

; (6.6)

där: f(a) i - absolut densitet för det i:te intervallet;

m i - frekvensen för det i:te intervallet;

k i - värdet av det i:te intervallet (intervallskillnad).

Absolut täthet visar hur många befolkningsenheter som är per enhetsintervall.

Relativ densitet- förhållandet mellan intervallets frekvens och storleken på intervallet:

; (6.7)

där: f(o) i - relativ täthet för det i:te intervallet;

w i - frekvensen för det i:te intervallet.

Relativ täthet visar vilken del av befolkningsenheterna som faller på intervallenheten.

a l
a 1 x i
en 2

Både diskreta och intervallvariationsserier kan representeras grafiskt som kumulerade och ogiva.

När man bygger ackumuleras Enligt de diskreta seriedata visar abskissan värdena för attributet (alternativ), och ordinatan visar de ackumulerade frekvenserna eller frekvenserna. I skärningspunkten mellan funktionens värden (alternativ) och de ackumulerade frekvenserna (frekvenserna) som motsvarar dem, byggs punkter, som i sin tur är förbundna med segment eller en kurva. Den streckade linjen (kurvan) som sålunda erhålls kallas en kumulativ (kumulativ kurva).

När man konstruerar kumulatet enligt data för intervallserien, ritas gränserna för intervallen ut längs abskissan. Punkternas abskiss är de övre gränserna för intervallen. Ordinaterna bildar de ackumulerade frekvenserna (frekvenserna) för motsvarande intervall. Ofta läggs ytterligare en punkt till, vars abskiss är den nedre gränsen för det första intervallet, och ordinatan är noll. Genom att koppla ihop punkterna med segment eller en kurva får vi kumuleringen.

Ogivaär konstruerad på samma sätt som kumuleringen med den enda skillnaden att punkterna som motsvarar de ackumulerade frekvenserna (frekvenserna) är plottade på abskissaxeln och de karakteristiska värdena (alternativen) plottas längs ordinataaxeln.

Vid bearbetning av stora mängder information, vilket är särskilt viktigt när man bedriver modern vetenskaplig utveckling, står forskaren inför den allvarliga uppgiften att korrekt gruppera de ursprungliga uppgifterna. Om uppgifterna är diskreta är det, som vi har sett, inga problem - du behöver bara beräkna frekvensen för varje funktion. Om egenskapen som studeras har kontinuerlig karaktär (vilket är vanligare i praktiken), så är valet av det optimala antalet intervaller för att gruppera en funktion inte på något sätt en trivial uppgift.

För att gruppera kontinuerliga slumpvariabler delas hela variationsområdet för funktionen in i ett visst antal intervall Till.

Grupperat intervall (kontinuerlig) variationsserie kallade intervall rangordnade efter värdet av funktionen (), där det anges tillsammans med motsvarande frekvenser () antalet observationer som föll inom det r "te intervallet, eller relativa frekvenser ():

Karakteristiska värdeintervall

mi frekvens

stapeldiagram Och ackumulera (ogiva), redan diskuterat i detalj av oss, är ett utmärkt datavisualiseringsverktyg som låter dig få en primär förståelse av datastrukturen. Sådana grafer (fig. 1.15) är byggda för kontinuerliga data på samma sätt som för diskreta data, endast med hänsyn till det faktum att kontinuerliga data helt fyller området för dess möjliga värden, med alla värden.

Ris. 1.15.

Det är därför kolumnerna på histogrammet och kumuleringen måste vara i kontakt, inte ha några områden där attributvärdena inte faller inom alla möjliga(dvs histogrammet och kumuleringen bör inte ha "hål" längs abskissaxeln, där värdena för variabeln som studeras inte faller, som i fig. 1.16). Höjden på stapeln motsvarar frekvensen - antalet observationer som faller inom det givna intervallet, eller den relativa frekvensen - andelen observationer. Intervaller får inte korsa och har vanligtvis samma bredd.

Ris. 1.16.

Histogrammet och polygonen är approximationer av sannolikhetstäthetskurvan (differentialfunktion) f(x) teoretisk fördelning, övervägd inom ramen för sannolikhetsteorin. Därför är deras konstruktion av sådan betydelse i den primära statistiska bearbetningen av kvantitativa kontinuerliga data - utifrån deras form kan man bedöma den hypotetiska distributionslagen.

Kumulera - kurvan för de ackumulerade frekvenserna (frekvenserna) i intervallvariationsserien. Grafen för integralfördelningsfunktionen jämförs med kumuleringen F(x), som också beaktas i samband med sannolikhetsteorin.

I grund och botten associeras begreppen histogram och kumulat exakt med kontinuerliga data och deras intervallvariationsserier, eftersom deras grafer är empiriska uppskattningar av sannolikhetstäthetsfunktionen respektive fördelningsfunktionen.

Konstruktionen av en intervallvariationsserie börjar med att bestämma antalet intervall k. Och denna uppgift är kanske den svåraste, viktigaste och mest kontroversiella i den fråga som studeras.

Antalet intervall bör inte vara för litet, eftersom histogrammet blir för jämnt ( överslätad), förlorar alla funktioner i variabiliteten av de ursprungliga data - i fig. 1.17 kan du se hur samma data som graferna i fig. 1.15 används för att konstruera ett histogram med ett mindre antal intervall (vänster graf).

Samtidigt bör antalet intervall inte vara för stort - annars kommer vi inte att kunna uppskatta distributionstätheten för de data som studeras längs den numeriska axeln: histogrammet kommer att visa sig vara underutjämnat (underslätad) med ofyllda intervall, ojämna (se fig. 1.17, höger graf).

Ris. 1.17.

Hur bestämmer man det mest föredragna antalet intervaller?

Tillbaka 1926 föreslog Herbert Sturges en formel för att beräkna antalet intervall i vilka det är nödvändigt att dela upp den initiala uppsättningen värden för det studerade attributet. Denna formel har verkligen blivit superpopulär - de flesta statistiska läroböcker erbjuder den, och många statistiska paket använder den som standard. Huruvida detta är motiverat och i alla fall är en mycket allvarlig fråga.

Så vad bygger Sturges formel på?

Överväga binomial fördelning/ O.Yu. Ermolaev. - M.: Flint Publishing House vid Moscow Psychological and Social Institute, 2012. - 335s.

Beroende på graden av variation kan man bedöma befolkningens homogenitet, stabiliteten hos individuella värden på egenskaper och genomsnittets typiska karaktär. På grundval av dem utvecklas indikatorer för närheten av förhållandet mellan tecknen, indikatorer för att bedöma noggrannheten av selektiv observation.

Det finns variation i rum och variation i tid.

Variation i rymden förstås som fluktuationen av värdena för en funktion i enheter av befolkningen som representerar separata territorier. Under tidsvariationen menas förändringen av attributets värden under olika tidsperioder.

För att studera variationen i distributionsserien är alla varianter av attributvärdena ordnade i stigande eller fallande ordning. Denna process kallas serierankning.

De enklaste tecknen på variation är minimum och maximum- det minsta och största värdet av attributet i aggregatet. Antalet upprepningar av individuella varianter av funktionsvärden kallas upprepningsfrekvensen (fi). Det är bekvämt att ersätta frekvenser med frekvenser - wi. Frekvens - en relativ indikator på frekvens, som kan uttryckas i bråkdelar av en enhet eller en procentsats och låter dig jämföra variationsserier med ett annat antal observationer. Uttryckt med formeln:

där Xmax, Xmin - de högsta och lägsta värdena för attributet i aggregatet; n är antalet grupper.

För att mäta variationen av en egenskap används olika absoluta och relativa indikatorer. De absoluta variationsindikatorerna inkluderar variationsintervallet, den genomsnittliga linjära avvikelsen, variansen, standardavvikelsen. De relativa fluktuationsindikatorerna inkluderar oscillationskoefficienten, den relativa linjära avvikelsen, variationskoefficienten.

Ett exempel på att hitta en variantserie

Träning. För detta prov:

  • a) Hitta en variationsserie;
  • b) Konstruera fördelningsfunktionen;

Nr.=42. Exempelobjekt:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Lösning.

  • a) konstruktion av en rankad variationsserie:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • b) konstruktion av en diskret variationsserie.

Låt oss beräkna antalet grupper i variationsserien med hjälp av Sturgess-formeln:

Låt oss ta antalet grupper lika med 7.

Genom att veta antalet grupper beräknar vi värdet på intervallet:

För att underlätta konstruktionen av tabellen tar vi antalet grupper lika med 8, intervallet kommer att vara 1.

Ris. 1 Volymen av försäljning av varor av butiken under en viss tidsperiod

Variationsserier: definition, typer, huvudegenskaper. Beräkningsmetod
mode, median, aritmetiskt medelvärde i medicinska och statistiska studier
(Visa på ett villkorligt exempel).

En variationsserie är en serie numeriska värden för egenskapen som studeras, som skiljer sig från varandra i sin storlek och är ordnade i en viss sekvens (i stigande eller fallande ordning). Varje numeriskt värde i serien kallas en variant (V), och siffrorna som visar hur ofta den eller den varianten förekommer i seriens sammansättning kallas frekvensen (p).

Det totala antalet fall av observationer, av vilka variationsserien består, betecknas med bokstaven n. Skillnaden i innebörden av de studerade egenskaperna kallas variation. Om variabeltecknet inte har ett kvantitativt mått kallas variationen för kvalitativ, och fördelningsserien kallas attributiv (till exempel fördelning efter sjukdomsutfall, hälsotillstånd etc.).

Om ett variabeltecken har ett kvantitativt uttryck kallas en sådan variation kvantitativ och fördelningsserien för variation.

Variationsserier delas in i diskontinuerliga och kontinuerliga - enligt karaktären av den kvantitativa egenskapen, enkel och viktad - enligt frekvensen av förekomsten av varianten.

I en enkel variationsserie förekommer varje variant endast en gång (p=1), i en viktad förekommer samma variant flera gånger (p>1). Exempel på sådana serier kommer att diskuteras längre fram i texten. Om det kvantitativa attributet är kontinuerligt, dvs. mellan heltalsvärden finns det mellanliggande bråkvärden, variationsserien kallas kontinuerlig.

Till exempel: 10,0 - 11,9

14,0 - 15,9 osv.

Om det kvantitativa tecknet är diskontinuerligt, dvs. dess individuella värden (alternativ) skiljer sig från varandra med ett heltal och har inga mellanliggande bråkvärden, variationsserien kallas diskontinuerlig eller diskret.

Använder data från föregående exempel om hjärtfrekvensen

för 21 elever kommer vi att bygga en variationsserie (tabell 1).

bord 1

Fördelning av läkarstudenter efter pulsfrekvens (bpm)

Att bygga en variationsserie innebär alltså att systematisera, effektivisera de befintliga numeriska värdena (alternativ), dvs. ordna i en viss sekvens (i stigande eller fallande ordning) med sina motsvarande frekvenser. I det aktuella exemplet är alternativen ordnade i stigande ordning och uttrycks som diskontinuerliga (diskreta) heltal, varje alternativ förekommer flera gånger, d.v.s. vi har att göra med en viktad, diskontinuerlig eller diskret variationsserie.

Som regel, om antalet observationer i den statistiska populationen vi studerar inte överstiger 30, är ​​det tillräckligt att ordna alla värden för egenskapen som studeras i en variationsserie i ökande ordning, som i tabellen. 1, eller i fallande ordning.

i stort antal observationer (n>30), antalet förekommande varianter kan vara mycket stort, i detta fall sammanställs ett intervall eller en grupperad variationsserie, där varianterna kombineras i grupper för att förenkla efterföljande bearbetning och förtydliga fördelningens karaktär. .

Vanligtvis varierar antalet gruppalternativ från 8 till 15.

Det måste finnas minst 5 av dem, eftersom. annars blir det för grov, överdriven förstoring, vilket förvränger den övergripande bilden av variation och i hög grad påverkar noggrannheten av medelvärdena. När antalet gruppalternativ är mer än 20-25, ökar noggrannheten för att beräkna medelvärdena, men funktionerna i variationen av attributet är avsevärt förvrängda och matematisk bearbetning blir mer komplicerad.

När man sammanställer en grupperad serie är det nödvändigt att ta hänsyn till

− variantgrupper måste placeras i en specifik ordning (stigande eller fallande);

- intervallen i variantgrupperna ska vara desamma;

− värdena för gränserna för intervallen bör inte sammanfalla, eftersom det kommer inte att vara klart i vilka grupper som ska tillskrivas individuella alternativ;

- det är nödvändigt att ta hänsyn till de kvalitativa egenskaperna hos det insamlade materialet när man anger gränserna för intervallen (till exempel när man studerar vuxnas vikt är ett intervall på 3-4 kg acceptabelt, och för barn under de första månaderna livslängd bör den inte överstiga 100 g.)

Låt oss bygga en grupperad (intervall)serie som kännetecknar data om pulsfrekvensen (antal slag per minut) för 55 läkarstudenter före tentamen: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

För att bygga en grupperad serie behöver du:

1. Bestäm värdet på intervallet;

2. Bestäm mitten, början och slutet av grupperna i variantseriens variant.

● Värdet på intervallet (i) bestäms av antalet förväntade grupper (r), vars antal ställs in beroende på antalet observationer (n) enligt en speciell tabell

Antal grupper beroende på antalet observationer:

I vårt fall är det för 55 elever möjligt att göra upp från 8 till 10 grupper.

Värdet på intervallet (i) bestäms av följande formel -

i = Vmax-Vmin/r

I vårt exempel är värdet på intervallet 82-58/8= 3.

Om intervallvärdet är ett bråktal ska resultatet avrundas uppåt till ett heltal.

Det finns flera typer av medelvärden:

● aritmetiskt medelvärde,

● geometriskt medelvärde,

● harmoniskt medelvärde,

● rotmedelvärde, kvadrat,

● medium progressiv,

● median

I medicinsk statistik används oftast aritmetiska medelvärden.

Det aritmetiska medelvärdet (M) är ett generaliserande värde som bestämmer det typiska värdet som är karakteristiskt för hela populationen. De huvudsakliga metoderna för att beräkna M är: den aritmetiska medelvärdesmetoden och metoden för moment (villkorliga avvikelser).

Metoden för aritmetiska medelvärden används för att beräkna det enkla aritmetiska medelvärdet och det viktade aritmetiska medelvärdet. Valet av metod för att beräkna det aritmetiska medelvärdet beror på typen av variationsserie. I fallet med en enkel variationsserie, där varje variant endast förekommer en gång, bestäms det enkla aritmetiska medelvärdet av formeln:

där: М – aritmetiskt medelvärde;

V är värdet på variabelfunktionen (alternativ);

Σ - indikerar åtgärden - summering;

n är det totala antalet observationer.

Ett exempel på beräkning av det aritmetiska medelvärdet är enkelt. Andningsfrekvens (antal andetag per minut) hos 9 män i åldern 35: 20, 22, 19, 15, 16, 21, 17, 23, 18.

För att bestämma den genomsnittliga nivån av andningsfrekvens hos män i åldern 35 år är det nödvändigt:

1. Bygg en variationsserie, placera alla alternativ i stigande eller fallande ordning. Vi fick en enkel variationsserie, eftersom variantvärden förekommer endast en gång.

M = ∑V/n = 171/9 = 19 andetag per minut

Slutsats. Andningsfrekvensen hos män i 35-årsåldern är i genomsnitt 19 andetag per minut.

Om individuella värden av en variant upprepas, finns det inget behov av att skriva ut varje variant på en rad; det räcker med att lista storlekarna på varianten som förekommer (V) och bredvid för att ange antalet repetitioner (p ). en sådan variationsserie, där optionerna så att säga är viktade efter det antal frekvenser som motsvarar dem, kallas den viktade variationsserien och det beräknade medelvärdet är det aritmetiskt vägda medelvärdet.

Det aritmetiskt vägda medelvärdet bestäms av formeln: M= ∑Vp/n

där n är antalet observationer lika med summan av frekvenser - Σr.

Ett exempel på beräkning av det aritmetiska vägda medelvärdet.

Varaktigheten av funktionshinder (i dagar) hos 35 patienter med akuta luftvägssjukdomar (ARI) som behandlades av en lokal läkare under det första kvartalet innevarande år var: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 dagar.

Metodiken för att bestämma den genomsnittliga varaktigheten av funktionshinder hos patienter med akuta luftvägsinfektioner är följande:

1. Låt oss bygga en viktad variationsserie, eftersom individuella variantvärden upprepas flera gånger. För att göra detta kan du ordna alla alternativ i stigande eller fallande ordning med deras motsvarande frekvenser.

I vårt fall är alternativen i stigande ordning.

2. Beräkna det aritmetiska vägda medelvärdet med formeln: M = ∑Vp/n = 233/35 = 6,7 dagar

Fördelning av patienter med akuta luftvägsinfektioner efter handikappets varaktighet:

Varaktighet av arbetsoförmåga (V) Antal patienter (p) vp
∑p = n = 35 ∑Vp = 233

Slutsats. Varaktigheten av funktionsnedsättningen hos patienter med akuta luftvägssjukdomar var i genomsnitt 6,7 dagar.

Mode (Mo) är den vanligaste varianten i variationsserien. För fördelningen som presenteras i tabellen motsvarar läget varianten lika med 10, det förekommer oftare än andra - 6 gånger.

Fördelning av patienter efter vistelsetid sjukhussäng(i dagar)

V
sid

Ibland är det svårt att bestämma det exakta värdet på läget, eftersom det kan finnas flera observationer i de data som studeras som inträffar "oftast".

Median (Me) är en icke-parametrisk indikator som delar upp variationsserien i två lika stora halvor: samma antal alternativ finns på båda sidor om medianen.

Till exempel, för fördelningen som visas i tabellen är medianen 10 eftersom på båda sidor om detta värde ligger på det 14:e alternativet, dvs. siffran 10 intar en central position i denna serie och är dess median.

Med tanke på att antalet observationer i detta exempel är jämnt (n=34), kan medianen bestämmas enligt följande:

Jag = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Det betyder att mitten av serien faller på det sjuttonde alternativet, vilket motsvarar en median på 10. För fördelningen som presenteras i tabellen är det aritmetiska medelvärdet:

M = ∑Vp/n = 334/34 = 10,1

Så, för 34 observationer från Tabell. 8, vi fick: Mo=10, Me=10, aritmetiskt medelvärde (M) är 10,1. I vårt exempel visade sig alla tre indikatorerna vara lika eller nära varandra, även om de är helt olika.

Det aritmetiska medelvärdet är den resulterande summan av alla influenser; alla varianter, utan undantag, deltar i dess bildning, inklusive extrema, ofta atypiska för ett givet fenomen eller en viss mängd.

Läge och median, i motsats till det aritmetiska medelvärdet, beror inte på värdet av alla individuella värden av variabelattributet (värdena för de extrema varianterna och graden av spridning av serien). Det aritmetiska medelvärdet karakteriserar hela massan av observationer, läget och medianen karakteriserar huvuddelen

Skick:

Det finns uppgifter om arbetstagares ålderssammansättning (år): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28 , 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Bygg en intervallfördelningsserie.
    2. Bygg en grafisk representation av serien.
    3. Bestäm grafiskt läge och median.

Lösning:

1) Enligt Sturgess-formeln ska populationen delas in i 1 + 3,322 lg 30 = 6 grupper.

Högsta ålder är 38, lägsta är 18.

Intervallbredd Eftersom ändarna på intervallen måste vara heltal kommer vi att dela in populationen i 5 grupper. Intervallbredd - 4.

För att underlätta beräkningarna, låt oss ordna data i stigande ordning: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29 , 29, 30, 30, 31, 32, 32, 33, 34, 35, 38, 38.

Åldersfördelning av arbetare

Grafiskt kan en serie visas som ett histogram eller en polygon. Histogram - stapeldiagram. Kolumnens bas är intervallets bredd. Stångens höjd är lika med frekvensen.

En polygon (eller distributionspolygon) är en graf över frekvenser. För att bygga den enligt histogrammet kopplar vi ihop mittpunkterna på rektanglarnas övre sidor. Vi stänger polygonen på x-axeln på avstånd lika med halva intervallet från de extrema x-värdena.

Mode (Mo) är värdet av egenskapen som studeras, som förekommer oftast i en given population.

För att bestämma läget från histogrammet måste du välja den högsta rektangeln, rita en linje från högra hörnet av denna rektangel till det övre högra hörnet av föregående rektangel och rita en linje från den vänstra hörn av den modala rektangeln till vänster vertex på nästa rektangel. Från skärningspunkten för dessa linjer, rita en vinkelrät mot x-axeln. Abskissan kommer att vara mode. Mo ≈ 27,5. Det betyder att den vanligaste åldern i denna population är 27-28 år.

Medianen (Me) är värdet på egenskapen som studeras, som är mitt i en ordnad variationsserie.

Vi hittar medianen genom kumuleringen. Cumulate - graf över ackumulerade frekvenser. Abskissor är varianter av en serie. Ordinaterna är de ackumulerade frekvenserna.

För att bestämma medianen för kumulatet hittar vi längs ordinataaxeln en punkt som motsvarar 50 % av de ackumulerade frekvenserna (i vårt fall 15), drar en rät linje genom den, parallell med Ox-axeln, och ritar en vinkelrät mot x-axeln från skärningspunkten med kumulatet. Abskissan är medianen. Jag ≈ 25,9. Det betyder att hälften av arbetarna i denna befolkning är under 26 år.