Болезни Военный билет Призыв

По статистическому ряду построить гистограмму частот. Дискретный статистический ряд. Общий вид статистических рядов распределения

Тема 9. Ряды распределения

Статистические ряды распределения – это первичная характеристика массовой статистической совокупности, упорядоченное разложение единиц изучаемой совокупности на группы по группировочному признаку. Любой статистический ряд распределения состоит из двух элементов:

1) отдельных значений варьирующего признака (вариантов );

2) величин, которые показывают, сколько раз повторяется данная варианта (частот ).

Примечание . Частоты, выраженные в долях единицы или в процентах к итогу, называются частостями ; это численность ряда распределения выражается суммой частот .

Если за основу группировки взят качественный признак, то такой ряд распределения называют атрибутивным (распределение по видам труда, по полу, по профессии, по религиозному признаку, национальной принадлежности и т.д.). Если ряд распределения построен по количественному признаку, то такой ряд называют вариационным . Построить вариационный ряд - значит упорядочить количественное распределение единиц совокупности по значениям признака, а затем подсчитать числа единиц совокупности с этими значениями (построить групповую таблицу).

Выделяют три формы вариационного ряда :

1) ранжированный ряд - это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака; ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются; другие формы вариационного ряда - групповые таблицы , составленные по характеру вариации значений изучаемого признака;

2) дискретный ряд - это такой вариационный ряд, в основу построения которого положены признаки с прерывным изменением, между которыми нет промежуточных значений (дискретные признаки - тарифный разряд, количество детей в семье, число работников на предприятии и т.д.); эти признаки могут принимать только конечное число определенных значений;

Дискретный ряд представляет собой групповую таблицу , которая состоит из двух граф: в первой графе указывается конкретное значение признака, а во второй - число единиц совокупности с определенным значением признака;

3) если признак имеет непрерывное изменение (размер дохода, стаж работы, стоимость основных фондов предприятия и т.д., которые в определенных границах могут принимать любые значения), то для этого признака нужно строить интервальный ряд (с равными или неравными интервалами).

Групповая таблица здесь также имеет две графы. В первой указывается значение признака в интервале «от - до» (варианты), во второй - число единиц, входящих в интервал (частота). Очень часто таблица дополняется графой, в которой подсчитываются накопленные частоты S, которые показывают, какое количество единиц совокупности имеет значение признака не большее, чем данное значение. Частоты ряда f могут заменяться частностями w , выраженными в относительных числах (долях или процентах). Они представляют собой отношения частот каждого интервала к их общей сумме (9.1):



(9.1)

При построении вариационного ряда с интервальными значениями, прежде всего, необходимо установить величину интервала i, которая определяется как отношение размаха вариации R к числу групп n (9.2):

где R = x max - x min ; n = 1 + 3,322 lgN(формула Стерджесса ); N - общее число единиц совокупности.

Интервальные вариационные ряды могут быть построены и для признаков с дискретной вариацией. Нередко в статистическом исследовании указывать отдельное значение дискретного признака нецелесообразно, т.к. это, как правило, затрудняет рассмотрение вариации признака. Поэтому возможные дискретные значения признака распределяются по группам и подсчитываются соответствующие им частоты (частности). При построении интервального ряда по дискретному признаку границы смежных интервалов не повторяют друг друга: следующий интервал начинается со следующего по порядку (после верхнего значения предыдущего интервала) дискретного значения признака.

При сравнении частот ряда с неравными интервалами для характеристики их наполненности рассчитывают плотность распределения. Средняя плотность в интервале – это частное от деления частоты и частности на величину интервала. В первом случае плотность абсолютная, во втором – относительная. Средняя плотность показывает, сколько единиц или их процентов приходится на единицу измерения варианты. Частота, частность, плотность и накопленная частота – это различные функции от величины варианты.

В процессе анализа статистических данных , представленных рядами распределения, кроме знания о характере распределения (или структуре совокупности) могут вычисляться различные статистические показатели (числовые характеристики), которые в обобщенном виде отражают особенности распределения изучаемых признаков. Эти характеристики (показатели) могут быть разделены на 3 основные группы

1) характеристики центра распределения (средняя, мода, медиана);

2) характеристики степени вариации (вариационный размах, среднее линейное отклонение, дисперсия, среднее квадратическое отклонение, коэффициент вариации);

3) характеристики формы (типа) распределения (показатели эксцесса и асимметрии, ранговые характеристики, кривые распределения).

Наиболее надежный путь выявления закономерности распределения состоит в следующем:
1) увеличить количество наблюдаемых случаев (в соответствии с законом больших чисел, в таких рядах случайные отклонения от общей закономерности у индивидуальных значений будут взаимно погашаться);

2) первоначально совокупность разбить на максимальное возможное число групп, затем, постепенно сокращая число групп, оптимизировать группировку с точки зрения выявления закономерности распределения.

При реализации такого подхода закономерность, характерная для данного распределения будет выступать все более и более ясно, а ломаная линия, изображающая полигон, будет приближаться к некоторой плавной линии и в пределе должна превратиться в кривую линию.

Выборка, полученная при проведении экспериментального исследования, представляет собой неупорядочен­ный набор чисел, записанных в той последовательности, в которой производились измерения. Обычно выборка оформляется в виде таблицы, в первой строке (или столбце) которой стоит номер опыта i , а во второй (втором) - зафиксированное значение случайной величины признака. В таком виде выборка представляет собой первичную форму записи статистического материала, который может быть обработан различными способами. В качестве примера рассмотрим результаты, показанные на легкоатлетических соревнованиях толкателями ядра и приведенные в таблице 1. В первой строке этой таблицы записаны номера измерений, а во второй - их численные значения в метрах.

Таблица 1

Результаты соревнований в толкании ядра

x i 16,36 14,91 15,31 14,26 14,77 13,88 14,97 14,01 14,07 14,48
x i 14,44 14,81 13,81 15,15 15,23 15,69 14,29 14,15 14,57 13,92
x i 13,62 14,92 15,73 13,22 14,65 14,8 13,04 15,1 13,3

Как видно из таблицы 1, простая статистическая совокупность перестает быть удобной формой представления статистического материала даже при относительно небольшом объеме выборки: она является достаточно громоздкой и мало наглядной. Проанализировать полученные экспериментальные данные и тем более сделать какие-либо выводы на их основе весьма затруднительно. Исходя из этого, полученный статистический материал должен быть обработан для проведения дальнейшего исследования. Простейшим способом обработки выборки является ранжирование. Ранжированием называют расстановку вариант в порядке возрастания или убывания их значений. Ниже в таблице 2 приведена ранжированная выборка, элементы которой расположены в порядке возрастания.

Таблица 2

Ранжированные результаты соревнований в толкании ядра

x i 13,04 13,22 13,3 13,62 13,81 13,88 13,92 14,01 14,07 14,15
x i 14,26 14,29 14,44 14,48 14,57 14,65 14,77 14,8 14,81 14,91
x i 14,92 14,97 15,1 15,15 15,23 15,31 15,69 15,73 16,36

Но и в таком виде полученные экспериментальные данные плохо обозримы и мало пригодны для непосредственного анализа. Именно поэтому для придания статистическому материалу большей компактности и наглядности он должен быть подвергнут дальнейшей обработке – строится так называемый статистический ряд. Построение статистического ряда начинается с группировки.

Группировкой называется процесс упорядочения и систематизации данных, полученных в ходе проведения эксперимента, направленный на извлечение содержащейся в них информации. В процессе группировки осуществляется распределение вариант выборки по группам или интервалам группировки, каждый из которых содержит некоторый диапазон значений изучаемого признака. Процесс группировки начинается с разбиения всего диапазона варьирования признака на интервалы группировки.

Для каждой конкретной цели статистического исследования, объема рассматриваемой выборки и степени варьирования признака в ней существует оптимальное значение числа интервалов и ширины каждого из них. Ориентировочное значение оптимального числа интервалов k может быть определено, исходя из объема выборки п либо с помощью данных, приведенных в таблице 3., либо с помощью формулы Стэрджесса:

k = 1 + 3,322 lgn .

Таблица 3

Определение числа интервалов группировки

Получаемое по формуле значение k почти всегда оказывается дробной величиной, которую необходимо округлить до целого числа, поскольку количество интервалов не может быть дробным. Практика показывает, что, как правило, лучше округлять в меньшую сторону, ибо формула дает хорошие результаты при больших значениях n , а при малых - несколько завышенные.

Рассмотрим группировку вариант выборки на конкретном примере. Для этого обратимся к примеру с толкателями ядра (см. таблицы 1, 2). Определение числа интервалов группировки будем производить на основе данных, приведенных в таблице 3. При объеме выборки n =29 число интервалов целесообразно выбрать равным k =5 (формула Стэрджесса дает значение k =5,9).

Условимся использовать в рассматриваемом примере интервалы равной ширины. В этом случае после того, как число интервалов группировки определено, следует вычислить ширину каждого из них с помощью соотношения:

Здесь h - ширина интервалов, а х max и х min - соответственно максимальное и минимальное значение признака в выборке. Величины х max и х min определяются непосредственно по таблице исходных данных (см. таблицу 2). В рассматриваемом случае:

(м).

Здесь необходимо остановиться на точности определения ширины интервала. Возможны две ситуации: точность вычисленного значения h совпадает с точностью проведения эксперимента или превышает ее. В последнем случае возможно использование двух подходов для определения границ интервалов. С теоретической точки зрения наиболее правильно использовать полученное значение h для построения интервалов. Такой подход не внесет дополнительных искажений, связанных с обработкой экспериментальных данных. Однако для практических целей в статистических исследованиях, относящихся к физической культуре и спорту, принято округлять полученное значение h до точности измерения данных. Связано это с тем, что для наглядного представления получаемых результатов удобно, чтобы границами интервалов являлись возможные значения признака. Таким образом, полученное значение ширины интервалов следует округлить с учетом точности проводимого эксперимента. Особо отметим, что округление необходимо производить не в общепринятом математическом смысле, а в сторону увеличения, т.е. с избытком, чтобы не уменьшить общий диапазон варьирования признака - сумма ширины всех интервалов не должна быть меньше разности между максимальным и минимальным значениями признака. В рассматриваемом примере экспериментальные данные определены с точностью до сотых (0,01 м), поэтому полученное выше значение ширины интервалов следует округлить с избытком с точностью до сотых. В результате получаем:

h = 0,67 (м).

После определения ширины интервалов группировки следует определить их границы. Нижнюю границу первого интервала целесообразно принять равной минимальному значению признака в выборке x min:

x Н1 = x min .

В рассматриваемом примере x Н1 = 13,04 (м).

Для получения верхней границы первого интервала (x В1) следует к значению нижней границы первого интервала прибавить значение ширины интервала:

x В1 = х Н1 +h .

Заметим, что верхняя граница каждого интервала (здесь – первого) будет являться одновременно и нижней границей следующего (в данном случае второго) интервала: x Н2 = x В1 .

Подобным образом определяются значения нижних и верхних границ всех оставшихся интервалов:

x В i =x Н i +1 = x Н i +h .

В рассматриваемом примере:

x В1 = x Н2 = x Н1 +h =13,04+0,67=13,71 (м),

x В2 = x Н3 = x Н2 +h =13,71+0,67=14,38 (м),

x В3 = x Н4 = x Н3 +h =14,38+0,67=15,05 (м),

x В4 = x Н5 = x Н4 +h =15,05+0,67=15,72 (м),

x В5 = x Н5 +h =15,72+0,67=16,39 (м).

Перед группировкой вариант введем понятие срединного значения интервала x i , равного значению признака, равноудаленного от концов этого интервала. Учитывая, что оно отстоит от нижней границы на величину, равную половине ширины интервала, для его определения удобно воспользоваться соотношением:

x i = x Н i + h /2,

где x Н i - нижняя граница i -ro интервала, а h - его ширина. Срединные значения интервалов будут использоваться в дальнейшем при обработке сгруппированных данных.

После определения границ всех интервалов следует распределить выборочные варианты по этим интервалам. Но предварительно следует решить вопрос о том, к какому интервалу отнести значение, находящееся в точности на границе двух интервалов, т. е. когда значение варианты совпадает с верхней границей одного и нижней границей соседнего с ним интервала. В таком случае варианта может быть отнесена к любому из двух соседних интервалов и, для исключения неоднозначности при группировке, условимся в таких случаях относить варианты к верхнему интервалу. В пользу такого подхода можно привести следующий довод. Поскольку минимальное значение признака совпадает с нижней границей первого интервала и входит в этот интервал, то варианту, попадающую на границу двух интервалов, следует отнести к тому из них, значение нижней границы которого равно рассматриваемой варианте.

Перейдем к рассмотрению статистической таблицы - см. таблицу 4, которая состоит из семи столбцов.

Таблица 4

Табличное представление результатов в толкании ядра

В первых трех столбцах статистической таблицы содержатся соответственно номера интервалов группировки i , их границы x Н i - x В i и срединные значения интервалов x i .

В четвертом столбце располагаются частоты интервалов. Частотой интервала называется число, показывающее сколько вариант, т.е. результатов измерений попало в данный интервал. Для обозначения этой величины принято использовать символ n i . Сумма всех частот всех интервалов всегда равна объему выборки п ,что можно использовать для проверки правильности проведенной группировки.

Пятый столбец таблицы 4 предназначен для занесения в негонакопленной частоты интервала - числа, полученного суммированием частоты текущего интервала с частотами всех предыдущих интервалов. Накопленную частоту принято обозначать латинской буквой N i . Накопленная частота показывает, сколько вариант имеют значения не больше, чем верхняя граница интервала.

В шестой столбец таблицы помещается частость. Частостью называется частота, представленная в относительном выражении, т.е. отношение частоты к объему выборки. Сумма всех частостей всегда равна 1. Для обозначения частости используется символ f i :

f i =n i /n .

Частость интервала связана с вероятностью попадания случайной величины в этот интервал. Согласно теореме Бернулли, при неограниченном увеличении числа опытов частость события сходится по вероятности к его вероятности. Если понимать под событием попадание значения исследуемой величины в определенный интервал, то становится ясно, что при большом числе опытов частость интервала приближается к вероятности попадания измеряемой случайной величины в этот интервал.

И частота, и частость характеризуют повторяемость результатов в выборке. Сравнивая их статистическое значение, следует отметить, что информативность частости существенно выше, чем у частоты. Действительно, если, как, например, в таблице 4 частота второго интервала равна 8 и, значит, 8 результатов попало в этот интервал, то трудно понять - мало это или много; если в выборке 1000 вариант, то такая частота мала, а если 20, то велика. В таком случае для объективной оценки необходимо сопоставить значение частоты с объемом выборки. Если же воспользоваться частостью, то сразу можно сказать, какая доля результатов попала в рассматриваемый интервал (примерно 28% в приведенном примере). Поэтому частость дает более наглядное представление о повторяемости признака в выборке. Особо следует отметить другое важное достоинство частости. Ее использование позволяет сопоставлять выборки различного объема. Частота для таких целей не применима.

В седьмом столбце таблицы расположена накопленная частость. Накопленной частостью является отношение накопленной частоты к объему выборки. Накопленная частость обозначается буквой F i :

Накопленная частость показывает, какая доля вариант выборки имеет значения, не превосходящие значения верхней границы интервала.

Последняя строка статистической таблицы используется для контроля над проведением группировки.

После заполнения таблицы вернемся к определению статистического ряда. Как правило, статистический ряд оформляется в виде таблицы, в первой строке которой перечислены интервалы, а во второй – соответствующие им частости или частоты. Таким образом, статистическим рядом называется двойной числовой ряд, устанавливающий связь между численным значением исследуемого признака и его повторяемостью в выборке. Существенным достоинством статистических рядов является то, что они, в отличие от статистических совокупностей, дают наглядное представление о характерных особенностях варьирования признаков.


©2015-2019 сайт
Все права принадлежать их авторам. Данный сайт не претендует на авторства, а предоставляет бесплатное использование.
Дата создания страницы: 2016-08-20

Важнейшим этапом исследования социально-экономических явлений и процессов является систематизация первичных данных и получение на этой основе сводной характеристики всего объекта при помощи обобщающих показателей, что достигается путем сводки и группировки первичного статистического материала.

Статистическая сводка - это комплекс последовательных операций по обобщению конкретных единичных фактов, образующих совокупность, для выявления типичных черт и закономерностей, присущих изучаемому явлению в целом. Проведение статистической сводки включает следующие этапы :

  • выбор группировочного признака;
  • определение порядка формирования групп;
  • разработка системы статистических показателей для характеристики групп и объекта в целом;
  • разработка макетов статистических таблиц для представления результатов сводки.

Статистической группировкой называется расчленение единиц изучаемой совокупности на однородные группы по определенным существенным для них признакам. Группировки являются важнейшим статистическим методом обобщения статистических данных, основой для правильного исчисления статистических показателей.

Различают следующие виды группировок: типологические, структурные, аналитические. Все эти группировки объединяет то, что единицы объекта разделены на группы по какому-либо признаку.

Группировочным признаком называется признак, по которому проводится разбиение единиц совокупности на отдельные группы. От правильного выбора группировочного признака зависят выводы статистического исследования. В качестве основания группировки необходимо использовать существенные, теоретически обоснованные признаки (количественные или качественные).

Количественные признаки группировки имеют числовое выражение (объем торгов, возраст человека, доход семьи и т. д.), а качественные признаки группировки отражают состояние единицы совокупности (пол, семейное положение, отраслевая принадлежность предприятия, его форма собственности и т. д.).

После того, как определено основание группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность. Число групп зависит от задач исследования и вида показателя, положенного в основание группировки, объема совокупности, степени вариации признака.

Например, группировка предприятий по формам собственности учитывает муниципальную, федеральную и собственность субъектов федерации. Если группировка производится по количественному признаку, то тогда необходимо обратить особое внимание на число единиц исследуемого объекта и степень колеблемости группировочного признака.

Когда определено число групп, то следует определить интервалы группировки. Интервал - это значения варьирующего признака, лежащие в определенных границах. Каждый интервал имеет свою величину, верхнюю и нижнюю границы или хотя бы одну из них.

Нижней границей интервала называется наименьшее значение признака в интервале, а верхней границей - наибольшее значение признака в интервале. Величина интервала представляет собой разность между верхней и нижней границами.

Интервалы группировки в зависимости от их величины бывают: равные и неравные. Если вариация признака проявляется в сравнительно узких границах и распределение носит равномерный характер, то строят группировку с равными интервалами. Величина равного интервала определяется по следующей формуле :

где Хmax, Хmin - максимальное и минимальное значения признака в совокупности; n - число групп.

Простейшая группировка, в которой каждая выделенная группа характеризуется одним показателем представляет собой ряд распределения.

Статистический ряд распределения - это упорядоченное распределение единиц совокупности на группы по определенному признаку. В зависимости от признака, положенного в основу образования ряда распределения, различают атрибутивные и вариационные ряды распределения.

Атрибутивными называют ряды распределения, построенные по качественным признакам, то есть признакам, не имеющим числового выражения (распределение по видам труда, по полу, по профессии и т.д.). Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам. Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры.

Вариационными рядами называют ряды распределения, построенные по количественному признаку. Любой вариационный ряд состоит из двух элементов: вариантов и частот. Вариантами называются отдельные значения признака, которые он принимает в вариационном ряду, то есть конкретное значение варьирующего признака.

Частотами называются численности отдельных вариант или каждой группы вариационного ряда, то есть это числа, которые показывают, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот определяет численность всей совокупности, ее объем. Частостями называются частоты, выраженные в долях единицы или в процентах к итогу. Соответственно сумма частостей равна 1 или 100%.

В зависимости от характера вариации признака различают три формы вариационного ряда: ранжированный ряд, дискретный ряд и интервальный ряд.

Ранжированный вариационный ряд - это распределение отдельных единиц совокупности в порядке возрастания или убывания исследуемого признака. Ранжирование позволяет легко разделить количественные данные по группам, сразу обнаружить наименьшее и наибольшее значения признака, выделить значения, которые чаще всего повторяются.

Дискретный вариационный ряд характеризует распределение единиц совокупности по дискретному признаку, принимающему только целые значения. Например, тарифный разряд, количество детей в семье, число работников на предприятии и др.

Если признак имеет непрерывное изменение, которые в определенных границах могут принимать любые значения («от - до»), то для этого признака нужно строить интервальный вариационный ряд . Например, размер дохода, стаж работы, стоимость основных фондов предприятия и др.

Примеры решения задач по теме «Статистическая сводка и группировка»

Задача 1 . Имеется информация о количестве книг, полученных студентами по абонементу за прошедший учебный год.

Построить ранжированный и дискретный вариационные ряды распределения, обозначив элементы ряда.

Решение

Данная совокупность представляет собой множество вариантов количества получаемых студентами книг. Подсчитаем число таких вариантов и упорядочим в виде вариационного ранжированного и вариационного дискретного рядов распределения.

Задача 2 . Имеются данные о стоимости основных фондов у 50 предприятий, тыс. руб.

Построить ряд распределения, выделив 5 групп предприятий (с равными интервалами).

Решение

Для решения выберем наибольшее и наименьшее значения стоимости основных фондов предприятий. Это 30,0 и 10,2 тыс. руб.

Найдем размер интервала: h = (30,0-10,2):5= 3,96 тыс. руб.

Тогда в первую группу будут входить предприятия, размер основных фондов которых составляет от 10,2 тыс. руб. до 10,2+3,96=14,16 тыс. руб. Таких предприятий будет 9. Во вторую группу войдут предприятия, размер основных фондов которых составит от 14,16 тыс. руб. до 14,16+3,96=18,12 тыс. руб. Таких предприятий будет 16. Аналогично найдем число предприятий, входящих в третью, четвертую и пятую группы.

Полученный ряд распределения поместим в таблицу.

Задача 3 . По ряду предприятий легкой промышленности получены следующие данные:

Произведите группировку предприятий по числу рабочих, образуя 6 групп с равными интервалами. Подсчитайте по каждой группе:

1. число предприятий
2. число рабочих
3. объем произведенной продукции за год
4. среднюю фактическую выработку одного рабочего
5. объем основных средств
6. средний размер основных средств одного предприятия
7. среднюю величину произведенной продукции одним предприятием

Результаты расчета оформите в таблицы. Сделайте выводы.

Решение

Для решения выберем наибольшее и наименьшее значения среднесписочного числа рабочих на предприятии. Это 43 и 256.

Найдем размер интервала: h = (256-43):6 = 35,5

Тогда в первую группу будут входить предприятия, среднесписочное число рабочих на которых составляет от 43 до 43+35,5=78,5 человек. Таких предприятий будет 5. Во вторую группу войдут предприятия, среднесписочное число рабочих на которых составит от 78,5 до 78,5+35,5=114 человек. Таких предприятий будет 12. Аналогично найдем число предприятий, входящих в третью, четвертую, пятую и шестую группы.

Полученный ряд распределения поместим в таблицу и вычислим необходимые показатели по каждой группе:

Вывод : Как видно из таблицы, вторая группа предприятий является самой многочисленной. В нее входят 12 предприятий. Самыми малочисленными являются пятая и шестая группы (по два предприятия). Это самые крупные предприятия (по числу рабочих).

Поскольку вторая группа самая многочисленная, объем произведенной продукции за год предприятиями этой группы и объем основных средств значительно выше других. Вместе с тем средняя фактическая выработка одного рабочего на предприятиях этой группы наибольшей не является. Здесь лидируют предприятия четвертой группы. На эту группу приходится и довольно большой объем основных средств.

В заключении отметим, что средний размер основных средств и средняя величина произведенной продукции одного предприятия прямо пропорциональны размерам предприятия (по числу рабочих).

При систематизации данных выборочных обследований используются статистические дискретные и интервальные ряды распределения.

1. Статистическое дискретное распределение. Полигон.
Пусть из генеральной совокупности извлечена выборка, причем х 1 наблюдалось n 1 раз, х 2 – n 2 раз, х k – n k раз и ∑n i =n - объем выборки. Наблюдаемые значения х 1 называют вариантами, а последовательность вариант, записанных в возрастающем порядке – вариационным рядом. Число наблюдений варианты называют частотой, а ее отношение к объему выборки - относительной частотой n i /n=w i

ОПРЕДЕЛЕНИЕ. Статистическим (эмпирическим) законом распределения выборки, или просто статистическим распределением выборки называют последовательность вариант х i и соответствующих им частот n i или относительных частот w i .

Статистическое распределение выборки удобно представлять в форме таблицы распределения частот, называемой статистическим дискретным рядом распределения:

(сумма всех относительных частот равна единице ∑w i =1)

Пример 1. При измерениях в однородных группах обследуемых получены следующие выборки: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72, 74 (частота пульса). Составить по этим результатам статистический ряд распределения частот и относительных частот.

Решение. 1) Статистический ряд распределения частот:

x i 70 71 72 73 74
n i 2 4 8 2 4

2) Объем выборки: n=2+4+8+2+4=20. Найдем относительные частоты, для чего разделим частоты на объем выборки n i /n=w i: w i =2/20=0.1; w 2 =4/20=0.2; w 3 =0.4; w 4 =4/20=0.1; w 5 =2/20=0.2. Напишем распределение относительных частот:

x i 70 71 72 73 74
w i 0.1 0.2 0.4 0.1 0.2

Контроль: 0,1+0,2+0,4+0,1+0,2=1.

Полигоном частот называют ломаную, отрезки, которой соединяют точки (х 1 ,n 1),(х 2 ,n 2),...,(х k ,n k). Для построения полигона частот на оси абсцисс откладывают варианты х 2 , а на оси ординат – соответствующие им частоты n i . Точки (х i ,n i) соединяют отрезками и получают полигон частот.

Полигоном относительных частот называют ломаную, отрезки, которой соединяют точки (х 1 ,w 1),(х 2 ,w 2),...,(х k ,w k). Для построения полигона относительных частот на оси абсцисс откладывают варианты х i , а на оси ординат соответствующие им частоты w i . Точки (х i ,w i) соединяют отрезками и получают полигон относительных частот.

Пример 2. Постройте полигон частот и относительных частот по данным примера 1.
Решение: Используя дискретный статистический ряд распределения, составленный в примере 1 построим полигон частот и полигон относительных частот:

2. Статистический интервальный ряд распределения. Гистограмма. Статистическим дискретным рядом (или эмпирической функцией распределения) обычно пользуются в том случае, когда отличных друг от друга вариант в выборке не слишком много, или тогда, когда дискретность по тем или иным причинам существенна для исследователя. Если же интересующий нас признак генеральной совокупности Х распределен непрерывно или его дискретность нецелесообразно (или невозможно) учитывать, то варианты группируются в интервалы.

Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).

Замечание. Часто h i -h i-1 =h при всех i, т.е. группировку осуществляют с равным шагом h. В этой ситуации можно руководствоваться следующими эмперическими рекомендациями по выборке а, k и h i:

1. R размах =X max -X min
2. h=R/k; k-число групп
3. k≥1+3.321lgn (формула Стерджеса)
4. a=x min , b=x max
5. h=a+ih, i=0,1...k

Полученную группировку удобно представить в форме частотной таблицы, которая носит название статистический интервальный ряд распределения:

Аналогическую таблицу можно образовать, заменяя частоты ni относительными частотами:

Пример 3. Из очень большой партии деталей извлечена случайная выборка объема 50 интересующий нас признак Х-размеры деталей, измеренные с точностью до 1см, представлен следующим вариоционным рядом: 22, 47, 26, 26, 30, 28, 28, 31, 31, 31, 32, 32, 33, 33, 33, 33, 34, 34, 34, 34, 34, 35, 35, 36, 36, 36, 36, 36, 37, 37, 37, 37, 37, 37, 38, 38, 40, 40, 40, 40, 40, 41, 41, 43, 44, 44, 45, 45, 47, 50. Найти статистический интервальный ряд распределения.

Решение. Определим характеристики группировки с помощью замечания.
k≥1+3.321lg50=1+3.32lg(5 10)=1+3.32(lg5+lg10)=6.6
Имеем, a=22, k=7, h=(50-22)/7=4, h i =22+4i, i=0,1,…,7.

Интервалы группировки 22-26 26-30 30-34 34-38 38-42 42-46 46-50
Частоты n i 1 4 10 18 9 5 3
Отн.частоты w i 0.02 0.08 0.2 0.36 0.18 0.1 0.06

Десятичные логарифмы от 1 до 10

n 1 2 3 4 5 6 7 8 9 10
lnn 0 0.3 0.48 0.6 0.7 0.78 0.85 0.9 0.95 1

Наиболее информативной графической формой частот является специальный график, называемы гистограммой частот.

Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению n i /h (плотность частоты).

Для построения гистограммы частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии n i /h. Площадь i-го частичного прямоугольника равна h n i /h=n i - сумме частот вариант i-го интервала; следовательно, площадь гистограммы частот равна сумме всех частот, т.е. объему выборки.

Гистограммой относительных частот называют ступенчатую фигуру, состоящую из прямоугольников, основаниями которых служат частичные интервалы длиною h, а высоты равны отношению w i /h (плотность относительной частоты).

Для построения гистограммы относительных частот на оси абсцисс откладывают частичные интервалы, а над ними проводят отрезки, параллельные оси абсцисс на расстоянии w i /h. Площадь i-го частичного прямоугольника равна h w i /h=w i - относительной частоте вариант, попавших в i-й интервал. Следовательно, площадь гистограммы относительных частот равна сумме всех относительных частот, т.е. единице.

Пример 4. Постройте гистограмму частот и относительных частот по данным примера 3.

Выборочная медиана – это середина вариационного ряда, значение, расположенное на одинаковом расстоянии от левой и правой границы выборки.

Выборочная мода – это наиболее вероятное, т.е. чаще всего встречающееся, значение в выборке.

Статистический ряд распределения - упорядоченное распределение единиц совокупности на группы по определенному признаку. Он характеризует состав (структуру) изучаемого явления, позволяет судить об однородности совокупности, закономерности распределения и границах варьирования единиц совокупности.

Ряды распределения, построенные по атрибутивным (качественным) признакам, называются атрибутивными (распределение населения по полу, занятости, национальности, профессии и т.д.).

Ряды распределения, построенные по количественному признаку, называются вариационными (распределение населения по возрасту, рабочих – по стажу работы, зарплате и т.д.). Вариационные ряды распределения состоят из двух элементов: вариантов и частот. Варианты – отдельные значения признака, которые он принимает в ряду. Частоты – это численность отдельных вариантов или каждой группы вариационного ряда, т.е. это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот называется объемом совокупности и определяет число элементов всей совокупности. Частости – это частоты, выраженные в долях единиц или в % к итогу.

Вариационные ряды в зависимости от характера вариации подразделяются на дискретные и интервальные. Дискретные вариационные ряды основаны на дискретных (прерывных) признаках, имеющих только целые значения, на дискретных признаках, представленных в виде интервалов. Интервальные вариационные ряды основаны на непрерывных признаках (имеющих любые значения, даже дробные).

7. Табличное и графическое представление статистических данных.

Результаты сводки и группировки излагаются в виде таблиц. Таблица – рациональная, наглядная и компактная форма стат.материала.

Статистическая таблица – таблица, содержащая результаты подсчета практических данных и является итогом сводки первоначальной информации.

Таблица характеризует совокупность по одному или нескольким признакам, взаимосвязанным логикой.

Статистическая таблица имеет свое подлежащее и сказуемое. Подлежащее – объект, характеризующийся цифрами. Сказуемое таблицы - система показателей.

Таблицы бывают простые и сложные. В простой таблице дается простой перечень объектов. Сложная таблица содержит группировку единиц совокупности одновременно по 2-м и более признакам. Таблица д/б компактной, заголовки краткими, информация в столбцах и графах должна завершаться итоговой строкой. Графы и строки должны иметь единицы измерения, затем необходимо провести четную и логическую проверку таблицы.

Статистический график – чертеж, на котором стат.совокупности, характеризуемые определенными показателями описываются с помощью условных геометрических образов или знаков. При построении графика необходимо соблюдать требования: наглядность, выразительность, понятность. Поле графика – часть плоскости, где расположены графические образы. Виды графиков: линейные, столбиковые, полосовые, круговые, секторные, фигурные, точечные, объемные, применяются диаграммы и стат.карты. Картограмма – схематическая географическая карта, на которой выделены отрасли промышленности или структура состава населения.