Болезни Военный билет Призыв

Что такое количество эмпирических распределений. Эмпирическая функция распределения. Последовательность обработки данных

Указания к выполнению и оформлению лабораторных работ

Работы выполняются на листах формата А-4. На титульном листе записывается название работы, фамилия и имя исполнителя, группа, отделение, текущий год и семестр.

Чертежи, схемы, рисунки, таблицы выполняются с помощью чертежных инструментов. Все они должны сопровождаться названиями и необходимыми надписями. Текущий текст пишется ручкой. Важные места работы можно выделять цветом. Работы можно оформлять на компьютере.

При выполнении работы во всех случаях записываются применяемые формулы, промежуточные вычисления, даются необходимые письменные пояснения. Особо выделяются получаемые результаты при обработке данных.

В конце каждой работы приводится письменный анализ полученных результатов, выдвигаются гипотезы, делаются выводы и обобщения, стоятся прогнозы.

Отбор числового материала для выполнения работ

Работы 1-2 .

Ч исловые данные выбираются из таблицы "Статистические данные". Она находится в приложении к данному комплекту работ. Вариант сообщает преподаватель.

Работа 3.

Исходные числовые данные совпадают с числовыми данными, использованными при выполнении работы 1.

Работа 4.

Требуется две группы числовых данных: показатель Х и показатель У. Показатель Х совпадает с числовыми данными, использованными при выполнении первой работы. Показатель У берется из следующей строки таблицы "Статистические данные", по отношении к строке, использованной в первой работе.

Работа 5

Требуется две группы числовых данных: тест и ретест. Тест совпадает с числовыми данными, использованными при выполнении первой работы. Значения ретеста берутся из второй строки таблицы "Статистические данные", по отношении к строке, использованной в первой работе.

Работа 6

Требуется 5 групп данных (5 тестов). Работа выполняется для 7 спортсменов. Имена их выбираются самостоятельно, фамилии при этом не упоминаются

Для получения значений теста "масса тела", надо взять числовые данные строки таблицы "Статистические данные", использованной в работе 1 и увеличить каждое из них их на одно и тоже число, взятое из промежутка 50 – 100. Полученные числа округлить до целых значений. Обратить внимание на то, что значения массы были правдоподобными.

Для получения значений теста "рост", надо взять числовые данные строки таблицы "Статистические данные", использованной в работе 1 и увеличить каждое из них их на одно и тоже число, взятое из промежутка 100 - 150 Полученные числа округлить до целых значений. Обратите внимание на то, что бы значения роста были правдоподобными.

Откорректируйте полученную Массу и Рост до правдоподобных их значений.

Остальные пять тестов и их числовые значения выбираются самостоятельно.

Работа 7,

Требуется один тест и два критерия. Значения теста берется из строки 33 таблицы "Статистические данные". Для первого критерия берутся числовые данные из строки, которая использовалась при выполнении первой работы. Для второго критерия берется следующая строка таблицы "Статистические данные", по отношении к строке, использованной в первой работе.

Тема 1. Обработка статистического материала методом средних величин

Теоретические сведения

Обработка статистических данных методом средних величин является наиболее популярным среди работников физической культуры и спорта. Он заключается в получении ряда средних показателей, которые позволяют анализировать статистические данные.

а). Первичная обработка поступающих данных

Устанавливается объем выборки, а именно определяется число обрабатываемых данных. Надо иметь в виду, что, чем больше объем выборки, тем точнее получаемые показатели и тем сложнее вести вычисления. В процессе соревнований или иных действий (используются протоколы соревнований) данные поступают в произвольном порядке. Для удобства рекомендуется ведение записей данных в виде таблицы по пять или десять чисел в каждой строчке, что облегчает установления их числа.

б). Построение вариационного ряда (вариационной таблицы ) и определение их параметров и численных характеристик для рассматриваемой совокупности.

Каждый вариационный ряд представляет собой математическую систему, т.е. группу чисел, связанных между собой. Такую систему характеризуется следующими показателями:

~ среднее арифметическое, обозначается: , X сред, , Х ср, х ср

~ дисперсия, обозначается: d или s 2

~ среднее квадратичное отклонение, обозначается: s

~ коэффициент вариации, обозначается: u

2. Последовательность обработки данных:

1. Ранжирование данных.

Данные, взятые из таблицы (см. приложение) запишите в удобном для Вас порядке

а). Строится таблица ранжирования по образцу таблицы 1-1.

В первом столбике записывается числовые значения показателей в порядке возрастания. Рекомендуется записать последовательно все значения от минимального показателя до максимального показателя. Соседние значения могут отличаться на значение точности измерений.

Во втором столбике делается отметка о наличии таковых показателей в выборке. Для этого ставится палочка (звездочка, точка или иной знак) против соответствующего показателя при последовательном просмотре выборки. Некоторые строчки в данном столбике могут оказаться пустыми.

В третьем столбике записывается число встречаемых одинаковых показателей.

б). На основе таблицы 1-1 строится обобщенная таблица 1-2, состоящая из двух столбиком.

Первый (левый) столбик состоит из собственных показателей – вариант. Он обозначается чрез x i и содержит значения очередного показателя.

Второй (правый) столбик содержит число показателей (вариант), называемых частотой Он показывает число соответствующих одинаковых показателей и обозначается через n i

Сумма частот определяет объемом совокупности.

Замечание. Собственный показатель и частота обозначаются латинскими буквами, индекс показывает на номер множества, которому принадлежит соответствующий показатель. Объем совокупности обозначается буквой без индекса. Например, n=40. При одновременном рассмотрении нескольких вариационных рядов, рекомендуется использовать различные буквы.

2. Вычисление среднего арифметического.

Эта характеристика является показателем, который вычисляется наиболее просто и поэтому часто используется исследователями.

, n – объем совокупности; x 1 , x 2 …x n – показатели, взятые из первоначальной таблицы 1-1.

Для вычисления среднего арифметического удобно составить таблицу 1-3 и тогда формула вычисления среднего арифметического имеет вид:

X сред = , где x i – частота; n – объем совокупности

В дальнейшем будут рассмотрены и другие характеристики вариационного ряда.

Замечания:

1. Таблица 3 является частью таблицы 4, поэтому их можно объединить.

2. Точность полученных при вычислениях результатов вычислений и точность измерений должны совпадать. (Иметь одинаковое число десятичных знаков после запятой). Промежуточные результаты должны иметь более высокую точность: одну - две запасные цифры. Окончательный результат округляется до необходимой точности. Если округление с необходимой точность приводит к нулевому результату, то округление проводится до первой значащей цифры, отличной от нуля, считая слева.

3. Вычисление дисперсии.

Дисперсия указывает на варьирование (рассеивание) исходных данных относительно среднего арифметического. Дисперсия обозначается буквами d или σ 2 ивычисляется по формуле:

d =

1. Вычерчивается макет таблицы 1-4, в который вносятся данные полученные ранее. Это, например, с первого по четвертый столбики. Остальные - заполняется по мере проведения вычислений. Обращаем внимание на то, что в этой таблице первые четыре столбика повторяют предыдущую таблицу 1-3. Поэтому, если исследователь заранее планирует вычисление дисперсии, то таблицу1-3 можно отдельно не приводить

2. Определяется X сред

3. Заполняется пятый столбик таблицы 1-4, для этого из каждого показателя второго столбика вычитаются средний показатель: х i - x сред

4. Найденные разности, это показатели пятого столби, возводятся в квадрат: (х i - x сред) 2 и вносятся в шестой столбик таблицы 1-4

5. Полученные квадраты (столбик 6) умножаются на соответствующие частоты (столбик 3), результаты вносятся в последний столбик таблицы 1-4: именно, (х i - x сред) 2 ·n i .

6. Находится сумма S полученных произведений – суммируется последний столбик этой таблицы.

7. Полученная сумма S делится на объем совокупности n=25. Полученный результат и есть дисперсия. Округляется до точности исходных (обрабатываемых) показателей.

4. Вычисление среднего квадратичного отклонения

Средне квадратичное значение вычисляется по формуле s = =

5.Вычисление коэффициента вариации.

Коэффициент вариации вычисляется по формуле: , если коэффициент представляется в виде процентов. Если надо представить его в виде десятичной дроби, то в формуле отсутствует множитель 100%

6. Анализ полученных показателей

Основными параметрами вариационного ряда являются среднее арифметическое, среднее квадратичное, коэффициент дисперсии.

Составляется неравенство

A < X сред < B, где А = X сред - s, В = X сред + s

или X сред - s < X сред < В = X сред + s

Из этих характеристик усматриваются типичные показатели, которые входят в промежуток (A; В) и нетипичные, которыми не входят в указанный промежуток. Можно рекомендовать к рассмотрению промежуток , т.е. включаются границы промежутка.

Эмпирическая функция распределения

Методы обработки ЭД опираются на базовые понятия теории вероятностей и математической статистики. К их числу относятся понятия генеральной совокупности, выборки, эмпирической функции распределения .

Под генеральной совокупностью понимают все возможные значения параметра, которые могут быть зарегистрированы в ходе неограниченного по времени наблюдения за объектом. Такая совокупность состоит из бесконечного множества элементов. В результате наблюдения за объектом формируется ограниченная по объему совокупность значений параметра x 1 , x 2 , …, x n . С формальной точки зрения такие данные представляют собой выборку из генеральной совокупности .

Будем считать, что выборка содержит полные наработки до системных событий (цензурирование отсутствует). Наблюдаемые значения x i называют вариантами , а их количество – объемом выборки n . Для того чтобы по результатам наблюдения можно было делать какие-либо выводы, выборка должна быть репрезентативной (представительной), т. е. правильно представлять пропорции генеральной совокупности. Это требование выполняется, если объем выборки достаточно велик, а каждый элемент генеральной совокупности имеет одинаковую вероятность попасть в выборку.

Пусть в полученной выборке значение x 1 параметра наблюдалось n 1 раз, значение x 2 – n 2 раз, значение x k n k раз, n 1 +n 2 + … +n k =n .

Совокупность значений, записанных в порядке их возрастания, называют вариационным рядом , величины n i – частотами , а их отношения к объему выборки n i =n i /n относительными частотами (частостями). Очевидно, что сумма относительных частот равна единице.

Под распределением понимают соответствие между наблюдаемыми вариантами и их частотами или частостями. Пусть n x – количество наблюдений, при которых случайные значения параметра Х меньше x. Частость события Xравна n x /n . Это отношение является функцией от x и от объема выборки: F n (x )=n x /n . Величина F n (x ) обладает всеми свойствами функции:

распределения: F n (x ) неубывающая функция, ее значения принадлежат отрезку ;

если x 1 – наименьшее значение параметра, а x k – наибольшее, то F n (x )= 0, когда x <x 1 , и F п (x k )= 1, когда x >=x k .

Функция F n (x ) определяется по ЭД, поэтому ее называют эмпирической функцией распределения . В отличие от эмпирической функции F n (x ) функцию распределения F (x ) генеральной совокупности называют теоретической функцией распределения, она характеризует не частость, а вероятность события X <x . Из теоремы Бернулли вытекает, что частость F n (x ) стремится по вероятности к вероятности F (x ) при неограниченном увеличении n . Следовательно, при большом объеме наблюдений теоретическую функцию распределения F (x ) можно заменить эмпирической функцией F n (x ).

График эмпирической функции F n (x ) представляет собой ломаную линию. В промежутках между соседними членами вариационного ряда F n (x ) сохраняет постоянное значение. При переходе через точки оси x , равные членам выборки, F n (x ) претерпевает разрыв, скачком возрастая на величину 1/n , а при совпадении l наблюдений – на l /n .

Пример 2.1 . Построить вариационный ряд и график эмпирической функции распределения по результатам наблюдений, табл. 2.1.

Таблица 2.1

Искомая эмпирическая функция, рис. 2.1:

Рис. 2.1. Эмпирическая функция распределения

При большом объеме выборки (понятие «большой объем» зависит от целей и методов обработки, в данном случае будем считать п большим, если n >40) в целях удобства обработки и хранения сведений прибегают к группированию ЭД в интервалы. Количество интервалов следует выбрать так, чтобы в необходимой мере отразилось разнообразие значений параметра в совокупности и в то же время закономерность распределения не искажалась случайными колебаниями частот по отдельным разрядам. Существуют нестрогие рекомендации по выбору количества y и размера h таких интервалов, в частности:

в каждом интервале должно находиться не менее 5 – 7 элементов. В крайних разрядах допустимо всего два элемента;

количество интервалов не должно быть очень большим или очень маленьким. Минимальное значение y должно быть не менее 6 – 7. При объеме выборки, не превышающем несколько сотен элементов, величину y задают в пределах от 10 до 20. Для очень большого объема выборки (n >1000) количество интервалов может превышать указанные значения. Некоторые исследователи рекомендуют пользоваться соотношением y=1,441*ln(n )+1;

при относительно небольшой неравномерности длины интервалов удобно выбирать одинаковыми и равными величине

h= (x max – x min)/y,

где x max – максимальное и x min – минимальное значение параметра. При существенной неравномерности закона распределения длины интервалов можно задавать меньшего размера в области быстрого изменения плотности распределения;

при значительной неравномерности лучше в каждый разряд назначать примерно одинаковое количество элементов выборки. Тогда длина конкретного интервала будет определять крайними значениями элементов выборки, сгруппироваными в этот интервал, т.е. будет различна для разных интервалов (в этом случае при построении гистограммы нормировка по длине интервала обязательна - в противном случае высота каждого элемента гистограммы будет одинакова).

Группирование результатов наблюдений по интервалам предусматривает: определение размаха изменений параметра х ; выбор количества интервалов и их величины; подсчет для каждого i- го интервала [x i x i +1 ] частоты n i или относительной частоты (частости n i ) попадания варианты в интервал. В результате формируется представление ЭД в виде интервального или статистического ряда .

Графически статистический ряд отображают в виде гистограммы, полигона и ступенчатой линии. Часто гистограмму представляют как фигуру, состоящую из прямоугольников, основаниями которых служат интервалы длиною h , а высоты равны соответствующей частости. Однако такой подход неточен. Высоту i- го прямоугольника z i следует выбрать равной n i / (nh ). Такую гистограмму можно интерпретировать как графическое представление эмпирической функции плотности распределения f n (x ), в ней суммарная площадь всех прямоугольников составит единицу. Гистограмма помогает подобрать вид теоретической функции распределения для аппроксимации ЭД.



Полигоном называют ломаную линию, отрезки которой соединяют точки с координатами по оси абсцисс, равными серединам интервалов, а по оси ординат – соответствующим частостям. Эмпирическая функция распределения отображается ступенчатой ломаной линией: над каждым интервалом проводится отрезок горизонтальной линии на высоте, пропорциональной накопленной частости в текущем интервале. Накопленная частость равна сумме всех частостей, начиная с первого и до данного интервала включительно.

Пример 2.2 . Имеются результаты регистрации значений затухания сигнала x i на частоте 1000 Гц коммутируемого канала телефонной сети. Эти значения, измеренные в дБ, в виде вариационного ряда представлены в табл. 2.3. Необходимо построить статистический ряд.

Таблица 2.3

i
x i 25,79 25,98 25,98 26,12 26,13 26,49 26,52 26,60 26,66 26,69 26,74
i
x i 26,85 26,90 26,91 26,96 27,02 27,11 27,19 27,21 27,28 27,30 27,38
i
x i 27,40 27,49 27,64 27,66 27,71 27,78 27,89 27,89 28,01 28,10 28,11
i
x i 28,37 28,38 28,50 28,63 28,67 28,90 28,99 28,99 29,03 29,12 29,28

Решение . Количество разрядов статистического ряда следует выбрать минимальным, чтобы обеспечить достаточное количество попаданий в каждый из них, возьмем y = 6. Определим размер разряда

h = (x max – x min)/y =(29,28 – 25,79)/6 = 0,58.

Сгруппируем наблюдения по разрядам, табл. 2.4.

Таблица 2.4

i
x i 25,79 26,37 26,95 27,5 3 28,12 28,70
n i
n i =n i /n 0,114 0,205 0,227 0,205 0,11 4 0,136
z i = n i /h 0,196 0,353 0,392 0,353 0,196 0,235

На основе статистического ряда построим гистограмму, рис. 2.2, и график эмпирической функции распределения, рис. 2.3.

График эмпирической функции распределения, рис. 2.3, отличается от графика, представленного на рис. 2.1 равенством шага изменения варианты и величиной шага приращения функции (при построении по вариационному ряду шаг приращения кратен

1/ n , а по статистическому ряду – зависит от частости в конкретном разряде).

Рассмотренные представления ЭД являются исходными для последующей обработки и вычисления различных параметров.

Вариационный ряд. Полигон и гистограмма.

Ряд распределения - представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку.

В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:

§ Ряды распределения, построенные в порядке возрастания или убывания значений количественного признака называются вариационными .

Вариационный ряд распределения состоит из двух столбцов:

В первом столбце приводятся количественные значения варьирующегося признака, которые называются вариантами и обозначаются . Дискретная варианта - выражается целым числом. Интервальная варианта находится в пределах от и до. В зависимости от типа варианты можно построить дискретный или интервальный вариационный ряд.
Во втором столбце содержится количество конкретных вариант , выраженное через частоты или частости:

Частоты - это абсолютные числа, показывающие столько раз в совокупности встречается данное значение признака, которые обозначают . Сумма всех частот равна должна быть равна численности единиц всей совокупности.

Частости () - это частоты выраженные в процентах к итогу. Сумма всех частостей выраженных в процентах должна быть равна 100% в долях единице.

Графическое изображение рядов распределения

Наглядно ряды распределения представляются при помощи графических изображений.

Ряды распределения изображаются в виде:

§ Полигона

§ Гистограммы

§ Кумуляты

Полигон

При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) - частоты или частости.

1. Полигон на рис. 6.1 построен по данным микропереписи населения России в 1994 г.


Гистограмма



Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).

На рис. 6.2. изображена гистограмма распределения населения России в 1997 г. по возрастным группам.

Рис.1. Распределение населения России по возрастным группам

Эмпирическая функция распределения, свойства.

Пусть известно статистическое распределение частот количественного признака X. Обозначим через число наблюдений, при которых наблюдалось значение признака, меньшее x и через n – общее число наблюдений. Очевидно, относительная частота события X

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения x относительную частоту события X

В отличие от эмпирической функции распределения выборки, функцию распределения генеральной совокупности называют теоретической функцией распределения. Различие между этими функциями состоит в том, что теоретическая функция определяет вероятность события X

При росте n относительная частота события X

Основные свойства

Пусть зафиксирован элементарный исход . Тогда является функцией распределения дискретного распределения, задаваемого следующейфункцией вероятности:

где , а - количество элементов выборки, равных . В частности, если все элементы выборки различны, то .

Математическое ожидание этого распределения имеет вид:

.

Таким образом выборочное среднее - это теоретическое среднее выборочного распределения.

Аналогично, выборочная дисперсия - это теоретическая дисперсия выборочного распределения.

Случайная величина имеет биномиальное распределение:

Выборочная функция распределения является несмещённой оценкой функции распределения :

.

Дисперсия выборочной функции распределения имеет вид:

.

Согласно усиленному закону больших чисел, выборочная функция распределения сходится почти наверное к теоретической функции распределения:

почти наверное при .

Выборочная функция распределения является асимптотически нормальной оценкой теоретической функции распределения. Если , то

По распределению при .

Для определения способов математически-статистической обработки необходимо оценить характер распределения данных по всем параметрам (признакам). Для параметров, имеющих нормальный или близкий к нормальному распределение, можно использовать методы параметрической статистики, которые часто являются более результативными, чем методы непараметрической. Преимущество их состоит в возможности проверять статистические гипотезы независимо от формы распределения.

Нормальное распределение - вид распределения переменных, наблюдается при изменении признака (переменной) под влиянием многих относительно независимых факторов. Такое воздействие характерен для психических явлений, поэтому исследователь часто рассчитывает нормальное распределение для статистического описания совокупности эмпирических данных, оценки генеральной совокупности по выборке, для стандартного нормирования тестовых баллов и перевод их в шкальные оценки. На свойствах нормального распределения основываются статистические критерии проверки гипотез (г-критерий, критерий х2 "f-критерий Фишера, и критерий Стьюдента и т.п.). Основной целью выявления нормального распределения определение методов математически-статистической обработки данных.

При нормальном распределения показателей психологического признака или приближенного к нему, что описывает кривая Гаусса, можно использовать параметрические методы математической статистики как простые, надежные и достоверные: сравнительный анализ, расчет достоверности различий признаки между выборками по t-критерию Стьюдента, f-критерию Фишера, коэффициентом корреляции Пирсона и др.

Если кривая распределения показателей психологического признака удаленная от нормальной, исследователь вынужден использовать методы не параметрической статистики: расчет достоверности различий по критерию Q Розенбаума (для малых выборок), по U-критерию Манна - Уитни, коэффициент ранговой корреляции Спирмена, факторные, многофакторные, кластерный и другие методы анализа.

По характеру распределения можно получить общее представление об особенностях выборки испытуемых по определенному признаку и валидность методики по выборки.

Статистические выводы, сформированные на основе модели, приближенной к нормальному распределению, тоже приблизительными. Оценка приближения практической кривой с параметрами нормали осуществляется путем расчета коэффициентов асимметрии, эксцесса и критериев согласованности Пирсона, Колмогорова и Ястремского.

Коэффициент асимметрии Аs оценивает размещения вершины практической кривой по теоретической, показывает величину смещения вершины по расчетной вершины по горизонтали (вправо "+"; влево "-") (рис. 2.3).

Рис. 2.3. Социометрический распределение эмпирических данных

Коэффициент асимметрии - показатель скошенности распределения в левый или правый бок по оси абсцисс на рис. 2.4.

Рис. 2.4. Асимметричное распределение эмпирических данных

Если правая ветвь кривой длиннее левой, речь идет о правостороннюю (положительную) асимметрию, а если левая ветвь длиннее правой - о левосторонняя (отрицательную) асимметрию (рис. 2.5).

Рис. 2.5. Бимодальное распределение эмпирических данных (право - и левосторонняя асимметрия)

Коэффициент асимметрии Аs рассчитывают по формуле:

Коэффициент эксцесса Эх, то есть определенных "участков" (групп частот) практической кривой по теоретической нормали, определяет смещение практической кривой (вершины) (по вертикали - вверх "+"; вниз "-"). Эксцесс является показателем гостроверхости. Кривые, выше в средней части (островерхие) называют ексцесивнимы. При уменьшении величины эксцесса кривая становится плоской, приобретая вид плато, а затем и седловидным, то есть с прогибом в средней части (рис. 2.6).

Рис. 2.6. Показатели ексцесивности распределения

Эти параметры помогают получить первое приближенное представление о характере распределения:

В нормальном распределении редко можно найти коэффициент асимметрии, приближенный к единице и больше нее (1 и 1);

Эксцесс признаков с нормальным распределением обычно имеет величину в диапазоне 2-4.

В простом варианте показатели асимметрии и эксцесса с их ошибками репрезентативности определяют по следующим формулам:

Вычислить показатели асимметрии и эксцесса эмпирического распределения можно, используя функцию "Описательная статистика" в программе Excel.

Показатели асимметрии и эксцесса свидетельствуют о достоверной отличие эмпирических распределений от нормального в том случае, если они превышают по абсолютной величине свою ошибку репрезентативности в 3 и более раз:

Общей причиной отклонения формы выборочного распределения признака от нормального вида чаще всего является особенность процедуры измерения: шкала, которую используют, может иметь неравномерную чувствительность к свойству, измеряющие, в разных частях диапазона изменчивости.

Такие эмпирические отклонения от нормального вида, как право - или левосторонняя асимметрия или незначительный эксцесс (или бимодальное распределение) часто наблюдаются на практике. Связано это с особенностями экспериментальной выборки и измерительными процедурами, которые применяют.

Методы статистического анализа эмпирических данных допускают отклонения от нормального распределения (одни - в большей степени, другие - в меньшей). Однако если требуется убедительное обоснование полученных результатов и сделанных на их основе вычислений, как дополнительные следует использовать несложные методы нэп ара метрической статистики.

Кривая распределения тестовых баллов Гаусса в характеристике психологических явлений (оценок, результатов выполнения заданий и т.д.) отражает свойства пунктов, из которых составлен тест (задачи), а также характеризует состав выборки испытуемых (насколько успешно они выполняют задачи, насколько тест или задание дифференцируют выборку по соответствующей качеством, признаком).

Если кривая имеет правостороннюю асимметрию, это означает, что в тесте преобладают тяжелые задачи (для указанной выборки) если кривая имеет левостороннюю асимметрию, это свидетельствует, что большинство пунктов в тесте легкие. Это может быть обусловлено следующими причинами:

Тест (задания) плохо дифференцирует испытуемых с низким уровнем развития способностей (свойств, качеств, характеристик): большинство испытуемых получают примерно одинаковый низкий балл

Тест плохо дифференцирует испытуемых с высоким развитием способностей (свойств, качеств, характеристик): большинство испытуемых получают высокую оценку.

Анализ эксцесса кривой распределения позволяет сделать следующие выводы в зависимости от формы распределения показателей (данных, вариант) психологического признака:

1) когда возникает значительный положительный эксцесс (ексцесив - на кривая) и баллы концентрируются вблизи среднего значения (рис. 2.6, а), это могут вызывать такие причины:

Ключ составлен неправильно, то есть при подсчете соединены негативно связанные признаки, взаимно нейтрализуют балла. Использование валидных и надежных методик делает невозможным возникновение такой проблемы;

Испытуемые применяют, разгадав направленность теста (опросника), специальную тактику "медианного балла": искусственно балансируют ответы "за" и "против" в одном из полюсов психологического признака, измеряемая;

2) по подбору пунктов, тесно положительно коррелируют между собой (т.е. испытания не являются статистически независимыми), в распределении баллов возникает отрицательный эксцесс, что приобретает форму плато (рис. 2.6, б);

3) отрицательный эксцесс достигает максимальных величин с увеличением вогнутости вершины распределения до образования двух вершин - двух мод (с прогибом между ними, рис. 2.6, в). Такая бимодального конфигурация распределения баллов указывает на то, что выборка испытуемых разделилась на две категории, подгруппы (с плавным переходом между ними): одни справились с большинством задач (согласились с большинством вопросов), другие - не справились (не согласились). Распределение свидетельствует, что в основе задач (пунктов) есть одна общая для всех признак, который соответствует определенной свойства испытуемых: если в исследуемых имеется это свойство (способность, знания, умения), то они справляются с большинством пунктов, задач, а при отсутствии ее - не справляются.

Первичные статистики чувствительны к наличию вариант, выпадают. Большие величины эксцесса и асимметрии часто являются индикатором ошибок при подсчетах вручную или при вводе данных с клавиатуры для компьютерного обработки. Грубые ошибки при вводе данных можно найти, сравнив величины сигм в аналогичных параметрах. Сигма может указывать на ошибки.

При этом соблюдаются правила, по которым все действия следует выполнять дважды (особо ответственные - трижды), желательно разными способами, с вариацией последовательности обращения к числового массива.

Большие показатели эксцесса и асимметрии могут быть вызваны недостаточной надежностью и валидностью методик.

В отдельной выборке нельзя полностью охарактеризовать целое (генеральную совокупность, популяцию), всегда есть вероятность недостаточно точной, даже ошибочной оценки генеральной совокупности на основе выборочных данных. Ошибки, обобщения, экстраполяции, связанные с переносом результатов, полученных при изучении выборки, на всю генеральную совокупность, их называют ошибками репрезентативности.

Репрезентативность - степень соответствия выборочных показателей генеральным параметрам.

Статистические ошибки репрезентативности показывают, в каких пределах могут отклоняться от параметров генеральной совокупности (от математического ожидания или истинных значений) частичные результаты, полученные на основе конкретных выборок. Величина ошибки тем выше, чем больше варьирования признака и чем меньше выборка. Это отражают формулы для вычисления статистических ошибок, характеризующие варьирование выборочных показателей вокруг их генеральных параметров. Поэтому в первичных статистик обязательно причисляют статистическую ошибку среднего арифметического. ее вычисляют по формуле:

Основные методы параметрической и непараметрической статистики позволяют обосновать результаты эмпирического психологического исследования.

Лекция 13. Понятие о статистических оценках случайных величин

Пусть известно статистическое распределение частот количественного признака X. Обозначим через число наблюдений, при которых наблюдалось значение признака, меньшее x и через n – общее число наблюдений. Очевидно, относительная частота события X < x равна и является функцией x. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Эмпирической функцией распределения (функцией распределения выборки) называют функцию , определяющую для каждого значения x относительную частоту события X < x. Таким образом, по определению ,где - число вариант, меньших x, n – объем выборки.

В отличие от эмпирической функции распределения выборки, функцию распределения генеральной совокупности называют теоретической функцией распределения. Различие между этими функциями состоит в том, что теоретическая функцияопределяет вероятность события X < x, тогда как эмпирическая – относительную частоту этого же события.

При росте n относительная частота события X < x, т.е. стремится по вероятности к вероятности этого события. Иными словами

Свойства эмпирической функции распределения :

1) Значения эмпирической функции принадлежат отрезку

2) - неубывающая функция

3) Если - наименьшая варианта, то = 0 при , если - наибольшая варианта, то =1 при .

Эмпирическая функция распределения выборки служит для оценки теоретической функции распределения генеральной совокупности.

Пример . Построим эмпирическую функцию по распределению выборки:

Варианты
Частоты

Найдем объем выборки: 12+18+30=60. Наименьшая варианта равна 2, поэтому =0 при x £ 2. Значение x<6, т.е. , наблюдалось 12 раз, следовательно, =12/60=0,2 при 2< x £6. Аналогично, значения X < 10, т.е. и наблюдались 12+18=30 раз, поэтому =30/60 =0,5 при 6< x £10. Так как x=10 – наибольшая варианта, то =1 при x> 10. таким образом, искомая эмпирическая функция имеет вид:

Важнейшие свойства статистических оценок

Пусть требуется изучить некоторый количественный признак генеральной совокупности. Допустим, что из теоретических соображений удалось установить, какое именно распределение имеет признак и необходимо оценить параметры, которыми оно определяется. Например, если изучаемый признак распределен в генеральной совокупности нормально, то нужно оценить математическое ожидание и среднее квадратическое отклонение; если признак имеет распределение Пуассона – то необходимо оценить параметр l.

Обычно имеются лишь данные выборки, например значения количественного признака , полученные в результате n независимых наблюдений. Рассматривая как независимые случайные величины можно сказать, что найти статистическую оценку неизвестного параметра теоретического распределения – значит найти функцию от наблюдаемых случайных величин, которая дает приближенное значение оцениваемого параметра. Например, для оценки математического ожидания нормального распределения роль функции выполняет среднее арифметическое



Для того чтобы статистические оценки давали корректные приближения оцениваемых параметров, они должны удовлетворять некоторым требованиям, среди которых важнейшими являются требования несмещенности и состоятельности оценки.

Пусть - статистическая оценка неизвестного параметра теоретического распределения. Пусть по выборке объема n найдена оценка . Повторим опыт, т.е. извлечем из генеральной совокупности другую выборку того же объема и по ее данным получим другую оценку . Повторяя опыт многократно, получим различные числа . Оценку можно рассматривать как случайную величину, а числа - как ее возможные значения.

Если оценка дает приближенное значение с избытком , т.е. каждое число больше истинного значения то, как следствие, математическое ожидание (среднее значение) случайной величины больше, чем :. Аналогично, если дает оценку с недостатком , то .

Таким образом, использование статистической оценки, математическое ожидание которой не равно оцениваемому параметру, привело бы к систематическим (одного знака) ошибкам. Если, напротив, , то это гарантирует от систематических ошибок.

Несмещенной называют статистическую оценку , математическое ожидание которой равно оцениваемому параметру при любом объеме выборки .

Смещенной называют оценку, не удовлетворяющую этому условию.

Несмещенность оценки еще не гарантирует получения хорошего приближения для оцениваемого параметра, так как возможные значения могут быть сильно рассеяны вокруг своего среднего значения, т.е. дисперсия может быть значительной. В этом случае найденная по данным одной выборки оценка, например , может оказаться значительно удаленной от среднего значения ,а значит, и от самого оцениваемого параметра.

Эффективной называют статистическую оценку, которая, при заданном объеме выборки n, имеет наименьшую возможную дисперсию .

При рассмотрении выборок большого объема к статистическим оценкам предъявляется требование состоятельности .

Состоятельной называется статистическая оценка, которая при n®¥ стремится по вероятности к оцениваемому параметру. Например, если дисперсия несмещенной оценки при n®¥ стремится к нулю, то такая оценка оказывается и состоятельной.