Болезни Военный билет Призыв

Как определить доверительный интервал.  Методы количественного анализа: Оценка доверительных интервалов. Что такое доверительный интервал

В статистике существует два вида оценок: точечные и интервальные. Точечная оценка представляет собой отдельную выборочную статистику, которая используется для оценки параметра генеральной совокупности. Например, выборочное среднее - это точечная оценка математического ожидания генеральной совокупности, а выборочная дисперсия S 2 - точечная оценка дисперсии генеральной совокупности σ 2 . было показано, что выборочное среднее является несмещенной оценкой математического ожидания генеральной совокупности. Выборочное среднее называется несмещенным, поскольку среднее значение всех выборочных средних (при одном и том же объеме выборки n ) равно математическому ожиданию генеральной совокупности.

Для того чтобы выборочная дисперсия S 2 стала несмещенной оценкой дисперсии генеральной совокупности σ 2 , знаменатель выборочной дисперсии следует положить равным n – 1 , а не n . Иначе говоря, дисперсия генеральной совокупности является средним значением всевозможных выборочных дисперсий.

При оценке параметров генеральной совокупности следует иметь в виду, что выборочные статистики, такие как , зависят от конкретных выборок. Чтобы учесть этот факт, для получения интервальной оценки математического ожидания генеральной совокупности анализируют распределение выборочных средних (подробнее см. ). Построенный интервал характеризуется определенным доверительным уровнем, который представляет собой вероятность того, что истинный параметр генеральной совокупности оценен правильно. Аналогичные доверительные интервалы можно применять для оценки доли признака р и основной распределенной массы генеральной совокупности.

Скачать заметку в формате или , примеры в формате

Построение доверительного интервала для математического ожидания генеральной совокупности при известном стандартном отклонении

Построение доверительного интервала для доли признака в генеральной совокупности

В этом разделе понятие доверительного интервала распространяется на категорийные данные. Это позволяет оценить долю признака в генеральной совокупности р с помощью выборочной доли р S = Х/ n . Как указывалось , если величины n р и n (1 – р) превышают число 5, биномиальное распределение можно аппроксимировать нормальным. Следовательно, для оценки доли признака в генеральной совокупности р можно построить интервал, доверительный уровень которого равен (1 – α)х100% .


где p S - выборочная доля признака, равная Х/ n , т.е. количеству успехов, деленному на объем выборки, р - доля признака в генеральной совокупности, Z - критическое значение стандартизованного нормального распределения, n - объем выборки.

Пример 3. Предположим, что из информационной системы извлечена выборка, состоящая из 100 накладных, заполненных в течение последнего месяца. Допустим, что 10 из этих накладных составлены с ошибками. Таким образом, р = 10/100 = 0,1. Доверительному уровню 95% соответствует критическое значение Z = 1,96.

Таким образом, вероятность того, что от 4,12% до 15,88% накладных содержат ошибки, равна 95%.

Для заданного объема выборки доверительный интервал, содержащий долю признака в генеральной совокупности, кажется более широким, чем для непрерывной случайной величины. Это объясняется тем, что измерения непрерывной случайной величины содержат больше информации, чем измерения категорийных данных. Иначе говоря, категорийные данные, принимающие лишь два значения, содержат недостаточно информации для оценки параметров их распределения.

В ычисление оценок, извлеченных из конечной генеральной совокупности

Оценка математического ожидания. Поправочный коэффициент для конечной генеральной совокупности (fpc ) использовался для уменьшения стандартной ошибки в раз. При вычислении доверительных интервалов для оценок параметров генеральной совокупности поправочный коэффициент применяется в ситуациях, когда выборки извлекаются без возвращения. Таким образом, доверительный интервал для математического ожидания, имеющий доверительный уровень, равный (1 – α)х100% , вычисляется по формуле:

Пример 4. Чтобы проиллюстрировать применение поправочного коэффициента для конечной генеральной совокупности, вернемся к задаче о вычислении доверительного интервала для средней суммы накладных, рассмотренной выше в примере 3. Предположим, что за месяц в компании выписываются 5000 накладных, причем =110,27долл., S = 28,95 долл., N = 5000, n = 100, α = 0,05, t 99 = 1,9842. По формуле (6) получаем:

Оценка доли признака. При выборе без возвращения доверительный интервал для доли признака, имеющий доверительный уровень, равный (1 – α)х100% , вычисляется по формуле:

Доверительные интервалы и этические проблемы

При выборочном исследовании генеральной совокупности и формулировании статистических выводов часто возникают этические проблемы. Основная из них - как согласуются доверительные интервалы и точечные оценки выборочных статистик. Публикация точечных оценок без указания соответствующих доверительных интервалов (как правило, имеющих 95%-ный доверительный уровень) и объема выборки, на основе которых они получены, может породить недоразумения. Это может создать у пользователя впечатление, что точечная оценка - именно то, что ему необходимо, чтобы предсказать свойства всей генеральной совокупности. Таким образом, необходимо понимать, что в любых исследованиях во главу угла должны быть поставлены не точечные, а интервальные оценки. Кроме того, особое внимание следует уделять правильному выбору объемов выборки.

Чаще всего объектами статистических манипуляций становятся результаты социологических опросов населения по тем или иным политическим проблемам. При этом результаты опроса выносят на первые страницы газет, а ошибку выборочного исследования и методологию статистического анализа печатают где-нибудь в середине. Чтобы доказать обоснованность полученных точечных оценок, необходимо указывать объем выборки, на основе которой они получены, границы доверительного интервала и его уровень значимости.

Следующая заметка

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 448–462

Центральная предельная теорема утверждает, что при достаточно большом объеме выборок выборочное распределение средних можно аппроксимировать нормальным распределением. Это свойство не зависит от вида распределения генеральной совокупности.

Любая выборка дает лишь приближенное представление о генеральной совокупности, и все выборочные статистические характеристики (средняя, мода, дисперсия…) являются некоторым приближением или говорят оценкой генеральных параметров, которые вычислить в большинстве случаев не представляется возможным из-за недоступности генеральной совокупности (Рисунок 20).

Рисунок 20. Ошибка выборки

Но можно указать интервал, в котором с определенной долей вероятности лежит истинное (генеральное) значение статистической характеристики. Этот интервал называется д оверительный интервал (ДИ).

Так генеральное среднее значение с вероятностью 95% лежит в пределах

от до, (20)

где t табличное значение критерия Стъюдента для α =0,05 и f = n -1

Может быть найден и 99% ДИ, в этом случае t выбирается для α =0,01.

Какое практическое значение имеет доверительный интервал?

    Широкий доверительный интервал показывает, что выборочная средняя неточно отражает генеральную среднюю. Обычно это связано с недостаточным объемом выборки, или же с ее неоднородностью, т.е. большой дисперсией. И то и другое дают большую ошибку среднего и, соответственно, более широкий ДИ. И это является основанием вернуться на этап планирования исследования.

    Верхние и нижние пределы ДИ дают оценку, будут ли результаты клинически значимы

Остановимся несколько подробнее на вопросе о статистической и клинической значимости результатов исследования групповых свойств. Вспомним, что задачей статистики является обнаружение хоть каких-либо отличий в генеральных совокупностях, опираясь на выборочные данные. Задачей клиницистов является обнаружение таких (не любых) различий, которые помогут диагностике или лечению. И не всегда статистические выводы являются основанием для клинических выводов. Так, статистически значимое снижение гемоглобина на 3 г/л не является поводом для беспокойства. И, наоборот, если какая-то проблема в организме человека не имеет массового характера на уровне всей популяции, это не основание для того, чтобы этой проблемой не заниматься.

Это положение рассмотрим на примере .

Исследователи задались вопросом, не отстают ли в росте от своих сверстников мальчики, перенесшие некое инфекционное заболевание. С этой целью было проведено выборочное исследование, в котором приняли участие 10 мальчиков, перенесших эту болезнь. Результаты представлены в таблице 23.

Таблица 23. Результаты статобработки

нижний предел

верхний предел

Нормативы (см)

среднего

Из этих расчетов следует, что выборочный средний рост мальчиков 10 лет, перенесших некое инфекционное заболевание, близок к норме (132,5 см). Однако нижний предел доверительного интервала (126,6 см) свидетельствует о наличии 95% вероятности того, что истинный средний рост этих детей соответствует понятию «низкий рост», т.е. эти дети отстают в росте.

В этом примере результаты расчетов доверительного интервала клинически значимы.

В предыдущих подразделах мы рассмотрели вопрос об оценке неизвестного параметра а одним числом. Такая оценка называется «точечной». В ряде задач требуется не только найти для параметра а подходящее численное значение, но и оценить его точность и надежность. Требуется знать, к каким ошибкам может привести замена параметра а его точечной оценкой а и с какой степенью уверенности можно ожидать, что эти ошибки не выйдут за известные пределы?

Такого рода задачи особенно актуальны при малом числе наблюдений, когда точечная оценка а в значительной мере случайна и приближенная замена а на а может привести к серьезным ошибкам.

Чтобы дать представление о точности и надежности оценки а ,

в математической статистике пользуются так называемыми доверительными интервалами и доверительными вероятностями.

Пусть для параметра а получена из опыта несмещенная оценка а. Мы хотим оценить возможную при этом ошибку. Назначим некоторую достаточно большую вероятность р (например, р = 0,9, 0,95 или 0,99) такую, что событие с вероятностью р можно считать практически достоверным, и найдем такое значение s, для которого

Тогда диапазон практически возможных значений ошибки, возникающей при замене а на а , будет ± s; большие по абсолютной величине ошибки будут появляться только с малой вероятностью а = 1 - р. Перепишем (14.3.1) в виде:

Равенство (14.3.2) означает, что с вероятностью р неизвестное значение параметра а попадает в интервал

При этом необходимо отметить одно обстоятельство. Ранее мы неоднократно рассматривали вероятность попадания случайной величины в заданный неслучайный интервал. Здесь дело обстоит иначе: величина а не случайна, зато случаен интервал / р. Случайно его положение на оси абсцисс, определяемое его центром а ; случайна вообще и длина интервала 2s, так как величина s вычисляется, как правило, по опытным данным. Поэтому в данном случае лучше будет толковать величину р не как вероятность «попадания» точки а в интервал / р, а как вероятность того, что случайный интервал / р накроет точку а (рис. 14.3.1).

Рис. 14.3.1

Вероятность р принято называть доверительной вероятностью , а интервал / р - доверительным интервалом . Границы интервала If. а х =а- s и а 2 = а + а называются доверительными границами.

Дадим еще одно истолкование понятию доверительного интервала: его можно рассматривать как интервал значений параметра а, совместимых с опытными данными и не противоречащих им. Действительно, если условиться считать событие с вероятностью а = 1-р практически невозможным, то те значения параметра а, для которых а - а > s, нужно признать противоречащими опытным данным, а те, для которых |а - а a t na 2 .

Пусть для параметра а имеется несмещенная оценка а. Если бы нам был известен закон распределения величины а , задача нахождения доверительного интервала была бы весьма проста: достаточно было бы найти такое значение s, для которого

Затруднение состоит в том, что закон распределения оценки а зависит от закона распределения величины X и, следовательно, от его неизвестных параметров (в частности, и от самого параметра а).

Чтобы обойти это затруднение, можно применить следующий грубо приближенный прием: заменить в выражении для s неизвестные параметры их точечными оценками. При сравнительно большом числе опытов п (порядка 20...30) этот прием обычно дает удовлетворительные по точности результаты.

В качестве примера рассмотрим задачу о доверительном интервале для математического ожидания.

Пусть произведено п X, характеристики которой - математическое ожидание т и дисперсия D - неизвестны. Для этих параметров получены оценки:

Требуется построить доверительный интервал / р, соответствующий доверительной вероятности р, для математического ожидания т величины X.

При решении этой задачи воспользуемся тем, что величина т представляет собой сумму п независимых одинаково распределенных случайных величин X h и согласно центральной предельной теореме при достаточно большом п ее закон распределения близок к нормальному. На практике даже при относительно небольшом числе слагаемых (порядка 10...20) закон распределения суммы можно приближенно считать нормальным. Будем исходить из того, что величина т распределена по нормальному закону. Характеристики этого закона - математическое ожидание и дисперсия - равны соответственно т и

(см. главу 13 подраздел 13.3). Предположим, что величина D нам известна и найдем такую величину Ер, для которой

Применяя формулу (6.3.5) главы 6, выразим вероятность в левой части (14.3.5) через нормальную функцию распределения

где - среднее квадратичное отклонение оценки т.

Из уравнения

находим значение Sp:

где arg Ф* (х) - функция, обратная Ф* (х), т.е. такое значение аргумента, при котором нормальная функция распределения равна х.

Дисперсия D, через которую выражена величина а 1П, нам в точности не известна; в качестве ее ориентировочного значения можно воспользоваться оценкой D (14.3.4) и положить приближенно:

Таким образом, приближенно решена задача построения доверительного интервала, который равен:

где gp определяется формулой (14.3.7).

Чтобы избежать при вычислении s p обратного интерполирования в таблицах функции Ф* (л), удобно составить специальную таблицу (табл. 14.3.1), где приводятся значения величины

в зависимости от р. Величина (р определяет для нормального закона число средних квадратических отклонений, которое нужно отложить вправо и влево от центра рассеивания для того, чтобы вероятность попадания в полученный участок была равна р.

Через величину 7 р доверительный интервал выражается в виде:

Таблица 14.3.1

Пример 1. Проведено 20 опытов над величиной X; результаты приведены в табл. 14.3.2.

Таблица 14.3.2

Требуется найти оценку от для математического ожидания от величины X и построить доверительный интервал, соответствующий доверительной вероятности р = 0,8.

Решение. Имеем:

Выбрав за начало отсчета л: = 10, по третьей формуле (14.2.14) находим несмещенную оценку D :

По табл. 14.3,1 находим

Доверительные границы:

Доверительный интервал:

Значения параметра т, лежащие в этом интервале, являются совместимыми с опытными данными, приведенными в табл. 14.3.2.

Аналогичным способом может быть построен доверительный интервал и для дисперсии.

Пусть произведено п независимых опытов над случайной величиной X с неизвестными параметрами от и Л, и для дисперсии D получена несмещенная оценка:

Требуется приближенно построить доверительный интервал для дисперсии.

Из формулы (14.3.11) видно, что величина D представляет собой

сумму п случайных величин вида . Эти величины не являются

независимыми, так как в любую из них входит величина т, зависящая от всех остальных. Однако можно показать, что при увеличении п закон распределения их суммы тоже приближается к нормальному. Практически при п = 20...30 он уже может считаться нормальным.

Предположим, что это так, и найдем характеристики этого закона: математическое ожидание и дисперсию. Так как оценка D - несмещенная, то М[D] = D.

Вычисление дисперсии D D связано со сравнительно сложными выкладками, поэтому приведем ее выражение без вывода:

где ц 4 - четвертый центральный момент величины X.

Чтобы воспользоваться этим выражением, нужно подставить в него значения ц 4 и D (хотя бы приближенные). Вместо D можно воспользоваться его оценкой D . В принципе четвертый центральный момент тоже можно заменить его оценкой, например величиной вида:

но такая замена даст крайне невысокую точность, так как вообще при ограниченном числе опытов моменты высокого порядка определяются с большими ошибками. Однако на практике часто бывает, что вид закона распределения величины X известен заранее: неизвестны лишь его параметры. Тогда можно попытаться выразить ц 4 через D.

Возьмем наиболее часто встречающийся случай, когда величина X распределена по нормальному закону. Тогда ее четвертый центральный момент выражается через дисперсию (см. главу 6 подраздел 6.2);

и формула (14.3.12) дает или

Заменяя в (14.3.14) неизвестное D его оценкой D , получим: откуда

Момент ц 4 можно выразить через D также и в некоторых других случаях, когда распределение величины X не является нормальным, но вид его известен. Например, для закона равномерной плотности (см. главу 5) имеем:

где (а, Р) - интервал, на котором задан закон.

Следовательно,

По формуле (14.3.12) получим: откуда находим приближенно

В случаях, когда вид закона распределения величины 26 неизвестен, при ориентировочной оценке величины а /} рекомендуется все же пользоваться формулой (14.3.16), если нет специальных оснований считать, что этот закон сильно отличается от нормального (обладает заметным положительным или отрицательным эксцессом).

Если ориентировочное значение а /} тем или иным способом получено, то можно построить доверительный интервал для дисперсии аналогично тому, как мы строили его для математического ожидания:

где величина в зависимости от заданной вероятности р находится по табл. 14.3.1.

Пример 2. Найти приближенно 80%-й доверительный интервал для дисперсии случайной величины X в условиях примера 1, если известно, что величина X распределена по закону, близкому к нормальному.

Решение. Величина остается той же, что в табл. 14.3.1:

По формуле (14.3.16)

По формуле (14.3.18) находим доверительный интервал:

Соответствующий интервал значений среднего квадратичного отклонения: (0,21; 0,29).

14.4. Точные методы построения доверительных интервалов для параметров случайной величины, распределенной по нормальному закону

В предыдущем подразделе мы рассмотрели грубо приближенные методы построения доверительных интервалов для математического ожидания и дисперсии. Здесь мы дадим представление о точных методах решения той же задачи. Подчеркнем, что для точного нахождения доверительных интервалов совершенно необходимо знать заранее вид закона распределения величины X, тогда как для применения приближенных методов это не обязательно.

Идея точных методов построения доверительных интервалов сводится к следующему. Любой доверительный интервал находится из условия, выражающего вероятность выполнения некоторых неравенств, в которые входит интересующая нас оценка а. Закон распределения оценки а в общем случае зависит от неизвестных параметров величины X. Однако иногда удается перейти в неравенствах от случайной величины а к какой-либо другой функции наблюденных значений Х п Х 2 , ..., X п. закон распределения которой не зависит от неизвестных параметров, а зависит только от числа опытов и и от вида закона распределения величины X. Такого рода случайные величины играют большую роль в математической статистике; они наиболее подробно изучены для случая нормального распределения величины X.

Например, доказано, что при нормальном распределении величины X случайная величина

подчиняется так называемому закону распределения Стъюдента с п - 1 степенями свободы; плотность этого закона имеет вид

где Г (х) - известная гамма-функция:

Доказано также, что случайная величина

имеет «распределение % 2 » с п - 1 степенями свободы (см. главу 7), плотность которого выражается формулой

Не останавливаясь на выводах распределений (14.4.2) и (14.4.4), покажем, как их можно применить при построении доверительных интервалов для параметров ти D .

Пусть произведено п независимых опытов над случайной величиной X, распределенной по нормальному закону с неизвестными параметрами тиО. Для этих параметров получены оценки

Требуется построить доверительные интервалы для обоих параметров, соответствующие доверительной вероятности р.

Построим сначала доверительный интервал для математического ожидания. Естественно этот интервал взять симметричным относительно т ; обозначим s p половину длины интервала. Величину s p нужно выбрать так, чтобы выполнялось условие

Попытаемся перейти в левой части равенства (14.4.5) от случайной величины т к случайной величине Т, распределенной по закону Стьюдента. Для этого умножим обе части неравенства |m-w?|

на положительную величину: или, пользуясь обозначением (14.4.1),

Найдем такое число / р, что Величина / р найдется из условия

Из формулы (14.4.2) видно, что (1) - четная функция, поэтому (14.4.8) дает

Равенство (14.4.9) определяет величину / р в зависимости от р. Если иметь в своем распоряжении таблицу значений интеграла

то величину / р можно найти обратным интерполированием в таблице. Однако удобнее составить заранее таблицу значений / р. Такая таблица дается в приложении (табл. 5). В этой таблице приведены значения в зависимости от доверительной вероятности р и числа степеней свободы п - 1. Определив / р по табл. 5 и полагая

мы найдем половину ширины доверительного интервала / р и сам интервал

Пример 1. Произведено 5 независимых опытов над случайной величиной X, распределенной нормально с неизвестными параметрами т и о. Результаты опытов приведены в табл. 14.4.1.

Таблица 14.4.1

Найти оценку т для математического ожидания и построить для него 90%-й доверительный интервал / р (т.е. интервал, соответствующий доверительной вероятности р = 0,9).

Решение. Имеем:

По таблице 5 приложения для п - 1 = 4 и р = 0,9 находим откуда

Доверительный интервал будет

Пример 2. Для условий примера 1 подраздела 14.3, предполагая величину X распределенной нормально, найти точный доверительный интервал.

Решение. По таблице 5 приложения находим при п - 1 = 19ир =

0,8 / р =1,328; отсюда

Сравнивая с решением примера 1 подраздела 14.3 (е р = 0,072), убеждаемся, что расхождение весьма незначительно. Если сохранить точность до второго знака после запятой, то доверительные интервалы, найденные точным и приближенным методами, совпадают:

Перейдем к построению доверительного интервала для дисперсии. Рассмотрим несмещенную оценку дисперсии

и выразим случайную величину D через величину V (14.4.3), имеющую распределение х 2 (14.4.4):

Зная закон распределения величины V, можно найти интервал / (1 , в который она попадает с заданной вероятностью р.

Закон распределения k n _ x {v) величины I 7 имеет вид, изображенный на рис. 14.4.1.

Рис. 14.4.1

Возникает вопрос: как выбрать интервал / р? Если бы закон распределения величины V был симметричным (как нормальный закон или распределение Стьюдента), естественно было бы взять интервал /р симметричным относительно математического ожидания. В данном случае закон к п _ х (v) несимметричен. Условимся выбирать интервал /р так, чтобы вероятности выхода величины V за пределы интервала вправо и влево (заштрихованные площади на рис. 14.4.1) были одинаковы и равны

Чтобы построить интервал / р с таким свойством, воспользуемся табл. 4 приложения: в ней приведены числа у} такие, что

для величины V, имеющей х 2 -распределение с г степенями свободы. В нашем случае г = п - 1. Зафиксируем г = п - 1 и найдем в соответствующей строке табл. 4 два значения х 2 - одно, отвечающее вероятности другое - вероятности Обозначим эти

значения у 2 и xl ? Интервал имеет у 2 , своим левым, а у ~ правым концом.

Теперь найдем по интервалу / р искомый доверительный интервал /|, для дисперсии с границами D, и D 2 , который накрывает точку D с вероятностью р:

Построим такой интервал / (, = (?> ь А), который накрывает точку D тогда и только тогда, когда величина V попадает в интервал / р. Покажем, что интервал

удовлетворяет этому условию. Действительно, неравенства равносильны неравенствам

а эти неравенства выполняются с вероятностью р. Таким образом, доверительный интервал для дисперсии найден и выражается формулой (14.4.13).

Пример 3. Найти доверительный интервал для дисперсии в условиях примера 2 подраздела 14.3, если известно, что величинаX распределена нормально.

Решение. Имеем . По таблице 4 приложения

находим при г = п - 1 = 19

По формуле (14.4.13) находим доверительный интервал для дисперсии

Соответствующий интервал для среднего квадратичного отклонения: (0,21; 0,32). Этот интервал лишь незначительно превосходит полученный в примере 2 подраздела 14.3 приближенным методом интервал (0,21; 0,29).

  • На рисунке 14.3.1 рассматривается доверительный интервал, симметричный относительно а. Вообще, как мы увидим дальше, это необязательно.

Из данной статьи вы узнаете:

    Что такое доверительный интервал ?

    В чем суть правила 3-х сигм ?

    Как можно применить эти знания на практике?

В наше время из-за переизбытка информации, связанного с большим ассортиментом товаров, направлений продаж, сотрудников, направлений деятельности и т.д., бывает трудно выделить главное , на что, в первую очередь, стоит обратить внимание и приложить усилия для управления. Определение доверительного интервала и анализ выхода за его границы фактических значений - методика, которая поможет вам выделить ситуации , влияющие на изменение тенденций. Вы сможете развивать позитивные факторы и снизить влияние негативных. Данная технология применяется во многих известных мировых компаниях.

Существуют так называемые "оповещения" , которые информируют руководителей о том, что очередное значение в определенном направлении вышло за доверительный интервал . Что это означает? Это сигнал, что произошло какое-то нестандартное событие, которое, возможно, изменит существующую тенденцию в данном направлении. Это сигнал к тому, чтобы разобраться в ситуации и понять, что на неё повлияло.

Например, рассмотрим несколько ситуаций. Мы рассчитали прогноз продаж с границами прогноза по 100 товарным позициям на 2011 год по месяцам и в марте фактические продажи:

  1. По «Подсолнечному маслу» пробили верхнюю границу прогноза и не попали в доверительный интервал.
  2. По «Сухим дрожжам» вышли за нижнюю границу прогноза.
  3. По «Овсяным Кашам» пробили верхнюю границу.

По остальным товарам фактические продажи оказались в рамках заданных границ прогноза. Т.е. их продажи оказались в рамках ожиданий. Итак, мы выделили 3 товара, которые вышли за границы, и начали разбираться, что же повлияло на выход за границы:

  1. По «Подсолнечному маслу» мы вошли в новую торговую сеть, которая дала нам дополнительный объем продаж, что привело к выходу за верхнюю границу. Для этого товара стоит пересчитать прогноз до конца года с учетом прогноза продаж в данную сеть.
  2. По «Сухим дрожжам» машина застряла на таможне, и образовался дефицит в рамках 5 дней, что повлияло на снижение продаж и выход за нижнюю границу. Возможно, стоит разобраться, что послужило причиной и постараться не повторять данную ситуацию.
  3. По «Овсяным Кашам» было запущено мероприятие по стимулированию сбыта, которое дало значительный прирост продаж и привело к выходу за границы прогноза.

Мы выделили 3 фактора, которые повлияли на выход за границы прогноза. В жизни их может быть гораздо больше.Для повышения точности прогнозирования и планирования факторы, которые приводят к тому, что фактические продажи могут выйти за границы прогноза, стоит выделить и строить прогнозы и планы по ним отдельно. А затем учитывать их влияние на основной прогноз продаж. Также можно регулярно оценивать влияние данных факторов и менять ситуацию к лучшему за счет уменьшения влияния негативных и увеличения влияния позитивных факторов .

С помощью доверительного интервала мы можем:

  1. Выделить направления , на которые стоит обратить внимание, т.к. в этих направлениях произошли события, которые могут повлиять на изменение тенденции .
  2. Определить факторы , которые реально влияют на изменение ситуации.
  3. Принять взвешенное решение (например, о закупках, при планировании и т.д.).

Теперь рассмотрим, что такое доверительный интервал и как его рассчитать в Excel на примере.

Что такое доверительный интервал?

Доверительный интервал – это границы прогноза (верхняя и нижняя), в рамки которых с заданной вероятностью (сигма) попадут фактические значения.

Т.е. мы рассчитываем прогноз - это наш основной ориентир, но мы понимаем, что фактические значения вряд ли на 100% будут равны нашему прогнозу. И возникает вопрос, в какие границы могут попасть фактические значения, если существующая тенденция сохранится ? И на этот вопрос нам поможет ответить расчет доверительного интервала , т.е. - верхней и нижней границы прогноза.

Что такое заданная вероятность сигма?

При расчете доверительного интервала мы можем задать вероятность попадания фактических значений в заданные границы прогноза . Как это сделать? Для этого мы задаем значение сигма и, если сигма будет равна:

    3 сигма - то, вероятность попадания очередного фактического значения в доверительный интервал составят 99,7%, или 300 к 1, или существует 0,3% вероятности выхода за границы.

    2 сигма - то, вероятность попадания очередного значения в границы составляет ≈ 95,5 %, т.е. шансы примерно 20 к 1, или существует 4,5% вероятности выхода за границы.

    1 сигма - то, вероятность ≈ 68,3%, т.е. шансы примерно 2 к 1, или существует 31,7% вероятность того, что очередное значение выйдет за пределы доверительного интервала.

Мы сформулировали правило 3 сигм, которое гласит, что вероятность попадания очередного случайного значения в доверительный интервал с заданным значением три сигма составляет 99.7% .

Великим русским математиком Чебышевым была доказана теорема о том, что существует 10% вероятность выхода за границы прогноза с заданным значением три сигма. Т.е. вероятность попадания в доверительный интервал 3 сигма составит минимум 90%, в то время как попытка рассчитать прогноз и его границы «на глазок» чревата куда более существенными ошибками.

Как самостоятельно рассчитать доверительный интервал в Excel?

Расчет доверительного интервала в Excel (т.е. верхней и нижней границы прогноза) рассмотрим на примере. У нас есть временной ряд - продажи по месяцам за 5 лет. См. Вложенный файл.

Для расчета границ прогноза рассчитаем:

  1. Прогноз продаж ().
  2. Сигма - среднеквадратическое отклонение модели прогноза от фактических значений.
  3. Три сигма.
  4. Доверительный интервал.

1. Прогноз продаж.

=(RC[-14](данные во временном ряду) - RC[-1](значение модели) )^2(в квадрате)


3. Просуммируем для каждого месяца значения отклонений из 8 этапа Сумма((Xi-Ximod)^2), т.е. просуммируем январи, феврали... для каждого года.

Для этого воспользуемся формулой =СУММЕСЛИ()

СУММЕСЛИ(массив с номерами периодов внутри цикла (для месяцев от 1 до 12);ссылка на номер периода в цикле; ссылка на массив с квадратами разницы исходных данных и значений периодов)


4. Рассчитаем среднеквадратическое отклонение для каждого периода в цикле от 1 до 12 (10 этапво вложенном файле ).

Для этого из значения рассчитанного на 9 этапе мы извлекаем корень и делим на количество периодов в этом цикле минус 1 = КОРЕНЬ((Сумма(Xi-Ximod)^2/(n-1))

Воспользуемся формулами в Excel =КОРЕНЬ(R8 (ссылка на (Сумма(Xi-Ximod)^2) /(СЧЁТЕСЛИ($O$8:$O$67 (ссылка на массив с номерами цикла) ; O8 (ссылка на конкретный номер цикла, которые считаем в массиве) )-1))

С помощью формулы Excel = СЧЁТЕСЛИ мы считаем количество n


Рассчитав среднеквадратическое отклонение фактических данных от модели прогноза, мы получили значение сигма для каждого месяца - этап 10 во вложенном файле .

3. Рассчитаем 3 сигма.

На 11 этапе задаем количество сигм - в нашем примере «3» (11 этапво вложенном файле ):

Также удобные для практики значения сигма:

1,64 сигма - 10% вероятность выхода за предел (1 шанс из 10);

1,96 сигма - 5% вероятность выхода за пределы (1 шанс из 20);

2,6 сигма - 1% вероятность выхода за пределы (1 шанс из 100).

5) Рассчитываем три сигма , для этого мы значения «сигма» для каждого месяца умножаем на «3».

3.Определяем доверительный интервал.

  1. Верхняя граница прогноза - прогноз продаж с учетом роста и сезонности + (плюс) 3 сигма;
  2. Нижняя граница прогноза - прогноз продаж с учетом роста и сезонности – (минус) 3 сигма;

Для удобства расчета доверительного интервала на длительный период (см. вложенный файл) воспользуемся формулой Excel =Y8+ВПР(W8;$U$8:$V$19;2;0) , где

Y8 - прогноз продаж;

W8 - номер месяца, для которого будем брать значение 3-х сигма;

Т.е. Верхняя граница прогноза = «прогноз продаж» + «3 сигма» (в примере, ВПР(номер месяца; таблица со значениями 3-х сигма; столбец, из которого извлекаем значение сигма равное номеру месяца в соответствующей строке;0)).

Нижняя граница прогноза = «прогноз продаж» минус «3 сигма».

Итак, мы рассчитали доверительный интервал в Excel.

Теперь у нас есть прогноз и диапазон с границами в пределах, которого с заданной вероятностью сигма попадут фактические значения.

В данной статье мы рассмотрели, что такое сигма и правило трёх сигм, как определить доверительный интервал и для чего вы можете использовать данную методику на практике.

Точных вам прогнозов и успехов!

Чем Forecast4AC PRO может вам помочь при расчете доверительного интервала ?:

    Forecast4AC PRO автоматически рассчитает верхнюю или нижнюю границы прогноза для более чем 1000 временных рядов одновременно;

    Возможность анализа границ прогноза в сравнении с прогнозом, трендом и фактическими продажами на графике одним нажатием клавиши;

В программе Forcast4AC PRO есть возможность задать значение сигма от 1 до 3.

Присоединяйтесь к нам!

Скачивайте бесплатные приложения для прогнозирования и бизнес-анализа :


  • Novo Forecast Lite - автоматический расчет прогноза в Excel .
  • 4analytics - ABC-XYZ-анализ и анализ выбросов в Excel.
  • Qlik Sense Desktop и QlikView Personal Edition - BI-системы для анализа и визуализации данных.

Тестируйте возможности платных решений:

  • Novo Forecast PRO - прогнозирование в Excel для больших массивов данных.

Цель – научить студентов алгоритмам вычисления доверительных интервалов статистических параметров.

При статистической обработке данных вычисленные средняя арифметическая, коэффициент вариации, коэффициент корреляции, критерии различия и другие точечные статистики должны получить количественные границы доверия, которые обозначают возможные колебания показателя в меньшую и большую стороны в пределах доверительного интервала.

Пример 3.1 . Распределение кальция в сыворотке крови обезьян, как было установлено ранее, характеризуется следующими выборочными показателями: = 11,94 мг%;= 0,127 мг%;n = 100. Требуется определить доверительный интервал для генеральной средней () при доверительной вероятностиP = 0,95.

Генеральная средняя находится с определенной вероятностью в интервале:

, где – выборочная средняя арифметическая;t – критерий Стьюдента; – ошибка средней арифметической.

По таблице «Значения критерия Стьюдента» находим значение при доверительной вероятности 0,95 и числе степеней свободы k = 100-1 = 99. Оно равно 1,982. Вместе со значениями среднего арифметического и статистической ошибки подставляем его в формулу:

или 11,69
12,19

Таким образом, с вероятностью 95%, можно утверждать, что генеральная средняя данного нормального распределения находится между 11,69 и 12,19 мг%.

Пример 3.2 . Определите границы 95%-ного доверительного интервала для генеральной дисперсии () распределения кальция в крови обезьян, если известно, что
= 1,60, приn = 100.

Для решения задачи можно воспользоваться следующей формулой:

Где – статистическая ошибка дисперсии.

Находим ошибку выборочной дисперсии по формуле:
. Она равна 0,11. Значениеt - критерия при доверительной вероятности 0,95 и числе степеней свободы k = 100–1 = 99 известно из предыдущего примера.

Воспользуемся формулой и получим:

или 1,38
1,82

Более точно доверительный интервал генеральной дисперсии можно построить с применением (хи-квадрат) - критерия Пирсона. Критические точки для этого критерия приводятся в специальной таблице. При использовании критериядля построения доверительного интервала применяют двусторонний уровень значимости. Для нижней границы уровень значимости рассчитывается по формуле
, для верхней –
. Например, для доверительного уровня= 0,99= 0,010,= 0,990. Соответственно по таблице распределения критических значений, при рассчитанных доверительных уровнях и числе степеней свободыk = 100 – 1= 99, найдем значения
и
. Получаем
равно 135,80, а
равно70,06.

Чтобы найти доверительные границы генеральной дисперсии с помощью воспользуемся формулами: для нижней границы
, для верхней границы
. Подставим данные задачи найденные значенияв формулы:
= 1,17;
= 2,26. Таким образом, при доверительной вероятностиP = 0,99 или 99% генеральная дисперсия будет лежать в интервале от 1,17 до 2,26 мг% включительно.

Пример 3.3 . Среди 1000 семян пшеницы из поступившей на элеватор партии обнаружено 120 семян зараженных спорыньей. Необходимо определить вероятные границы генеральной доли зараженных семян в данной партии пшеницы.

Доверительные границы для генеральной доли при всех возможных ее значениях целесообразно определять по формуле:

,

Где n – число наблюдений; m – абсолютная численность одной из групп; t – нормированное отклонение.

Выборочная доля зараженных семян равна
или 12%. При доверительной вероятностиР = 95% нормированное отклонение (t -критерий Стьюдента при k =
)t = 1,960.

Подставляем имеющиеся данные в формулу:

Отсюда границы доверительного интервала равны= 0,122–0,041 = 0,081, или 8,1%;= 0,122 + 0,041 = 0,163, или 16,3%.

Таким образом, с доверительной вероятностью 95% можно утверждать, что генеральная доля зараженных семян находится между 8,1 и 16,3%.

Пример 3.4 . Коэффициент вариации, характеризующий варьирование кальция (мг%) в сыворотке крови обезьян, оказался равным 10,6%. Объем выборки n = 100. Необходимо определить границы 95%-ного доверительного интервала для генерального параметра Cv .

Границы доверительного интервала для генерального коэффициента вариации Cv определяются по следующим формулам:

и
, гдеK промежуточная величина, вычисляемая по формуле
.

Зная, что при доверительной вероятности Р = 95% нормированное отклонение (критерий Стьюдента при k =
)t = 1,960, предварительно рассчитаем величину К:

.

или 9,3%

или 12,3%

Таким образом, генеральный коэффициент вариации с доверительной вероятностью 95% лежит в интервале от 9,3 до 12,3%. При повторных выборках коэффициент вариации не превысит 12,3% и не окажется ниже 9,3% в 95 случаях из 100.

Вопросы для самоконтроля:

Задачи для самостоятельного решения.

1. Средний процент жира в молоке за лактацию коров холмогорских помесей был следующим: 3,4; 3,6; 3,2; 3,1; 2,9; 3,7; 3,2; 3,6; 4,0; 3,4; 4,1; 3,8; 3,4; 4,0; 3,3; 3,7; 3,5; 3,6; 3,4; 3,8. Установите доверительные интервалы для генеральной средней при доверительной вероятности 95% (20 баллов).

2. На 400 растениях гибридной ржи первые цветки появились в среднем на 70,5 день после посева. Среднее квадратическое отклонение было 6,9 дня. Определите ошибку средней и доверительные интервалы для генеральной средней и дисперсии при уровне значимости W = 0,05 и W = 0,01 (25 баллов).

3. При изучении длины листьев 502 экземпляров садовой земляники были получены следующие данные: = 7,86 см; σ = 1,32 см, =± 0,06 см. Определите доверительные интервалы для средней арифметической генеральной совокупности с уровнями значимости 0,01; 0,02; 0,05. (25 баллов).

4. При обследовании 150 взрослых мужчин средний рост был равен 167 см, а σ = 6 см. В каких пределах находится генеральная средняя и генеральная дисперсия с доверительной вероятностью 0,99 и 0,95? (25 баллов).

5. Распределение кальция в сыворотке крови обезьян характеризуется следующими выборочными показателями: = 11,94 мг%, σ = 1,27, n = 100. Постройте 95%-ный доверительный интервал для генеральной средней этого распределения. Рассчитайте коэффициент вариации (25 баллов).

6. Было изучено общее содержание азота в плазме крови крыс-альбиносов в возрасте 37 и 180 дней. Результаты выражены в граммах на 100 см 3 плазмы. В возрасте 37 дней 9 крыс имели: 0,98; 0,83; 0,99; 0,86; 0,90; 0,81; 0,94; 0,92; 0,87. В возрасте 180 дней 8 крыс имели: 1,20; 1,18; 1,33; 1,21; 1,20; 1,07; 1,13; 1,12. Установите доверительные интервалы для разницы с доверительной вероятностью 0,95 (50 баллов).

7. Определите границы 95%-ного доверительного интервала для генеральной дисперсии распределения кальция (мг%) в сыворотке крови обезьян, если для этого распределения объем выборки n = 100, статистическая ошибка выборочной дисперсии s σ 2 = 1,60 (40 баллов).

8. Определите границы 95%-ного доверительного интервала для генеральной дисперсии распределения 40 колосков пшеницы по длине (σ 2 = 40, 87 мм 2). (25 баллов).

9. Курение считают основным фактором, предрасполагающим к обструктивным заболеваниям легких. Пассивное курение таким фактором не считается. Ученые усомнились в безвредности пассивного курения и исследовали проходимость дыхательных путей у некурящих, пассивных и активных курильщиков. Для характеристики состояния дыхательных путей взяли один из показателей функции внешнего дыхания – максимальную объемную скорость середины выдоха. Уменьшение этого показателя – признак нарушения проходимости дыхательных путей. Данные обследования приведены в таблице.

Число обследованных

Максимальная объемная скорость середины выдоха, л/с

Стандартное отклонение

Некурящие

работают в помещении, где не курят

работают в накуренном помещении

Курящие

выкуривающие небольшое число сигарет

выкуривающие среднее число сигарет

выкуривающие большое число сигарет

По данным таблицы найдите 95% доверительные интервалы для генеральной средней и генеральной дисперсии для каждой из групп. В чем заключаются различия между группами? Результаты представьте графически (25 баллов).

10. Определите границы 95%-ного и 99%-ного доверительного интервала для генеральной дисперсии численности поросят в 64 опоросах, если статистическая ошибка выборочной дисперсии s σ 2 = 8, 25 (30 баллов).

11. Известно, что средняя масса кроликов составляет 2,1 кг. Определите границы 95%-ного и 99%-ного доверительного интервала для генеральной средней и дисперсии при n = 30, σ = 0,56 кг (25 баллов).

12. У 100 колосьев измеряли озерненность колоса (Х ), длину колоса (Y ) и массу зерна в колосе (Z ). Найти доверительные интервалы для генеральной средней и дисперсии при P 1 = 0,95, P 2 = 0,99, P 3 = 0,999, если = 19, = 6,766 см, = 0,554 г; σ x 2 = 29, 153, σ y 2 = 2, 111, σ z 2 = 0, 064. (25 баллов).

13. В отобранных случайным образом 100 колосьях озимой пшеницы подсчитывалось число колосков. Выборочная совокупность характеризовалась следующими показателями: = 15 колосков и σ = 2,28 шт. Определите, с какой точностью получен средний результат () и постройте доверительный интервал для генеральной средней и дисперсии при 95% и 99% уровнях значимости (30 баллов).

14. Число ребер на раковинах ископаемого моллюска Orthambonites calligramma :

Известно, что n = 19, σ = 4,25. Определите границы доверительного интервала для генеральной средней и генеральной дисперсии при уровне значимости W = 0,01 (25 баллов).

15. Для определения удоев молока на молочно-товарной ферме ежедневно определялась продуктивность 15 коров. По данным за год каждая корова давала в среднем в сутки следующее количество молока (л): 22; 19; 25; 20; 27; 17; 30; 21; 18; 24; 26; 23; 25; 20; 24. Постройте доверительные интервалы для генеральной дисперсии и средней арифметической. Можно ли ожидать, что среднегодовой удой на каждую корову составит 10000 литров? (50 баллов).

16. С целью определения урожая пшеницы в среднем по агрохозяйству были проведены укосы на пробных участках площадью 1, 3, 2, 5, 2, 6, 1, 3, 2, 11 и 2 га. Урожайность (ц/га) с участков составила 39,4; 38; 35,8; 40; 35; 42,7; 39,3; 41,6; 33; 42; 29 соответственно. Постройте доверительные интервалы для генеральных дисперсии и средней арифметической. Можно ли ожидать, что в среднем по агрохозяйству урожай составит 42 ц/га? (50 баллов).