Болезни Военный билет Призыв

Однофакторный дисперсионный анализ онлайн. Однофакторный дисперсионный анализ. Пример решения. Предположения и эффекты нарушения предположений

Дисперсионный анализ - это статистический метод оценки связи между факторными и результативным признаками в различных группах, отобранный случайным образом, основанный на определении различий (разнообразия) значений признаков. В основе дисперсионного анализа лежит анализ отклонений всех единиц исследуемой совокупности от среднего арифметического. В качестве меры отклонений берется дисперсия (В)- средний квадрат отклонений. Отклонения, вызываемые воздействием факторного признака (фактора) сравниваются с величиной отклонений, вызываемых случайными обстоятельствами. Если отклонения, вызываемые факторным признаком, более существенны, чем случайные отклонения, то считается, что фактор оказывает существенное влияние на результативный признак.

Для того, чтобы вычислить дисперсию значения отклонений каждой варианты (каждого зарегистрированного числового значения признака) от среднего арифметического возводят в квадрат. Тем самым избавляются от отрицательных знаков. Затем эти отклонения (разности) суммируют и делят на число наблюдений, т.е. усредняют отклонения. Таким образом, получают значения дисперсий.

Важным методическим значением для применения дисперсионного анализа является правильное формирование выборки. В зависимости от поставленной цели и задач выборочные группы могут формироваться случайным образом независимо друг от друга (контрольная и экспериментальная группы для изучения некоторого показателя, например, влияние высокого артериального давления на развитие инсульта). Такие выборки называются независимыми.

Нередко результаты воздействия факторов исследуются у одной и той же выборочной группы (например, у одних и тех же пациентов) до и после воздействия (лечение, профилактика, реабилитационные мероприятия), такие выборки называются зависимыми.

Дисперсионный анализ, в котором проверяется влияние одного фактора, называется однофакторным (одномерный анализ). При изучении влияния более чем одного фактора используют многофакторный дисперсионный анализ (многомерный анализ).

Факторные признаки - это те признаки, которые влияют на изучаемое явление.

Результативные признаки - это те признаки, которые изменяются под влиянием факторных признаков.

Условия применения дисперсионного анализа:

Задачей исследования является определение силы влияния одного (до 3) факторов на результат или определение силы совместного влияния различных факторов (пол и возраст, физическая активность и питание и т.д.).

Изучаемые факторы должны быть независимые (несвязанные) между собой. Например, нельзя изучать совместное влияние стажа работы и возраста, роста и веса детей и т.д. на заболеваемость населения.

Подбор групп для исследования проводится рандомизированно (случайный отбор). Организация дисперсионного комплекса с выполнением принципа случайности отбора вариантов называется рандомизацией (перев. с англ. - random), т.е. выбранные наугад.

Можно применять как количественные, так и качественные (атрибутивные) признаки.

При проведении однофакторного дисперсионного анализа рекомендуется (необходимое условие применения):

1. Нормальность распределения анализируемых групп или соответствие выборочных групп генеральным совокупностям с нормальным распределением.

2. Независимость (не связанность) распределения наблюдений в группах.

3. Наличие частоты (повторность) наблюдений.

Сначала формулируется нулевая гипотеза, то есть предполагается, что исследуемые факторы не оказывают никакого влияния на значения результативного признака и полученные различия случайны.

Затем определяем, какова вероятность получить наблюдаемые (или более сильные) различия при условии справедливости нулевой гипотезы.

Если эта вероятность мала, то мы отвергаем нулевую гипотезу и заключаем, что результаты исследования статистически значимы. Это еще не означает, что доказано действие именно изучаемых факторов (это вопрос, прежде всего, планирования исследования), но все же маловероятно, что результат обусловлен случайностью.

При выполнении всех условий применения дисперсионного анализа, разложение общей дисперсии математически выглядит следующим образом:

Doбщ. = Dфакт + D ост.,

Doбщ. - общая дисперсия наблюдаемых значений (вариант), характеризуется разбросом вариант от общего среднего. Измеряет вариацию признака во всей совокупности под влиянием всех факторов, обусловивших эту вариацию. Общее разнообразие складывается из межгруппового и внутригруппового;

Dфакт - факторная (межгрупповая) дисперсия, характеризуется различием средних в каждой группе и зависит от влияния исследуемого фактора, по которому дифференцируется каждая группа. Например, в группах различных по этиологическому фактору клинического течения пневмонии средний уровень проведенного койко-дня неодинаков - наблюдается межгрупповое разнообразие.

D ост. - остаточная (внутригрупповая) дисперсия, которая характеризует рассеяние вариант внутри групп. Отражает случайную вариацию, т.е. часть вариации, происходящую под влиянием неуточненных факторов и не зависящую от признака - фактора, положенного в основание группировки. Вариация изучаемого признака зависит от силы влияния каких-то неучтенных случайных факторов, как от организованных (заданных исследователем), так и от случайных (неизвестных) факторов.

Поэтому общая вариация (дисперсия) слагается из вариации, вызванной организованными (заданными) факторами, называемыми факториальной вариацией и неорганизованными факторами, т.е. остаточной вариацией (случайной, неизвестной).

Для выборки объема n выборочная дисперсия вычисляется как сумма квадратов отклонений от выборочного среднего, деленная на n-1 (объем выборки минус единица). Таким образом, при фиксированном объеме выборки n дисперсия есть функция суммы квадратов (отклонений), обозначаемая, для краткости, SS (от английского Sum of Squares - Сумма квадратов). Далее слово выборочная мы часто опускаем, прекрасно понимая, что рассматривается выборочная дисперсия или оценка дисперсии. В основе дисперсионного анализа лежит разделение дисперсии на части или компоненты. Рассмотрим следующий набор данных:

Средние двух групп существенно различны (2 и 6 соответственно). Сумма квадратов отклонений внутри каждой группы равна 2. Складывая их, получаем 4. Если теперь повторить эти вычисления без учета групповой принадлежности, то есть, если вычислить SS исходя из общего среднего этих двух выборок, то получим величину 28. Иными словами, дисперсия (сумма квадратов), основанная на внутригрупповой изменчивости, приводит к гораздо меньшим значениям, чем при вычислении на основе общей изменчивости (относительно общего среднего). Причина этого, очевидно, заключается в существенной разнице между средними значениями, и это различие между средними и объясняет существующее различие между суммами квадратов.

SS ст.св. MS F p
Эффект 24.0 24.0 24.0 .008
Ошибка 4.0 1.0

Как видно из таблицы, общая сумма квадратов SS = 28 разбита на компоненты: сумму квадратов, обусловленную внутригрупповой изменчивостью (2+2=4; см. вторую строку таблицы) и сумму квадратов, обусловленную различием средних значений между группами (28-(2+2)=24; см первую строку таблицы). Заметим, что MS в этой таблице есть средний квадрат, равный SS, деленная на число степеней свободы (ст.св).

В рассмотренном выше простом примере вы могли бы сразу вычислить t-критерий для независимых выборок. Полученные результаты, естественно, совпадут с результатами дисперсионного анализа.

Однако, ситуации, когда некоторое явление полностью описывается одной переменной, чрезвычайно редки. Например, если мы пытаемся научиться выращивать большие помидоры, следует рассматривать факторы, связанные с генетической структурой растений, типом почвы, освещенностью, температурой и т.д. Таким образом, при проведении типичного эксперимента приходится иметь дело с большим количеством факторов. Основная причина, по которой использование дисперсионного анализа предпочтительнее повторного сравнения двух выборок при разных уровнях факторов с помощью серий t-критерия, заключается в том, что дисперсионный анализ существенно более эффективен и, для малых выборок, более информативен.

Предположим, что в рассмотренном выше примере анализа двух выборок мы добавим еще один фактор, например, Пол. Пусть каждая группа теперь состоит из 3 мужчин и 3 женщин. План этого эксперимента можно представить в виде таблицы:

До проведения вычислений можно заметить, что в этом примере общая дисперсия имеет, по крайней мере, три источника:

1) случайная ошибка (внутригрупповая дисперсия),

2) изменчивость, связанная с принадлежностью к экспериментальной группе

3) изменчивость, обусловленная полом объектов наблюдения.

Отметим, что существует еще один возможный источник изменчивости - взаимодействие факторов, который мы обсудим позднее). Что произойдет, если мы не будем включать пол как фактор при проведении анализа и вычислим обычный t-критерий? Если мы будем вычислять суммы квадратов, игнорируя пол (т.е. объединяя объекты разного пола в одну группу при вычислении внутригрупповой дисперсии и получив при этом сумму квадратов для каждой группы равную SS =10 и общую сумму квадратов SS = 10+10 = 20), то получим большее значение внутригрупповая дисперсии, чем при более точном анализе с дополнительным разбиением на подгруппы по полу (при этом внутригрупповые средние будут равны 2, а общая внутригрупповая сумма квадратов равна SS = 2+2+2+2 = 8).

Итак, при введении дополнительного фактора: пол, остаточная дисперсия уменьшилась. Это связано с тем, что среднее значение для мужчин меньше, чем среднее значение для женщин, и это различие в средних значениях увеличивает суммарную внутригрупповую изменчивость, если фактор пола не учитывается. Управление дисперсией ошибки увеличивает чувствительность (мощность) критерия.

На этом примере видно еще одно преимущество дисперсионного анализа по сравнению с обычным t-критерием для двух выборок. Дисперсионный анализ позволяет изучать каждый фактор, управляя значениями других факторов. Это, в действительности, и является основной причиной его большей статистической мощности (для получения значимых результатов требуются меньшие объемы выборок). По этой причине дисперсионный анализ даже на небольших выборках дает статистически более значимые результаты, чем простой t-критерий.

Дисперсионный анализ используется для выявления влияния на изучаемый показатель некоторых факторов, обычно не поддающихся количественному измерению. Суть метода состоит в разложении общей вариации изучаемого показателя на части, соответствующие раздельному и совместному влиянию факторов, и статистическом изучении этих частей с целью выяснения приемлемости гипотез об отсутствии этих влияний. Модели дисперсионного анализа в зависимости от числа факторов классифицируются на однофакторные , двухфакторные и т.д. По цели исследования выделяют следующие модели: детерминированная (Ml) - здесь уровни всех факторов заранее фиксированы, и проверяют именно их влияние, случайная (М2) - здесь уровни каждого фактора получены как случайная выборка из генеральной совокупности уровней фактора, и смешанная (М3) - здесь уровни одних факторов заранее фиксированы, а уровни других - случайная выборка.

Однофакторный дисперсионный анализ

В основе однофакторного дисперсионного анализа лежит следующая вероятностная модель:

где - значение случайной величины У, принимаемое при уровне Д (,) , / =

1,2,..., v, фактора Л в &-м наблюдении, к = 1,2, ..., п,;

О 1 " 1 - эффект влияния на УГ уровня Д®;

е® - независимые случайные величины, отражающие влияние на У/"* неконтролируемых остаточных факторов, причем все е* 1 ~ N(0, o R).

При этом в модели Ml все 0 (,) - детерминированные величины

и?е ("Ч = 0 ; а в модели М2 0 (,) - случайные величины (значения слу-

чайного эффекта 0), 0® = 0 где 0 - ;V(0, ст в), и все 0® и е* ’ - независимы.

Найдем общую вариацию S 2 результативного признака У и две ее составляющие - S 2 A и S R , отражающие соответственно влияние фактора А и влияние остаточных факторов:

Нетрудно убедиться в том, что S 2 = S 2 A + . Разделив все части

этого равенства на я, получим:

Это правило читается так: «Общая дисперсия наблюдений равна сумме межгрупповой дисперсии (это дисперсия Су (0 групповых средних) и внутригрупповой дисперсии (это средняя а 2 из групповых дисперсий)».

Для выяснения того, влияет ли фактор А на результативный признак:

  • ? в модели Ml проверяют гипотезу Н 0 : 0 (|) = 0 (2) = ... = 0 (v) =0 (если она будет принята, то для всех ink математическое ожидание МУ/"* = А/У [см. формулу (8.4.1)], а это означает, что при изменении уровня фактора групповая генеральная средняя не изменяется, т.е. рассматриваемые уровни фактора А не влияют на У;
  • ? в модели М2 проверяют гипотезу Н 0 = 0 (ее принятие означает что эффект 0 - постоянная величина, а с учетом условия М0 = 0 получим, что 0 = 0, т.е. фактор А не влияет на У).

Критерии проверки этих и других гипотез, а также оценки параметров модели (8.4.1) приведены в табл. 8.5.

Задача 8.7. Исследователь хочет выяснить, отличаются ли четыре способа рекламирования товара по влиянию на объем его продажи. Для этого в каждом из четырех однотипных городов (в них использовались различные способы рекламы) были собраны сведения об объемах продажи товара (в денежных единицах) в четырех случайно отобранных магазинах и вычислены соответствующие выборочные характеристики:

Решение. Здесь фактором А является способ рекламы; зафиксированы четыре его уровня, и выясняется, различаются ли по своему влиянию именно эти уровни, - это модель Ml однофакторного анализа.

где е** независимый?** N(0,g r).

Так как MY и все 0 (,) - постоянные величины, то при выполнении (8.4.3) наблюдения независимы и все

Допустим, что независимость наблюдений гарантируется организацией эксперимента; условие же (8.4.4) означает, что объем продаж при г"-м способе рекламы имеет нормальный закон распределения с математическим ожиданием а, = MY + 0 (,) и с дисперсией, одинаковой для всех способов. Допустим, что нормальное распределение имеет место. Используя критерий Бартлетта (см. табл. 8.3), убедимся, что результаты испытаний позволяют принять гипотезу Н"п : о? =... = ol. Вычислим


по табл. П. 6.3 при k=v-l=3np=a= 0,05 найдем % 2 а = Ха = 7,82 ; так как 1,538 Н" 0 принимаем.

Теперь проверим ключевую гипотезу дисперсионного анализа Н 0 : 0 м =... = 0 S 2 A = 220,19, S 2 R =39,27, S" 2 = 259,46; убедившись в справедливости равенства (8.4.2), найдем оценку (8.4.5) (см. табл. 8.5) s 2 = 39,27/12 = 3,27 дисперсии а 2 к ; проверим, выполняется ли неравенство (8.4.6) (см. табл. 8.5):

по табл. П. 6.4 при = 3, к 2 = 12 и р = а = 0,05 найдем F 2a = F a = 3,49 . Так как 22,43 > 3,49, неравенство (8.4.6) выполняется. Поэтому гипотезу

Условия и критерии проверки гипотез однофакторного дисперсионного анализа

Н 0: 0 (|) = ... = 0 (4) = 0 отклоняем: считаем, что зафиксированные способы рекламирования продукции влияют на объем продаж; при этом вли-

= 84,9% вариации объема продаж.

Изменим условие задачи. Предположим, что способы рекламирования товара заранее нс фиксированы, а выбраны случайным образом из всего набора способов. Тогда выяснение вопроса о том, влияет или нет способ рекламирования, сводится к проверке гипотезы Н 0: Og = 0 модели М2. Критерий ее проверки такой же, как и в модели Ml. Так как условие (8.4.6) отклонения гипотезы Н 0: о 2 в = 0 выполняется, гипотезу забраковываем, по крайней мере до получения дополнительных данных: считаем, что способ рекламирования товаров (во всем наборе этих способов) влияет на объем продаж.

Двухфакторный дисперсионный анализ

одинаковым числом т > 1 наблюдений при различных сочетаниях уровней факторов)

В основе двухфакторного дисперсионного анализа лежит следующая вероятностная модель:

где У/ 1 ’ 7) значение случайной величины У, принимаемое при уровне А (" i = 1,2, ..., v A , фактора А и уровне 5®, у =1,2, ..., v B , фактора В в к -м наблюдении, к = 1,2, ..., /и; 0^, 0 (й у) , 0^д у) - эффекты влияния на У/ 1 ’ соответственно уровней А (" 5® и взаимодействия А (0 и B ; - независимые случайные величины, отражающие влияние на У/ 1 ’ у) неконтролируемых остаточных факторов, причем е?’ л ~ /V((), а л).

Найдем общую вариацию S 2 признака У и ее четыре составляющие - S 2 a , S 2 B , S 2 ab , S 2 r , отражающие влияние соответственно факторов А, В, их взаимодействия и остаточных факторов:


Нетрудно убедится в том, что S 2 = + S 2 B + S 2 iB + S B .

Оценки параметров всех трех типов модели (8.4.9): Ml, М2 и М3, проверяемые гипотезы и критерии их проверки приведены в табл. 8.6. В моделях М2 и М3 предполагается, что все случайные эффекты независимы как между собой, так и с e^’ J) .

Однофакторная дисперсионная модель имеет вид

где Xjj - значение исследуемой переменной, полученной на г-м уровне фактора (г = 1, 2,..., т) су-м порядковым номером (j- 1,2,..., п); /у - эффект, обусловленный влиянием г-го уровня фактора; е^. - случайная компонента, или возмущение, вызванное влиянием неконтролируемых факторов, т.е. вариацией переменной внутри отдельного уровня.

Под уровнем фактора понимается некоторая его мера или состояние, например, количество вносимых удобрений, вид плавки металла или номер партии деталей и т.п.

Основные предпосылки дисперсионного анализа.

1. Математическое ожидание возмущения ? (/ - равно нулю для любых i, т.е.

  • 2. Возмущения взаимно независимы.
  • 3. Дисперсия возмущения (или переменной Ху) постоянна для любых ij> т.е.

4. Возмущение е# (или переменная Ху) имеет нормальный закон распределения N(0; а 2).

Влияние уровней фактора может быть как фиксированным , или систематическим (модель I), так и случайным (модель II).

Пусть, например, необходимо выяснить, имеются ли существенные различия между партиями изделий по некоторому показателю качества, т.е. проверить влияние на качество одного фактора - партии изделий. Если включить в исследование все партии сырья, то влияние уровня такого фактора систематическое (модель I), а полученные выводы применимы только к тем отдельным партиям, которые привлекались при исследовании; если же включить только отобранную случайно часть партий, то влияние фактора случайное (модель II). В многофакторных комплексах возможна смешанная модель III, в которой одни факторы имеют случайные уровни, а другие - фиксированные.

Рассмотрим эту задачу подробнее. Пусть имеется т партий изделий. Из каждой партии отобрано соответственно п Л, п 2 ,п т изделий (для простоты полагаем, что щ = п 2 =... = п т = п). Значения показателя качества этих изделий представим в виде матрицы наблюдений


Необходимо проверить существенность влияния партий изделий на их качество.

Если полагать, что элементы строк матрицы наблюдений - это численные значения (реализации) случайных величин X t , Х 2 ,..., Х т, выражающих качество изделий и имеющих нормальный закон распределения с математическими ожиданиями соответственно a v а 2 , ..., а т и одинаковыми дисперсиями а 2 , то данная задача сводится к проверке нулевой гипотезы # 0: a v = a 2l = ... = а т,осуществляемой в дисперсионном анализе.

Обозначим усреднение по какому-либо индексу звездочкой (или точкой) вместо индекса, тогда средний показатель качества изделий г’-й партии, или групповая средняя для г-го уровня фактора, примет вид

а общая средняя -

Рассмотрим сумму квадратов отклонений наблюдений от общей средней х„:

или Q = Q, + Q 2 + ?>з Последнее слагаемое

так как сумма отклонений значений переменной от ее средней, т.е. ? 1.г у - х) равна нулю. ) =х

Первое слагаемое можно записать в виде

В результате получим следующее тождество:

т п. _

где Q = Y, X [ х ij _ х„, I 2 - общая, или полная, сумма квадратов отклонений; 7=1

Q, - n^}