Болезни Военный билет Призыв

Корреляционный анализ факторов. Корреляционный анализ спирмена. Построение матрицы планирования

КОРРЕЛЯЦИОННЫЙ АНАЛИЗ - совокупность методов оценки связи между случайными явлениями и событиями, основанных на математической теории корреляции. При этом используются простейшие характеристики, требующие минимума вычислений. Термин «корреляция» обычно отождествляется с понятиями «связь» и «взаимозависимость». Однако они не адекватны. Корреляция является только одним из видов связи между признаками, к-рая проявляется в среднем и носит линейный характер. Если между двумя величинами существует однозначная связь, то такая связь называется функциональной и по одной из величин (причине) можно однозначно определить значение другой величины (следствие). Функц, зависимость является частным выражением случайной (вероятностной, стохастической) зависимости, когда связь проявляется не для каждых значений двух величин, а только в среднем.

К. а. применяется при изучении двух или большего количества случайных величин с целью выявления двух важнейших количественных характеристик: математического уравнения связи между этими величинами и оценки тесноты связи между ними. Исходными данными для определения этих характеристик служат синхронные результаты наблюдения (измерения, эксперимента), т. е. одновременно полученные из опыта статистические данные по признакам, связь между к-рыми изучается. Исходные данные могут быть заданы в виде таблиц с записями результатов наблюдения или их равноценных представлений на магнитной ленте, перфоленте или перфокартах.

К. а. нашел широкое применение в медицине и биологии для определения тесноты и уравнений связи между различными признаками, напр, результаты анализов клин, признаков или специальных обследований, проведенных над здоровыми или больными людьми (см. Корреляция функций организма). Результаты К. а. используются для составления объективных прогнозов заболеваний, оценки состояния больного, течения болезни (см. Прогнозирование). Априори, только по результатам теоретических биол, и мед. исследований, трудно или вовсе невозможно предсказать, как связаны между собой изучаемые признаки. Для того чтобы ответить на этот вопрос, проводят наблюдение или специальный эксперимент.

Двухмерный корреляционный анализ применяется при обработке опытных данных проявления каких-либо двух признаков.

КОРРЕЛЯЦИОННАЯ ТАБЛИЦА. Примечание. В таблице приведены интервалы признаков X и Y, а также частоты их появления (в центре таблицы), подсчитанные по результатам морфометрического анализа микроциркуляторного русла бульбоконъюнктивальной области, где Y - диаметр венулы, а X - диаметр артериолы (в ммк).

Каждый результат опыта представляет собой случайную величину, а объективные закономерности проявляются только во всей совокупности результатов измерения. Поэтому выводы делаются по результатам обработки всей совокупности экспериментальных данных, а не по отдельным значениям, которые являются случайными. Для уменьшения влияния случайного события исходные данные объединяются в группы, что достигается путем составления корреляционной таблицы (см. табл.). Такая таблица содержит интервалы (или их середины) значений двух признаков - У и X, а также частоту появлений значений X и Y в соответствующем интервале этих значений. Эти частоты, подсчитанные по результатам опыта, представляют собой практическую оценку вероятности совместного появления значений X и Y конкретного интервала. Построение корреляционной таблицы является первым этапом обработки исходной информации. Построение корреляционных таблиц и их дальнейшую полную обработку осуществляют быстро на универсальных или специализированных ЭВМ (см. Электронная вычислительная машина). По сгруппированным данным корреляционной таблицы рассчитывают эмпирические характеристики уравнения и тесноты связи. Для определения уравнения связи между Y и X рассчитывают средние значения признака Y в каждом интервале признака X. Т. о. получают для каждого i-го интервала значение Yxi, соединение которых для всех i-интервалов дает эмпирическую линию регрессии, характеризующую форму связи признака Y с признаком X в среднем - график функции Yx= f(x). Если бы между признаками Y и X существовала однозначная связь, уравнения связи было бы достаточно для решения практических и теоретических задач, т. к. с его помощью всегда можно определить значение признака Y, если задано значение X. На практике же связь между Y и X не является однозначной, эта связь является случайной и одному значению X соответствует ряд значений Y. Поэтому необходима еще одна характеристика, измеряющая силу, тесноту связи между Y и X. Такими характеристиками являются дисперсионное (корреляционное) отношение ηух и коэффициент корреляции ryx. Первая из этих величин служит характеристикой тесноты связи между Y и X в произвольной функции f, а ryx - используется только в случае, когда f является линейной функцией.

Величины ηyx и ryx также просто определяются по корреляционной таблице. Расчет обычно ведут в следующем порядке: определяют средние значения обоих признаков X и Y, их средние квадратические отклонения σx и σy, а затем ηxy по формуле:

и ryx по формуле:

где n - общее число опытов, Xcpi - среднее значение X i-го интервала, Ycpj - среднее значение Y j-го интервала, k, l - количество интервалов признаков X и Y соответственно, mi(x) - частота (количество) значений Xcpi. Количественными характеристиками точности определения ηyx и ryx служат их средние квадратические отклонения, которые равны

Значения коэффициента η лежат в пределах между нулем и единицей (0=<ηyx=<1). Если ηyx= 0 (рис., а), то это свидетельствует о том, что признаки Y и X недисперсированы, т. е. регрессия Yx = f(x) не дает связи между признаками Y и X, а при ηyx = 1 существует однозначная связь между Y и X (рис., б, ж). Для ηyx<1 признак Y только частично определяется признаком X, и необходимо изучение дополнительных признаков для повышения достоверности определения Y (рис., г, д, е, и).

Значение коэффициента r лежит в пределах между -1 и +1 (-1=

Многомерный корреляционный анализ - определение уравнения и тесноты связи в случаях, когда число изучаемых признаков больше двух. Так, если Y является сложным признаком и его исход зависит от появления множества признаков Х1, Х2, ..., Хn, то, по экспериментальным данным, должны быть определены: а) уравнение связи признака Y с совокупностью признаков Х1, Х2,..., Хn, т.е. Yx1x2...xn = F(x1, x2...,xn) ; б) теснота связи между Y и совокупностью X1, Х2,..., Хn.

Предварительная обработка результатов наблюдения при многомерном К. а. заключается в том, что для каждой пары признаков определяются значения дисперсионных отношений ηyxi (i = 1,2,..., n) и ηxixj (i!=j) коэффициентов корреляции ryxi и rxixj, а также парные регрессии Yxi = fi(xi). По этим данным затем определяются уравнения множественной регрессии Yx1x2...xn = F (x1,x2,...,xn), множественное дисперсионное отношение ηyx1x2...xn и множественный коэффициент корреляции Ryx1x2...xn. Уравнение множественной регрессии дает возможность определить значение признака Y по совокупности значений X1, Х2, ..., Xn, т. е. при наличии этого уравнения можно прогнозировать значения Y по результатам конкретных значений полученной совокупности (напр., результатов анализа по признакам X1, Х2...Хn). Значение ηyx1x2...xn используется в качестве характеристики тесноты связи между Y и совокупностью признаков Х1, Х2, ...Xn для произвольной функции F, a Ryx1x2...xn - для случая, когда функция F линейна. Коэффициенты ηyx1x2....xn и Ryx1x2...xn принимают значения между нулем и единицей. Включение в рассмотрение при многомерном К. а. дополнительных признаков дает возможность получить значения ηyx1x2...xn, Ryx1x2...xn ближе к единице и таким образом повысить точность прогноза признака Y по множественному уравнению регрессии.

В качестве примера рассмотрим результаты парного К. а., а также уравнение множественной регрессии и множественный коэффициент корреляции между признаками: Y - устойчивый псевдопарез, X1 - латерализация моторного дефекта в конечностях справа, Х2 - то же в конечностях слева, Х3 - вегетативные кризы. Значения дисперсионных отношений и коэффициентов парной корреляции для них будут соответственно ηyx1 = 0,429, ηyx2 = 0,616, ηyx3 = -0,334, a ryx1 = 0,320, ryx2 = 0,586, ryx3 = -0,325. По уравнению множественной линейной регрессии Yх1х2х3 = 0,638 x1 + 0,839 x2 - 0,195 x3. Коэффициент множественной корреляции будет выражаться величиной Ryx1x2x3 =0,721. Из примера видно, что по данным Х1, Х2 и Х3 с достаточной для практики точностью можно прогнозировать устойчивый псевдопарез.

Методы К. а. дают также возможность получить динамические характеристик и. В этом случае изучаемые признаки (напр., ЭКГ, ЭЭГ и т. д.) рассматриваются как случайные функции Y(t) и Х(t). По результатам наблюдения над этими функциями также определяются две важнейшие характеристики: а) оценка оператора связи (математического уравнения) между Y (t) и X(t); б) оценка тесноты связи между ними. В качестве характеристик тесноты связи принимаются дисперсионные и корреляционные функции случайных функций Y (t) и X(t). Эти функции представляют собой обобщение дисперсионных отношений и коэффициентов корреляции. Так, нормированная взаимная дисперсионная функция ηyx(t) каждого фиксированного значения t представляет собой дисперсионное отношение между значениями признаков Y (t) и Х(t). Аналогично нормированная взаимная корреляционная функция Ryx(t) представляет собой для каждого фиксированного значения t коэффициент корреляции между признаками Y(t) и X(t). Характеристика линейной связи (зависимости) для одной и той же исследуемой величины в различные моменты времени носит название автокорреляции.

К. а. является одним из методов решения задачи идентификации, нашедшей широкое распространение при получении математических моделей и автоматизации мед.-биол, исследования и лечения.

Библиография: Вычислительные системы и автоматическая диагностика заболеваний сердца, под ред. Ц. Касереса и Л. Дрейфуса, пер. с англ., М., 1974; Гутман С. Р. О двух моделях электроэнцефалограммы, сходящихся к нормальному случайному процессу, в кн.: Управление и информ. процессы в живой природе, под ред. В. В. Ларина, с. 205, М., 1971; Заславская Р. М., Перепел-кин Е. Г. и Ахметов К. Ж. Корреляционные связи между показателями гемокоагуляции и липидного обмена у больных.стенокардией в течение суток, Кардиология, т. 17, № 6, с. 111, 1977; К р а м e р Г. Математические методы статистики, пер. с англ., М., 1975; Пастернак Е. Б. и др. Исследование электрической активности предсердий при мерцательной аритмии с помощью приборного корреляционного анализа, Кардиология, т. 17, Хя 7, с. 50, 1977; Синицын Б. С. Автоматические корреляторы и их применение, Новосибирск, 1964, библиогр.; У р-б а х В. Ю. Статистический анализ в биологических и медицинских исследованиях, М., 1975, библиогр.

В. Н. Райбман, Н. С. Райбман.

Понятие взаимосвязи довольно распространено в психологических исследованиях. С ним приходится оперировать психологу тогда, когда появляется необходимость сопоставить измерения двух или нескольких показателей признаков или явлений, чтобы сделать какие-либо выводы.

Характер взаимосвязи между изучаемыми явлениями может быть однозначным, т.е. таким, когда определенному значению одною признака соответствует четкое и определенное значение другого. Так, например, в субтесте на поиск закономерностей тестов психических функций количество набранных «сырых» баллов определяется по формуле:
Xi = Sтз - Sоз / Sтз + Sпз * Sbс,
где Xi - значение варианты, Sтз - количество априорно заданных закономерностей (соответствий) в субтесте, Sоз - количество ошибочно указанных соответствий испытуемым, Sоз - количество не указанных (пропущенных) соответствий испытуемым, Sbс - количество всех просмотренных испытуемыми слов в тесте.

Такая взаимосвязь получила название функциональной: здесь один показатель является функцией другого, который представляет собой аргумент по отношению к первому.

Однако однозначная четкая взаимосвязь встречается не всегда. Чаще приходится сталкиваться с таким положением, при котором одному значению признака могут соответствовать несколько значений другого. Эти значения варьируют в пределах более или менее очерченных границ. Такой вид взаимосвязи получил название корреляционной или соотносительной.

Применяется несколько видов выражения корреляционной взаимосвязи. Так, для выражения взаимосвязи между признаками, имеющими количественный характер варьирования своих значений, используют меры центральной тенденции: табулирование с последующим вычислением коэффициента парной корреляции, коэффициент множественной и частной корреляции, коэффициент множественной детерминации, корреляционное отношение.

Если необходимо изучить взаимосвязь между признаками, варьирование которых носит качественный характер (результаты проективных методов исследования личности, исследования по методу Семантического дифференциала, исследования с использованием Открытых шкал и т.д.), то используют коэффициент качественной альтернативной корреляции (тетрахорический показатель), критерий Пирсона x2, показатели сопряженности (контингенции) Пирсона и Чупрова.

Для определения качественно-количественной корреляции, т.е. такой корреляции, когда один признак имеет качественное варьирование, а другой - количественное.применяются специальные методы.

Коэффициент корреляции (термин впервые введен Ф. Гальто-ном в 1888 г.) - показатель силы связи между двумя сопоставляемыми вариантами выборки (выборок). По какой бы формуле не вычислялся коэффициент корреляции, его величина колеблется в пределах от -1 до +1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной - минус 1. Обычно это прямая линия, проходящая через точки пересечения значений каждой пары данных.

Если значения вариант не выстраиваются на прямой, а образуют «облако», то коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления «облака» приближается к нулю. Если коэффициент корреляции равен 0, обе варианты полностью независимы друг от друга.

Всякое вычисленное (эмпирическое) значение коэффициента корреляции должно быть проверено на достоверность (статистическую значимость) по соответствующим таблицам критических значений коэффициента корреляции. Если эмпирическое значение меньше или равно табличному для 5-процентного уровня (Р = 0,05), корреляция не является значимой. Если вычисленное значение коэффициента корреляции больше табличного для Р = 0,01, корреляция статистически значима (достоверна).

В случае, когда величина коэффициента заключена между 0,05 > Р > 0.01, на практике говорят о значимости корреляции для Р = 0,05.

Коэффициент корреляции Браве-Пирсона (г) - это предложенный в 1896 г. параметрический показатель, для вычисления которого сравнивают средние арифметические и средние квадратические значения вариант. Для вычисления этого коэффициента применяют следующую формулу (у разных авторов она может выглядеть по-разному):
r= (E Xi Xi1) - NXap X1ap / N-1 Qx Qx1,

где E Xi Xi1 - сумма произведений значений попарно сопоотавимых вариантов, n-колличество сравниваемых пар, NXap, X1ap - средние арифметические вариант Xi, Xi; соответственно, Qx, Qx, -средние квадратические отклонения распределений х и х.

Коэффициент корреляции рангов Спирмена Rs (коэффициент ранговой корреляции, коэффициент Спирмена) является простейшей формой коэффициента корреляции и измеряет связь между рангами (местами) данной варианты по разным признакам, не учитывая ее собственного значения. Здесь исследуется скорее качественная связь, чем количественная.

Обычно этот непараметрический критерий используется в случаях, когда нужно сделать выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения крайне асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент корреляции Браве-Пирсона (в этих случаях бывает необходимо превратить количественные данные в порядковые). Если коэффициент Rs близок к +1, то это означает, что два ряда ранжированной по тем или иным признакам выборки практически совпадают, а если этот коэффициент близок к - 1, можно говорить о полной обратной зависимости.

Как и вычисление коэффициента корреляции Браве-Пирсона, вычисления коэффициента Rs удобнее представлять в табличной форме.

Регрессия обобщает понятие функциональной взаимосвязи на случай стохастического (вероятностного) характера зависимости между значениями вариант. Целью решения категории регрессионных задач является оценка значения непрерывной выходной вариативности по значениям входных вариант.

Основные понятия корреляционного анализа

Выделяют несколько видов связи между переменными:

Корреляционная зависимость предполагает взаимную согласован­ность изменений переменных величин, а также то, что эти изменения можно измерить однократно или многократно (в данном случае гово­рят о плотности связи переменных, но не о причинно-следственных связях); например, в современном российском обществе чем выше возраст, тем ниже социальный статус человека; отдельные проявления геронтократии эту закономерность не нарушают.

Функциональное воздействие предполагает, что изменения не­зависимой переменной сопровождаются все более ускоряющимися изменениями зависимой переменной (причинно-следственные свя­зи фиксируют влияние независимой переменной на зависимую); на­пример, чем более радикальными политическими взглядами обладает человек, тем в большей степени он не приемлет существующий поли­тический режим; в то же время нельзя утверждать, что чем в большей степени человек негативно оценивает власть, тем более радикальными взглядами он обладает.

Функциональная зависимость - связь переменных, означающая, что изменение одной переменной оказывает воздействие на изменение другой, которая в свою очередь воздействует на первую переменную, т.е. это связи взаимодействия; например, информированность челове­ка о политике напрямую связана с интересом к ней; чем больше чело­век политикой интересуется, тем больше в ней разбирается.

Связь может быть нелинейной и немонотонной.

Каким бы в итоге ни оказался тип связи между переменными, не­обходимо убедиться в ее наличии в принципе. Корреляционный ана­лиз применяется для выяснения взаимодействия и тенденций измене­ния характеристик изучаемого явления.

Первоначальной стадией его развития считается период 1870- 1880-х годов, а автором понятия «коэффициент корреляции» - Фрэнсис Гальтон. Наиболее серьезные разработки в области корре­ляционного анализа на рубеже XIX-XX вв. выполнил Карл Пирсон. Традиционно кбрреляционный анализ используется для проверки ги­потезы о статистической зависимости двух или нескольких перемен­ных. В качестве вспомогательного средства анализ корреляций можно использовать при проверке пригодности экспериментальных гипотез и для включения переменных в факторный и регрессионный анализ. Корреляционный анализ осуществляется с помощью сравнения и со­поставления рядов распределения, построенных на основании группи­ровок по различным признакам.

Корреляция - наличие статистической взаимосвязи признаков, когда каждому определенному значению одного признака X соответ­ствует определенное значение У (или комплекс значений К-ряда рас­пределения). Корреляционный анализ выясняет функциональную за­висимость между переменными величинами, которая характеризуется тем, что каждому значению одной из них соответствует вполне опреде- тенпое значение другой. Однако корреляционный анализ не предпо­лагает выявления каузальных связей, поэтому при интерпретации ре- 1ультатов формулировки типа «переменная х влияет на переменную у» или «переменная х зависит от переменной у» недопустимы.

Различают парную и множественную корреляции. Парная корреля­ция характеризует тип, форму и плотность связи между двумя призна­ками, множественная - между несколькими.

Корреляционная зависимость возникает чаще всего там, где одно явление находится под воздействием большого числа факторов, дей­ствующих с разной силой, поэтому существуют специальные меры корреляционной связи, называемые коэффициентами корреляции. Ко­эффициенты (в статистике их общее количество исчисляется десят­ками) показывают степень взаимосвязи явлений (плотность корреля­ционной связи, иногда исследователи говорят об интенсивности связи) и характер этой связи (направленность ). Связь может быть прямой и обратной. Например, чем старше избиратель, тем более активно он участвует в выборах. Чем выше уровень доходов людей, тем в меньшей степени они склонны участвовать в выборах в качестве избирателей (обратная связь). Чем выше коэффициент корреляции между двумя переменными, тем точнее можно предсказать значения одной из них по значениям другой. Характер связи также определяется в категориях «монотонная » (направление изменения одной переменной не меняется при изменении второй переменной) и «немонотонная » связь. Помимо оценки плотности и направленности связи необходимо учитывать на­дежность (достоверность ) связи.

Корреляционный анализ последовательно решает три практиче­ские задачи:

    определение корреляционного поля и составление корреляци­онной (в данном случае это комбинированная) таблицы;

    вычисление выборочных корреляционных отношений или ко­эффициентов корреляции;

    проверка статистической гипотезы значимости связи.

Коэффициент корреляции не содержит информации о том, явля­ется ли данная связь между ними причинно-следственной или сопут­ствующей (порожденной общей причиной). Этот вопрос исследователь должен решать самостоятельно на основе содержательных представле­ний о структуре, динамике изучаемых социальных объектов, корре­ляций между изучаемыми признаками, использовать иные способы статистического анализа (регрессионный, факторный, дискриминант­ный, путевой и т.д.). Но величина коэффициента позволяет оценить плотность связи как меньшую (незначимую) или большую. По знаку коэффициента корреляции для порядковых рядов мы можем сказать, является ли эта связь прямой или обратной (для номинальных рядов знак коэффициента не несет смысловой нагрузки).

Для установления корреляционной связи между двумя призна­ками необходимо доказать, что все другие переменные не оказывают воздействия на отношения двух переменных, являющихся предметом изучения. В противном случае возникает ситуация ложной корреляции. Секрет возникновения ложной корреляции заключается в том, что у двух явлений, связь которых формально подкрепляется наличием ста­тистической связи, есть общая причина, в равной степени влияющая на каждое из них.

Корреляционному анализу предшествует стадия расчета стати­стики х 2 - Но на основании полученного значения статистики х 2 мы ни­чего не можем сказать о плотности связи анализируемых переменных. Цля решения такой задачи необходимо обратиться к коэффициентам корреляционной связи.

Традиционным для выполнения корреляционного анализа являет­ся обращение к коэффициенту корреляции Пирсона (Pearson) Р (в ли­тературе он обозначается и через г).

Если при описании политического объекта определяется лишь на­личие или отсутствие признака или если изучается связь между аль­тернативными признаками, то корреляционные таблицы (таблицы сопряженного признака) - 4-клеточные. В этом случае применяются коэффициент Юла(О) и коэффициент контингенции (ф). Они основаны на принципе совместного появления событий (значений признаков у объекта исследования) и пригодны для анализа любых признаков (ме­трических, порядковых и даже номинальных).

В случае если номинальные шкалы имеют большее число значений, чем два, то для определения зависимости между признаками пользуют­ся коэффициентами сопряженности Пирсона (Р ), Чупрова (7) и Кра­мера (К). При этом определенное значение имеет размерность таблицы с на к, в которой отображены значения двух признаков. Коэффициенты Чупрова и Крамера считаются более «строгими», чем коэффициент со­пряженности Пирсона. Но поскольку вычисления в них строятся с уче­том статистики х 2 , то все связанные с ней ограничения распространя­ются и на эти коэффициенты.

Множественный коэффициент корреляции (IV), который иногда называют коэффициентом конкордации, применяется для оценки со­гласованности двух или нескольких рядов ранжированных значений переменных.

Вариантов расчета коэффи­циентов корреляции между признаками в статистическом пакете SPSS два.

Определение корреляционного анализа

При решении задач экономического характера, а именно прогнозирования, зачастую используется корреляционный анализ. В его основе находятся некоторые значения случайной величины, представленной переменной, которая зависит от случая и может принимать некоторые значения с определенной вероятностью. При этом соответствующий закон распределения может показывать частоту конкретных значений в их общей совокупности. Корреляционный анализ в статистике базируется на стохастической зависимости при проведении исследований взаимосвязи между некоторыми экономическими показателями.

Разновидности корреляционного анализа

Корреляционный анализ оперирует и с функциональной (полной), и с искаженной иными факторами (неполной) зависимостями указанной взаимосвязи. Примером первого вида (функциональной зависимости) служит выпуск и потребление готовой продукции в условиях дефицита. Неполную зависимость можно увидеть, например, между производительностью труда и стажем работы рабочих. При этом больший опыт оказывает влияние на ее качество, однако под влиянием определенных факторов (здоровье или образование) данная зависимость искажается.

Использование корреляционного анализа в статистике

Корреляционный анализ широко используется в математической статистике.

При этом основной его задачей является определение тесноты связи и характера между независимыми (факторными) и зависимыми (результативными) признаками в процессе или явлении. Корреляционная связь обнаруживается лишь при масштабном факторном сопоставлении. Так, ее теснота может быть определена с помощью определенного коэффициента корреляции, специально рассчитываемого и располагающегося в интервале [-1;+1]. Характер связи между указанными показателями может быть определен по корреляционному полю. В случае, когда Y является зависимым признаком, X - независимым, то при принятии каждого случая в виде X(j) корреляционное поле будет иметь координаты (x j ;y j).

Корреляционный анализ в экономике

Экономическая деятельность субъектов хозяйствования зависит от огромного количества различных факторов. При этом необходимо рассматривать именно их комплекс, так как каждый из них отдельно не может определить изучаемое явление во всей его полноте. Поэтому лишь набор факторов в их тесной взаимосвязи дает четкое представление об исследуемом объекте. Многофакторный корреляционный анализ может состоять из нескольких этапов. В первую очередь определяются те факторы, с помощью которых оказывается максимальное воздействие на исследуемый показатель, и выбираются самые существенные для проведения анализа. Второй этап предусматривает сбор и оценку исходной информации, которая необходима для корреляционного анализа. На третьем проводится изучение характера, а также моделируется связь между итоговыми показателями и прочими факторами. Другими словами, обосновывается сформированное математическое уравнение, наиболее точно выражающее сущность анализируемой зависимости. И последний этап предусматривает оценку результатов проведенного корреляционного анализа с практическим его применением.

При изучении общественного здоровья и здравоохранения в научных и практических целях исследователю часто приходится проводить статистический анализ связей между факторными и результативными признаками статистический совокупности (причинно-следственная связь) или определение зависимости параллельных изменений нескольких признаков этой совокупности от какой либо третьей величины (от общей их причины). Необходимо уметь изучать особенности этой связи, определять ее размеры и направление, а также оценивать ее достоверность. Для этого используются методы корреляции.

  1. Виды проявления количественных связей между признаками
    • функциональная связь
    • корреляционная связь
  2. Определения функциональной и корреляционной связи

    Функциональная связь - такой вид соотношения между двумя признаками, когда каждому значению одного из них соответствует строго определенное значение другого (площадь круга зависит от радиуса круга и т.д.). Функциональная связь характерна для физико-математических процессов.

    Корреляционная связь - такая связь, при которой каждому определенному значению одного признака соответствует несколько значений другого взаимосвязанного с ним признака (связь между ростом и массой тела человека; связь между температурой тела и частотой пульса и др.). Корреляционная связь характерна для медико-биологических процессов.

  3. Практическое значение установления корреляционной связи . Выявление причинно-следственной между факторными и результативными признаками (при оценке физического развития, для определения связи между условиями труда, быта и состоянием здоровья, при определении зависимости частоты случаев болезни от возраста, стажа, наличия производственных вредностей и др.)

    Зависимость параллельных изменений нескольких признаков от какой-то третьей величины. Например, под воздействием высокой температуры в цехе происходят изменения кровяного давления, вязкости крови, частоты пульса и др.

  4. Величина, характеризующая направление и силу связи между признаками . Коэффициент корреляции, который одним числом дает представление о направлении и силе связи между признаками (явлениями), пределы его колебаний от 0 до ± 1
  5. Способы представления корреляционной связи
    • график (диаграмма рассеяния)
    • коэффициент корреляции
  6. Направление корреляционной связи
    • прямая
    • oбратная
  7. Сила корреляционной связи
    • сильная: ±0,7 до ±1
    • средняя: ±0,3 до ±0,699
    • слабая: 0 до ±0,299
  8. Методы определения коэффициента корреляции и формулы
    • метод квадратов (метод Пирсона)
    • ранговый метод (метод Спирмена)
  9. Методические требования к использованию коэффициента корреляции
    • измерение связи возможно только в качественно однородных совокупностях (например, измерение связи между ростом и весом в совокупностях, однородных по полу и возрасту)
    • расчет может производиться с использованием абсолютных или производных величин
    • для вычисления коэффициента корреляции используются не сгруппированные вариационные ряды (это требование применяется только при вычислении коэффициента корреляции по методу квадратов)
    • число наблюдений не менее 30
  10. Рекомендации по применению метода ранговой корреляции (метод Спирмена)
    • когда нет необходимости в точном установлении силы связи, а достаточно ориентировочных данных
    • когда признаки представлены не только количественными, но и атрибутивными значениями
    • когда ряды распределения признаков имеют открытые варианты (например, стаж работы до 1 года и др.)
  11. Рекомендации к применению метода квадратов (метод Пирсона)
    • когда требуется точное установление силы связи между признаками
    • когда признаки имеют только количественное выражение
  12. Методика и порядок вычисления коэффициента корреляции

    1) Метод квадратов

    2) Ранговый метод

  13. Схема оценки корреляционной связи по коэффициенту корреляции
  14. Вычисление ошибки коэффициента корреляции
  15. Оценка достоверности коэффициента корреляции,полученного методом ранговой корреляции и методом квадратов

    Способ 1
    Достоверность определяется по формуле:

    Критерий t оценивается по таблице значений t с учетом числа степеней свободы (n - 2), где n - число парных вариант. Критерий t должен быть равен или больше табличного, соответствующего вероятности р ≥99%.

    Способ 2
    Достоверность оценивается по специальной таблице стандартных коэффициентов корреляции. При этом достоверным считается такой коэффициент корреляции, когда при определенном числе степеней свободы (n - 2), он равен или более табличного, соответствующего степени безошибочного прогноза р ≥95%.

на применение метода квадратов

Задание: вычислить коэффициент корреляции, определить направление и силу связи между количеством кальция в воде и жесткостью воды, если известны следующие данные (табл. 1). Оценить достоверность связи. Сделать вывод.

Таблица 1

Обоснование выбора метода. Для решения задачи выбран метод квадратов (Пирсона), т.к. каждый из признаков (жесткость воды и количество кальция) имеет числовое выражение; нет открытых вариант.

Решение .
Последовательность расчетов изложена в тексте, результаты представлены в таблице. Построив ряды из парных сопоставляемых признаков, обозначить их через х (жесткость воды в градусах) и через у (количество кальция в воде в мг/л).

Жесткость воды
(в градусах)
Количество кальция в воде
(в мг/л)
d х d у d х х d у d x 2 d y 2
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
М х =Σ х / n М у =Σ у / n Σ d х x d у =7078 Σ d х 2 =982 Σ d y 2 =51056
М х =120/6=20 М y =852/6=142
  1. Определить средние величины M x ряду вариант "х" и М у в ряду вариант "у" по формулам:
    М х = Σх/n (графа 1) и
    М у = Σу/n (графа 2)
  2. Найти отклонение (d х и d у) каждой варианты от величины вычисленной средней в ряду "x" и в ряду "у"
    d х = х - М х (графа 3) и d y = у - М у (графа4).
  3. Найти произведение отклонений d x х d y и суммировать их: Σ d х х d у (графа 5)
  4. Каждое отклонение d x и d у возвести в квадрат и суммировать их значения по ряду "х" и по ряду "у": Σ d x 2 = 982 (графа 6) и Σ d y 2 = 51056 (графа 7).
  5. Определить произведение Σ d x 2 х Σ d y 2 и из этого произведения извлечь квадратный корень
  6. Полученные величины Σ (d x x d y) и √(Σd x 2 x Σd y 2) подставляем в формулу расчета коэффициента корреляции:
  7. Определить достоверность коэффициента корреляции:
    1-й способ. Найти ошибку коэффициента корреляции (mr xy) и критерий t по формулам:

    Критерий t = 14,1, что соответствует вероятности безошибочного прогноза р > 99,9%.

    2-й способ. Достоверность коэффициента корреляции оценивается по таблице "Стандартные коэффициенты корреляции" (см. приложение 1). При числе степеней свободы (n - 2)=6 - 2=4, наш расчетный коэффициент корреляции r xу = + 0,99 больше табличного (r табл = + 0,917 при р = 99%).

    Вывод. Чем больше кальция в воде, тем она более жесткая (связь прямая, сильная и достоверная : r ху = + 0,99, р > 99,9%).

    на применение рангового метода

    Задание: методом рангов установить направление и силу связи между стажем работы в годах и частотой травм, если получены следующие данные:

    Обоснование выбора метода: для решения задачи может быть выбран только метод ранговой корреляции, т.к. первый ряд признака "стаж работы в годах" имеет открытые варианты (стаж работы до 1 года и 7 и более лет), что не позволяет использовать для установления связи между сопоставляемыми признаками более точный метод - метод квадратов.

    Решение . Последовательность расчетов изложена в тексте, результаты представлены в табл. 2.

    Таблица 2

    Стаж работы в годах Число травм Порядковые номера (ранги) Разность рангов Квадрат разности рангов
    X Y d(х-у) d 2
    До 1 года 24 1 5 -4 16
    1-2 16 2 4 -2 4
    3-4 12 3 2,5 +0,5 0,25
    5-6 12 4 2,5 +1,5 2,25
    7 и более 6 5 1 +4 16
    Σ d 2 = 38,5

    Стандартные коэффициенты корреляции, которые считаются достоверными (по Л.С. Каминскому)

    Число степеней свободы - 2 Уровень вероятности р (%)
    95% 98% 99%
    1 0,997 0,999 0,999
    2 0,950 0,980 0,990
    3 0,878 0,934 0,959
    4 0,811 0,882 0,917
    5 0,754 0,833 0,874
    6 0,707 0,789 0,834
    7 0,666 0,750 0,798
    8 0,632 0,716 0,765
    9 0,602 0,885 0,735
    10 0,576 0,858 0,708
    11 0,553 0,634 0,684
    12 0,532 0,612 0,661
    13 0,514 0,592 0,641
    14 0,497 0,574 0,623
    15 0,482 0,558 0,606
    16 0,468 0,542 0,590
    17 0,456 0,528 0,575
    18 0,444 0,516 0,561
    19 0,433 0,503 0,549
    20 0,423 0,492 0,537
    25 0,381 0,445 0,487
    30 0,349 0,409 0,449

    1. Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. - 464 с.
    2. Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2007. - 512 с.
    3. Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению: Часть 1. Общественное здоровье. - М.: Медицина, 2003. - 368 с.
    4. Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). - СПб, 1998. -528 с.
    5. Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) - Москва, 2000. - 432 с.
    6. С. Гланц. Медико-биологическая статистика. Пер с англ. - М., Практика, 1998. - 459 с.