Корреляционный анализ факторов. Корреляционный анализ спирмена. Построение матрицы планирования
КОРРЕЛЯЦИОННЫЙ АНАЛИЗ - совокупность методов оценки связи между случайными явлениями и событиями, основанных на математической теории корреляции. При этом используются простейшие характеристики, требующие минимума вычислений. Термин «корреляция» обычно отождествляется с понятиями «связь» и «взаимозависимость». Однако они не адекватны. Корреляция является только одним из видов связи между признаками, к-рая проявляется в среднем и носит линейный характер. Если между двумя величинами существует однозначная связь, то такая связь называется функциональной и по одной из величин (причине) можно однозначно определить значение другой величины (следствие). Функц, зависимость является частным выражением случайной (вероятностной, стохастической) зависимости, когда связь проявляется не для каждых значений двух величин, а только в среднем.
К. а. применяется при изучении двух или большего количества случайных величин с целью выявления двух важнейших количественных характеристик: математического уравнения связи между этими величинами и оценки тесноты связи между ними. Исходными данными для определения этих характеристик служат синхронные результаты наблюдения (измерения, эксперимента), т. е. одновременно полученные из опыта статистические данные по признакам, связь между к-рыми изучается. Исходные данные могут быть заданы в виде таблиц с записями результатов наблюдения или их равноценных представлений на магнитной ленте, перфоленте или перфокартах.
К. а. нашел широкое применение в медицине и биологии для определения тесноты и уравнений связи между различными признаками, напр, результаты анализов клин, признаков или специальных обследований, проведенных над здоровыми или больными людьми (см. Корреляция функций организма). Результаты К. а. используются для составления объективных прогнозов заболеваний, оценки состояния больного, течения болезни (см. Прогнозирование). Априори, только по результатам теоретических биол, и мед. исследований, трудно или вовсе невозможно предсказать, как связаны между собой изучаемые признаки. Для того чтобы ответить на этот вопрос, проводят наблюдение или специальный эксперимент.
Двухмерный корреляционный анализ применяется при обработке опытных данных проявления каких-либо двух признаков.
КОРРЕЛЯЦИОННАЯ ТАБЛИЦА. Примечание. В таблице приведены интервалы признаков X и Y, а также частоты их появления (в центре таблицы), подсчитанные по результатам морфометрического анализа микроциркуляторного русла бульбоконъюнктивальной области, где Y - диаметр венулы, а X - диаметр артериолы (в ммк).
Каждый результат опыта представляет собой случайную величину, а объективные закономерности проявляются только во всей совокупности результатов измерения. Поэтому выводы делаются по результатам обработки всей совокупности экспериментальных данных, а не по отдельным значениям, которые являются случайными. Для уменьшения влияния случайного события исходные данные объединяются в группы, что достигается путем составления корреляционной таблицы (см. табл.). Такая таблица содержит интервалы (или их середины) значений двух признаков - У и X, а также частоту появлений значений X и Y в соответствующем интервале этих значений. Эти частоты, подсчитанные по результатам опыта, представляют собой практическую оценку вероятности совместного появления значений X и Y конкретного интервала. Построение корреляционной таблицы является первым этапом обработки исходной информации. Построение корреляционных таблиц и их дальнейшую полную обработку осуществляют быстро на универсальных или специализированных ЭВМ (см. Электронная вычислительная машина). По сгруппированным данным корреляционной таблицы рассчитывают эмпирические характеристики уравнения и тесноты связи. Для определения уравнения связи между Y и X рассчитывают средние значения признака Y в каждом интервале признака X. Т. о. получают для каждого i-го интервала значение Yxi, соединение которых для всех i-интервалов дает эмпирическую линию регрессии, характеризующую форму связи признака Y с признаком X в среднем - график функции Yx= f(x). Если бы между признаками Y и X существовала однозначная связь, уравнения связи было бы достаточно для решения практических и теоретических задач, т. к. с его помощью всегда можно определить значение признака Y, если задано значение X. На практике же связь между Y и X не является однозначной, эта связь является случайной и одному значению X соответствует ряд значений Y. Поэтому необходима еще одна характеристика, измеряющая силу, тесноту связи между Y и X. Такими характеристиками являются дисперсионное (корреляционное) отношение ηух и коэффициент корреляции ryx. Первая из этих величин служит характеристикой тесноты связи между Y и X в произвольной функции f, а ryx - используется только в случае, когда f является линейной функцией.
Величины ηyx и ryx также просто определяются по корреляционной таблице. Расчет обычно ведут в следующем порядке: определяют средние значения обоих признаков X и Y, их средние квадратические отклонения σx и σy, а затем ηxy по формуле:
и ryx по формуле:
где n - общее число опытов, Xcpi - среднее значение X i-го интервала, Ycpj - среднее значение Y j-го интервала, k, l - количество интервалов признаков X и Y соответственно, mi(x) - частота (количество) значений Xcpi. Количественными характеристиками точности определения ηyx и ryx служат их средние квадратические отклонения, которые равны
Значения коэффициента η лежат в пределах между нулем и единицей (0=<ηyx=<1). Если ηyx= 0 (рис., а), то это свидетельствует о том, что признаки Y и X недисперсированы, т. е. регрессия Yx = f(x) не дает связи между признаками Y и X, а при ηyx = 1 существует однозначная связь между Y и X (рис., б, ж). Для ηyx<1 признак Y только частично определяется признаком X, и необходимо изучение дополнительных признаков для повышения достоверности определения Y (рис., г, д, е, и).
Значение коэффициента r лежит в пределах между -1 и +1 (-1= Многомерный корреляционный анализ - определение уравнения и тесноты связи в случаях, когда число изучаемых признаков больше двух. Так, если Y является сложным признаком и его исход зависит от появления множества признаков Х1, Х2, ..., Хn, то, по экспериментальным данным, должны быть определены: а) уравнение связи признака Y с совокупностью признаков Х1, Х2,..., Хn, т.е. Yx1x2...xn = F(x1, x2...,xn) ; б) теснота связи между Y и совокупностью X1, Х2,..., Хn. Предварительная обработка результатов наблюдения при многомерном К. а. заключается в том, что для каждой пары признаков определяются значения дисперсионных отношений ηyxi (i = 1,2,..., n) и ηxixj (i!=j) коэффициентов корреляции ryxi и rxixj, а также парные регрессии Yxi = fi(xi). По этим данным затем определяются уравнения множественной регрессии Yx1x2...xn = F (x1,x2,...,xn), множественное дисперсионное отношение ηyx1x2...xn и множественный коэффициент корреляции Ryx1x2...xn. Уравнение множественной регрессии дает возможность определить значение признака Y по совокупности значений X1, Х2, ..., Xn, т. е. при наличии этого уравнения можно прогнозировать значения Y по результатам конкретных значений полученной совокупности (напр., результатов анализа по признакам X1, Х2...Хn). Значение ηyx1x2...xn используется в качестве характеристики тесноты связи между Y и совокупностью признаков Х1, Х2, ...Xn для произвольной функции F, a Ryx1x2...xn - для случая, когда функция F линейна. Коэффициенты ηyx1x2....xn и Ryx1x2...xn принимают значения между нулем и единицей. Включение в рассмотрение при многомерном К. а. дополнительных признаков дает возможность получить значения ηyx1x2...xn, Ryx1x2...xn ближе к единице и таким образом повысить точность прогноза признака Y по множественному уравнению регрессии. В качестве примера рассмотрим результаты парного К. а., а также уравнение множественной регрессии и множественный коэффициент корреляции между признаками: Y - устойчивый псевдопарез, X1 - латерализация моторного дефекта в конечностях справа, Х2 - то же в конечностях слева, Х3 - вегетативные кризы. Значения дисперсионных отношений и коэффициентов парной корреляции для них будут соответственно ηyx1 = 0,429, ηyx2 = 0,616, ηyx3 = -0,334, a ryx1 = 0,320, ryx2 = 0,586, ryx3 = -0,325. По уравнению множественной линейной регрессии Yх1х2х3 = 0,638 x1 + 0,839 x2 - 0,195 x3. Коэффициент множественной корреляции будет выражаться величиной Ryx1x2x3 =0,721. Из примера видно, что по данным Х1, Х2 и Х3 с достаточной для практики точностью можно прогнозировать устойчивый псевдопарез. Методы К. а. дают также возможность получить динамические характеристик и. В этом случае изучаемые признаки (напр., ЭКГ, ЭЭГ и т. д.) рассматриваются как случайные функции Y(t) и Х(t). По результатам наблюдения над этими функциями также определяются две важнейшие характеристики: а) оценка оператора связи (математического уравнения) между Y (t) и X(t); б) оценка тесноты связи между ними. В качестве характеристик тесноты связи принимаются дисперсионные и корреляционные функции случайных функций Y (t) и X(t). Эти функции представляют собой обобщение дисперсионных отношений и коэффициентов корреляции. Так, нормированная взаимная дисперсионная функция ηyx(t) каждого фиксированного значения t представляет собой дисперсионное отношение между значениями признаков Y (t) и Х(t). Аналогично нормированная взаимная корреляционная функция Ryx(t) представляет собой для каждого фиксированного значения t коэффициент корреляции между признаками Y(t) и X(t). Характеристика линейной связи (зависимости) для одной и той же исследуемой величины в различные моменты времени носит название автокорреляции. К. а. является одним из методов решения задачи идентификации, нашедшей широкое распространение при получении математических моделей и автоматизации мед.-биол, исследования и лечения. Библиография:
Вычислительные системы и автоматическая диагностика заболеваний сердца, под ред. Ц. Касереса и Л. Дрейфуса, пер. с англ., М., 1974; Гутман С. Р. О двух моделях электроэнцефалограммы, сходящихся к нормальному случайному процессу, в кн.: Управление и информ. процессы в живой природе, под ред. В. В. Ларина, с. 205, М., 1971; Заславская Р. М., Перепел-кин Е. Г. и Ахметов К. Ж. Корреляционные связи между показателями гемокоагуляции и липидного обмена у больных.стенокардией в течение суток, Кардиология, т. 17, № 6, с. 111, 1977; К р а м e р Г. Математические методы статистики, пер. с англ., М., 1975; Пастернак Е. Б. и др. Исследование электрической активности предсердий при мерцательной аритмии с помощью приборного корреляционного анализа, Кардиология, т. 17, Хя 7, с. 50, 1977; Синицын Б. С. Автоматические корреляторы и их применение, Новосибирск, 1964, библиогр.; У р-б а х В. Ю. Статистический анализ в биологических и медицинских исследованиях, М., 1975, библиогр. В. Н. Райбман, Н. С. Райбман.
Понятие взаимосвязи довольно распространено в психологических исследованиях. С ним приходится оперировать психологу тогда, когда появляется необходимость сопоставить измерения двух или нескольких показателей признаков или явлений, чтобы сделать какие-либо выводы. Характер взаимосвязи между изучаемыми явлениями может быть однозначным, т.е. таким, когда определенному значению одною признака соответствует четкое и определенное значение другого. Так, например, в субтесте на поиск закономерностей тестов психических функций количество набранных «сырых» баллов определяется по формуле: Такая взаимосвязь получила название функциональной: здесь один показатель является функцией другого, который представляет собой аргумент по отношению к первому. Однако однозначная четкая взаимосвязь встречается не всегда. Чаще приходится сталкиваться с таким положением, при котором одному значению признака могут соответствовать несколько значений другого. Эти значения варьируют в пределах более или менее очерченных границ. Такой вид взаимосвязи получил название корреляционной или соотносительной. Применяется несколько видов выражения корреляционной взаимосвязи. Так, для выражения взаимосвязи между признаками, имеющими количественный характер варьирования своих значений, используют меры центральной тенденции: табулирование с последующим вычислением коэффициента парной корреляции, коэффициент множественной и частной корреляции, коэффициент множественной детерминации, корреляционное отношение. Если необходимо изучить взаимосвязь между признаками, варьирование которых носит качественный характер (результаты проективных методов исследования личности, исследования по методу Семантического дифференциала, исследования с использованием Открытых шкал и т.д.), то используют коэффициент качественной альтернативной корреляции (тетрахорический показатель), критерий Пирсона x2, показатели сопряженности (контингенции) Пирсона и Чупрова. Для определения качественно-количественной корреляции, т.е. такой корреляции, когда один признак имеет качественное варьирование, а другой - количественное.применяются специальные методы. Коэффициент корреляции (термин впервые введен Ф. Гальто-ном в 1888 г.) - показатель силы связи между двумя сопоставляемыми вариантами выборки (выборок). По какой бы формуле не вычислялся коэффициент корреляции, его величина колеблется в пределах от -1 до +1. В случае полной положительной корреляции этот коэффициент равен плюс 1, а при полной отрицательной - минус 1. Обычно это прямая линия, проходящая через точки пересечения значений каждой пары данных. Если значения вариант не выстраиваются на прямой, а образуют «облако», то коэффициент корреляции по абсолютной величине становится меньше единицы и по мере округления «облака» приближается к нулю. Если коэффициент корреляции равен 0, обе варианты полностью независимы друг от друга. Всякое вычисленное (эмпирическое) значение коэффициента корреляции должно быть проверено на достоверность (статистическую значимость) по соответствующим таблицам критических значений коэффициента корреляции. Если эмпирическое значение меньше или равно табличному для 5-процентного уровня (Р = 0,05), корреляция не является значимой. Если вычисленное значение коэффициента корреляции больше табличного для Р = 0,01, корреляция статистически значима (достоверна). В случае, когда величина коэффициента заключена между 0,05 > Р > 0.01, на практике говорят о значимости корреляции для Р = 0,05. Коэффициент корреляции Браве-Пирсона (г) - это предложенный в 1896 г. параметрический показатель, для вычисления которого сравнивают средние арифметические и средние квадратические значения вариант. Для вычисления этого коэффициента применяют следующую формулу (у разных авторов она может выглядеть по-разному): где E Xi Xi1 - сумма произведений значений попарно сопоотавимых вариантов, n-колличество сравниваемых пар, NXap, X1ap - средние арифметические вариант Xi, Xi; соответственно, Qx, Qx, -средние квадратические отклонения распределений х и х. Коэффициент корреляции рангов Спирмена Rs (коэффициент ранговой корреляции, коэффициент Спирмена) является простейшей формой коэффициента корреляции и измеряет связь между рангами (местами) данной варианты по разным признакам, не учитывая ее собственного значения. Здесь исследуется скорее качественная связь, чем количественная. Обычно этот непараметрический критерий используется в случаях, когда нужно сделать выводы не столько об интервалах между данными, сколько об их рангах, а также тогда, когда кривые распределения крайне асимметричны и не позволяют использовать такие параметрические критерии, как коэффициент корреляции Браве-Пирсона (в этих случаях бывает необходимо превратить количественные данные в порядковые). Если коэффициент Rs близок к +1, то это означает, что два ряда ранжированной по тем или иным признакам выборки практически совпадают, а если этот коэффициент близок к - 1, можно говорить о полной обратной зависимости. Как и вычисление коэффициента корреляции Браве-Пирсона, вычисления коэффициента Rs удобнее представлять в табличной форме. Регрессия обобщает понятие функциональной взаимосвязи на случай стохастического (вероятностного) характера зависимости между значениями вариант. Целью решения категории регрессионных задач является оценка значения непрерывной выходной вариативности по значениям входных вариант. Основные
понятия корреляционного анализа
Выделяют
несколько видов связи
между переменными:
Корреляционная
зависимость
предполагает взаимную согласованность
изменений переменных величин, а также
то, что эти изменения можно измерить
однократно или многократно (в данном
случае говорят о плотности связи
переменных, но не о причинно-следственных
связях); например, в современном российском
обществе чем выше возраст, тем ниже
социальный статус человека; отдельные
проявления геронтократии эту закономерность
не нарушают. Функциональное
воздействие
предполагает, что изменения независимой
переменной сопровождаются все более
ускоряющимися изменениями зависимой
переменной (причинно-следственные
связи фиксируют влияние независимой
переменной на зависимую); например,
чем более радикальными политическими
взглядами обладает человек, тем в большей
степени он не приемлет существующий
политический режим; в то же время
нельзя утверждать, что чем в большей
степени человек негативно оценивает
власть, тем более радикальными взглядами
он обладает. Функциональная
зависимость
- связь переменных, означающая, что
изменение одной переменной оказывает
воздействие на изменение другой, которая
в свою очередь воздействует на первую
переменную, т.е. это связи взаимодействия;
например, информированность человека
о политике напрямую связана с интересом
к ней; чем больше человек политикой
интересуется, тем больше в ней разбирается. Связь
может быть нелинейной и немонотонной.
Каким
бы в итоге ни оказался тип связи между
переменными, необходимо убедиться
в ее наличии в принципе. Корреляционный
анализ применяется для выяснения
взаимодействия и тенденций изменения
характеристик изучаемого явления. Первоначальной
стадией его развития считается период
1870- 1880-х годов, а автором понятия
«коэффициент корреляции» - Фрэнсис
Гальтон. Наиболее серьезные разработки
в области корреляционного анализа
на рубеже XIX-XX вв. выполнил Карл Пирсон.
Традиционно кбрреляционный анализ
используется для проверки гипотезы
о статистической зависимости двух или
нескольких переменных. В качестве
вспомогательного средства анализ
корреляций можно использовать при
проверке пригодности экспериментальных
гипотез и для включения переменных в
факторный и регрессионный анализ.
Корреляционный анализ осуществляется
с помощью сравнения и сопоставления
рядов распределения, построенных на
основании группировок по различным
признакам. Корреляция
-
наличие статистической взаимосвязи
признаков, когда каждому определенному
значению одного признака X
соответствует определенное значение
У
(или
комплекс значений К-ряда распределения).
Корреляционный анализ выясняет
функциональную зависимость между
переменными величинами, которая
характеризуется тем, что каждому значению
одной из них соответствует вполне
опреде- тенпое значение другой. Однако
корреляционный анализ не предполагает
выявления каузальных связей, поэтому
при интерпретации ре- 1ультатов
формулировки типа «переменная х
влияет
на переменную у»
или
«переменная х
зависит
от переменной у»
недопустимы. Различают
парную
и
множественную
корреляции.
Парная
корреляция характеризует тип, форму
и плотность связи между двумя признаками,
множественная - между несколькими. Корреляционная
зависимость возникает чаще всего там,
где одно явление находится под воздействием
большого числа факторов, действующих
с разной силой, поэтому существуют
специальные меры корреляционной связи,
называемые коэффициентами
корреляции.
Коэффициенты
(в статистике их общее количество
исчисляется десятками) показывают
степень взаимосвязи явлений (плотность
корреляционной связи,
иногда
исследователи говорят об интенсивности
связи)
и
характер этой связи (направленность
).
Связь может быть прямой и обратной.
Например, чем старше избиратель, тем
более активно он участвует в выборах.
Чем выше уровень доходов людей, тем в
меньшей степени они склонны участвовать
в выборах в качестве избирателей
(обратная связь). Чем выше коэффициент
корреляции между двумя переменными,
тем точнее можно предсказать значения
одной из них по значениям другой. Характер
связи также определяется в категориях
«монотонная
»
(направление изменения одной переменной
не меняется при изменении второй
переменной) и «немонотонная
»
связь. Помимо оценки плотности и
направленности связи необходимо
учитывать надежность
(достоверность
)
связи. Корреляционный
анализ последовательно решает три
практические задачи:
определение
корреляционного поля и составление
корреляционной (в данном случае это
комбинированная) таблицы; вычисление
выборочных корреляционных отношений
или коэффициентов корреляции; проверка
статистической гипотезы значимости
связи. Коэффициент
корреляции не содержит информации о
том, является ли данная связь между
ними причинно-следственной или
сопутствующей (порожденной общей
причиной). Этот вопрос исследователь
должен решать самостоятельно на основе
содержательных представлений о
структуре, динамике изучаемых социальных
объектов, корреляций между изучаемыми
признаками, использовать иные способы
статистического анализа (регрессионный,
факторный, дискриминантный, путевой
и т.д.). Но величина коэффициента позволяет
оценить плотность связи как меньшую
(незначимую) или большую. По знаку
коэффициента корреляции для порядковых
рядов мы можем сказать, является ли эта
связь прямой или обратной (для номинальных
рядов знак коэффициента не несет
смысловой нагрузки). Для
установления корреляционной связи
между двумя признаками необходимо
доказать, что все другие переменные не
оказывают воздействия на отношения
двух переменных, являющихся предметом
изучения. В противном случае возникает
ситуация ложной
корреляции.
Секрет
возникновения ложной корреляции
заключается в том, что у двух явлений,
связь которых формально подкрепляется
наличием статистической связи, есть
общая причина, в равной степени влияющая
на каждое из них. Корреляционному
анализу предшествует стадия расчета
статистики
х
2
-
Но на основании полученного значения
статистики х
2
мы ничего не можем сказать о плотности
связи анализируемых переменных. Цля
решения такой задачи необходимо
обратиться к коэффициентам корреляционной
связи. Традиционным
для выполнения корреляционного анализа
является обращение к коэффициенту
корреляции Пирсона (Pearson)
Р
(в
литературе он обозначается и через
г). Если
при описании политического объекта
определяется лишь наличие или
отсутствие признака или если изучается
связь между альтернативными признаками,
то корреляционные таблицы (таблицы
сопряженного признака) - 4-клеточные.
В этом случае применяются коэффициент
Юла(О)
и коэффициент
контингенции
(ф).
Они
основаны на принципе совместного
появления событий (значений признаков
у объекта исследования) и пригодны для
анализа любых признаков (метрических,
порядковых и даже номинальных). В
случае если номинальные шкалы имеют
большее число значений, чем два, то для
определения зависимости между признаками
пользуются коэффициентами сопряженности
Пирсона (Р
),
Чупрова (7) и Крамера (К).
При этом определенное значение имеет
размерность таблицы с
на к,
в которой отображены значения двух
признаков. Коэффициенты
Чупрова
и Крамера
считаются более «строгими», чем
коэффициент
сопряженности Пирсона.
Но поскольку вычисления в них строятся
с учетом статистики х 2 ,
то все связанные с ней ограничения
распространяются и на эти коэффициенты. Множественный
коэффициент корреляции
(IV),
который иногда называют коэффициентом
конкордации,
применяется для оценки согласованности
двух или нескольких рядов ранжированных
значений переменных. Вариантов
расчета коэффициентов корреляции
между признаками в статистическом
пакете SPSS два.
Определение корреляционного анализа
При решении задач экономического характера, а именно прогнозирования, зачастую используется корреляционный анализ. В его основе находятся некоторые значения случайной величины, представленной переменной, которая зависит от случая и может принимать некоторые значения с определенной вероятностью. При этом соответствующий закон распределения может показывать частоту конкретных значений в их общей совокупности. Корреляционный анализ в статистике базируется на стохастической зависимости при проведении исследований взаимосвязи между некоторыми экономическими показателями. Разновидности корреляционного анализа
Использование корреляционного анализа в статистике
Корреляционный анализ широко используется в математической статистике. При этом основной его задачей является определение тесноты связи и характера между независимыми (факторными) и зависимыми (результативными) признаками в процессе или явлении. Корреляционная связь обнаруживается лишь при масштабном факторном сопоставлении. Так, ее теснота может быть определена с помощью определенного коэффициента корреляции, специально рассчитываемого и располагающегося в интервале [-1;+1]. Характер связи между указанными показателями может быть определен по корреляционному полю. В случае, когда Y является зависимым признаком, X - независимым, то при принятии каждого случая в виде X(j) корреляционное поле будет иметь координаты (x j ;y j). Корреляционный анализ в экономике
Экономическая деятельность субъектов хозяйствования зависит от огромного количества различных факторов. При этом необходимо рассматривать именно их комплекс, так как каждый из них отдельно не может определить изучаемое явление во всей его полноте. Поэтому лишь набор факторов в их тесной взаимосвязи дает четкое представление об исследуемом объекте. Многофакторный корреляционный анализ может состоять из нескольких этапов. В первую очередь определяются те факторы, с помощью которых оказывается максимальное воздействие на исследуемый показатель, и выбираются самые существенные для проведения анализа. Второй этап предусматривает сбор и оценку исходной информации, которая необходима для корреляционного анализа. На третьем проводится изучение характера, а также моделируется связь между итоговыми показателями и прочими факторами. Другими словами, обосновывается сформированное математическое уравнение, наиболее точно выражающее сущность анализируемой зависимости. И последний этап предусматривает оценку результатов проведенного корреляционного анализа с практическим его применением. При изучении общественного здоровья и здравоохранения в научных и практических целях исследователю часто приходится проводить
статистический анализ связей между факторными и результативными признаками статистический совокупности (причинно-следственная связь)
или определение зависимости параллельных изменений нескольких признаков этой совокупности от какой либо третьей величины (от общей
их причины). Необходимо уметь изучать особенности этой связи, определять ее размеры и направление, а также оценивать ее
достоверность. Для этого используются методы корреляции. Функциональная связь
- такой вид соотношения между двумя признаками, когда каждому значению одного из них соответствует
строго определенное значение другого (площадь круга зависит от радиуса круга и т.д.). Функциональная связь характерна для
физико-математических процессов. Корреляционная связь
- такая связь, при которой каждому определенному значению одного признака соответствует несколько
значений другого взаимосвязанного с ним признака (связь между ростом и массой тела человека; связь между температурой тела и
частотой пульса и др.). Корреляционная связь характерна для медико-биологических процессов. Зависимость параллельных изменений нескольких признаков от какой-то третьей величины. Например, под воздействием высокой
температуры в цехе происходят изменения кровяного давления, вязкости крови, частоты пульса и др. 1) Метод квадратов
2) Ранговый метод
Способ 1
Критерий t оценивается по таблице значений t с учетом числа степеней свободы (n - 2), где n - число парных вариант. Критерий t
должен быть равен или больше табличного, соответствующего вероятности р ≥99%. Способ 2
Задание:
вычислить коэффициент корреляции, определить направление и силу связи между количеством кальция в воде и
жесткостью воды, если известны следующие данные (табл. 1). Оценить достоверность связи. Сделать вывод. Таблица 1 Обоснование выбора метода.
Для решения задачи выбран метод квадратов (Пирсона), т.к. каждый из признаков (жесткость воды
и количество кальция) имеет числовое выражение; нет открытых вариант. Решение
.
Критерий t = 14,1, что соответствует вероятности безошибочного прогноза р > 99,9%. 2-й способ. Достоверность коэффициента корреляции оценивается по таблице "Стандартные коэффициенты корреляции" (см.
приложение 1). При числе степеней свободы (n - 2)=6 - 2=4, наш расчетный коэффициент корреляции r xу = + 0,99 больше
табличного (r табл = + 0,917 при р = 99%). Вывод.
Чем больше кальция в воде, тем она более жесткая (связь прямая, сильная и достоверная
:
r ху = + 0,99, р > 99,9%). Задание:
методом рангов установить направление и силу связи между стажем работы в годах и частотой травм, если получены
следующие данные: Обоснование выбора метода:
для решения задачи может быть выбран только метод ранговой корреляции, т.к. первый ряд
признака "стаж работы в годах" имеет открытые варианты (стаж работы до 1 года и 7 и более лет), что не позволяет использовать для
установления связи между сопоставляемыми признаками более точный метод - метод квадратов. Решение
. Последовательность расчетов изложена в тексте, результаты представлены в табл. 2. Таблица 2 Стандартные коэффициенты корреляции, которые считаются достоверными (по Л.С. Каминскому)
Xi = Sтз - Sоз / Sтз + Sпз * Sbс,
где Xi - значение варианты, Sтз - количество априорно заданных закономерностей (соответствий) в субтесте, Sоз - количество ошибочно указанных соответствий испытуемым, Sоз - количество не указанных (пропущенных) соответствий испытуемым, Sbс - количество всех просмотренных испытуемыми слов в тесте.
r= (E Xi Xi1) - NXap X1ap / N-1 Qx Qx1,
на применение метода квадратов
Достоверность определяется по формуле:
Достоверность оценивается по специальной таблице стандартных коэффициентов корреляции. При этом достоверным считается такой
коэффициент корреляции, когда при определенном числе степеней свободы (n - 2), он равен или более табличного, соответствующего
степени безошибочного прогноза р ≥95%.
Последовательность расчетов изложена в тексте, результаты представлены в таблице. Построив ряды из парных сопоставляемых
признаков, обозначить их через х (жесткость воды в градусах) и через у (количество кальция в воде в мг/л).Жесткость воды
(в градусах)
Количество кальция в воде
(в мг/л)
d х
d у
d х х d у
d x 2
d y 2
4
8
11
27
34
37
28
56
77
191
241
262
-16
-12
-9
+7
+14
+16
-114
-86
-66
+48
+98
+120
1824
1032
594
336
1372
1920
256
144
81
49
196
256
12996
7396
4356
2304
9604
14400
М х =Σ х / n
М у =Σ у / n
Σ d х x d у =7078
Σ d х 2 =982
Σ d y 2 =51056
М х =120/6=20
М y =852/6=142
М х = Σх/n (графа 1) и
М у = Σу/n (графа 2)
d х = х - М х (графа 3) и d y = у - М у (графа4).
1-й способ. Найти ошибку коэффициента корреляции (mr xy) и критерий t по формулам:
Стаж работы в годах
Число травм
Порядковые номера (ранги)
Разность рангов
Квадрат разности рангов
X
Y
d(х-у)
d 2
До 1 года
24
1
5
-4
16
1-2
16
2
4
-2
4
3-4
12
3
2,5
+0,5
0,25
5-6
12
4
2,5
+1,5
2,25
7 и более
6
5
1
+4
16
Σ d 2 = 38,5
Число степеней свободы - 2
Уровень вероятности р (%)
95%
98%
99%
1
0,997
0,999
0,999
2
0,950
0,980
0,990
3
0,878
0,934
0,959
4
0,811
0,882
0,917
5
0,754
0,833
0,874
6
0,707
0,789
0,834
7
0,666
0,750
0,798
8
0,632
0,716
0,765
9
0,602
0,885
0,735
10
0,576
0,858
0,708
11
0,553
0,634
0,684
12
0,532
0,612
0,661
13
0,514
0,592
0,641
14
0,497
0,574
0,623
15
0,482
0,558
0,606
16
0,468
0,542
0,590
17
0,456
0,528
0,575
18
0,444
0,516
0,561
19
0,433
0,503
0,549
20
0,423
0,492
0,537
25
0,381
0,445
0,487
30
0,349
0,409
0,449