Болезни Военный билет Призыв

Критерий хи квадрат объяснение. Контрольная работа: Распределение "хи-квадрат" и его применение. Обратная функция ХИ2-распределения

Рассмотрим применение в MS EXCEL критерия хи-квадрат Пирсона для проверки простых гипотез.

После получения экспериментальных данных (т.е. когда имеется некая выборка ) обычно производится выбор закона распределения, наиболее хорошо описывающего случайную величину, представленную данной выборкой . Проверка того, насколько хорошо экспериментальные данные описываются выбранным теоретическим законом распределения, осуществляется с использованием критериев согласия . Нулевой гипотезой , обычно выступает гипотеза о равенстве распределения случайной величины некоторому теоретическому закону.

Сначала рассмотрим применение критерия согласия Пирсона Х 2 (хи-квадрат) в отношении простых гипотез (параметры теоретического распределения считаются известными). Затем - , когда задается только форма распределения, а параметры этого распределения и значение статистики Х 2 оцениваются/рассчитываются на основании одной и той же выборки .

Примечание : В англоязычной литературе процедура применения критерия согласия Пирсона Х 2 имеет название The chi-square goodness of fit test .

Напомним процедуру проверки гипотез:

  • на основе выборки вычисляется значение статистики , которая соответствует типу проверяемой гипотезы. Например, для используется t -статистика (если не известно);
  • при условии истинности нулевой гипотезы , распределение этой статистики известно и может быть использовано для вычисления вероятностей (например, для t -статистики это );
  • вычисленное на основе выборки значение статистики сравнивается с критическим для заданного значением ();
  • нулевую гипотезу отвергают, если значение статистики больше критического (или если вероятность получить это значение статистики () меньше уровня значимости , что является эквивалентным подходом).

Проведем проверку гипотез для различных распределений.

Дискретный случай

Предположим, что два человека играют в кости. У каждого игрока свой набор костей. Игроки по очереди кидают сразу по 3 кубика. Каждый раунд выигрывает тот, кто выкинет за раз больше шестерок. Результаты записываются. У одного из игроков после 100 раундов возникло подозрение, что кости его соперника – несимметричные, т.к. тот часто выигрывает (часто выбрасывает шестерки). Он решил проанализировать насколько вероятно такое количество исходов противника.

Примечание : Т.к. кубиков 3, то за раз можно выкинуть 0; 1; 2 или 3 шестерки, т.е. случайная величина может принимать 4 значения.

Из теории вероятности нам известно, что если кубики симметричные, то вероятность выпадения шестерок подчиняется . Поэтому, после 100 раундов частоты выпадения шестерок могут быть вычислены с помощью формулы
=БИНОМ.РАСП(A7;3;1/6;ЛОЖЬ)*100

В формуле предполагается, что в ячейке А7 содержится соответствующее количество выпавших шестерок в одном раунде.

Примечание : Расчеты приведены в файле примера на листе Дискретное .

Для сравнения наблюденных (Observed) и теоретических частот (Expected) удобно пользоваться .

При значительном отклонении наблюденных частот от теоретического распределения, нулевая гипотеза о распределении случайной величины по теоретическому закону, должна быть отклонена. Т.е., если игральные кости соперника несимметричны, то наблюденные частоты будут «существенно отличаться» от биномиального распределения .

В нашем случае на первый взгляд частоты достаточно близки и без вычислений сложно сделать однозначный вывод. Применим критерий согласия Пирсона Х 2 , чтобы вместо субъективного высказывания «существенно отличаться», которое можно сделать на основании сравнения гистограмм , использовать математически корректное утверждение.

Используем тот факт, что в силу закона больших чисел наблюденная частота (Observed) с ростом объема выборки n стремится к вероятности, соответствующей теоретическому закону (в нашем случае, биномиальному закону ). В нашем случае объем выборки n равен 100.

Введем тестовую статистику , которую обозначим Х 2:

где O l – это наблюденная частота событий, что случайная величина приняла определенные допустимые значения, E l – это соответствующая теоретическая частота (Expected). L – это количество значений, которые может принимать случайная величина (в нашем случае равна 4).

Как видно из формулы, эта статистика является мерой близости наблюденных частот к теоретическим, т.е. с помощью нее можно оценить «расстояния» между этими частотами. Если сумма этих «расстояний» «слишком велика», то эти частоты «существенно отличаются». Понятно, что если наш кубик симметричный (т.е. применим биномиальный закон ), то вероятность того, что сумма «расстояний» будет «слишком велика» будет малой. Чтобы вычислить эту вероятность нам необходимо знать распределение статистики Х 2 (статистика Х 2 вычислена на основе случайной выборки , поэтому она является случайной величиной и, следовательно, имеет свое распределение вероятностей ).

Из многомерного аналога интегральной теоремы Муавра-Лапласа известно, что при n->∞ наша случайная величина Х 2 асимптотически с L - 1 степенями свободы.

Итак, если вычисленное значение статистики Х 2 (сумма «расстояний» между частотами) будет больше чем некое предельное значение, то у нас будет основание отвергнуть нулевую гипотезу . Как и при проверке параметрических гипотез , предельное значение задается через уровень значимости . Если вероятность того, что статистика Х 2 примет значение меньше или равное вычисленному (p -значение ), будет меньше уровня значимости , то нулевую гипотезу можно отвергнуть.

В нашем случае, значение статистики равно 22,757. Вероятность, что статистика Х 2 примет значение больше или равное 22,757 очень мала (0,000045) и может быть вычислена по формулам
=ХИ2.РАСП.ПХ(22,757;4-1) или
=ХИ2.ТЕСТ(Observed; Expected)

Примечание : Функция ХИ2.ТЕСТ() специально создана для проверки связи между двумя категориальными переменными (см. ).

Вероятность 0,000045 существенно меньше обычного уровня значимости 0,05. Так что, у игрока есть все основания подозревать своего противника в нечестности (нулевая гипотеза о его честности отвергается).

При применении критерия Х 2 необходимо следить за тем, чтобы объем выборки n был достаточно большой, иначе будет неправомочна аппроксимация распределения статистики Х 2 . Обычно считается, что для этого достаточно, чтобы наблюденные частоты (Observed) были больше 5. Если это не так, то малые частоты объединяются в одно или присоединяются к другим частотам, причем объединенному значению приписывается суммарная вероятность и, соответственно, уменьшается число степеней свободы Х 2 -распределения .

Для того чтобы улучшить качество применения критерия Х 2 (), необходимо уменьшать интервалы разбиения (увеличивать L и, соответственно, увеличивать количество степеней свободы ), однако этому препятствует ограничение на количество попавших в каждый интервал наблюдений (д.б.>5).

Непрерывный случай

Критерий согласия Пирсона Х 2 можно применить так же в случае .

Рассмотрим некую выборку , состоящую из 200 значений. Нулевая гипотеза утверждает, что выборка сделана из .

Примечание : Cлучайные величины в файле примера на листе Непрерывное сгенерированы с помощью формулы =НОРМ.СТ.ОБР(СЛЧИС()) . Поэтому, новые значения выборки генерируются при каждом пересчете листа.

Соответствует ли имеющийся набор данных можно визуально оценить .

Как видно из диаграммы, значения выборки довольно хорошо укладываются вдоль прямой. Однако, как и в для проверки гипотезы применим Критерий согласия Пирсона Х 2 .

Для этого разобьем диапазон изменения случайной величины на интервалы с шагом 0,5 . Вычислим наблюденные и теоретические частоты. Наблюденные частоты вычислим с помощью функции ЧАСТОТА() , а теоретические – с помощью функции НОРМ.СТ.РАСП() .

Примечание : Как и для дискретного случая , необходимо следить, чтобы выборка была достаточно большая, а в интервал попадало >5 значений.

Вычислим статистику Х 2 и сравним ее с критическим значением для заданного уровня значимости (0,05). Т.к. мы разбили диапазон изменения случайной величины на 10 интервалов, то число степеней свободы равно 9. Критическое значение можно вычислить по формуле
=ХИ2.ОБР.ПХ(0,05;9) или
=ХИ2.ОБР(1-0,05;9)

На диаграмме выше видно, что значение статистики равно 8,19, что существенно выше критического значения нулевая гипотеза не отвергается.

Ниже приведена , на которой выборка приняла маловероятное значение и на основании критерия согласия Пирсона Х 2 нулевая гипотеза была отклонена (не смотря на то, что случайные значения были сгенерированы с помощью формулы =НОРМ.СТ.ОБР(СЛЧИС()) , обеспечивающей выборку из стандартного нормального распределения ).

Нулевая гипотеза отклонена, хотя визуально данные располагаются довольно близко к прямой линии.

В качестве примера также возьмем выборку из U(-3; 3). В этом случае, даже из графика очевидно, что нулевая гипотеза должна быть отклонена.

Критерий согласия Пирсона Х 2 также подтверждает, что нулевая гипотеза должна быть отклонена.

Описание критерия

Назначения критерия

Критерий «хи-квадрат» Пирсона

Материалы лекции

Тема 6. Выявление различий в распределении признака

Критерий Пирсона: назначение критерия, его описание, область применения, алгоритм расчета.

Критерий Колмогорова–Смирнова для сравнения результатов количественного измерения: назначение критерия, его описание, область применения, алгоритм расчета.

При изучении данной темы необходимо учесть то, что оба критерия непараметрические, они оперируют частотами. Обратите особое внимание на правила принятия решения для рассмотренных критериев: эти правила могут быть противоположны. Внимательно изучите ограничения в применении критериев.

После изучения материала лекции ответьте на контрольные вопросы, ответы занесите в конспект.

Критерий «хи-квадрат» Пирсона может решать несколько задач, в том числе и сравнение распределений.

Критерий χ 2 применяется в двух целях;

1) для сопоставления эмпирического распределения признака с теоре­тическим - равномерным, нормальным или каким-то иным;

2) для сопоставления двух, трех или более эмпирических распределе­ний одного и того же признака, то есть для проверки их однородности;

3) для оценки стохастической (вероятностной) независимости в системе случайных событий и т.д.

Критерий χ 2 отвечает на вопрос о том, с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в двух и более эмпирических распределениях.

Преимущество метода состоит в том, что он позволяет сопостав­лять распределения признаков, представленных в любой шкале, начиная от шкалы наименований. В самом простом случае альтерна­тивного распределения ("да - нет", "допустил брак - не допустил бра­ка", "решил задачу - не решил задачу" и т. п.) мы уже можем приме­нить критерий χ 2 .

1. Объем выборки должен быть достаточно большим: N>30. При N<30 критерий χ 2 дает весьма приближенные значения. Точность крите­рия повышается при больших N.

2. Теоретическая частота для каждой ячейки таблицы не должна быть меньше 5: f ≥ 5. Это означает, что если число разрядов задано зара­нее и не может быть изменено, то мы не можем применять метод χ 2 , не накопив определенного минимального числа наблюдений. Ес­ли, например, мы хотим проверить наши предположения о том, что частота обращений в телефонную службу Доверия неравномерно распределяются по 7 дням недели, то нам потребуется 5-7=35 обра­щений. Таким образом, если количество разрядов (k) задано зара­нее, как в данном случае, минимальное число наблюдений (N min) оп­ределяется по формуле: .



3. Выбранные разряды должны "вычерпывать" все распределение, то есть охватывать весь диапазон вариативности признаков. При этом группировка на разряды должна быть одинаковой во всех сопостав­ляемых распределениях.

4. Необходимо вносить "поправку на непрерывность" при сопоставле­нии распределений признаков, которые принимают всего 2 значения. При внесении поправки значение χ 2 , уменьшается (см. пример с по­правкой на непрерывность).

5. Разряды должны быть неперекрещивающимися: если наблюдение отнесено к одному разряду, то оно уже не может быть отнесено ни к какому другому разряду. Сумма наблюдений по разрядам всегда должна быть равна общему количеству наблюдений.

Алгоритм расчета критерия χ 2

1. Составить таблицу взаимной сопряженности значений признаков следующего вида (по сути это двумерный вариационный ряд, в котором указываются частоты появления совместных значений признака) - таблица 19. В таблице располагаются условные частоты, которые мы обозначим в общем виде как f ij . Например, число градаций признака х равно 3 (k=3), число градаций признака у равно 4 (m=4); тогда i меняется от 1 до k, а j меняется от 1 до m.

Таблица 19

х i у j х 1 х 2 х 3
у 1 f 11 f 21 f 31 f –1
у 2 f 12 f 22 f 32 f –2
у 3 f 13 f 23 f 33 f –3
у 4 f 14 f 24 f 34 f –4
f 1– f 2– f 3– N

2. Далее для удобства расчетов преобразуем исходную таблицу взаимной сопряженности в таблицу следующего вида (таблица 20), располагая столбики с условными частотами один под другим: Занести в таблицу наименования разрядов (столбцы 1 и 2) и соответствующие им эмпирические частоты (3-й столбец).

Таблица 20

х i у j f ij f ij * f ij – f ij * (f ij – f ij *) 2 (f ij – f ij *) 2 / f ij *
1 2 3 4 5 6 7
х 1 у 1 f 11 f 11 *
х 1 у 2 f 12 f 12 *
х 1 у 3 f 13 f 13 *
х 1 у 4 f 14 f 14 *
х 2 у 1 f 21 f 21 *
х 2 у 2 f 22 f 22 *
х 2 у 3 f 23 f 23 *
х 2 у 4 f 24 f 24 *
х 3 у 1 f 31 f 31 *
х 3 у 2 f 32 f 32 *
х 3 у 3 f 33 f 33 *
х 3 у 4 f 34 f 34 *
∑=………….

3. Рядом с каждой эмпирической частотой записать теоретическую частоту (4-й столбец), которая вычисляется по следующей формуле (итоговая частоты по соответствующей строчке умножается на итоговую частоту по соответствующему столбику и делится на общее количество наблюдений):

5. Определить число степеней свободы по формуле: ν=(k-1)(m-1) , где k - количество разрядов признака х , m - количество разрядов признака у .

Если ν=1, внести поправку на "непрерывность" и записать её в столбце 5а.

Поправка на непрерывность состоит в том, что от разности между условной и теоретической частотой отнимается еще 0,5. Тогда заголовки столбиков в нашей таблице будет выглядеть следующим образом (таблица 21):

Таблица 21

х у f ij f ij * f ij – f ij * f ij – f ij * – 0,5 (f ij – f ij * – 0,5) 2 (f ij – f ij * – 0,5) 2 / f ij *
1 2 3 4 5 6 7

6. Возвести в квадрат полученные разности и занести их в 6-й столбец.

7. Разделить полученные квадраты разностей на теоретическую часто­ту и записать результаты в 7-й столбец.

8. Просуммировать значения 7-го столбца. Полученную сумму обо­значить как χ 2 эмп.

9. Правило принятия решения:

Расчетное значение критерия необходимо сравнить с критическим (или табличным) значением. Критическое значение находится в зависимости от числа степеней свободы по таблице критических значений критерия χ 2 Пирсона (см. Приложение 1.6).

Если χ 2 расч ≥ χ 2 табл, то рас­хождения между распределениями статистически достоверны, или признаки изменяются согласованно, или связь между признаками статистически значима.

Если χ 2 расч < χ 2 табл, то расхождения между рас­пределениями статистически недостоверны, или признаки изменяются несогласованно, или связи между признаками нет.

В том случае, если полученное значение критерия χ 2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.

Пример расчета критерия хи-квадрат Пирсона

Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:

1. Рассчитываем ожидаемые значения для каждой ячейки:

2. Находим значение критерия хи-квадрат Пирсона:

χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

3. Число степеней свободы f = (2-1)*(2-1) = 1. Находим по таблице критическое значение критерия хи-квадрат Пирсона, которое при уровне значимости p=0.05 и числе степеней свободы 1 составляет 3.841.

4. Сравниваем полученное значение критерия хи-квадрат с критическим: 4.396 > 3.841, следовательно зависимость частоты случаев артериальной гипертонии от наличия курения - статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05.

Также критерий хи-квадрат Пирсона вычисляется по формуле

Но для таблицы 2х2 более точные результаты дает критерий с поправкой Йетса

Если то Н(0) принимается,

В случае принимается Н(1)

Когда число наблюдений невелико и в клетках таблицы встречается частота меньше 5, критерий хи-квадрат неприменим и для проверки гипотез используется точный критерий Фишера . Процедура вычисления этого критерия достаточно трудоемка и в этом случае лучше воспользоваться компьютерными программами статанализа.

По таблице сопряженности можно вычислить меру связи между двумя качественными признаками – ею является коэффициент ассоциации Юла Q (аналог коэффициента корреляции)

Q лежит в пределах от 0 до 1. Близкий к единице коэффициент свидетельствует о сильной связи между признаками. При равенстве его нулю – связь отсутствует.

Аналогично используется коэффициент фи-квадрат (φ 2)

ЗАДАЧА-ЭТАЛОН

В таблице описывается связь между частотой мутации у групп дрозофил с подкормкой и без подкормки



Анализ таблицы сопряженности

Для анализа таблицы сопряженности выдвигается Н 0 - гипотеза.т.е.отсуствие влияния изучаемого признака на результат исследования.Для этого рассчитывается ожидаемая частота,и строится таблица ожидания.

Таблица ожидания

группы Чило культур Всего
Давшие мутации Не давшие мутации
Фактическая частота Ожидаемая частота Фактическая частота Ожидаемая частота
С подкормкой
Без подкормкой
всего

Метод №1

Определяем частоту ожидания:

2756 – Х ;

2. 3561 – 3124

Если число наблюдении в группах мало, при применении Х 2, в случае сопоставления фактических и ожидаемых частот при дискретных распределениях сопряжено с некоторой неточностью.Для уменьшения неточности применяют поправку Йейтса.

​ Критерий χ 2 Пирсона – это непараметрический метод, который позволяет оценить значимость различий между фактическим (выявленным в результате исследования) количеством исходов или качественных характеристик выборки, попадающих в каждую категорию, и теоретическим количеством, которое можно ожидать в изучаемых группах при справедливости нулевой гипотезы. Выражаясь проще, метод позволяет оценить статистическую значимость различий двух или нескольких относительных показателей (частот, долей).

1. История разработки критерия χ 2

Критерий хи-квадрат для анализа таблиц сопряженности был разработан и предложен в 1900 году английским математиком, статистиком, биологом и философом, основателем математической статистики и одним из основоположников биометрики Карлом Пирсоном (1857-1936).

2. Для чего используется критерий χ 2 Пирсона?

Критерий хи-квадрат может применяться при анализе таблиц сопряженности , содержащих сведения о частоте исходов в зависимости от наличия фактора риска. Например, четырехпольная таблица сопряженности выглядит следующим образом:

Исход есть (1) Исхода нет (0) Всего
Фактор риска есть (1) A B A + B
Фактор риска отсутствует (0) C D C + D
Всего A + C B + D A + B + C + D

Как заполнить такую таблицу сопряженности? Рассмотрим небольшой пример.

Проводится исследование влияния курения на риск развития артериальной гипертонии. Для этого были отобраны две группы исследуемых - в первую вошли 70 человек, ежедневно выкуривающих не менее 1 пачки сигарет, во вторую - 80 некурящих такого же возраста. В первой группе у 40 человек отмечалось повышенное артериальное давление. Во второй - артериальная гипертония наблюдалась у 32 человек. Соответственно, нормальное артериальное давление в группе курильщиков было у 30 человек (70 - 40 = 30) а в группе некурящих - у 48 (80 - 32 = 48).

Заполняем исходными данными четырехпольную таблицу сопряженности:

В полученной таблице сопряженности каждая строчка соответствует определенной группе исследуемых. Столбцы - показывают число лиц с артериальной гипертонией или с нормальным артериальным давлением.

Задача, которая ставится перед исследователем: имеются ли статистически значимые различия между частотой лиц с артериальным давлением среди курящих и некурящих? Ответить на этот вопрос можно, рассчитав критерий хи-квадрат Пирсона и сравнив получившееся значение с критическим.

3. Условия и ограничения применения критерия хи-квадрат Пирсона

  1. Сопоставляемые показатели должны быть измерены в номинальной шкале (например, пол пациента - мужской или женский) или в порядковой (например, степень артериальной гипертензии, принимающая значения от 0 до 3).
  2. Данный метод позволяет проводить анализ не только четырехпольных таблиц, когда и фактор, и исход являются бинарными переменными, то есть имеют только два возможных значения (например, мужской или женский пол, наличие или отсутствие определенного заболевания в анамнезе...). Критерий хи-квадрат Пирсона может применяться и в случае анализа многопольных таблиц, когда фактор и (или) исход принимают три и более значений.
  3. Сопоставляемые группы должны быть независимыми, то есть критерий хи-квадрат не должен применяться при сравнении наблюдений "до-"после". В этих случаях проводится тест Мак-Немара (при сравнении двух связанных совокупностей) или рассчитывается Q-критерий Кохрена (в случае сравнения трех и более групп).
  4. При анализе четырехпольных таблиц ожидаемые значения в каждой из ячеек должны быть не менее 10. В том случае, если хотя бы в одной ячейке ожидаемое явление принимает значение от 5 до 9, критерий хи-квадрат должен рассчитываться с поправкой Йейтса . Если хотя бы в одной ячейке ожидаемое явление меньше 5, то для анализа должен использоваться точный критерий Фишера .
  5. В случае анализа многопольных таблиц ожидаемое число наблюдений не должно принимать значения менее 5 более чем в 20% ячеек.

4. Как рассчитать критерий хи-квадрат Пирсона?

Для расчета критерия хи-квадрат необходимо:

Данный алгоритм применим как для четырехпольных, так и для многопольных таблиц.

5. Как интерпретировать значение критерия хи-квадрат Пирсона?

В том случае, если полученное значение критерия χ 2 больше критического, делаем вывод о наличии статистической взаимосвязи между изучаемым фактором риска и исходом при соответствующем уровне значимости.

6. Пример расчета критерия хи-квадрат Пирсона

Определим статистическую значимость влияния фактора курения на частоту случаев артериальной гипертонии по рассмотренной выше таблице:

  1. Рассчитываем ожидаемые значения для каждой ячейки:
  2. Находим значение критерия хи-квадрат Пирсона:

    χ 2 = (40-33.6) 2 /33.6 + (30-36.4) 2 /36.4 + (32-38.4) 2 /38.4 + (48-41.6) 2 /41.6 = 4.396.

  3. Число степеней свободы f = (2-1)*(2-1) = 1. Находим по таблице критическое значение критерия хи-квадрат Пирсона, которое при уровне значимости p=0.05 и числе степеней свободы 1 составляет 3.841.
  4. Сравниваем полученное значение критерия хи-квадрат с критическим: 4.396 > 3.841, следовательно зависимость частоты случаев артериальной гипертонии от наличия курения - статистически значима. Уровень значимости данной взаимосвязи соответствует p<0.05.

23. Понятие распределения хи-квадрат и Стьюдента, и графический вид

1) Распределение (хи-квадрат) с n степенями свободы - это распределение суммы квадратов n независимых стандартных нормальных случайных величин.

Распределение (хи – квадрат) – распределение случайной величины (причем математическое ожидание каждой из них равно 0, а среднее квадратическое отклонение-1)

где случайные величины независимы и имеют одно и тоже распределение. При этом число слагаемых, т.е., называется "числом степеней свободы" распределения хи-квадрат. Число хи-квадрат опредляется одни параметром-числом степеней свободы. С увеличением числа степеней свободы распределение медленно приближается к нормальному.

Тогда сумма их квадратов

является случайной величиной, распределенной по так называемому закону «хи-квадрат» с k = n степенями свободы; если же слагаемые связаны каким-либо соотношением (например, ), то число степеней свободы k = n – 1.

Плотность этого распределения

Здесь - гамма-функция; в частности, Г(п + 1) = п! .

Следовательно, распределение «хи-квадрат» определяется одним параметром – числом степеней свободы k.

Замечание 1. С увеличением числа степеней свободы распределение «хи-квадрат» постепенно приближается к нормальному.

Замечание 2. С помощью распределения «хи-квадрат» определяются многие другие распреде-ления, встречающиеся на практике, например, распределение случайной величины - длины случайного вектора (Х1, Х2,…, Хп), координаты которого независимы и распределены по нормальному закону.

Впервые χ2-распределение было рассмотрено Р.Хельмертом (1876) и К.Пирсоном (1900).

Мат.ожид.=n; D=2n

2) Распределение Стьюдента

Рассмотрим две независимые случайные величины: Z, имеющую нормальное распределение и нормированную (то есть М(Z) = 0, σ(Z) = 1), и V, распределенную по закону «хи-квадрат» с k степенями свободы. Тогда величина

имеет распределение, называемое t – распределением или распределением Стьюдента с k степенями свободы. При этом k называется "числом степеней свободы" распределения Стьюдента.

С возрастанием числа степеней свободы распределение Стьюдента быстро приближается к нормальному.

Это распределение было введено в 1908 г. английским статистиком В. Госсетом, работавшем на фабрике, выпускающей пиво. Вероятностно-статистические методы использовались для принятия экономических и технических решений на этой фабрике, поэтому ее руководство запрещало В. Госсету публиковать научные статьи под своим именем. Таким способом охранялась коммерческая тайна, "ноу-хау" в виде вероятностно-статистических методов, разработанных В. Госсетом. Однако он имел возможность публиковаться под псевдонимом "Стьюдент". История Госсета – Стьюдента показывает, что еще сто лет назад менеджерам Великобритании была очевидна большая экономическая эффективность вероятностно-статистических методов принятия решений.