Регрессия к среднему значению. Как преодолеть эти ограничения. Где это наблюдается

Верите ли вы в то, что после крупного везения всегда наступает полоса неудач? Например, если сегодня в покере вам пришел действительно сильный расклад, то завтра вас будет игнорировать даже аппарат по выдаче бахил. А может вы думаете, что ваш талант к выпиливанию лобзиком или ваша неземная красота обязательно должны передаться по наследству вашим детям? Если вы в этом уверены, то статистика высказывается по этому вопросу более сдержанно. Объяснить подобные явления поможет статистический принцип под названием “регрессия к среднему”. Его игнорирование может привести как минимум к плохому настроению, а как максимум – к полному разочарованию в своей жизни. На самом деле идея очень проста. Разберем ее.

Талантливость или гениальность, крупное везение, провал или другое экстраординарное явление встречаются крайне редко, то есть вероятность их возникновения чрезвычайно мала. Вероятность повторения столь редкого события будет еще меньше, так как для ее нахождения используется умножение вероятностей. Таким образом, после любого экстремального события (плохого или хорошего) все возвращается на круги своя. Здесь очень важный момент – жизнь НЕ компенсирует ваши неудачи или победы, просто ваши показатели везения устремляются к своим средним значениям. Это и есть регрессия к среднему (от лат. regressio - обратное движение). То же самое происходит и при смене поколений. Ваши дети обязательно будут талантливы, но, вероятнее всего, в другой области.

Впервые понятие регрессии ввел сэр Френсис Гальтон, английский исследователь широкого профиля. На его счету еще одно основополагающее понятие статистики – корреляция. Изучая наследственность, Гальтон измерял у своих соотечественников все, что можно было измерить: головы, носы, руки, количество суетливых движений, степень привлекательности и т.д. Гальтон считал, что характер человека, его умственные способности и талант также определяются наследственностью и подчиняются принципу нормального распределения.

В одной своей работе он пытался найти связь между ростом родителей и ростом их детей. Зависимость очевидна – у высоких родителей рождаются высокие дети и наоборот. Но Гальтон, помимо этого, обнаружил также не совсем логичные закономерности. Например, он обнаружил, что у родителей с ростом выше среднего были высокие дети, но они были не такими высокими, как их родители. А у родителей с ростом ниже среднего дети были низкие, но не ниже своих родителей. Это означает, что рост уже взрослых детей отклоняется в меньшей степени от среднего значения, чем рост родителей. То есть, потомки сильнее «регрессируют» к среднему. Вообще-то Гальтон назвал это явление “регрессией к посредственности”, что более точно отражает смысл, ИМХО.

Гальтон построил график, напоминающий современную диаграмму рассеяния.

Он разбил людей по группам в зависимости от их роста (в дюймах), для каждой группы рассчитал среднее арифметическое и отметил эти значения на графике. Далее Гальтон аппроксимировал эти точки и построил прямые, так называемые линии регрессии. Гальтон даже рассчитал коэффициент корреляции – 2/3. Это значит, что всего на 67% рост детей определяется ростом родителей.
На графике подписано: “Когда средний рост родителей больше среднего из популяции, дети обнаруживают тенденцию быть ниже своих родителей. И наоборот, когда средний рост родителей меньше среднего из популяции, дети обнаруживают тенденцию быть выше своих родителей”.

Хотя сейчас выводы и идеи Гальтона не критикуют, а мягко подвергают сомнению, они имеют революционное значение для статистики. Благодаря этому разностороннему ученому в настоящее время широко используются регрессионный и корреляционный анализы.

Ниже нами построена диаграмма рассеяния (она же точечная диаграмма) для данных, собранных Гальтоном. В 1886 году он представил табличку, где был указан рост 928 уже взрослых детей и рост их 205 родителей (средневзвешенное значение роста отца и матери). С тех пор эти данные часто используют как отличный пример регрессии к среднему.

y =f (x ), когда каждому значению независимой переменной x соответствует одно определённое значение величины y , при регрессионной связи одному и тому же значению x могут соответствовать в зависимости от случая различные значения величины y . Если при каждом значении наблюдается n i {\displaystyle n_{i}} значений y i 1 …y in 1 величины y , то зависимость средних арифметических y ¯ i = (y i 1 + . . . + y i n 1) / n i {\displaystyle {\bar {y}}_{i}=(y_{i1}+...+y_{in_{1}})/n_{i}} от x = x i {\displaystyle x=x_{i}} и является регрессией в статистическом понимании этого термина .

Энциклопедичный YouTube

1 / 5
Этот термин в статистике впервые был использован Френсисом Гальтоном (1886) в связи с исследованием вопросов наследования физических характеристик человека. В качестве одной из характеристик был взят рост человека; при этом было обнаружено, что в целом сыновья высоких отцов, что не удивительно, оказались более высокими, чем сыновья отцов с низким ростом. Более интересным было то, что разброс в росте сыновей был меньшим, чем разброс в росте отцов. Так проявлялась тенденция возвращения роста сыновей к среднему (regression to mediocrity ), то есть «регресс». Этот факт был продемонстрирован вычислением среднего роста сыновей отцов, рост которых равен 56 дюймам, вычислением среднего роста сыновей отцов, рост которых равен 58 дюймам, и т. д. После этого результаты были изображены на плоскости, по оси ординат которой откладывались значения среднего роста сыновей, а по оси абсцисс - значения среднего роста отцов. Точки (приближённо) легли на прямую с положительным углом наклона меньше 45°; важно, что регрессия была линейной.

Описание

Допустим, имеется выборка из двумерного распределения пары случайных переменных (X, Y ). Прямая линия в плоскости (x, y ) была выборочным аналогом функции
g (x) = E (Y ∣ X = x) . {\displaystyle g(x)=E(Y\mid X=x).} E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) , {\displaystyle E(Y\mid X=x)=\mu _{2}+\varrho {\frac {\sigma _{2}}{\sigma _{1}}}(x-\mu _{1}),} v a r (Y ∣ X = x) = σ 2 2 (1 − ϱ 2) . {\displaystyle \mathrm {var} (Y\mid X=x)=\sigma _{2}^{2}(1-\varrho ^{2}).}
В этом примере регрессия Y на X является линейной функцией . Если регрессия Y на X отлична от линейной, то приведённые уравнения – это линейная аппроксимация истинного уравнения регрессии.
В общем случае регрессия одной случайной переменной на другую не обязательно будет линейной. Также не обязательно ограничиваться парой случайных переменных. Статистические проблемы регрессии связаны с определением общего вида уравнения регрессии, построением оценок неизвестных параметров, входящих в уравнение регрессии, и проверкой статистических гипотез о регрессии . Эти проблемы рассматриваются в рамках регрессионного анализа .
Простым примером регрессии Y по X является зависимость между Y и X , которая выражается соотношением: Y =u (X )+ε, где u (x )=E (Y | X =x ), а случайные величины X и ε независимы. Это представление полезно, когда планируется эксперимент для изучения функциональной связи y =u (x ) между неслучайными величинами y и x . На практике обычно коэффициенты регрессии в уравнении y =u (x ) неизвестны и их оценивают по экспериментальным данным.

Линейная регрессия

Представим зависимость y от x в виде линейной модели первого порядка:
y = β 0 + β 1 x + ε . {\displaystyle y=\beta _{0}+\beta _{1}x+\varepsilon .}
Будем считать, что значения x определяются без ошибки, β 0 и β 1 - параметры модели, а ε - ошибка, распределение которой подчиняется нормальному закону с нулевым средним значением и постоянным отклонением σ 2 . Значения параметров β заранее не известны и их нужно определить из набора экспериментальных значений (x i , y i ), i =1, …, n . Таким образом мы можем записать:
y i ^ = b 0 + b 1 x i , i = 1 , … , n {\displaystyle {\widehat {y_{i}}}=b_{0}+b_{1}x_{i},i=1,\dots ,n}
где означает предсказанное моделью значение y при данном x , b 0 и b 1 - выборочные оценки параметров модели. Определим также e i = y i − y i ^ {\displaystyle e_{i}=y_{i}-{\widehat {y_{i}}}} - значение ошибки аппроксимации для i {\displaystyle i} -го наблюдения.
Метод наименьших квадратов даёт следующие формулы для вычисления параметров данной модели и их отклонений:
b 1 = ∑ i = 1 n (x i − x ¯) (y i − y ¯) ∑ i = 1 n (x i − x ¯) 2 = c o v (x , y) σ x 2 ; {\displaystyle b_{1}={\frac {\sum _{i=1}^{n}(x_{i}-{\bar {x}})(y_{i}-{\bar {y}})}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}={\frac {\mathrm {cov} (x,y)}{\sigma _{x}^{2}}};} b 0 = y ¯ − b 1 x ¯ ; {\displaystyle b_{0}={\bar {y}}-b_{1}{\bar {x}};} s e 2 = ∑ i = 1 n (y i − y ^) 2 n − 2 ; {\displaystyle s_{e}^{2}={\frac {\sum _{i=1}^{n}(y_{i}-{\widehat {y}})^{2}}{n-2}};} s b 0 = s e 1 n + x ¯ 2 ∑ i = 1 n (x i − x ¯) 2 ; {\displaystyle s_{b_{0}}=s_{e}{\sqrt {{\frac {1}{n}}+{\frac {{\bar {x}}^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};} s b 1 = s e 1 ∑ i = 1 n (x i − x ¯) 2 , {\displaystyle s_{b_{1}}=s_{e}{\sqrt {\frac {1}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}},}
здесь средние значения определяются как обычно: x ¯ = ∑ i = 1 n x i n {\displaystyle {\bar {x}}={\frac {\sum _{i=1}^{n}x_{i}}{n}}} , y ¯ = ∑ i = 1 n y i n {\displaystyle {\bar {y}}={\frac {\sum _{i=1}^{n}y_{i}}{n}}} и s e 2 обозначает остаточное отклонение регрессии, которое является оценкой дисперсии σ 2 в том случае, если модель верна.
Стандартные ошибки коэффициентов регрессии используются аналогично стандартной ошибке среднего - для нахождения доверительных интервалов и проверки гипотез. Используем, например, критерий Стьюдента для проверки гипотезы о равенстве коэффициента регрессии нулю, то есть о его незначимости для модели. Статистика Стьюдента: t = b / s b {\displaystyle t=b/s_{b}} . Если вероятность для полученного значения и n −2 степеней свободы достаточно мала, например, <0,05 - гипотеза отвергается. Напротив, если нет оснований отвергнуть гипотезу о равенстве нулю, скажем, b 1 {\displaystyle b_{1}} - есть основание задуматься о существовании искомой регрессии, хотя бы в данной форме, или о сборе дополнительных наблюдений. Если же нулю равен свободный член b 0 {\displaystyle b_{0}} , то прямая проходит через начало координат и оценка углового коэффициента равна
b = ∑ i = 1 n x i y i ∑ i = 1 n x i 2 {\displaystyle b={\frac {\sum _{i=1}^{n}x_{i}y_{i}}{\sum _{i=1}^{n}x_{i}^{2}}}} ,
а её стандартной ошибки
s b = s e 1 ∑ i = 1 n x i 2 . {\displaystyle s_{b}=s_{e}{\sqrt {\frac {1}{\sum _{i=1}^{n}x_{i}^{2}}}}.}
Обычно истинные величины коэффициентов регрессии β 0 и β 1 не известны. Известны только их оценки b 0 и b 1 . Иначе говоря, истинная прямая регрессии может пройти иначе, чем построенная по выборочным данным. Можно вычислить доверительную область для линии регрессии. При любом значении x соответствующие значения y распределены нормально. Средним является значение уравнения регрессии y ^ {\displaystyle {\widehat {y}}} . Неопределённость его оценки характеризуется стандартной ошибкой регрессии:
s y ^ = s e 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; {\displaystyle s_{\widehat {y}}=s_{e}{\sqrt {{\frac {1}{n}}+{\frac {(x-{\bar {x}})^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};}
Теперь можно вычислить -процентный доверительный интервал для значения уравнения регрессии в точке x :
y ^ − t (1 − α / 2 , n − 2) s y ^ < y < y ^ + t (1 − α / 2 , n − 2) s y ^ {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{\widehat {y}}
,
где t (1−α/2, n −2) - t -значение распределения Стьюдента. На рисунке показана линия регрессии, построенная по 10 точкам (сплошные точки), а также 95%-я доверительная область линии регрессии, которая ограничена пунктирными линиями. С 95%-й вероятностью можно утверждать, что истинная линия находится где-то внутри этой области. Или иначе, если мы соберём аналогичные наборы данных (обозначены кружками) и построим по ним линии регрессии (обозначены голубым цветом), то в 95 случаях из 100 эти прямые не покинут пределов доверительной области. (Для визуализации кликните по картинке) Обратите внимание, что некоторые точки оказались вне доверительной области. Это совершенно естественно, поскольку речь идёт о доверительной области линии регрессии, а не самих значений. Разброс значений складывается из разброса значений вокруг линии регрессии и неопределённости положения самой этой линии, а именно:
s Y = s e 1 m + 1 n + (x − x ¯) 2 ∑ i = 1 n (x i − x ¯) 2 ; {\displaystyle s_{Y}=s_{e}{\sqrt {{\frac {1}{m}}+{\frac {1}{n}}+{\frac {(x-{\bar {x}})^{2}}{\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}}}}};}
Здесь m - кратность измерения y при данном x . И 100 ⋅ (1 − α 2) {\displaystyle 100\cdot \left(1-{\frac {\alpha }{2}}\right)} -процентный доверительный интервал (интервал прогноза) для среднего из m значений y будет:
y ^ − t (1 − α / 2 , n − 2) s Y < y < y ^ + t (1 − α / 2 , n − 2) s Y {\displaystyle {\widehat {y}}-t_{(1-\alpha /2,n-2)}s_{Y}
.
На рисунке эта 95%-я доверительная область при m =1 ограничена сплошными линиями. В эту область попадает 95 % всех возможных значений величины y в исследованном диапазоне значений x .

Еще немного статистики

Можно строго доказать, что, если условное матожидание E (Y ∣ X = x) {\displaystyle E(Y\mid X=x)} некоторой двумерной случайной величины (X, Y ) является линейной функцией от x {\displaystyle x} , то это условное матожидание обязательно представимо в виде E (Y ∣ X = x) = μ 2 + ϱ σ 2 σ 1 (x − μ 1) {\displaystyle E(Y\mid X=x)=\mu _{2}+\varrho {\frac {\sigma _{2}}{\sigma _{1}}}(x-\mu _{1})} , где E (X )=μ 1 , E (Y )=μ 2 , var(X )=σ 1 2 , var(Y )=σ 2 2 , cor(X, Y )=ρ.
Более того, для уже упомянутой ранее линейной модели Y = β 0 + β 1 X + ε {\displaystyle Y=\beta _{0}+\beta _{1}X+\varepsilon } , где X {\displaystyle X} и - независимые случайные величины, а ε {\displaystyle \varepsilon } имеет нулевое матожидание (и произвольное распределение), можно доказать, что E (Y ∣ X = x) = β 0 + β 1 x {\displaystyle E(Y\mid X=x)=\beta _{0}+\beta _{1}x} . Тогда с помощью указанного ранее равенства можно получить формулы для и : β 1 = ϱ σ 2 σ 1 {\displaystyle \beta _{1}=\varrho {\frac {\sigma _{2}}{\sigma _{1}}}} ,
β 0 = μ 2 − β 1 μ 1 {\displaystyle \beta _{0}=\mu _{2}-\beta _{1}\mu _{1}} .
Если откуда-то априори известно, что множество случайных точек на плоскости порождается линейной моделью, но с неизвестными коэффициентами β 0 {\displaystyle \beta _{0}} и β 1 {\displaystyle \beta _{1}} , можно получить точечные оценки этих коэффициентов по указанным формулам. Для этого в эти формулы вместо матожиданий, дисперсий и корреляции случайных величин X и Y нужно подставить их несмещенные оценки. Полученные формулы оценок в точности совпадут с формулами, выведенными на основе метода наименьших квадратов.

Regression; Regression) - возвратное движение либидо к более раннему способу адаптации, часто сопровождаемому инфантильными фантазиями и желаниями.
"Регрессия, со своей стороны, выступает как адаптация к условиям внутреннего мира, вытекающая из жизненной потребности удовлетворять требованиям индивидуации. Человек - не машина в том смысле, чтобы постоянно поддерживать тот же самый рабочий выход. Он в состоянии обеспечивать идеальным образом требования внешней необходимости только тогда, когда он также приспособлен и к своему внутреннему миру, т. е. если он пребывает в согласии с самим собой. Соответственно, он может приспособиться к своему внутреннему миру и достичь гармонии с самим собой лишь тогда, когда он адаптирован к условиям окружающей среды" (CW 8, par. 75).
"То, что лишает Природу ее очарования и радости жизни - это привычка оглядываться назад ради чего-то, что пребывает вовне, вместо того чтобы вглядываться вовнутрь, в глубины депрессивного состояния. Такое оглядывание назад ведет к регрессии и оказывается первым шагом на пути к ней. К тому же регрессия является непроизвольной интроверсией, поскольку прошлое является объектом памяти и составляет психическое содержание, эндопсихичсский фактор. В сущности, это обратное впадение в прошлое, вызванное депрессией в настоящем" (CW 5, par. 625; СТ, пар. 625).
Юнг считал, что блокировка поступательного движения энергии возникает вследствие неспособности доминирующей сознательной установки адаптироваться к изменяющимся обстоятельствам. Однако тем самым активируются бессознательные содержания, несущие в себе семена новой прогрессии. Противоположная или подчиненная функция, потенциально способная модифицировать неадекватную сознательную установку, всегда "незримо присутствует за кулисами".
"Если мышление терпит неудачу в качестве функции приспособления, имея дело с ситуацией, в которой адаптация возможна лишь с помощью чувства, то бессознательный материал, активизировавшийся путем регрессии, будет удерживать недостающую чувствующую функцию, пусть даже и в неразвитой, эмбрионической, архаической форме. Аналогично, в противоположном типе регрессия будет активизировать мыслительную функцию, способную эффективно скомпенсировать неадекватное чувство" (CW 8, par. 65).
В отличие от фрейдовского, почти всегда отрицательного отношения к регрессии (регрессия для Фрейда то, что следует прогнать и преодолеть), Юнг считал, что регрессия энергии прежде всего ставит нас перед проблемой собственной психологии. Он настаивал на терапевтических и совершенствующих личность аспектах краткосрочной регрессии, не отрицая вреда продолжительной и непродуктивной регрессии. С телеологической (финальной) же точки зрения регрессия вообще оказывается столь же необходимой в процессе развития, как и прогрессия.
"Рассматриваемая причинно, регрессия определяется, так сказать, "фиксацией на матери". Но с финальной точки зрения либидо регрессирует в имаго матери, с тем, чтобы отыскать там ассоциации памяти, с помощью которых будет иметь место дальнейшее развитие, например из половой системы в интеллектуальную и духовную. Первое объяснение исчерпывается в подчеркивании важности причины и совершенно пропускает целевое назначение регрессивного процесса. Под этим углом зрения все здание человеческой цивилизации оказывается простым замещением невозможности инцеста. Но другое объяснение позволяет нам предвидеть то, что последует из регрессии, и в то же самое время помогает нам понять значение тех образов памяти, которые были реактивированы" (там же, par. 43f).
Юнг полагал, что за мирскими обывательскими симптомами регрессии лежит ее символическое значение, а именно потребность в психологическом обновлении. Последняя находит свое отражение в мифологии в форме путешествия героя.
"<...> в этом регрессивном страстном стремлении, которое Фрейд, как известно, рассматривал как "инфантильное закрепление" или "стремление к инцесту", заключены особая ценность и особая необходимость, выраженные, например, в мифах, когда именно самый сильный и лучший в народе, т. е. герой, следует за регрессивным страстным стремлением и умышленно подвергает себя опасности быть проглоченным чудовищем материнской праосновы. Но он - герой лишь потому, что не дает проглотить себя окончательно, а побеждает чудовище, и притом не просто один раз, а много раз. Только победа над коллективной психикой и выявляет истинную ценность - завладение сокровищем, непобедимым оружием, магическим защитным средством или еще чем-то иным, что миф считает благами, достойными стремления. Поэтому тот, кто идентифицирует себя с коллективной психикой, а выражаясь языком мифа, кто дает себя проглотить чудовищу и таким образом растворяется в нем, тот хотя и находится возле клада, который сторожит дракон, но отнюдь не по своей воле и к своему собственному величайшему ущербу" (ПБ, с. 232).

РЕГРЕССИЯ

Нем.: Regression. -Франц.: r?gression. -Англ.: regression. -Исп.: regresi?n. - Итал.: regressione. - Португ.: tegress?o.
o Если представить психический процесс как движение или развитие, то рецессией называется возврат от уже достигнутой точки к одной из предыдущих.
С точки зрения топики, по Фрейду, регрессия осуществляется в ходе смены психических систем, через которые обычно возбуждение движется в определенном направлении.
С точки зрения времени, регрессия предполагает определенную генетическую последовательность и обозначает возврат субъекта к уже пройденным этапам развития (либидинальные стадии, объектные отношения, (само)отождествления и пр.).
С точки зрения формальной, это переход к менее сложным, менее структурно упорядоченным и менее расчлененным способам выражения и поведения.
o Регрессия - это понятие, которое часто используется в психоанализе и современной психологии; обычно оно означает возврат к предыдущим формам развития мысли, объектных отношений, структуры поведения.
Поначалу Фрейд не интересовался возникновением регрессии. Впрочем, "регрессировать" - значит идти вспять, возвращаться назад, что можно себе представить как в логическом и пространственном, так и во временном смысле.
В "Толковании сновидений" (Die Traumdeutung, 1900) Фрейд ввел понятие регрессии для объяснения сущности сна: сновидные мысли предстают прежде всего в форме чувственных образов, которые преследуют субъекта почти как галлюцинация. Для объяснения этого феномена требуется подойти к нему с точки зрения топики*, чтобы психический аппарат имел вид ориентированной последовательности систем. В состоянии бодрствования возбуждения проходят сквозь эти системы, двигаясь вперед (т.е. от восприятия к движениям), тогда как во время сна мысли не способны разряжаться в движении и устремляются вспять, к системе восприятия (la). Таким образом, вводя понятие "регрессия", Фрейд понимал его прежде всего как понятие топики (а).
Временное значение регрессии, поначалу неявное, стало усиливаться в концепции Фрейда одновременно с выявлением новых моментов в психосексуальном развитии индивида.
В "Трех очерках по теории сексуальности" (Drei Abhandlungen zur Sexualtheorie, 1905) термин "регрессия" не встречается, однако здесь мы уже видим указания на возможность возврата либидо на обходные пути удовлетворения (2а) и к прежним его объектам (2b). Заметим в этой связи, что те места текста, где речь идет о регрессии, были добавлены лишь в 1915 г. По сути, и сам Фрейд признавал, что мысль о регрессии либидо к предыдущему способу организации возникла лишь в более поздний период (За). В самом деле, для выработки понятия временной регрессии потребовалось (в 1910- 1912 г.) прояснить последовательность стадий детского психосексуального развития. В "Предрасположенности к. неврозу навязчивости" (Die Disposition zur Zwangsneurose, 1913), например, Фрейд противопоставлял те случаи, когда "...сексуальная организация, предрасположенная к неврозу навязчивости, раз возникнув, сохраняется до конца", и те случаи, когда "она поначалу замещается организацией более высокого уровня, а затем приходит в регрессивное движение - вниз от этой стадии" (4).
Таким образом, судя по отрывку, добавленному к "Толкованию сновидений" в 1914 г., Фрейду пришлось провести в понятии регрессии внутренние разграничения: "Мы различаем регрессию трех видов: а) топическую, обусловленную функционированием психического аппарата; б) временную, при которой вновь вступают в действие прежние способы психической организации; в) формальную, заменяющую обычные способы выражения и образного представления более примитивными. Эти три формы регрессии в основе своей едины, поскольку более давнее во времени оказывается одновременно и более простым по форме, располагаясь в психической топике вблизи восприятия" (1b).
Топическая регрессия особенно ярко проявляет себя в сновидениях, где она осуществляется до конца. Однако ее можно обнаружить и в патологических процессах, где она распространяется не столь широко (галлюцинация), или в нормальных процессах, где она идет не столь далеко (память).
Понятие формальной регрессии реже использовалось Фрейдом, хотя оно охватывает многие явления, при которых происходит возврат от вторичных процессов к первичным (переход от тождества мысли* к функционированию сообразно с принципом тождества восприятия*). Здесь напрашивается сравнение того, что Фрейд называл формальной регрессией, с нейрофизиологическим "разложением" (поведения, сознания и т.д.) джексоновского типа. Предполагаемый при этом порядок связан "е с последовательностью этапов развития индивида, но скорее с иерархией функций и структур.
В рамках временной регрессии Фрейд различает несколько линий: регрессию по отношению к объекту, регрессию по отношению к либидинальной стадии и регрессию по отношению к эволюции Я (Зb).
Все эти различия связаны не только с заботой о строгости классификации. Дело в том, что в некоторых нормальных или патологических структурах различные типы регрессии не совпадают друг с другом; Фрейд отмечал, например, что "...при истерии систематически наблюдается регрессия либидо к первичным сексуальным объектам инцестуозного типа, хотя регрессии к предыдущим стадиям сексуальной организации при этом не происходит" (Зс).
Фрейд настаивал на том, что прошлое ребенка - индивида, а тем самым и всего человечества - навсегда остается в нас: "Первичные состояния всегда могут возникнуть вновь. Первичная психика в собственном смысле слова неуничтожима" (5). Фрейд повторяет эту мысль о возврате к прошлому применительно к самым различным областям - психопатологии, сновидениям, истории культуры, биологии и пр. На обновление прошлого в настоящем указывает также и понятие навязчивого повторения. Для выражения этой мысли Фрейд использует не только термин Regression, но и смежные по смыслу термины - R?ckbildung, R?ckwendung, R?ckgreifen и т.д.
Понятие регрессии прежде всего описательное, как считал и сам Фрейд. И потому его недостаточно для понимания того, каким именно образом субъект осуществляет возврат к прошлому. Некоторые разительные психопатологические состояния подталкивают нас к реалистическому пониманию регрессии: иногда говорят, что шизофреник становится грудным младенцем, кататоник возвращается в зародышевое состояние и т.д. Однако, когда применительно к человеку, страдающему неврозом навязчивости, говорят о регрессии к анальной стадии, это понимается не так, как в предыдущих примерах. В еще более ограниченном смысле можно говорить о регрессии при трансфере, когда речь идет о поведении субъекта в целом.
Хотя все эти фрейдовские разграничения и не позволяют дать понятию регрессии строгое теоретическое обоснование, они по крайней мере запрещают нам мыслить ее как нечто всеобъемлющее. В результате мы видим, что понятие регрессии связано с понятием фиксации, вовсе не сводимым к закреплению поведенческих схем. Если понимать фиксацию как "запись" (см.: Фиксация; Представление как репрезентатор влечения), регрессия может быть истолкована как повторный ввод в действие того, что уже было "записано". Тогда, скажем, "оральную регрессию" (в особенности при прохождении психоанализа) стоило бы понимать так: в своих высказываниях и установках субъект заново открывает то. что Фрейд некогда называл "языком орального влечения"(6).

РЕГРЕССИЯ

regression) Общий смысл - возвращение к более раннему состоянию или образу действия. В специальном значении - защитный процесс (см. ЗАЩИТА), при помощи которого субъект избегает (или пытается избежать) ТРЕВОГИ путем ластичного или полного возврата на более раннюю стадию ЛИБИДНОГО и ЭГО РАЗВИТИЯ. Стадия, на которую происходит регрессия, определяется наличием ТОЧЕК ФИКСАЦИИ. Теория регрессии предполагает, что, за исключением идеальных случаев, ИНФАНТИЛЬНЫЕ стадии развития преодолеваются не полностью, и поэтому более ранние паттерны поведения остаются как альтернативные способы функционирования. Регрессия, однако, не рассматривается как жизнеспособный и эффективный защитный процесс - напротив, часто это "из огня да в полымя", поскольку регрессия вынуждает индивида заново переживать тревогу, свойственную той стадии, к которой он регрессировал. Например, регрессия с ФАЛЛИЧЕСКОГО, или ЭДИПОВА, уровня на ОРАЛЬНЫЙ, предпринятая как защита от КАСТРАЦИОННОЙ ТРЕВОГИ, делает пациента беззащитным перед вновь переживаемой СЕПАРАЦИ-ОННОЙ ТРЕВОГОЙ. В результате регрессия обычно сопровождается дальнейшими защитными мерами, предназначенными уберечь ЭГО от ее последствий.

РЕГРЕССИЯ

1. Процесс и результат некоего регресса.
2. В общем плане - возвращение либидо к уже пройденным стадиям психосексуального развития. Согласно З. Фрейду, выделяются два типа регрессии:
1) возвращение к объектам инцестуального характера, кои были первыми захвачены либидо;
2) возвращение общей психосексуальной организации к пройденным ступеням развития. Оба вида встречаются при неврозах перенесения.
3. Некое движение вспять в явлениях сновидений, невроза и пр.
4. Регрессия поведения.

РЕГРЕССИЯ

лат. regredere - движение вспять) . Один из механизмов психологической защиты, при котором субъект возвращается к формам поведения, типичным для предшествующих стадий его развития. В трудных ситуациях человек, подобно ребенку, проявляет свою зависимость от окружающих, отказывается от самостоятельности в поступках, от приема собственных решений, от своей ответственности за что-либо. Это явление играет большую роль в развитии госпитализма, в уходе в болезнь, бегстве в мир мечтаний.

РЕГРЕССИЯ (REGRESSION)

Термин, обозначающий возврат к менее зрелому уровню психического развития. Кок правило, регрессия возникает в. ситуации, когда нарушаются процессы психической организации, соответствующие данной фазе развития. При этом регрессия рассматривается кок один из механизмов защиты. Концепция регрессии тесно связана с положением о том, что психологическое развитие индивида проходит ряд фаз, каждая из которых характеризуется специфическими особенностями проявлений влечений Я, Я-идеала и Сверх-Я. Становление каждой фазы зависит от: 1) способа разрядки инстинктивных влечений, 2) функционирования Я; 3) присущих индивиду идеалов и проявлений совести.
Обычно понятие регрессии принято рассматривать в двух аспектах. Либидинозная регрессия (регрессия либидо) представляет собой возвращение к ранним фазам организации инстинктивной жизни, возникающее в ходе нормального развития, когда индивид не способен справиться с требованиями биологически детерминированного процесса достижения большей зрелости. В таких случаях неразрешенные конфликты и тревога, исходящие из более ранних уровней развития, образуют в структуре психического аппарата "слабые место" (фиксации). Последние, как правило, и определяют тот уровень, к которому регрессирует психическая деятельность. В иных случаях регрессия проявляется в ответ на новые для индивида события и ситуации, возникающие в данной фазе развития, но оказывающие явно травматическое воздействие. В детском возрасте, когда развитие сексуальных влечений пока еще неустойчиво, либидинозные формы регрессии являются весьма распространенным механизмом. Так, например, пятилетний ребенок под влиянием стресса (соперничество с младшим братом или сестрой) прибегает к сосанию пальца, то есть к такому способу самоуспокоения, который он уже давно отбросил и позабыл.
Другой тип регрессии - регрессия Я- представляет собой отход от более развитых и зрелых стадий психической организации к способам деятельности, характерным для более ранних периодов жизни. Хотя регрессия Я проявляется чаще всего вместе с либидиноэной, первая из них сказывается прежде всего на вовлеченных в конфликт функциях Я. Регрессия Я проявляется в виде формальных характеристик процессов воображения, сопряженных с теми или иными дериватами конфликта влечений. Наиболее распространенными примерами регрессии этого типа являются утрата ребенком контроля над функциями мочевого пузыря, нарушения речи в ответ на выраженную стрессовую ситуацию и некоторые другие.
В определенных случаях (чаще всего у пациентов-мазохистов) может наблюдаться и регрессия Сверх-Я. Нередко регрессия этого типа являет собой специфический ответ но ситуацию, когда интернализированный авторитет родителей вновь экстернализируется, затем проецируется на аналитика, рассматриваемого пациентом в качестве садистской фигуры в процессе переноса.
Причины регрессии разнообразны. Некоторые ее формы встречаются в норме (как в детском, так и в зрелом возрасте) и рассматриваются как реакция на потребности индивида, которые подвергаются внешнему или внутреннему "давлению*. Будучи неотъемлемой частью "колебательного" процесса развития, регрессия может способствовать переработке и последующей реинтеграции психического материала на более высоком уровне. В зрелом возрасте некоторые состояния могут служить запускающими механизмами для проявления архаических инстинктивных и поведенческих аспектов душевной жизни. К числу подобных состояний принято относить сновидения, любовь и вражду. Регрессия является одним из наиболее важных элементов психодинамического процесса. Именно она, возвращая пациента в более ранние и тем самым менее зрелые фазы психической организации, позволяет ему заново перерабатывать при переносе неразрешенные конфликты. Проявления регрессии усиливаются при возникновении разных состояний и расстройств: в случае чувства тревоги, вины, стыда, при депрессии, фрустрации или нарциссической обиде, выраженной астении, физических перегрузках, соматических заболеваниях и пр. Патологическая регрессия встречается при неврозах, психозах и перверсиях. В качестве основного динамического фактора регрессии выступает неразрешенный эдипов комплекс в сочетании со страхом кастрации и/или бессознательными сексуальными либо агрессивными побуждениями, провоцирующими чувство вины.

РЕГРЕССИЯ

один из механизмов психологической защиты, при котором субъект возвращается к формам поведения, типичным для предшествующих стадий его развития. В трудных ситуациях человек, подобно ребенку, проявляет свою зависимость от окружающих, отказывается от самостоятельности в поступках, от приема собственных решений, от своей ответственности за что-либо. Это явление играет большую роль в развитии госпитализма, в уходе в болезнь, бегстве в мир мечтаний.

Регрессия

Regression). Защитный механизм, заключающийся в том, что индивидуум отступает на более раннюю стадию развития, более безопасную и приятную; использование менее зрелых ответов в попытке справиться со стрессом.

РЕГРЕССИЯ

regression) -1. В психиатрии - возвращение к более раннему, незрелому уровню функционирования организма из-за неспособности адекватно функционировать на более высоком уровне. Данный термин может применяться, например, по отношению к состоянию находящегося в больнице человека, который становится несдержанным и чересчур требовательным. Также он может применяться по отношению к какой-либо единичной психологической функции; например, психоаналитики считают, что либидо представляет собой регрессию к более ранней стадии развития человека. 2. Стадия заболевания, во время которой происходит убыль симптомов болезни и наступает полное выздоровление больного.

Регрессия

Словообразование. Происходит от лат. regressus - движение назад.
Специфика. Характеризуется тем, что при ее реализации происходит возврат к более примитивным формам поведения и мышления, которые были свойственны более ранней стадии онтогенетического развития.

РЕГРЕССИЯ

Очень многозначный термин в психологии. Основное его значение - возвращение, движение назад, отступление; противоположность прогрессу. Таким образом: 1. Возвращение к более ранней, более примитивной или более детской модели поведения. Когда термин употребляется в этом смысле, индивид, характеризуемый таким образом, мог ранее демонстрировать проявляемое в настоящее время примитивное поведение, а мог и не демонстрировать; 12-летний ребенок может обнаруживать регрессию в сосании пальца, даже если он никогда не делал этого младенцем. Здесь это противопоставляется ретрогрессии (2). Кроме того, коннотация рецидива здесь всегда присутствует; понятие регрессии не относится к примитивным моделям поведения, которые никогда не утрачивались. Здесь оно противопоставляется фиксации. Необходимо учесть, что это значение термина имеет различные оценочные коннотации в различных сферах употребления: (а) в психоаналитических теориях оно имеет отрицательную импликацию, то есть представление о том, что стресс или тревога заставляют индивида бежать от действительности в более инфантильное состояние, но (б) в когнитивных теории развития это относится к временному возврату к более ранней форме мышления, чтобы начать изучать, как иметь дело с новой степенью сложности - это рассматривается как этап в целом прогрессивного когнитивного развития. 2. В статистике - отношение между отобранными знаниями одной переменной (х) и наблюдаемыми значениями второй парной переменной (у). Когда составляется уравнение регрессии для набора данных, может быть предсказано наиболее вероятное значение у для любого знания х. Термин в этом значении фактически является сокращенной формой те мина регрессия к среднему. 3. В генетике - закон регрессии потом 4. В чтении - любое движение глаза по уже прочитанному материалу. Частота таких регрессий связана с трудностью материала и умения читать индивида. 5. В исследованиях обусловливания - повторное возникновение приобретенной ранее реакции. Такая регрессия к реакции, находящейся ниже в иерархии привычек, чаще всего наблюдается при наказании доминирующих реакций. Многие бихевиористы рассматривают этот эффект как лабораторный аналог регрессии в значении 1. Прилагательное - регрессивный, регрессирующий, глагол - регрессировать.

Регрессия

Регрессия (от лат. движение назад) в наиболее распространенном значении – процесс, механизм, результат возвращения человека к ранее пройденным (возможно, детским) этапам, состояниям, формам и способам функционирования эмоциональной и интеллектуальной деятельности, объектных отношений, моделей поведения, психологических защит.

Регрессия

в общем плане возвращение к уже пройденным стадиям психосексуального развития, к более раннему состоянию или образу действий, в психологии - механизм защиты, посредством которого индивид избегает или пытается избежать тревоги, частично или полностью возвращаясь на более раннюю стадию либидозного развития.

Регрессия

Regression). Восстановление душевных функций, которые были характерны для психической деятельности индивида на более ранних фазах его развития. Примитивные формы душевной деятельности могут продолжать существовать параллельно ее более зрелым формам. Многие формы регрессии проявляются лишь в течение некоторого времени и не носят необратимого характера. То, является ли регрессия, сопровождаемая ослаблением контроля сознания, патологической и если является, то в какой мере, определяется степенью ее необратимости. Как правило, регрессия не представляет собой какого-либо единого явления; она может охватывать все субструктуры душевного аппарата и по-разному воздействует на отдельные составные части процессов Ид или функции Эго и Суперэго.

Источник: А.Хайгл-Эверс,Ф.Хайгл,Ю.Отт,У.Рюгер. Базисное руководство по психотерапии (термины) Интерес к проблеме регрессии проявился у З. Фрейда в связи с рассмотрением природы и специфики сновидений. В работе «Толкование сновидений» (1900) он выдвинул положение, согласно которому «регрессия является, безусловно, одной из важнейших психологических особенностей процесса сновидения». Образование сновидения как раз и соотносилось им с процессом регрессии внутри предполагаемого психического аппарата, когда все соотношения мыслей исчезают или находят смутное выражение, а представления превращаются обратно в чувственные образы, на основе которых они ранее сформировались. В понимании З. Фрейда в бодрственном состоянии возбуждения и раздражения ориентированы на последовательное прохождение систем бессознательного, предсознательного и сознания. Во время же сна они протекают обратным путем, устремляются к актам восприятия. Тем самым сновидение, в котором, как считал З. Фрейд, осуществляется желание человека, регрессивным путем сохраняет образец примитивной и отвергнутой в виду ее нецелесообразности работы психического аппарата. «В ночную жизнь как бы изгнано то, что некогда господствовало в бодрствующем состоянии, когда психическая жизнь была еще молода и неопытна».
В «Толковании сновидений» З. Фрейд обратил внимание также на то, что регрессия свойственна не только сновидению, но и нормальному мышлению, когда, например, намеренное воспоминание соответствует обратному ходу какого-либо сложного акта представления к более простому материалу восприятия. Различные видения психически нормальных людей тоже соответствуют регрессиям, не говоря уже о галлюцинациях при истерии и паранойе, которые действительно являются регрессиями и представляют собой мысли, превратившиеся в образы. В этом смысле З. Фрейд различал регрессию нормальной душевной жизни и патологические случаи регрессии.
Впоследствии он неоднократно обращался к осмыслению феномена регрессии. В одном из дополнений к переизданию «Толкования сновидений» в 1914 году З. Фрейд выделил три вида регрессии: топическую, связанную с функционированием психического аппарата со свойственными ему системами бессознательного, предсознательного и сознания; временную, включающую в себя регрессии по отношению к либидозным объектам и стадиям психосексуального развития; формальную, соотнесенную с заменой обычных, развитых форм и способов образного представления и мышления более примитивными, древними.
По мере углубления психоаналитических представлений о психосексуальном развитии человека и этиологии невротических заболеваний З. Фрейд стал уделять все большее внимание процессам регрессии. В «Лекциях по введению в психоанализ» (1916/17) он выделил два вида регрессии: возвращение к первым либидозным объектам нарциссического характера и возвращение общей сексуальной организации на более ранние ступни развития. Оба вида регрессии воспринимались им как типичные, характерные и играющие значительную роль в неврозах перенесения.
Рассматривая регрессию с точки зрения возвращения сексуальной организации на ранние ступени развития, З. Фрейд предостерегал аналитиков против того, чтобы они не путали регрессию и вытеснение. В общем плане, то есть в смысле возвращения на более раннюю, глубинную ступень развития психического акта, регрессия и вытеснение являются аналогичными друг другу процессами, которым он дал название топических. Но если понятия «регрессия» и «вытеснение» используются в специальном (психоаналитическом) значении, то следует иметь в виду, что между ними имеется, по мнению З. Фрейда, принципиальная разница, суть которой можно свести к следующему: регрессия – чисто описательное понятие, вытеснение – топически-динамическое; регрессия не является всецело психическим процессом, значительную роль в нем играет органический фактор, в то время как вытеснение – сугубо психический процесс, не имеющий «никакого отношения к сексуальности».
Подобные представления З. Фрейда о различии между регрессией и вытеснением носили не только теоретический характер, но и имели практическую направленность, связанную с пониманием этиологии неврозов и лечением невротических заболеваний. В частности, он исходил из того, что при истерии чаще всего наблюдается регрессия либидо к первичным инцестуозным объектам, но нет регрессии на более раннюю ступень сексуальной организации и, следовательно, при изучении истерии значение регрессии становится ясным позднее, чем роль вытеснения в этом заболевании. При неврозе навязчивых состояний, напротив, наряду с вытеснением регрессия либидо на раннюю стадию садистско-оральной организации является решающим фактором симптомообразования. «Регрессия либидо без вытеснения никогда не привела бы к неврозу, а вылилась бы в извращение».
В работе «Торможение, симптом и страх» (1926) З. Фрейд дал метапсихологическое объяснение регрессии, в соответствии с которым определяющую роль в ее образовании играют расщепленные, разъединенные влечения и выделенные эротические компоненты, с начальной фазы своего развития присоединяющиеся к деструктивным влечениям садистской фазы. В этой же работе он рассмотрел регрессию в качестве одного из защитных механизмов Я.
Фрейдовское понимание регрессии вызвало необходимость в дальнейшем изучении этого явления. Наряду с концептуальными разработками, лежащими в русле классического психоанализа, отдельными исследователями высказывались и такие соображения, которые свидетельствовали о пересмотре традиционно психоаналитического взгляда на феномен регрессии. Так, основатель аналитической психологии К.Г. Юнг (1875–1961) поставил вопрос о признании телеологического значения регрессии. Он считал, что возврат к инфантильному уровню – это не только регрессия, но и возможность нахождения нового жизненного плана, то есть «регрессия, по существу, есть также основное условие для творческого акта».
В современной психоаналитической литературе проблема регрессии обсуждается с точки зрения причин ее возникновения, этапов развития, глубины проявления, объекта и субъекта цели, результатов работы, целесообразности сдерживания или активизации в процессе аналитической терапии. Наряду с негативным значением регрессии, ведущей к симптомообразованию, рассматриваются и ее позитивные значения в качестве побуждения к восстановлению нарушенного равновесия, промежуточного состояния к осуществлению адаптивной переориентации. В центре внимания аналитиков оказывается также регрессия как механизм защиты Я, «плохая» регрессия как состояние дезинтеграции и «хорошая» регрессия как прогрессивный процесс, необходимый для жизнедеятельности человека.

Tutorial

Статистика в последнее время получила мощную PR поддержку со стороны более новых и шумных дисциплин - Машинного Обучения и Больших Данных . Тем, кто стремится оседлать эту волну необходимо подружится с уравнениями регрессии . Желательно при этом не только усвоить 2-3 приемчика и сдать экзамен, а уметь решать проблемы из повседневной жизни: найти зависимость между переменными, а в идеале - уметь отличить сигнал от шума.

Для этой цели мы будем использовать язык программирования и среду разработки R , который как нельзя лучше приспособлен к таким задачам. Заодно, проверим от чего зависят рейтинг Хабрапоста на статистике собственных статей.

Введение в регрессионный анализ
Если имеется корреляционная зависимость между переменными y и x , возникает необходимость определить функциональную связь между двумя величинами. Зависимость среднего значения называется регрессией y по x .

Основу регрессионного анализа составляет метод наименьших квадратов (МНК) , в соответствии с которым в качестве уравнения регресии берется функция такая, что сумма квадратов разностей минимальна.

Карл Гаусс открыл, или точнее воссоздал, МНК в возрасте 18 лет, однако впервые результаты были опубликованы Лежандром в 1805 г. По непроверенным данным метод был известен еще в древнем Китае, откуда он перекочевал в Японию и только затем попал в Европу. Европейцы не стали делать из этого секрета и успешно запустили в производство, обнаружив с его помощью траекторию карликовой планеты Церес в 1801 г.

Вид функции , как правило, определен заранее, а с помощью МНК подбираются оптимальные значения неизвестных параметров. Метрикой рассеяния значений вокруг регрессии является дисперсия.

k - число коэффициентов в системе уравнений регрессии.

Чаще всего используется модель линейной регрессии, а все нелинейные зависимости приводят к линейному виду с помощью алгебраических ухищрений, различных преобразования переменных y и x .
Линейная регрессия
Уравнения линейной регрессии можно записать в виде

В матричном виде это выгладит

y - зависимая переменная;

x - независимая переменная;

β - коэффициенты, которые необходимо найти с помощью МНК;

ε - погрешность, необъяснимая ошибка и отклонение от линейной зависимости;

Случайная величина может быть интерпретирована как сумма из двух слагаемых:

Еще одно ключевое понятие - коэффициент корреляции R 2 .

Ограничения линейной регрессии
Для того, чтобы использовать модель линейной регрессии необходимы некоторые допущения относительно распределения и свойств переменных.

Как обнаружить, что перечисленные выше условия не соблюдены? Ну, во первых довольно часто это видно невооруженным глазом на графике.

Неоднородность дисперсии

При возрастании дисперсии с ростом независимой переменной имеем график в форме воронки.

Нелинейную регрессии в некоторых случая также модно увидеть на графике довольно наглядно.

Тем не менее есть и вполне строгие формальные способы определить соблюдены ли условия линейной регрессии, или нарушены.

В этой формуле - коэффициент взаимной детерминации между и остальными факторами. Если хотя бы один из VIF-ов > 10, вполне резонно предположить наличие мультиколлинеарности.

Почему нам так важно соблюдение всех выше перечисленных условий? Все дело в Теореме Гаусса-Маркова , согласно которой оценка МНК является точной и эффективной лишь при соблюдении этих ограничений.
Как преодолеть эти ограничения
Нарушения одной или нескольких ограничений еще не приговор.
Нелинейность регрессии может быть преодолена преобразованием переменных, например через функцию натурального логарифма ln .

Таким же способом возможно решить проблему неоднородной дисперсии, с помощью ln , или sqrt преобразований зависимой переменной, либо же используя взвешенный МНК.

Для устранения проблемы мультиколлинеарности применяется метод исключения переменных. Суть его в том, что высоко коррелированные объясняющие переменные устраняются из регрессии , и она заново оценивается. Критерием отбора переменных, подлежащих исключению, является коэффициент корреляции. Есть еще один способ решения данной проблемы, который заключается в замене переменных, которым присуща мультиколлинеарность, их линейной комбинацией . Этим весь список не исчерпывается, есть еще пошаговая регрессия и другие методы.

К сожалению, не все нарушения условий и дефекты линейной регрессии можно устранить с помощью натурального логарифма. Если имеет место автокорреляция возмущений к примеру, то лучше отступить на шаг назад и построить новую и лучшую модель.
Линейная регрессия плюсов на Хабре
Итак, довольно теоретического багажа и можно строить саму модель.
Мне давно было любопытно от чего зависит та самая зелененькая цифра, что указывает на рейтинг поста на Хабре. Собрав всю доступную статистику собственных постов, я решил прогнать ее через модель линейно регрессии.

Загружает данные из tsv файла.

> hist <- read.table("~/habr_hist.txt", header=TRUE) > hist
points reads comm faves fb bytes 31 11937 29 19 13 10265 93 34122 71 98 74 14995 32 12153 12 147 17 22476 30 16867 35 30 22 9571 27 13851 21 52 46 18824 12 16571 44 149 35 9972 18 9651 16 86 49 11370 59 29610 82 29 333 10131 26 8605 25 65 11 13050 20 11266 14 48 8 9884 ...
points - Рейтинг статьи

reads - Число просмотров.

comm - Число комментариев.

faves - Добавлено в закладки.

fb - Поделились в социальных сетях (fb + vk).

bytes - Длина в байтах.

Проверка мультиколлинеарности.

> cor(hist) points reads comm faves fb bytes points 1.0000000 0.5641858 0.61489369 0.24104452 0.61696653 0.19502379 reads 0.5641858 1.0000000 0.54785197 0.57451189 0.57092464 0.24359202 comm 0.6148937 0.5478520 1.00000000 -0.01511207 0.51551030 0.08829029 faves 0.2410445 0.5745119 -0.01511207 1.00000000 0.23659894 0.14583018 fb 0.6169665 0.5709246 0.51551030 0.23659894 1.00000000 0.06782256 bytes 0.1950238 0.2435920 0.08829029 0.14583018 0.06782256 1.00000000
Вопреки моим ожиданиям наибольшая отдача не от количества просмотров статьи, а от комментариев и публикаций в социальных сетях . Я также полагал, что число просмотров и комментариев будет иметь более сильную корреляцию, однако зависимость вполне умеренная - нет надобности исключать ни одну из независимых переменных.

Теперь собственно сама модель, используем функцию lm .

regmodel <- lm(points ~., data = hist) summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -26.920 -9.517 -0.559 7.276 52.851 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 1.029e+01 7.198e+00 1.430 0.1608 reads 8.832e-05 3.158e-04 0.280 0.7812 comm 1.356e-01 5.218e-02 2.598 0.0131 * faves 2.740e-02 3.492e-02 0.785 0.4374 fb 1.162e-01 4.691e-02 2.476 0.0177 * bytes 3.960e-04 4.219e-04 0.939 0.3537 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 16.65 on 39 degrees of freedom Multiple R-squared: 0.5384, Adjusted R-squared: 0.4792 F-statistic: 9.099 on 5 and 39 DF, p-value: 8.476e-06
В первой строке мы задаем параметры линейной регрессии. Строка points ~. определяет зависимую переменную points и все остальные переменные в качестве регрессоров. Можно определить одну единственную независимую переменную через points ~ reads , набор переменных - points ~ reads + comm .

Перейдем теперь к расшифровке полученных результатов.

Можно попытаться несколько улучшить модель, сглаживая нелинейные факторы: комментарии и посты в социальных сетях. Заменим значения переменных fb и comm их степенями.

> hist$fb = hist$fb^(4/7) > hist$comm = hist$comm^(2/3)
Проверим значения параметров линейной регрессии.

> regmodel <- lm(points ~., data = hist) > summary(regmodel) Call: lm(formula = points ~ ., data = hist) Residuals: Min 1Q Median 3Q Max -22.972 -11.362 -0.603 7.977 49.549 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) 2.823e+00 7.305e+00 0.387 0.70123 reads -6.278e-05 3.227e-04 -0.195 0.84674 comm 1.010e+00 3.436e-01 2.938 0.00552 ** faves 2.753e-02 3.421e-02 0.805 0.42585 fb 1.601e+00 5.575e-01 2.872 0.00657 ** bytes 2.688e-04 4.108e-04 0.654 0.51677 --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 16.21 on 39 degrees of freedom Multiple R-squared: 0.5624, Adjusted R-squared: 0.5062 F-statistic: 10.02 on 5 and 39 DF, p-value: 3.186e-06
Как видим в целом отзывчивость модели возросла, параметры подтянулись и стали более шелковистыми, F-статистика выросла, так же как и скорректированный коэффициент детерминации.

Проверим, соблюдены ли условия применимости модели линейной регрессии? Тест Дарбина-Уотсона проверяет наличие автокорреляции возмущений.

> dwtest(hist$points ~., data = hist) Durbin-Watson test data: hist$points ~ . DW = 1.585, p-value = 0.07078 alternative hypothesis: true autocorrelation is greater than 0
И напоследок проверка неоднородности дисперсии с помощью теста Бройша-Пагана.

> bptest(hist$points ~., data = hist) studentized Breusch-Pagan test data: hist$points ~ . BP = 6.5315, df = 5, p-value = 0.2579
В заключение
Конечно наша модель линейной регрессии рейтинга Хабра-топиков получилось не самой удачной. Нам удалось объяснить не более, чем половину вариативности данных. Факторы надо чинить, чтобы избавляться от неоднородной дисперсии, с автокорреляцией тоже непонятно. Вообще данных маловато для сколь-нибудь серьезной оценки.

Но с другой стороны, это и хорошо. Иначе любой наспех написанный тролль-пост на Хабре автоматически набирал бы высокий рейтинг, а это к счастью не так.
Использованные материалы
Кобзарь А. И. Прикладная математическая статистика. - М.: Физматлит, 2006.

William H. Green Econometric Analysis

Теги: Добавить метки

Эконометрика 1 модуль
1. В каком законе выяснялись закономерности спроса на основе соотношений между урожаем зерновых и ценами на зерно?
в законе Кинга
2. Как называется мера разброса случайной величины?
дисперсия
3. При исследований каких моделей эконометрическое исследование может включать в себя выявление трендов, лагов, циклической компоненты?
моделей временных рядов
4. Какая из перечисленных шкал не относится к основным шкалам качественных признаков?
шкала отношений
5. Кто основал журнал «Эконометрика»?
Р. Фриш
6. Что из перечисленного может включать эконометрическое исследование на современном этапе развития при исследовании моделей по независимым неупорядоченным наблюдениям?
оценку параметров модели
7. В какой шкале есть естественная единица измерения, но нет естественного начала отсчета?
в шкале разностей
8. Кто из ученых создал теорию интегрированных моделей авторегрессии ¾ скользящего среднего?
Дж. Бокс и Г. Дженкинс
9. В какой системе каждая объясняемая переменная рассматривается как функция одного и того же набора факторов?
в системе независимых уравнений
10. Какая шкала измерений относится к шкалам количественных признаков?
шкала интервалов
11. Какие эконометрические модели разработали в 80 - в начале 90-х гг. Р.Э. Игл, Т. Боллеслев и Нельсон?
модели авторегрессионной условной гетероскедастичности
12. Какие шкалы измерений являются наиболее распространенными и удобными?
шкалы отношений
13. Какому ученому в 1980 г. присуждена Нобелевская премия за применение эконометрических моделей к анализу экономических колебаний и в экономической политике?
Л. Клейну
14. В какой стране было создано первое международное эконометрическое общество?
в США
15. Что из перечисленного является постоянной составляющей случайной величины?
среднеарифметическое значение
16. Что является целью эконометрики как науки? (по Э. Маленво)
эмпирический анализ экономических законов
17. Кто из исследователей придавал широкое толкование эконометрике, интерпретируя ее как любое применение математики или статистических методов к изучению экономических явлений?
Э. Маленво
18. Какие компоненты входят в состав случайных величин в процессе анализа?
постоянная и случайная компоненты
19. Чему равно среднее случайной компоненты, или остатка?
0
20. Кто впервые ввел термин «эконометрия»?
П. Цьемпа
21. Кто из отечественных ученых на союзном уровне описал динамику урожайности зерновых культур уравнениями с малым числом параметров?
В. Обухов
22. Какие разделы содержит эконометрика?
моделирование данных, неупорядоченных во времени, и теория временных рядов
23. Какие характеристики экономики невозможно измерить непосредственно?
латентные характеристики
24. Кто из ученых занимался проблемой цикличности?
К. Жюгляр
25. Кто является автором первой книги по эконометрике «Законы заработной платы: эссе по статистической экономике»?
Г. Мур
2 модуль
1. Если регрессия значима, то
Fнабл>Fкрит
2. Что показывает величина коэффициента регрессии?
среднее изменение результата с изменением фактора на одну единицу
3. Что означает совпадение среднего от выборочной оценки с искомой неизвестной величиной соответствующего параметра для генеральной совокупности?
несмещенность
4. Какой является регрессия, если k= 2?
множественной
5. Чем характеризуется рассеяние (отклонение) точек наблюдения относительно кривой регрессии?
остаточной регрессией
6. Какой коэффициент является показателем тесноты связи?
линейный коэффициент корреляции
7. Какая величина равна просто средней от суммы квадратов остатков (отклонений)?
остаточная регрессия
8. Каким выражением определяется коэффициент корреляции, являющийся мерой линейной связи между случайными величинами x и y?
r(x, y)=…
9. Какого значения не должна превышать средняя ошибка аппроксимации?
7-8%
10. Кто ввел термин «регрессия»?
Ф. Гальтон
11. Какой коэффициент в функции потребления используется для расчета мультипликатора?
коэффициент регрессии
12. С помощью какого коэффициента определяется качество подбора линейной функции?
с помощью коэффициента детерминации
13. Каким выражением определяется выборочный коэффициент корреляции?
r(x,y) с квадратами
14. Что называют результативным признаком в регрессионном анализе?
зависимую переменную
15. Дисперсию какой переменной исследует дисперсионный анализ?
зависимой переменной
16. Какая регрессия характеризуется прозрачной интерпретацией параметров модели?
линейная регрессия
17. Какой коэффициент характеризует долю дисперсии, объясняемую регрессией, в общей дисперсии результативного признака y?
коэффициент детерминации
18. Какой коэффициент показывает, на сколько процентов в среднем по совокупности изменится результат y от своей средней величины при изменении фактора x на 1% от его (фактора x) среднего значения?
коэффициент эластичности
19. Чему равна величина остаточной дисперсии, если фактические значения результативного признака совпадают с теоретическими или расчетными значениями?
0
20. Какой метод применяют для оценки параметров a, b уравнения регрессии?
метод наименьших квадратов (МНК)
21. Какой метод основан на требовании минимизации суммы квадратов отклонений фактических значений результативного признака от расчетных?
метод наименьших квадратов
22. При каком значении k регрессия называется парной?
k= 1
23. Что из перечисленного не относится к нелинейным регрессиям по оцениваемым параметрам?
показательная функция
24. Суть какой теоремы в том, что если случайная величина является общим результатом взаимодействия большого числа других случайных величин, ни одна из которых не оказывает преобладающего влияния на общий результат, то такая результирующая случайная величина будет описываться приблизительно нормальным распределением?
центральной предельной теоремы
25. Каким уравнением описывается линейная регрессия?
y = a + bx + ε
(3 ошибки)
3 модуль ()1 ошибка
1. Как проверяется гетероскедастичность моделей в асимптотическом тесте Бреуша и Пагана?
по критерию c2(r)
2. Какой критерий позволяет выбирать наилучшую модель из множества различных спецификаций и численно построен так, чтобы учесть влияние на качество подгонки модели двух противоположных тенденций?
критерий Шварца
3. По какой величине судят о качестве модели?
по средней относительной ошибке аппроксимации
4. Каким выражением описывается условие однородности (гомоскедастичности) наблюдений?
s2(yu) =s2(hu+eu) =s2(eu) =s2
5. Какой метод применим при условии диагональности матрицы ковариаций вектора ошибок?
метод наименьших квадратов
6. Каким выражением определяется абсолютная ошибка аппроксимации?
yi-y1i=e
7. Что понимается под мультиколлинеарностью?
высокая степень коррелированности объясняющих переменных
8. Какие переменные представляют собой исходные переменные, из которых вычитаются соответствующие средние, а полученная разность делится на стандартное отклонение?
стандартизованные переменные
9. Какая ошибка на контрольной выборке свидетельствует о хорошем качестве построенной модели?
4-9%
10. Каким методом может быть проведена оценка значимости мультиколлинеарности факторов?
методом испытания гипотезы о независимости переменных
11. Какая переменная должна выражаться в виде линейной функции от неизвестной переменной?
замещающая переменная
12. Дисперсии и ковариации ошибок наблюдений в обобщенной линейной модели множественной регрессии
могут быть произвольными
13. В чем заключается второй подход к решению проблемы гетероскедастичности?
в построении моделей, учитывающих гетероскедастичность ошибок наблюдений
14. Чем в простейшем случае парной регрессии является стандартизованный коэффициент регрессии?
линейным коэффициентом корреляции
15. Что из перечисленного используют для проверки гипотезы, если исследователь предполагает, что за время наблюдений произошли резкие структурные изменения в виде связей между зависимой и независимыми переменными?
тест Чоу
16. Чему равен определитель матрицы, если между факторами имеется полная линейная зависимость и все коэффициенты корреляции равны 1?
0
17. По какой формуле производят расчет коэффициентов модели при использовании метода гребневой регрессии?
bгр= (XTX+DгрIk+ 1)-1XTY
18. По какой формуле, согласно теореме Айткена, производится оценка коэффициентов модели?
b= (X¢W-1X)-1X¢W-1Y
19. Какой из перечисленных тестов не требует предположения о нормальности распределения регрессионных остатков?
тест ранговой корреляции Спирмена
20. Как называют переменную, которая должна быть в модели согласно правильной теории?
существенной
21. Чем ближе к единице значение определителя матрицы межфакторной корреляции, тем
меньше мультиколлинеарность факторов
22. Какой критерий используется для оценки значимости уравнения регрессии в целом?
F-критерия Фишера
23. Какой показатель фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии факторов?
показатель детерминации
24. Какие коэффициенты позволяют исключать из модели дублирующие факторы?
коэффициенты интеркорреляции
25. Чему равно число степеней свободы остаточной суммы квадратов при линейной регрессии?
n- 2
Модуль 4
1. Какие этапы включает в себя процесс структурного моделирования?
все перечисленные этапы
2. Суть какого метода заключается в частичной замене непригодной объясняющей переменной на такую переменную, которая не коррелирована со случайным членом?
метода инструментальных переменных
3. Что представляет переменная x, входящая в выражение?
возмущающий процесс
4. При каком условии общее решение разностного уравнения вида носит «взрывной» характер?
при |a1|> 2
5. Как называются взаимозависимые переменные, которые определяются внутри модели (внутри самой системы) и обозначаются у?
эндогенными переменными
6. В какой модели на основе коэффициентов приведенной формы можно получить два или более значений одного структурного коэффициента?
в сверхидентифицируемой
7. Какие коэффициенты называются структурными коэффициентами модели?
коэффициенты при эндогенных и экзогенных переменных в структурной форме модели
8. Какой метод при ограниченной информации, называется методом наименьшего дисперсионного отношения?
метод максимального правдоподобия
9. Как называются переменные, относящиеся к предыдущим моментам времени?
лаговыми переменными
10. Если набор чисел X связан с другим набором чисел Y зависимостью Y= 4X, то дисперсия Y должна быть
в 16 раз больше, чем дисперсия X
11. Какой метод применяется для решения идентифицируемой системы?
косвенный метод наименьших квадратов
12. Какие переменные понимаются под предопределенными переменными?
экзогенные переменные и лаговые эндогенные переменные
13. Какой метод используют, если нужно всего лишь уточнить характер связей переменных?
метод путевого анализа
14. Что позволяет сделать построение моделей корреляционной структуры?
проверить гипотезу о том, что матрица корреляции имеет определенный вид
15. Какой является модель, если все ее структурные коэффициенты однозначно определяются по коэффициентам приведенной формы модели и при этом число параметров в обеих формах модели одинаково?
идентифицируемой
16. Каким выражением определяется зависимость потребления в год с номером t от дохода в предыдущий период y(t- 1)?
C(t) =b+cy(t- 1)
17. Как называются независимые переменные, которые определяются вне системы и обозначаются как х?
экзогенными переменными
18. При каком условии вся модель считается идентифицируемой?
если идентифицируемо хотя бы одно уравнение системы
19. В каком случае модель является неидентифицируемой?
если число приведенных коэффициентов меньше числа структурных коэффициентов
20. Какие переменные часто приходится вводить для учета влияния качественных факторов?
фиктивные переменные
21. Что позволяет сделать построение моделей структуры средних?
исследовать структуру средних одновременно с анализом дисперсий и ковариаций
22. Какие переменные могут включать в себя причинные модели?
явные и латентные переменные
23. При каком условии уравнение неидентифицируемо?
если число предопределенных переменных, отсутствующих в уравнении, но присутствующих в системе, увеличенное на единицу, меньше числа эндогенных переменных в уравнении
24. При решении выражения способом движения «назад» ошибки ei
накапливаются
25. Что позволяет сделать моделирование ковариационной структуры?
проверить гипотезу о том, что матрица ковариации имеет определенный вид
4 модуль
1. О чем свидетельствуют большие значения, близкие к 1, величины (1 -а1) модели корректировки ошибок (МКО)?
о том, что экономические факторы сильно изменяют результат
2. На какое количество участков разбивается последовательность для проверки условия стационарности ряда?
на два участка
3. Для уменьшения амплитуды колебаний у сглаженного ряда Y(t)необходимо
увеличивать ширину интервала сглаживания m
4. Какое предположение является одним из априорных предположений при применении параметрических тестов для проверки стационарности?
предположение о нормальном законе распределения значений временного ряда
5. Что называется временным рядом?
последовательность значений признака, принимаемых в течение нескольких последовательных моментов времени или периодов
6. Как изменяется дисперсия сглаженного по квадратичному полиному ряда Y(t) при увеличении числа m уравнений?
уменьшается
7. Какие тренды коррелируют между собой?
временные
8. Что из перечисленного используют для проверки стационарности временного ряда?
сериальный критерий стационарности
9. Как называют корреляционную зависимость между последовательными уровнями временного ряда?
автокорреляцией уровней ряда
10. Как называется случайная переменная с переменной дисперсией?
гетероскедастической
11. При каком условии сглаживание ряда называется центрированным?
при k=l
12. Каким путем может быть исключен временной тренд из результирующей переменной?
путем построения регрессии этой переменной по времени и перехода к остаткам, которые образуют новую стационарную переменную, уже свободную от тренда
13. По какой формуле рассчитываются коэффициенты,если в качестве сглаживающего многочлена взять прямую?
ar= 1/m
14. Какая компонента объясняет отклонения от тренда с периодичностью от 2 до 10 лет?
циклическая компонента
15. Что в выражении обозначают параметром L?
функцию правдоподобия
16. Какая последовательность является белым шумом?
если каждая случайная величина последовательности имеет нулевое среднее и некоррелирована с другими элементами последовательности
17. К какому классу принадлежит ряд, если он содержит единичные корни и интегрируем с порядком d?
I(d)
18. Как называется стохастическая переменная с постоянной дисперсией?
гомоскедастическая переменная
19. Какой принцип разработки прогнозов предполагает соответствие, максимальное приближение теоретических моделей к реальным производственно-экономическим процессам?
адекватность прогнозирования
20. Как называется число значений исходного ряда, одновременно участвующих в сглаживании?
шириной интервала сглаживания
21. Что относится к основным принципам разработки прогнозов?
системность, адекватность, альтернативность
22. Для чего применяется сериальный критерий стационарности?
для проверки стационарности временного ряда
23. Как называется модель вида?
авторегрессионной условной гетероскедастической моделью (АРУГ-моделью)
24. Что представляет уравнение?
АРСС-процесс для {et2}-последовательности
25. Какие переменные используются в процессе случайного блуждания?
некоррелированные нестационарные переме

Регрессия к среднему значению. Как преодолеть эти ограничения. Где это наблюдается

Энциклопедичный YouTube

Описание

Линейная регрессия

Еще немного статистики

РЕГРЕССИЯ

РЕГРЕССИЯ

РЕГРЕССИЯ

РЕГРЕССИЯ

РЕГРЕССИЯ (REGRESSION)

РЕГРЕССИЯ

Регрессия

РЕГРЕССИЯ

Регрессия

РЕГРЕССИЯ

Регрессия

Регрессия

Регрессия

Введение в регрессионный анализ

Линейная регрессия

Ограничения линейной регрессии

Как преодолеть эти ограничения

Линейная регрессия плюсов на Хабре

В заключение

Использованные материалы