Оперантное обусловливание

Последнее обновление: 11/04/2015

И обусловливание представляют собой две основных концепции в поведенческой психологии. Они обе описывают процесс научения - однако с разных точек зрения. Для того чтобы понять, как может быть использован каждый из этих методов модификации поведения, важно также понять, чем они отличаются.

Классическое обусловливание:

впервые было описано Иваном Павловым, российским физиологом;
подразумевает предъявление нейтрального стимула перед рефлексом;
ориентировано на непроизвольные, автоматические действия.

Оперантное обусловливание:

впервые было описано Б.Ф. Скиннером, американским психологом;
включает в себя применение или после демонстрации поведения;
направлено на подкрепление контролируемого индивидом поведения.

Как работает классическое обусловливание?

Даже если вы не студент-психолог, вы в любом случае слышали о собаках Павлова. В своём знаменитом опыте Иван Павлов обнаружил, что собаки начали выделять слюну в ответ на нейтральный стимул в паре с пищей. Павлов понял, что это условный рефлекс, и приступил к дальнейшему исследованию процесса обусловливания.

Классическое обусловливание включает в себя связывание ранее нейтрального стимула (например, звука колокольчика) с безусловным (вкус пищи). Этот безусловный стимул естественен и автоматически запускает слюноотделение. После связывания, звук колокольчика начинает вызывать слюноотделение уже самостоятельно. То есть, звук колокольчика является условным раздражителем, а слюноотделение в ответ на звонок - условным рефлексом.

Как работает оперантное обусловливание?

Концепция оперантного обусловливания сосредотачивается на использовании подкрепления либо наказания для воздействия на поведение. Благодаря этому процессу образуется связь между поведением и последствиями для такого поведения. Представьте, например, что хозяин пытается научить собаку приносить мяч. Когда собака успешно справляется - по команде приносит хозяину мяч, - она получает поощрение (похвалу, лакомство). Когда животное не справляется с заданием, хозяин воздерживается от похвалы. В конце концов, к собаки устанавливается связь между определённым поведением и возможностью получить награду.

Различия между классическим и оперантным обусловливанием

Один из самых простых способов отличить классическое и оперантное обусловливание друг от друга заключается в том, чтобы проанализировать поведение и понять, является ли оно сознательным или подсознательным. Классическое научение подразумевает создание ассоциации между стимулом и невольной реакцией, в то время как оперантное принимает во внимание связь между сознательно контролируемым поведением и его последствиями.

В процессе оперантного обусловливания поведение человека контролируется при помощи стимулов, к которым он чувствителен, в то время как классическое обусловливание такого рода стимулов не подразумевает. Также помните, что классическое обусловливание является пассивным со стороны ученика, в то время как оперантное требует активного участия обучаемого: он должен выполнять определённые действия для того, чтобы его затем поощрили или наказали.

Сегодня учителями, родителями, психологами, дрессировщиками и т.д. повсеместно используются как классическое, так и оперантное обусловливание.

Классическое обусловливание - форма научения, исследованная И.П. Павловым - . Характеризуется тем, что вместе со стимулом, закономерно вызывающим определенную реакцию, подается нейтральный стимул. В дальнейшем этот стимул приобретает значение условного раздражителя, автоматически запускающего ту же реакцию. Синоним - Classical conditioning.
Оперантное обусловливание - форма научения - . Характеризуется тем, что подкрепляется то спонтанное поведение, которое признается желательным. Синоним - инструментальное научение, operant conditioning.
Теория инструментального, или О. о. связана с именами Торндайка (Thorndike E. L.) и Скиннера (Skinner В. F.). В отличие от принципа классического обусловливания (S->R), они разработали принцип О. о. (R->S), согласно которому поведение контролируется его результатами и последствиями. Основной путь воздействия на поведение, исходя из этой формулы, - влияние на его результаты.
Для различения стимула классического условного рефлекса и стимула инструментального условного рефлекса Скиннер предложил обозначать первый как Sd (дискриминантный стимул), а второй - Sr (pecпондентный стимул). Sd - стимул, по времени предшествующий определенной поведенческой реакции, Sr - стимул, подкрепляющий определенную поведенческую реакцию и по времени следующий за ней. Хотя в повседневной жизни эти стимулы часто совмещены в одном объекте, они могут быть разделены путем анализа с целью систематизации и определения последовательности мер воздействия на модифицируемое поведение. При использовании оперантных методов управление результатами поведения осуществляется для воздействия на само поведение. Поэтому здесь очень важен этап функционального анализа или поведенческой диагностики. Задача этого этапа состоит в определении подкрепляющей значимости окружающих пациента объектов, установлении иерархии их подкрепляющей силы. Это делается путем прямого наблюдения за поведением человека и установления связи между частотой и интенсивностью проявляемого поведения (зависимая переменная) и имеющимися в это время объектами и событиями, происходящими в окружении (независимая переменная).
Оперантные методы могут быть использованы для решения ряда задач.
1. Формирование нового стереотипа поведения, которого до этого не было в репертуаре поведенческих реакций человека (например, кооперативное поведение ребенка, поведение самоутверждающего типа у пассивного ребенка и т. д.). Для решения этой задачи может быть использовано несколько стратегий выработки нового поведения.
Под шейпингом понимается поэтапное моделирование сложного поведения, которое не было свойственно ранее индивиду. В цепи последовательных воздействий важным является первый элемент, который, хотя и отдаленно, связан с конечной целью шейпинга, однако с большой степенью вероятности направляет поведение в нужное русло. Этот первый элемент должен быть точно дифференцирован, а критерии оценки его достижения четко определены. Для облегчения проявления первого элемента желательного стереотипа должно быть выбрано условие, которое может быть достигнуто быстрее и легче всего. Для этого используется разнообразное варьирующее подкрепление, от материальных предметов до социального подкрепления (одобрение, похвала и др.). Например, при обучении ребенка навыкам самостоятельного одевания первым элементом может быть привлечение его внимания к одежде.
В случае «сцепления» используется представление о поведенческом стереотипе как о цепи отдельных поведенческих актов, при этом конечный результат каждого акта является дискриминантным стимулом, запускающим новый поведенческий акт. При реализации стратегии сцепления следует начинать с формирования и закрепления последнего поведенческого акта, находящегося ближе всего к самому концу цепи, к цели. Рассмотрение сложного поведения как цепи последовательных поведенческих актов позволяет понять, какая часть цепи хорошо сформирована, а какая должна быть создана с помощью шейпинга. Тренинг должен продолжаться до того момента, пока желательное поведение всей цепи не осуществляется с помощью обычных подкрепляющих стимулов.
Фейдинг - это постепенное уменьшение величины подкрепляющих стимулов. При достаточно прочно сформированном стереотипе пациент должен реагировать на минимальное подкрепление прежним образом. Фейдинг играет важную роль при переходе от тренировок с психотерапевтом к тренировкам в повседневном окружении, когда подкрепляющие стимулы исходят от других людей, замещающих психотерапевта.
Побуждение является вариантом вербального или невербального подкрепления, который повышает у обучающегося уровень внимания и фокусировки на желательном стереотипе поведения. Подкрепление может выражаться в демонстрации этого поведения, прямых инструкциях, центрированных или на нужных действиях, или на объекте действия и т. д.
2. Закрепление уже имеющегося в репертуаре индивида желательного стереотипа поведения. Для решения этой задачи может использоваться положительное подкрепление, отрицательное подкрепление, контроль стимула.
3. Уменьшение или угашение нежелательного стереотипа поведения. Достигается с помощью методик наказания, угашения, насыщения.
4. Лишение всех положительных подкреплений.
5. Оценка ответа.

Основывается на сформулированном в начале XX века американским исследователем процессов научения Э. Торндайком (1998) «законе эффекта».

Реактивные формы поведения возникают в результате таких событий, при которых организм в основном пассивно испытывает внешние воздействия на соответствующие врожденные структуры, отвечающие за соматовегетативно-инстинктивный (по В. В. Ковалеву, 1979) уровень нервно-психического реагирования. По мере созревания произвольной активности накопление поведенческого репертуара человека все более определяется результатами взаимодействия со средой. Такие вновь приобретаемые формы поведения получили название оперантных (от лат. operatio - действие), поскольку в этом случае первично действие, производимое в отношении окружающей среды. Будет ли это действие повторяться или, наоборот, избегаться - это зависит от вызванных им последствий, их желательности или нежелательности для организма. И реактивные, и оперантные формы поведения подчиняются одним и тем же закономерностям; в общем случае обусловливание определяется ассоциацией между двумя стимулами или между поведением и его результатом.

Э. Торндайк (1898) открыл тип научения, названный им «методом проб и ошибок»: встретившись с каким-либо препятствием, индивидуум совершает попытки преодолеть его и, постепенно отказываясь от неэффективных действий, находит решение задачи. В своих опытах Э. Торндайка использовал так называемые проблемные клетки, в которые он помещал голодных кошек. Клетки открывались лишь в случае, если животное, пытающееся выйти к лежащей снаружи приманке, найдет соответствующий способ - случайный (потянет за веревку или приподнимет крючок) либо оптимальный (нажмет на педаль, соединенную с веревкой, приподнимающей запорный крючок). Проанализировав данные о числе попыток, необходимых для нахождения оптимального способа открывания клетки, и о влиянии на этот процесс предшествующих, «нечаянных» случаев освобождения, исследователь сформулировал закон эффекта.- Он гласит, что, если какое-то действие приводит к желательным результатам, вероятность его повторения возрастает, а если к нежелательным - то снижается. Если быть еще точнее, связь между действием и его результатом для индивидуума тем сильнее, чем большее удовлетворение доставляет этот результат. Нежелательный или безразличный результат эту связь ослабляет.

Следует констатировать, что научение методом проб и ошибок само по себе не очень эффективно и что одним случайным «изобретением» новых форм поведения трудно объяснить быстрое приобретение новых навыков людьми и домашними животными. Наряду с данным способом выработки навыков, существовавшим на протяжении миллионов лет, в эволюции человека несомненно складывались и другие, более совершенные способы формирования и передачи новых типов поведения.

В 40-е годы XX века американский психолог Б. Ф. Скиннер развил концепцию Э. Торндайка, отказавшись от таких необъективных понятий, как удовлетворение и неудовлетворение, и сформулировав принцип подкрепления: то или иное поведение чаще повторяется, если приводит к определенным последствиям - к ситуациям, играющим роль подкрепления. Таким образом, в теории Скиннера подкрепление - это событие, которое повышает вероятность повторения в будущем поведенческой реакции. Б. Ф. Скиннер разработал способ формирования сложных форм поведения путем последовательных приближений, который составил основу концепции и метода оперантного обусловливания.

Суть метода «оперантного обусловливания» (Skinner В. Е, 1984) заключается в создании связи между поведением и его результатом при помощи повторяющихся «подкреплений», т. е. предлагаемых либо устраняемых позитивных и негативных последствий. При этом весь путь от исходной реакции (еще до начала обучения) до конечной поведенческой модели, разбивается на несколько этапов, каждый из которых последовательно и систематически подкрепляется.

В экспериментах Б. Ф. Скиннера голубь, сидящий в клетке, награждался зерном вначале каждый раз, когда оказывался в нужной ее половине, затем только тогда, когда, находясь на этой половине клетки, поворачивал голову в нужном направлении, далее только в том случае, если эти два условия сопровождались направлением его клюва в сторону пластмассового кружка, расположенного на стенке. Следующий этап заключался в подкреплении случаев касания кружка клювом, и, наконец, подкреплялась лишь конечная цель обучения - удар клювом по кружку.

Принципиально важно приступать к очередному этапу обучения лишь при сформулированной поведенческой реакции, выработке которой был посвящен предыдущий этап. Такой способ моделирования сложных форм поведения широко применяется при дрессировке животных.

Аналогичный путь освоения человеческого лексикона прослеживается у ребенка. Первые членораздельные звуки вызывают бурный восторг окружающих, стимулируя их повторение. Затем энтузиазм взрослых остывает до тех пор, пока в лепете ребенка не появятся сочетания звуков, напоминающие слово «мама» и т. д. Такое избирательное поощрение со стороны членов семьи заставляет младенца отбрасывать неправильные реакции, за которые он не получает социального подкрепления, и сохранять те, которые близки к ожидаемому результату. Аналогичным образом, игнорирование ребенка в тот момент, когда он стремится привлечь к себе внимание капризами, нытьем, «истериками», и позитивное общение с ним при демонстрации социально одобряемых поступков обеспечивает дифференцированный отбор в его поведенческий репертуар более зрелых шаблонов.

Различными сторонами процесса подкрепления являются рассмотренные выше механизмы угасания, дифференцировки и генерализации или иррадиации (по И. П; Павлову).

Инструментальные (оперантные) условные рефлексы отличаются от классических (павловских) активностью отбора поведенческого стереотипа, большей естественностью. Классический условный рефлекс формирует «экспериментатор» (дрессировщик, родитель, воспитатель, терапевт), обеспечивающий повторное попарное предъявление нейтрального стимула и специфического стимула врожденной реакции. В экспериментах Скиннера животное само (под влиянием дискриминантного стимула, сигнализирующего о возможности получить награду или наказание) осуществляет отбор нужного поведенческого эталона из своего репертуара, ориентируясь на результирующий эффект. Стимул определяется самой «жизнью» (реалиями естественной среды обитания, законами общества, принципами коллектива, традициями семьи), отвечающей на активное поведение субъекта удовлетворением или фрустрацией его потребностей (как врожденных, так и сформировавшихся после рождения).

По мнению Б. Ф. Скиннера и других бихевиористов, именно таким образом происходит выработка большинства поведенческих реакций у человека. Подобная абсолютизация роли внешней мотивации, создаваемой подкреплением, и игнорирование значения внутренней мотивации встречает справедливую критику со стороны представителей как когнитивной, так и гуманистической психологии (Годфруа Ж., 1992). При идентификации контекста предшествующего (дискриминантного) стимула (что является, по сути, когнитивным актом) задействуются мозговые структуры более высокого уровня, чем при срабатывании условного рефлекса. Уровень должен обеспечивать организму возможность использовать для обучения собственный опыт.

В 1960-е годы парадигма оперантного обусловливания в форме «планов оперантного подкрепления» широко применялась для коррекции нарушенного поведения госпитализированных детей, а также в школах в форме «программированных уроков».

Примером сочетания классического условного рефлекса и оперантного научения являются эксперименты по исследованию поведения избегания (Mourer О. Н., 19б5; Miller H.E., 1963, цит. по А.П. Федорову, 2002). После того как вслед за условным сигналом включался ток, животное в результате хаотических прыжков по клетке случайно обнаруживало спасительную площадку, на которую приучалось запрыгивать, не дожидаясь начала болевой стимуляции. Поведение избегания стойко осуществлялось всякий раз после включения условного сигнала, и в последующих опытах, несмотря на то, что ток больше не включали, подобная реакция стала бессмысленной. Чтобы животное об этом «узнало» и поведение избегания перестало подкреплять самое себя, экспериментаторы вынуждены были внести изменения в процедуру опыта: действие условного раздражителя (звукового сигнала) продолжалось и после начала демонстрации реакции избегания, т. е. условный сигнал опасности «обесценивался» в реально безопасной обстановке. Другой способ быстрого погашения реакции избегания - удаление от животного «площадки безопасности». Это обусловливало форсированное тестирование реальности, поскольку за время, явно достаточное для возникновения болевого «подтверждения» целесообразности стереотипного поведения, подкрепления не наступало.

Описанные механизмы погашения зафиксировавшейся реакции избегания используются при лечении фобий и навязчивых ритуалов, в частности в форме представления устрашающих объектов в субъективно комфортной ситуации и лишения возможности реализовать избегающее поведение в пугающей, но реально безопасной обстановке (методика «наводнения»).

Третий способ торможения реакции избегания - имитирующее моделирование, которое осуществляется с помощью животного, не подвергавшегося воздействию электрического тока. Новое животное запускают в тот же ящик, и оно демонстрирует спокойное «реалистическое» поведение. Терапия и профилактика неофобии (страха нового), типичной для аутистов и детей младшего возраста, включает не только привыкание к незнакомой и потому пугающей обстановке, но и наблюдение за тем, как другие дети ведут себя в этих условиях. Адаптация к новому коллективу происходит успешнее, когда у человека есть возможность «присмотреться» к нему.

Если условный рефлекс представляет собой пассивную реакцию организма на внешнее воздействие, то оперантное обусловливание является активным поведением, которому человек или животное обучаются в определенной ситуации. Название происходит от латинского слова operatic, что в переводе обозначает действие. Обусловливание же свидетельствует о том, что обучение действию требует определенного условия. В классическом условном рефлексе ассоциативная связь формируется между двумя стимулами - условным и безусловным. Условием его формирования является обязательное следование безусловного стимула за условным. В процессе оперантного обусловливания подобная связь возникает между конкретным поведением и стимулом, который называется подкреплением.

Этот тип обучения позволяет организму менять свои действия в зависимости от тех последствий, которые оно порождает. Если следствием некоторого поведения будет что-то, что организм воспринимает как положительный результат, то оно с большей вероятностью будет повторено в будущем. Если же поведение ведет к неприятным для организма последствиям, то вероятность его повторения резко снизится. Система позитивных последствий называется подкреплением, а негативных - наказанием. Например, если маленький ребенок, случайно произнеся два раза подряд слог: “Ма”, - вслед за эти услышит восторженные слова матери и увидит счастливую улыбку, то вероятность того, что он тут же произнесет это еще раз, резко возрастет. Если же за этими звуками не последует определенных действий, то, скорее всего, они исчезнут из его набора словесных реакций.

Таким образом, подкрепление - это такое воздействие, при котором появление или исчезновение какого-то стимула в результате той или иной поведенческой реакции повышает вероятность повторения этой реакции (Год-

фруа, 1992).

Выделяют несколько типов оперантного обусловливания. Американский психолог Э. Торндайк (Thorndike, 1890) исследовал метод проб и ошибок. Он предложил эксперименты на животных в особых “проблемных” клетках. В одном из них животное помещалось в “проблемную” клетку. Оно могло выйти и взять пищу, положенную вне клетки, если нажимало на деревянную педаль. Двигаясь внутри клетки, животное случайно могло наступить на педаль. Однако после каждого открытия клетки вслед за нажатием педали время следующего нажатия сокращалось, что позволяло животному освобождаться все быстрее и быстрее. Это позволило Э.Торндайку вывести “закон эффекта”. Согласно этому закону, вероятность повторения действия, приведшего к желательному результату, резко возрастает. Если же последствия этого действия вызывают нежелательный результат, то оно будет воспроизводиться все реже и реже.

В начале века в Германии была известна лошадь по имени Умный Ганс. Ударами копыт она считала, складывала из букв слова, извлекала квадратные корни. Ее хозяин полагал, что он обучил ее думать. Однако проведенное исследование поведения животного показало, что лошадь отвечала на

основе подкрепления, которым был поворот головы хозяина, усиленный широкополой шляпой, когда он считал, что ударов копыт достаточно. В тех случаях, когда предлагались вопросы, на которые никто из присутствующих и хозяин в том числе не знали ответа, удары копыт были неопределенными.

Другой тип оперантного обучения был описан Б.Ф. Скиннером (Skinner, 1969). Он показал, что поведение у человека и животных может формироваться не только случайным образом, но и целенаправленным, постепенно за счет подкрепляющих факторов (Рис. 15.9). Такой тип обучения был назван формированием поведения путем последовательных приближений. В одном из описанных им экспериментов животные с большей вероятностью нажимали на педаль, находящуюся в клетке, если каждое нажатие сопровождалось появлением кусочка пищи. Сигналом к подобной реакции животного был вид педали, поскольку когда педаль убиралась, животное не двигало лапой, избражая это действие. Подкрепление (кусочек пищи) усиливало связь между нейрональными кругами, включенными в процесс восприятия (вид педали) и нейрональными кругами, ответственными за движение (например, нажатие на педаль).

С помощью этой модели можно объяснить очень быстрое обучение ребенка произнесению первых слов (но не как всего языка в целом) по механизму, описанному ранее. Известно, что в первые месяцы жизни дети произносят более 80 звуков, что может соответствовать звукам всех языков мира. Ребенок, перебирая различные звкосочетания, случайно говорит что-то похожее на: “Мо-мо”. Радостная мама тут же подкрепляет эти звуки поцелуем, демонстрируя всем, что ее ребенок начал говорить слово “мама”. Однако через некоторое время родительские востроги пойдут на убыль, тогда как более близкое и отчетливое произнесение вновь вызовет бурю восторгов. Так, методом последовательного приближения ребенок будет набирать свои первые слова.

Выделяют положительное и отрицательное подкрепление. Положительным подкреплением является событие, сочетающееся с каким-либо действием и ведущее к увеличению вероятности повторного его. Подкрепление тем эффективнее, чем более приближено к действию. Чем дальше оно отстоит от поведения, тем медленнее формируется поведение. Формирование действия определяется также величиной подкрепления.

Желательно, чтобы подкрепление не было слишком большим. Например, в процессе обучения животного это может быть маленький кусочек пищи, а не полная миска; при обучении ребенка или взрослого - небольшой подарок. Сытое животное перестанет обучаться, согласно русской пословице: “Сытое брюхо к учению глухо”. Если ребенку предложен большой подарок, то следующий за ним маленький вызовет лишь угашение реакции, а не ее усиление. При выработке поведения играет роль и очень большое подкрепление. Его влияние часто наблюдается у азартных игроков, которые, получив значительный выигрыш, не могут прекратить игру даже при постоянных дальнейших проигрышах. Именно поэтому, завлекая игроков в игорные дома, им сначала позволяют выиграть, а потом отыгрывают у него все,

ч то у него есть. На этом эффекте работают широко распространенные на улицах “наперсточники” и другие мошенники этого типа.

Случайное большое подкрепление может вызвать длительную стойкую реакцию у человека и животного. По этому механизму формируются суеверия. Кроме уже описанных видов выделяют вариативное. Его действие ограничено следующими условиями. Вырабатывается определенное поведение, связанное с тем или иным подкреплением. Затем подкрепление убирается и поведение ослабевает. Случайное подкрепление этого поведения вызывает резкое усиление угасшей реакции. Чем реже такого рода подкрепление, тем дольше держится восстановленная реакция. На этом механизме основано стойкое поддержание аддиктивного (зависимого) поведения, когда одна сигарета, одна рюмка, одна ссора усиливают никотиновую, алкогольную зависимость или снятие стресса путем провокации скандала (Прайор, 1995).

Эффективность формирования поведения путем последовательных приближений зависит не только от характера подкрепления, но и от других условий. Одним из них является необходимость поэтапного приближения к окончательному поведению. Таким образом, весь этап выработки поведения делится на определенные отрезки, в течение которых добиваются конкретного действия. Это действие должно быть таким, чтобы обучаемый человек или животное могли реально выполнить это задание и, следовательно, получить подкрепление. Например, желая выработать у ребенка умение красиво писать или качественно делать любую другую работу, родитель не может требовать сразу же очень хорошего ее выполнения. Сначала ребенка хвалят за то, что он просто написал палочки, затем - за то, что некоторые из них написаны ровно, затем - что большая часть написана ровно и т.д. ^Требование сразу же выполнить работу качественно может привести к тому, ito у ребенка вовсе отпадет желание ее выполнять. Точно так же, желая поменять поведение супруга, второй член семьи может постепенно наращивать свои требования, а не ставить ультиматум. Невыполнение этого условия часто является причиной неудач воспитания детей и попыток супругов

переделать друг друга.

Другим условием формирования поведения путем последовательных приближений является то, что вырабатывать его можно только по одному, а не нескольким критериям одновременно. Например, при обучении ребенка качественно читать, нельзя сразу же требовать понимания прочитанного и быстрого чтения; от жены нельзя одномоментно требовать готовить обед и готовить его вкусно. Сначала, например, можно выработать желание готовить обед, а затем вырабатывать навык готовить вкусно.

Прежде чем увеличить или повышать критерий, нужно пользоваться подкреплением текущего уровня, то есть подкреплять любые исполнения данного действия. Вводя новый критерий, лучше временно ослабить предыдущие. Например, желая научить ребенка читать быстро, на первом этапе можно пожертвовать качеством чтения и при наборе им определенной скорости начать вновь следить и за качеством понимания текста.

Еще одним условием является то, что заканчивать ежедневный курс обучения следует всегда на фоне поощрения. Если это условие нарушено и pej

бенку сегодня предъявляется требование, за которое он не получает поощрения (в виде похвалы или поглаживания), то он будет воспринимать это как наказание. Часто именно из-за этого дети, учащиеся хорошо и не получающие никакой оценки от своих родителей, начинают учиться плохо, поскольку только в этом случае взрослые начинают интересоваться успехами ребенка (Прайор, 1995).

Отрицательным подкреплением является избегание негативной реакции. Например, подпрыгивая, крыса могла бы избежать удара электрическим током, который подавался на пол клетки и сопровождался легким потрескиванием. Это потрескивание и служило сигналом животного к прыжку. Более точным было бы говорить в данном случае не об отрицательном, а об аверсивном подкреплении, поскольку оно позволяет избежать неприятного воздействия стимула. Примером отрицательного подкрепления является ситуация, когда ребенок выполняет некоторую работу не для того, чтобы получить что-то приятное, а для того, чтобы избежать неприятных для него нареканий со стороны родителей. Негативное подкрепление отличается от наказания, поскольку наказание ведет к исчезновению реакции, тогда как негативное подкрепление ведет к формированию реакции избегания.

Разрабатывая представления об оперантном обучении, Б.Ф. Скиннер пришел к выводу, что общество в процессе воспитания подрастающего поколения должно больше заботится не о подавлении социально неадекватного поведения (наказание), а о выработке социально одобряемого поведения у будущих граждан.

В настоящее время показано, что существует механизм, контролирующий

процесс подкрепления. Этот механизм подробно будет описан позднее.

Теория инструментального или оперантного обусловливания связана с именами Торндайка и Скиннера. Скиннер - один из виднейших представителей бихевиоризма, показал, что воздействие окружающей среды определяет поведение человека, он рассматривает в качестве главного фактора формирования человеческого поведения культуру, содержание которой выражается в определенном наборе комплексов подкреплений. С их помощью можно создавать и модифицировать человеческое поведение в нужном направлении. На таком понимании основаны методы модификации поведения, которые используются не только в психотерапевтической практике, но и в практике, например, воспитательных воздействий.

Термины «инструментальное научение» и «оперантное обусловливание» означают, что реакция организма, которая формируется по принципу проб и ошибок, является инструментом для получения поощрения и предполагает оперирование со средой, то есть поведение есть функция его последствий. При оперантном обусловливании поведение контролируется его результатом и последствиями. Модификация поведения осуществляется за счет влияния на его результаты и последствия. В соответствии со схемой оперантного обусловливания экспериментатор, наблюдая поведение, фиксирует случайные проявления желательной, «правильной» реакции и сразу же подкрепляет ее. Таким образом, стимул следует после поведенческой реакции, прямое подкрепление используется через поощрение и наказание. Результатом научения является оперантное научение, или оперант. В этом случае подкрепляется не стимул, а реакция организма, именно она вызывает подкрепляющий стимул, поэтому такое научение обозначается как научение типа R. Оперантное или инструментальное поведение - поведение типа R - это поведение, вызванное подкреплением, следующим за поведением. Скиннер, подчеркивая различия между респондентным и оперантным поведением, указывает, что респондентное поведение вызвано стимулом, который предшествует поведению, а оперантное поведение - стимулом, следующим за поведением. Иными словами: в классическом обусловливании стимул предшествует поведенческой реакции, а в оперантном - следует за ней.

Следует обратить внимание на соотношение таких понятий, как позитивное и негативное подкрепление и наказание, различать наказание и негативное подкрепление. Позитивное или негативное подкрепление усиливает поведение (поэтому иногда используется просто термин «подкрепление», предполагающий, что целью воздействий является усиление реакции вне зависимости от того каким будет подкрепление - позитивным или негативным), наказание - ослабляет. Позитивное подкрепление основано на предъявлении стимулов (наград), которые усиливают поведенческую реакцию. Негативное подкрепление заключается в усилении поведения за счет удаления негативных стимулов. Наказание также подразделяют на «позитивное» и «негативное»: первое основано на лишении индивида позитивного стимула, второе - на предъявлении негативного (аверсивного) стимула. Таким образом, всякое подкрепление (и позитивное, и негативное) усиливает частоту поведенческой реакции, усиливает поведение, всякое наказание (и «позитивное», и «негативное»), напротив, уменьшает частоту поведенческой реакции, ослабляет поведение.

Позитивное

Негативное

Подкрепление

Воздействие позитивного стимула

Прекращение действия негативного стимула

Наказание

Воздействие негативного стимула

Прекращение действия позитивного стимула

Приведем конкретные примеры. При позитивном подкреплении животное находит выход из лабиринта и получает пищу; родители хвалят ребенка за успехи в школе, создают ему возможности для развлечений. При негативном подкреплении животное находит выход из лабиринта, где действует электрический ток, и ток выключают; родители перестают постоянно контролировать, критиковать и ругать ребенка, если его успеваемость улучшилась. При «позитивном» наказании животное, постоянно получающее пищевое подкрепление в экспериментальной ситуации, перестает его получать при неправильном выполнении действия; родители лишают ребенка развлечений за плохую успеваемость. При «негативном» наказании животное в лабиринте упирается в тупик и ток включают, родители постоянно контролируют, критикуют и ругают ребенка за плохую успеваемость. Таким образом, первые два вида воздействия экспериментатора или родителей усиливают реакцию, так как являются подкреплением, а третье и четвертое - уменьшают, являясь наказанием.

Для различения стимула классического условного рефлекса и стимула оперантного условного рефлекса Скиннер предложил обозначать первый как Sd - дискриминантный стимул, а второй - как Sr - респондентный стимул. Дискриминантный стимул (Sd-стимул) по времени предшествующий определенной поведенческой реакции, респондентный стимул (Sr-стимул), подкрепляющий определенную поведенческую реакцию, следует за ней.

Ниже представлены сравнительные характеристики классического и оперантного обусловливания.

Классическое обусловливание S-R

Оперантное обусловливание R-S

Научение типа S

Научение типа R

Классическая парадигма Павлова

Оперантная парадигма Скиннера

Реакция возникает только в ответ на воздействие какого-либо стимула

Желательная реакция может появиться спонтанно

Стимул предшествует реакции

Стимул следует за поведенческой реакцией

Подкрепление связано со стимулом

Подкрепление связано с реакцией

Респондентное поведение - поведение, вызванное определенным стимулом, предшествующим поведению

Оперантное поведение - поведение, вызванное подкреплением, следующим за поведением

Социальное научение. Этот тип научения основан на представлениях, согласно которым человек обучается новому поведению не только на основании собственного, прямого опыта (как при классическом и оперантном обусловливании), но и на основании опыта других, при наблюдении за другими людьми, за счет процессов моделирования. Поэтому этот тип научения также называют моделированием или научением по моделям. Научение по моделям предполагает научение посредством наблюдения и имитации социальных моделей поведения. Это направление связано, прежде всего, с именем американского психолога Бандуры, представителя медиаторного подхода (Бандура называл свою теорию медиаторно-стимульной ассоциативной теорией). Научение по моделям оказывает следующее действие: а) наблюдатель видит новое поведение, которого ранее не было в его репертуаре; б) поведение модели усиливает или ослабляет соответствующее поведение наблюдателя; в) поведение модели имеет функцию воспроизведения, может быть усвоено наблюдателем. С точки зрения Бандуры, сложное социальное поведение формируется посредством наблюдения и имитации социальных моделей. Наблюдение модели способствует выработке у наблюдателя новых реакций, облегчает реализацию ранее приобретенных реакций, а также модифицирует уже существующее поведение. Бандура выделяет три регуляторные системы функционирования индивида: 1) предшествующие стимулы (в частности, поведение других, которое подкрепляется определенным образом); 2) обратную связь (главным образом, в форме подкреплений последствий поведения); 3) когнитивные процессы, обеспечивающие контроль стимула и подкрепления (человек представляет внешние влияния и ответную реакцию на них символически в виде «внутренней модели внешнего мира»).

Если снова обратиться к основной формуле бихевиоризма S - (r-s) - R, (где r-s или r-s-r-s-...-r-s рассматриваются как промежуточные переменные), то очевидно, что решающая роль в процессе научения принадлежит не подкреплению стимула или реакции организма, а воздействию на промежуточные (медиаторные) переменные. Иными словами, научение в данном случае направлено на изменение более глубоких, закрытых психологических образований. Конкретные воздействия в рамках медиаторного подхода концентрируются на тех или иных психологических феноменах (промежуточных переменных) в зависимости от того, какие психологические процессы рассматриваются в качестве медиаторных (побудительные, когнитивные и пр.).

Когнитивный подход. В настоящее время большую популярность и распространение приобрели когнитивные подходы, где в качестве промежуточных переменных рассматриваются когнитивные процессы; сторонники этих подходов исходят из того, что между ситуацией и эмоцией (стимулом и реакцией) находятся когнитивные процессы (например, мысль). В качестве примера таких подходов можно указать взгляды Бека и Эллиса, которые более подробно будут рассмотрены в связи с концепцией патологии.