Принцип максимума энтропии. Энтропия? Это просто

Любое сообщение, с которым мы имеем дело в теории информации, представляет собой совокупность сведений о некоторой физической системе. Например, на вход автоматизированной системы управления производственным цехом может быть передано сообщение о нормальном или повышенном проценте брака, о химическом составе сырья или температуре в печи. На вход системы управления средствами противовоздушной обороны может быть передано сообщение о том, что в воздухе находятся две цели, летящие на определенной высоте, с определенной скоростью. На тот же вход может быть передано сообщение о том, что на определенном аэродроме в данный момент находится такое-то количество истребителей в боевой готовности, или что аэродром выведен из строя огневым воздействием противника, или что первая цель сбита, а вторая продолжает полет с измененным курсом. Любое из этих сообщений описывает состояние какой-то физической системы.

Очевидно, если бы состояние физической системы было известно заранее, не было бы смысла передавать сообщение. Сообщение приобретает смысл только тогда, когда состояние системы заранее неизвестно, случайно.

Поэтому в качестве объекта, о котором передается информация, мы будем рассматривать некоторую физическую систему , которая случайным образом может оказаться в том или ином состоянии, т. е. систему, которой заведомо присуща какая-то степень неопределенности. Очевидно, сведения, полученные о системе, будут, вообще говоря, тем ценнее и содержательнее, чем больше была неопределенность системы до получения этих сведений («априори»). Возникает естественный вопрос: что значит «большая» или «меньшая» степень неопределенности и чем можно ее измерить?

Чтобы ответить на этот вопрос, сравним между собой две системы, каждой из которых присуща некоторая неопределенность.

В качестве первой системы возьмем монету, которая в результате бросания может оказаться в одном из двух состояний: 1) выпал герб и 2) выпала цифра. В качестве второй - игральную кость, у которой шесть возможных состояний: 1, 2, 3, 4, 5 и 6. Спрашивается, неопределенность какой системы больше? Очевидно, второй, так как у нее больше возможных состояний, в каждом из которых она может оказаться с одинаковой вероятностью.

Может показаться, что степень неопределенности определяется числом возможных состояний системы. Однако в общем случае это не так. Рассмотрим, например, техническое устройство, которое может быть в двух состояниях: 1) исправно и 2) отказало. Предположим, что до получения сведений (априори) вероятность исправной работы устройства 0,99, а вероятность отказа 0,01. Такая система обладает только очень малой степенью неопределенности: почти наверное можно предугадать, что устройство будет работать исправно. При бросании монеты тоже имеется два возможных состояния, но степень неопределенности гораздо больше. Мы видим, что степень неопределенности физической системы определяется не только числом ее возможных состояний, но и вероятностями состояний.

Перейдем к общему случаю. Рассмотрим некоторую систему , которая может принимать конечное множество состояний: с вероятностями , где

(18.2.1)

Вероятность того, что система примет состояние (символом обозначается событие: система находится в состоянии ). Очевидно, .

Запишем эти данные в виде таблицы, где в верхней строке перечислены возможные состояния системы, а в нижней - соответствующие вероятности:

Эта табличка по написанию сходна с рядом распределения прерывной случайной величины с возможными значениями , имеющими вероятности . И действительно, между физической системой с конечным множеством состояний и прерывной случайной величиной много общего; для того чтобы свести первую ко второй, достаточно приписать каждому состоянию какое-то числовое значение (скажем, номер состояния). Подчеркнем, что для описания степени неопределенности системы совершенно неважно, какие именно значения записаны в верхней строке таблицы; важны только количество этих значений и их вероятности.

В качестве меры априорной неопределенности системы (или прерывной случайной величины ) в теории информации применяется специальная характеристика, называемая энтропией. Понятие об энтропии является в теории информации основным.

Энтропией системы называется сумма произведений вероятностей различных состояний системы на логарифмы этих вероятностей, взятая с обратным знаком:

. (18.2.2)

Энтропия , как мы увидим в дальнейшем, обладает рядом свойств, оправдывающих ее выбор в качестве характеристики степени неопределенности. Во-первых, она обращается в нуль, когда одно из состояний системы достоверно, а другие - невозможны. Во-вторых, при заданном числе состояний она обращается в максимум, когда эти состояния равновероятны, а при увеличении числа состояний - увеличивается. Наконец, и это самое главное, она обладает свойством аддитивности, т. е. когда несколько независимых систем объединяются в одну, их энтропии складываются.

Логарифм в формуле (18.2.2) может быть взят при любом основании . Перемена основания равносильна простому умножению энтропии на постоянное число, а выбор основания равносилен выбору определенной единицы измерения энтропии. Если за основание выбрано число 10, то говорят о «десятичных единицах» энтропии, если 2 - о «двоичных единицах». На практике удобнее всего пользоваться логарифмами при основании 2 и измерять энтропию в двоичных единицах; это хорошо согласуется с применяемой в электронных цифровых вычислительных машинах двоичной системой счисления.

В дальнейшем мы будем везде, если не оговорено противное, под символом понимать двоичный логарифм.

В приложении (табл. 6) даны двоичные логарифмы целых чисел от 1 до 100.

Легко убедиться, что при выборе 2 в качестве основания логарифмов за единицу измерения энтропии принимается энтропия простейшей системы , которая имеет два равновозможных состояния:

Действительно, по формуле (18.2.2) имеем:

Определенная таким образом единица энтропии называется «двоичной единицей» и иногда обозначается bit (от английского «binary digit» - двоичный знак). Это энтропия одного разряда двоичного числа, если он с одинаковой вероятностью может быть нулем или единицей.

Измерим в двоичных единицах энтропию системы , которая имеет равновероятных состояний:

т. е. энтропия системы с равновозможными состояниями равна логарифму числа состояний.

Например, для системы с восемью состояниями .

Докажем, что в случае, когда состояние системы в точности известно заранее, ее энтропия равна нулю. Действительно, в этом случае все вероятности в формуле (18.2.2) обращаются в нуль, кроме одной - например , которая равна единице. Член обращается в нуль, так как . Остальные члены тоже обращаются в нуль, так как

Докажем, что энтропия системы с конечным множеством состояний достигает максимума, когда все состояния равновероятны. Для этого рассмотрим энтропию системы (18.2.2) как функцию вероятностей и найдем условный экстремум этой функции при условии:

Пользуясь методом неопределенных множителей Лагранжа, будем искать экстремум функции:

. (18.2.5)

Дифференцируя (18.2.5) по и приравнивая производные нулю, получим систему уравнений:

, (18.2.6)

откуда видно, что экстремум (в данном случае максимум) достигается при равных между собой значениях . Из условия (18.2.4) видно, что при этом

, (18.2.7)

а максимальная энтропия системы равна:

, (18.2.8)

т. е. максимальное значение энтропии системы с конечным числом состояний равно логарифму числа состояний и достигается, когда все состояния равновероятны.

Вычисление энтропии по формуле (18.2.2) можно несколько упростить, если ввести в рассмотрение специальную функцию:

, (18.2.9)

где логарифм берется по основанию 2.

Формула (18.2.2) принимает вид:

. (18.2.10)

Функция затабулирована; в приложении (табл. 7) приведены ее значения для от 0 до 1 через 0,01.

Пример 1. Определить энтропию физической системы, состоящей из двух самолетов (истребителя и бомбардировщика), участвующих в воздушном бою. В результате боя система может оказаться в одном из четырех возможных состояний:

1) оба самолета не сбиты;

2) истребитель сбит, бомбардировщик не сбит;

3) истребитель не сбит, бомбардировщик сбит;

4) оба самолета сбиты.

Вероятности этих состояний равны соответственно 0,2; 0,3; 0,4 и 0,1.

Решение. Записываем условия в виде таблицы:

Пролог 113. Смысл принципа максимума энтропии

Степенные распределения могут возникать в результате действия принципа максимума энтропии - мы убедились в этом в Прологе 111 и в Прологе 112 описали построенную на этой основе модель мультипликативных коллизий, которая развивает степенное распределение на некотором множестве объектов.

Однако, чтобы адекватно применить эту модель для объяснения происхождения степенных распределений, которые наблюдаются в различных природных и человеческих системах, необходимо внимательно приглядеться к двум ее основаниям - к принципу максимума энтропии и к мультипликативности взаимодействий. Мы попробуем вдуматься в их "философское" значение. Начнем по порядку, с принципа максимума энтропии.

Две трактовки принципа максимума энтропии

В такой трактовке принцип максимума энтропии очевидно перекликается со вторым началом термодинамики - фундаментальным законом физики, в соответствии с которым энтропия замкнутой системы может либо нарастать либо оставаться неизменной, но не уменьшаться. Из этого прямо следует, что если мы возьмем любую замкнутую систему, которая оставалась таковой достаточно длительное время, то мы обнаружим ее в состоянии с максимальной энтропией.

Однако исторически принцип максимума энтропии ведет свою родословную совершенно из другого источника - не из термодинамики, а из теории вероятностей. И именно этот источник дает вторую трактовку принципа максимума энтропии, вероятно более фундаментальную. Ее можно сформулировать так: из всех гипотез о форме распределения случайной величины следует выбирать ту, при которой энтропия распределения максимальна, с учетом ограничений, накладываемых нашими знаниями о системе .

В начале 18-го века Якоб Бернулли, раздумывая над основаниями теории вероятностей, сформулировал "Принцип недостаточной причины", который и считается предтечей принципа максимума энтропии. Пусть мы рассматриваем два альтернативных и взаимоисключающих исхода A и B . Принцип Бернулли гласит, что если у нас нет никакой информации о вероятностях этих исходов, их следует полагать равновероятными. То есть, у нас в этих условиях недостаточно причин назначить одному из исходов более высокую вероятность, чем другому. Заметим, что с позиций Бернулли вероятности отражают наши знания о предмете. Если у нас о нем нет никаких знаний (кроме того, что возможно два исхода), вероятности должны быть положены равными. У любого другого распределения вероятностей должно быть основание, причина, основанная на нашем знании законов, управляющих предметом.

Итак, каждый исход следует предполагать равновероятным, если нет оснований для иного выбора. Если различными исходами являются различные значения некоторой величины, мы должны принимать однородное распределение вероятностей. Как мы знаем, именно однородное распределение обладает максимальной энтропией. Но Бернулли не говорил об энтропии - он жил и работал за два века до того, как появилось это понятие. Чтобы прийти от принципа недостаточной причины к принципу максимума энтропии, нужно было сделать немало шагов - и этот путь был пройден до конца только к середине 20-го века, а последние шаги связываются с работами американского физика Эдвина Джейнса.

От принципа недостаточной причины - к принципу максимума энтропии

Однако мы, вооруженные современными понятиями, можем пройти этот путь гораздо быстрее, напрямую. Он кажется очень простым - но только с высоты наших нынешних знаний. И тем не менее, именно Бернулли мог стать первооткрывателем и принципа максимума энтропии и самого исчисления энтропии/информации. Мог бы, если бы немного больше верил в описательную способность чисел - а в нее он, безусловно верил, ведь не даром стал одним из основателей теории вероятностей.

Итак, когда мы имеем два альтернативных исхода A и B, и более неизвестно ничего, принцип недостаточной причины требует предполагать их равновероятность: p A =p B =1/2. Именно так мы привносим минимум каких-то предубеждений в свои предположения о вероятности исходов. Предположим, что существует какая-то функция от этих вероятностей H(p A ,p B) , которая оказывается максимальной в том случае, если p A =p B =1/2 (или мы могли бы принять, что она в этих условиях наоборот, минимальна - это не принципиально). Обозначим этот минимум как H(1/2,1/2) . Можем ли мы что-то сказать большее об этой функции исходя из общих соображений?

Вполне, и Якоб Бернулли был мастером в таких вещах . Во-первых, заметим, что если у нас имеется только один возможный исход A, он автоматически имеет вероятность, равную единице. Это значит, что не существует никаких знаний, которые мы могли бы привнести дополнительно и которые могли бы повлиять на нашу оценку вероятности исхода. То есть, мы обладаем абсолютно полным знанием об исходе. В этом случае разумно ожидать, что наша функция, отражающая количество привнесенных нами в оценку исходов знаний принимает минимальное значение, скажем, нулевое: H(1) = 0.

Далее, заметим, что когда ситуация из двух равновероятных альтернатив разрешается тем или иным образом, мы оказываемся в ситуации с одним возможным исходом - с тем, который выбрал случай. Что происходит в этот момент с функцией H ? Она уменьшается от значения H(1/2,1/2) до значения H(1) = 0. Эту разность: H(1/2,1/2) -H(1) = H(1/2,1/2) резонно счесть количеством знаний, которые мы приобрели относительно двух равновероятных исходов, когда альтернатива разрешилась. Или, иначе, количеством не-знания или неопределенности в изначальной ситуации с двумя равновероятными исходами. На современном языке это количество именуется энтропией.

Пусть теперь мы знаем, что может быть четыре исхода A,B,C,D и более ничего. Принцип недостаточной причины требует, чтобы мы также назначили им равные вероятности p A =p B =p C =p D =1/4. Но чему равно знaчение функции H(p A ,p B ,p С,p D) в этом случае? Элементарная логика приводит к выводу, что ее значение должно быть в два раза больше, чем для случая двух возможных равновероятных исходов: 2*H(1/2,1/2) . Действительно, пусть исходы A, B c одной стороны и C,D c другой стороны очень похожи. Если мы не очень внимательны или не очень зорки, мы их можем не различить между собой. Тогда мы возвращаемся к случаю с двумя исходами и неопределенность ситуации равна H(1/2,1/2) . Но мы пригляделись внимательно и увидели, что на самом деле там, где мы видели один исход на самом деле есть два близких. Перед нами вновь возникает задача выбора самого "честного" распределения вероятностей между ними, и им вновь окажется равномерное распределение. И к неопределенности прибавляется еще H(1/2,1/2) . Значит для ситуации с четырьмя равновероятными альтернативами H(1/4,1/4,1/4,1/4) = 2*H(1/2,1/2) . Индуктивно продолжая, мы бы установили, что для ситуации с восемью исходами количество неопределенности равно 3*H(1/2,1/2) , и т.д.

Полагаю, читатель понимает, что наш вывод свойств функции H совпадает с логикой, приводящей к уравнению количества информации/энтропии по Хартли . Если обозначить количество равновероятных исходов как N , энтропия по Хартли равна

Мы знакомились с простой тропинкой , которая ведет от формулы Хартли к формуле Шеннона - Якоб Бернулли ее легко бы обнаружил. А получи Бернулли в свое распоряжение эту формулу, он мог бы количественно оценивать степень неопределенности некоторого распределения вероятностей и установить принцип, в соответствии с которым мы должны наделять исходы вероятностями так, чтобы энтропия распределения была максимальной из всех допустимых - это и есть принцип максимума энтропии.

Впрочем, история не знает сослагательных наклонений, а у науки своя неспешная поступь.

В заключение стоит заметить, что ключевым шагом является самый первый, в котором мы полагаем существование некоторой функции H , достигающей максимума при равновероятных исходах. Все остальное раскатывается как клубок. Это лишнее подтверждение пользы экстремальных принципов , когда мы считаем какое-то обычное или правильное состояние системы таким, в котором некоторая функция ее состояния достигает экстремального значения.

Главная интрига принципа максимума энтропии заключается в том, что он имеет две трактовки (проистекающие из двух разных источников), которые даже с первого взгляда коренным образом различаются по смыслу. В трактовке, ведущей свою историю от принципа Бернулли, речь идет о правиле организации наших описаний мира . Мы должны описывать мир так, чтобы не навязывать ему своих предубеждений, выражающихся в назначении различным событиям неоправданных вероятностей. Всякий раз следует выбирать такое описание, в котором нет ничего кроме того, что нам достоверно известно. Это эвристическое правило, позволяющее избегать искажений в описаниях реальности.

Физическая трактовка, с помощью которой мы, в частности, можем вывести распределение энергий молекул идеального газа, говорит о чем-то другом. Она задает правила, управляющие не нашим описанием реальности, а самой реальностью . Если физическая система управляется каким-то законом и ничем иным, то распределение параметров в ней 1) будет отвечать этому закону и 2) будет иметь максимальную энтропию среди разрешенных распределений. Это утверждение не о том, как нам лучше описывать мир, а о самом мире .

Когда в Манифесте когнитивиста говорится о том, что устройство мира соответствует устройству нашего сознания, речь идет именно об этих поразительных "совпадениях": лучший выбор при построении наших описаний мира является также и лучшим выбором самой природы.

На это можно возразить, что принцип Бернулли позволяет получать более правдоподобные описания реальности, и только поэтому он может считаться верным. Однако, Бернулли вывел его вовсе не эмпирически, не сравнивая его с реальностью. Он выдвинул его исходя из требований логики, исходя из свойств самого разума и его абстрактных построений. (Более того, он осознавал большую проблему с практической ценностью своего принципа в его исходном виде - только в очень редких обстоятельствах в природных явлениях можно видеть исходы с равными вероятностями.) Но оказывается, мир подчинен той же логике, и будто несет в себе такой же разум, как и наш собственный.

Мы лучше оценим эту удивительную двойственность принципа максимума энтропии, сопоставив его с одним идейно близким принципом, которому не повезло быть настолько же хорошо сформулированным. Мы попробуем это исправить.

Бритва Оккама и принцип минимума сложности

Близким родственником принципа недостаточной причины является знаменитая бритва Оккама. Это правило, которое предлагает нам среди альтернативных описаний мира предпочитать самое простое, содержащее в себе минимальное число сущностей и параметров. Переформулируя эту эвристику, родственность двух принципов легко разглядеть: среди всех альтернативных описаний следует выбирать содержащее в себе минимум структурной или алгоритмической сложности . Речь идет о том, что следует выбирать модель или описание, обладающее самым простым алгоритмом. "Алгоритмическая сложность" - это не фигура речи, это исчислимая величина, имеющая прямое отношение к энтропии/информации. Ее также называют алгоритмической энтропией или колмогоровской сложностью по имени русского математика А. Н. Колмогорова, который ввел эту величину в научный обиход. Колмогоровская сложность некоторой строки символов измеряется как длина программы или алгоритма, необходимого для того, чтобы воспроизвести эту строку. Чем сложнее организована строка символов, тем длиннее программа, которая нужна для ее воспроизведения. Разумеется, длина программы зависит от языка программирования, однако, этим фактором можно пренебречь, положив, что мы пишем программы на каком-то идеальном, самом экономичном и лаконичном языке.

Пусть, например, следующая запись на этом идеальном языке означает взять строку "AB" и повторить ее 10 раз:

Можно сказать, что алгоритмическая сложность этой строки равна 5 символам - именно такую длину имеет порождающая эту строку кратчайшая программа.

Еще пример: данная строка из 20 символов имеет алгоритмическую сложность в 12 символов, потому что именно такую длину имеет генерирующая ее программа:

Обратим внимание на важный момент: это бессистемная строка символов в том смысле, что мы в ней не видим системы, которая бы позволила сократить алгоритм. Но это не значит, что это случайная последовательность символов. Если нам нужно воспроизвести именно случайную последовательность, нам следует воспользоваться другой программой:

Это парадоксально: кажется полностью случайная строка имеет ту же самую сложность, что и полностью упорядоченная. Но на самом деле предельно высокой сложностью обладает не однородная строка и не случайная строка, а бессистемная строка, которая является совершенно не случайной, а наоборот, предельно закономерной. Это легко понять: вообразим, что мы наугад тыкаем в раскрытую книгу пальцем и всегда попадаем на одно и то же слово. Ясно, что эта ситуация коренным образом отличается от той, когда мы попадаем совершенно случайно в разные слова. Важность этого нюанса мы увидим чуть далее.

Отметим, что несмотря на казалось бы совершенно отдаленное отношение сложности по Колмогорову к энтропии по Шеннону и Хартли, в действительности можно показать их глубокую взаимосвязь - но мы тут не будем вдаваться в эту тему.

Итак, мы можем смотреть на некоторую модель или описание как на алгоритм, воспроизводящий требуемый набор свойств (требуемую "строку"). Тогда бритва Оккама требует выбирать описание, обладающее минимальной алгоритмической энтропией.

Исторический сюжет, который может послужить примером ситуации, в которой этот принцип оказался бы полезен - противостояние систем Птолемея и Коперника. Система Птолемея - это модель мироздания, основанная на наивно-религиозном убеждении в том, что в центре вселенной должна находиться Земля:

Вокруг Земли вращаются по орбитам небесные светила, в том числе и Солнце. Однако, при идейной правильности такой конструкции, она имела некоторый недостаток: в ее рамках было нельзя объяснить феномен смены направления движения планет по небесному своду. Скажем, Юпитер в течение нескольких недель поступательно передвигается относительно звезд. Но затем он совершает петлю и некоторое время движется в обратную сторону. Затем возвращается к "правильному" движению. Чтобы объяснить это явление Птолемей ввел в свою систему так называемые эпициклы - он предположил, что кроме вращения вокруг Земли каждое светил дополнительно вращается по небольшой орбите вокруг некоторого центра, который в свою очередь и вращается вокруг Земли по круговой орбите. Тогда те моменты, когда Юпитер двигается по своему эпициклу назад, мы видим смену направления его движения по небосводу.

Коперник предложил другую систему: в ней в центре находится Солнце (читатель наверное наслышан). Система Коперника смогла объяснить петли Юпитера и других светил без введения эпициклов, было достаточно простого кругового движения планет, чтобы мы с Земли иногда видели петли в движении планет. Даже не вдаваясь в точность предсказаний движения планет по небесному своду, система Коперника, очевидно, обладает меньшей алгоритмической сложностью, и при этом способна "воспроизвести правильную строку". Таким образом, если руководствоваться принципом Оккама, нам следует предпочесть именно систему Коперника.

Но есть ли у бритвы Оккама свой аналог в свойствах самой реальности как он есть у принципа недостаточной причины? Автор уверен в положительном ответе. Попробуем его сформулировать, назовем его принципом минимальной структурной сложности : система, потенциально способная обладать различной структурой имеет структуру, обладающую минимальной сложностью по Колмогорову с учетом внешних требований к свойствам этой системы .

Вот здесь и оказывается важно различие между случайными строками и предельно закономерными. Документируя положение и скорости молекул в сосуде с газом, мы каждый раз будем получать набор цифр, близкий к случайному - "случайную строку". Но если бы мы каждый раз получали бы один и тот же результат, это бы говорило о том, что система находится в предельно структурно сложном состоянии.

Отметим, что есть очень важный для нас пример структур, обладающих низкой алгоритмической сложностью: фракталы развиваются в результате повторения одних и тех же генерирующих преобразований, применяемых к разным масштабным уровням. Алгоритмически это простые структуры. Может быть, принцип минимальной структурной сложности способен объяснить такую всеобъемлющую распространенность фрактальных структур в различных явлениях мира.

Впрочем, это пока лишь смутная идея.

Далее, мы видели, как принцип максимума энтропии связан со вторым началом термодинамики. Но может быть, принцип минимума структурной сложности подсказывает нам еще одно следствие второго начала. Его можно сформулировать так: если в исходный момент времени структура системы не является наименее сложной, она эволюционирует в строну уменьшения сложности, достигая возможного минимума .

Если эта трактовка второго начала термодинамики верна, возникает вопрос, адресованный к его обычному толкованию: если энтропия мира как системы только увеличивается, почему вселенная еще не пришла в состояние максимума энтропии (и минимума структурной сложности), который именуют "тепловой смертью"? Наука не может ответить на этот вопрос. Может быть - к этому ответу склоняются материалисты - еще не успела. А может быть, наша вселенная - не закрытая, а открытая система и откуда-то получает ресурс, позволяющий ей справляться со вторым началом термодинамики. Этого мнения придерживаются идеалисты, к числу которых себя причисляет и автор. У нас пока не достаточно знаний, чтобы поставить точку в этой дилемме.

Завершим этот Пролог тем, что "разделим шкуру не убитого медведя" и восхитимся тем, что бритва Оккама не только способна отсекать все лишнее от наших умопостроений, но и отсекает все лишнее от структуры мира, так что он предстает перед нами в простейшем, самом элегантном облике из всех возможных. Как тут не вспомнить Лейбница, который полагал, что мы живем в лучшем из возможных миров?

Энтропия определяется как среднее значение собственной информации ансамбля

Метод максимума энтропии, аналогично методу максимума информации, строится на поиске среди всех возможных распределений вероятностей такого, которое обладает максимальной энтропией вида (3.19). Таким образом, критерий максимума энтропии используется для снятия неопределенности решения, а функционал (3.19) выступает как своеобразная «мера качества» изображения .

Смысл такой меры качества можно понять, обратившись к задаче оценивания плотностей распределения вероятностей в математической статистике. В случае известных моментов случайного распределения оценка, получаемая максимизацией выражения (3.19), является наименее смещенной из всех возможных оценок. Можно ожидать, что максимум (3.19) при наложенных ограничениях на процесс формирования изображения будет давать хорошую оценку плотности распределения. Попытаемся рассмотреть процесс формирования изображения и выяснить физический смысл критерия максимума энтропии.

Пусть суммарная интенсивность источника равна причем из точки излучается интенсивность из Подсчитаем число способов, которыми данный объект может быть сформирован из лучей:

Теперь найдем такое распределение, которое будет сформировано в наибольшем числе случаев

Заменив на его логарифм (максимум при этом не сместится) и используя формулу Стирлинга, получим :

Для решения задачи необходимо учесть также ограничения на уравнения формирования:

а также ограничение на суммарную интенсивность изображения, т. е.

Выражения составляют основу метода максимума энтропии. Физический смысл применения критерия максимума энтропии заключается в поиске такого распределения вероятностей на входе канала, которое в большинстве случаев формирует заданное выходное распределение или поиск наиболее правдоподобного распределения источника при заданных условиях формирования. В этом смысле метод максимума энтропии можно рассматривать как метод максимального правдоподобия для лучевой модели формирования изображений .

Рассмотрим одну из наиболее часто встречающихся форм записи метода максимума энтропии. Будем рассматривать одновременно с формированием изображения параллельное формирование шумового поля :

На основании приведенных рассуждений получим, что шумовое поле может быть создано способами, где

Для решения задачи необходимо максимизировать совместную вероятность формирования изображения и шумового поля

Логарифмирование этого выражения дает сумму энтропий шума и изображения:

Учитывая ограничения на процесс формирования и сохранение числа лучей (суммарную интенсивность), получим следующую задачу оптимизации:

где величины и являются множителями Лагранжа задачи оптимизации. Для решения системы найдем частные производные (3.25) по и приравняем их к нулю:

Подставляя выражения для и из (3.26), (3.27) в уравнения ограничений, находим

Из уравнений вида (3.28) определяются множители Лагранжа которые используются для нахождения функции входного распределения:

Экспонента в (3.29) обеспечивает положительность решения Сам функционал энтропии существенно нелинеен, что обусловливает интересную особенность уравнений (3.29): они могут содержать пространственные частоты, которые отсутствовали в спектре искаженного изображения. Это позволяет говорить о возможности «сверхразрешения», т. е. восстановлении информации, уничтоженной системой формирования с ограниченной полосой (эффекту сверхразрешения и оценке его возможностей посвящена гл. 5). Отметим также, что решения, получаемые на основе (3.29), обладают повышенным качеством по сравнению с линейными алгоритмами восстановления, однако требуют решения сложной системы нелинейных уравнений.

Выражению для энтропии в форме (3.19) существует альтернатива, предложенная Бургом для оценок спектров мощности . Эта форма энтропии имеет следующий вид:

Метод восстановления на основе выражения (3.30) также можно использовать в практике обработки изображений. Пусть нам известны зашумленные отсчеты спектра

где соответственно отсчеты спектров Наложим ограничение на расхождение истинных и зашумленных отсчетов спектра наблюдаемого изображения :

Тогда для нахождения решения требуется максимизировать более простой функционал:

Необходимо отметить, что в последнее время появилось большое число алгоритмов на основе как (3.19), так и (3.30), использующих при этом самые разнообразные ограничения, вытекающие из постановки каждой конкретной задачи. Правда, наличие двух норм энтропии вызывает некоторое сомнение, во-первых, из-за того, что неясно, какую из них использовать на практике, а во-вторых, из-за недостаточно четкой постановки задачи восстановления.

Существует еще одна интересная особенность алгоритмов, основанных на поиске максимума энтропии. Обратимся к выражениям (3.27)-(3.29) для случая идеальной системы формирования, но при наличии аддитивного шума Нетрудно видеть, что применение алгоритма максимума энтропии в этом случае претендует на выделение изображения из шума без каких-либо априорных характеристик шума и сигнала. Однако более внимательный анализ показывает, что решение с помощью уравнений вида (3.28) дает парадоксальный результат: сигнал и шум оказываются связаны линейной зависимостью. Действительно, оценка сигнала здесь равна

а оценка шума будет:

В практических приложениях для избежания этого эффекта выражение для энтропии шума берут с некоторым весовым коэффициентом и вместо (3.24) рассматривают следующий функционал:

Этот прием, однако, оставляет неясным физический смысл производных преобразований.

Еще один недостаток метода максимума энтропии состоит в том, что наилучшие результаты с его помощью получаются при восстановлении объектов, состоящих из отдельных импульсов на однородном фоне, а попытки применения метода к пространственно протяженным объектам вызывают появление флуктуаций .

Изложенные результаты, касающиеся методов максимума энтропии и максимума информации, могут быть объединены

в единую схему, основанную на построении алгоритмов оценивания плотности распределения с помощью метода максимального правдоподобия. Тем самым рассмотренные алгоритмы можно включить в группу методов статистической регуляризации, описанных в § 2.4. Отличие лишь в том, что эти алгоритмы основаны на другой статистической модели - представлении самого изображения как плотности вероятности. Такая модель сразу же приводит к нелинейности рассматриваемых функционалов . Однако отмеченные ранее недостатки заставляют искать алгоритмы, которые, сохраняя преимущества теоретико-информационных методов восстановления (неограниченность по полосе частот, неотрицательность решения и т. п.), позволяют восстанавливать более широкий класс изображений.

Игра в бильярд начинается с того, что шары аккуратной пирамидкой выстраиваются на столе. Затем наносится первый удар кием, который разбивает пирамиду. Шары перекатываются по столу по причудливым траекториям, многократно сталкиваются со стенками стола и друг с другом и, наконец, застывают в некотором новом расположении. Отчего-то новое расположение всегда менее упорядоченно. Почему? Можно пробовать бесконечно. Положения шаров на столе каждый раз будут меняться, но никогда мы не придем к такой же упорядоченной пирамиде, которая была на столе перед первым ударом. Система самопроизвольно переходит в менее упорядоченные состояния. Никогда не в более упорядоченные. Для того чтобы система перешла в упорядоченное состояние, необходимо вмешательство извне. Кто-нибудь из играющих берет треугольную рамку и формирует новую пирамиду. Процесс требует вложения энергии. Не существует способа заставить шары самопроизвольно выстроиться в пирамиду в результате соударений друг с другом и со стенками.

Процесс нарастания беспорядка на бильярдном столе не управляется (хотя и требует энергии для своего прохождения), потому что хороший бильярдный стол специально делается таким, чтобы энергия шара в любой его точке была одинаковой. То, что происходит на бильярдном столе, демонстрирует другой великий принцип, по которому организована наша Вселенная: принцип максимума энтропии. Разумеется, одним лишь бильярдным столом великий принцип мироздания не ограничивается. Так что будем разбираться.

Энтропия - это мера неупорядоченности системы. Чем меньше порядка в системе, тем выше ее энтропия. Наверное, имеет смысл поговорить о том, что считать порядком и что беспорядком.

Под порядком можно понимать регулярное расположение частиц, когда расстояния и направления повторяются, а по расположению нескольких частиц можно предсказать расположение следующей. Если частицы равномерно перемешаны безо всякого видимого закона расположения - это беспорядок. Если частицы аккуратно собраны в одной области пространства - это порядок. Если разбросаны повсюду - беспорядок. Если разные компоненты смеси находятся в разных местах - это порядок. Если все вперемежку - беспорядок. В общем, спросите маму или жену - она объяснит.

Энтропия газа (между прочим, слово "газ" - это искаженное греческое "хаос") выше, чем жидкости. Энтропия жидкости выше, чем твердого тела. Вообще говоря, повышение температуры увеличивает беспорядок. Из всех состояний вещества наименьшую энтропию будет иметь твердый кристалл при температуре абсолютного нуля. Эту энтропию принимают за нулевую.

В различных процессах энтропия изменяется. Если в некотором процессе не происходит изменения энергии, то процесс протекает самопроизвольно только в том случае, если это ведет к повышению энтропии системы. (Что происходит, когда меняется и энтропия, и энергия, мы обсудим немного позже.) Именно поэтому после удара кием шары на бильярдном столе переходят в менее упорядоченное положение. Изменения энтропии в различных системах можно суммировать в виде принципа максимума энтропии :

Любая система самопроизвольно стремится занять наиболее неупорядоченное доступное ей состояние.

Очень часто это же самое формулируется в виде принципа неуменьшения энтропии :

Энтропия изолированной системы не может уменьшиться.

Эта формулировка породила и порождает продолжать массу споров на тему тепловой смерти Вселенной: Вселенная по определению является изолированной системой (поскольку у нее отсутствует окружающая среда, с которой был бы возможен обмен массой или энергией), следовательно, ее энтропия постепенно возрастает. Следовательно, Вселенная придет в конце концов в состояние полной однородной неупорядоченности, в котором не может существовать ни один объект, как-то отличающийся от окружения. Тема в высшей степени увлекательная, но давайте об этом как-нибудь в другой раз.

Для источника с зависимыми сообщениями энтропия тоже вычисляется как математическое ожидание количества информации на один элемент этих сообщений. Количество информации и энтропия являются логарифмическими мерами и измеряются в одних и тех же единицах.

6. Энтропия объединенных статистически независимых источников информации равна сумме их энтропий. 7. Энтропия характеризует среднюю неопределенность выбора одного состояния из ансамбля, полностью игнорируя содержательную сторону ансамбля. ЭНТРОПИЯ ЭКОСИСТЕМЫ - мера неупорядоченности экосистемы, или количества энергии, недоступной для использования. Чем больше показатель энтропии, тем менее устойчива экосистема во времени и пространстве.

4.1.2. Энтропия и производительность дискретного источника сообщений

Любое из этих сообщений описывает состояние какой-то физической системы. Мы видим, что степень неопределенности физической системы определяется не только числом ее возможных состояний, но и вероятностями состояний. В качестве меры априорной неопределенности системы (или прерывной случайной величины) в теории информации применяется специальная характеристика, называемая энтропией.

Энтропия, как мы увидим в дальнейшем, обладает рядом свойств, оправдывающих ее выбор в качестве характеристики степени неопределенности. Наконец, и это самое главное, она обладает свойством аддитивности, т. е. когда несколько независимых систем объединяются в одну, их энтропии складываются. Если за основание выбрано число 10, то говорят о «десятичных единицах» энтропии, если 2 — о «двоичных единицах».

Докажем, что энтропия системы с конечным множеством состояний достигает максимума, когда все состояния равновероятны. Пример 3. Определить максимально возможную энтропию системы, состоящей из трех элементов, каждый из которых может быть в четырех возможных состояниях.

Следует заметить, что полученное в этом случае значение энтропии будет меньше, чем для источника независимых сообщений. Это следует из того, что при наличии зависимости сообщений неопределенность выбора уменьшается и, соответственно, уменьшается энтропия. Определим энтропию двоичного источника. График зависимости (4.4) представлен на рис. 4.1. Как следует из графика, энтропия двоичного источника изменяется в пределах от нуля до единицы.

Основные свойства энтропии

Обычно отмечают, что энтропия характеризует заданное распределение вероятностей с точки зрения степени неопределенности исхода испытания, т. е. неопределенности выбора того или иного сообщения. Действительно, легко убедиться, что энтропия равна нулю тогда и только тогда, когда одна из вероятностей равна единице, а все остальные равны нулю; это означает полную определенность выбора.

Возможна и другая наглядная интерпретация понятия энтропии как меры «разнообразия» сообщений, создаваемых источником. Легко убедиться, что приведенные выше свойства энтропии вполне согласуются с интуитивным представлением о мере разнообразия. Также естественно считать, что количество информации, содержащееся в элементе сообщения, тем больше, чем более разнообразны возможности выбора этого элемента.

Выражение представляющее математическое ожидание количества информации в выбираемом элементе, для источника, находящегося в -м состоянии, можно назвать энтропией этого состояния. Определенная выше энтропия источника на элемент сообщения зависит от того, каким образом сообщения расчленяются на элементы, т. е. от выбора алфавита. Однако энтропия обладает важным свойством аддитивности.

Отметим некоторые свойства энтропии. Энтропия. Пожалуй, это одно из самых сложных для понимания понятий, с которым вы можете встретиться в курсе физики, по крайней мере если говорить о физике классической.

Например, если вы спросите меня, где я живу, и я отвечу: в России, то моя энтропия для вас будет высока, всё-таки Россия большая страна. Если же я назову вам свой почтовый индекс: 603081, то моя энтропия для вас понизится, поскольку вы получите больше информации.

Энтропия вашего знания обо мне понизилась приблизительно на 6 символов. А что если бы я вам сказал, что сумма равна 59? Для этого макросостояния существует всего 10 возможных микросостояний, так что его энтропия равна всего лишь одному символу. Как видите, разные макросостояния имеют разные энтропии. Мы измеряем энтропию как количество символов, необходимых для записи числа микросостояний.

Другими словами, энтропия - это то, как мы описываем систему. Например, если мы немного нагреем газ, то скорость его частиц возрастёт, следовательно, возрастёт и степень нашего незнания об этой скорости, то есть энтропия вырастет. Или, если мы увеличим объём газа, отведя поршень, увеличится степень нашего незнания положения частиц, и энтропия также вырастет.

С одной стороны, это расширяет возможности использования энтропии при анализе самых различных явлений, но, с другой стороны, требует определенной дополнительной оценки возникающих ситуаций. Это во-первых.Во-вторых, Вселенная — это не обычный конечный объект с границами, это сама бесконечность во времени и пространстве.

МАКСИМАЛЬНАЯ РАБОТА - в термодинамике 1) работа, совершаемая теплоизолиров. Любое сообщение, с которым мы имеем дело в теории информации, представляет собой совокупность сведений о некоторой физической системе. Очевидно, если бы состояние физической системы было известно заранее, не было бы смысла передавать сообщение.

Очевидно, сведения, полученные о системе, будут, вообще говоря, тем ценнее и содержательнее, чем больше была неопределенность системы до получения этих сведений («априори»). Чтобы ответить на этот вопрос, сравним между собой две системы, каждой из которых присуща некоторая неопределенность.

Однако в общем случае это не так. Рассмотрим, например, техническое устройство, которое может быть в двух состояниях: 1) исправно и 2) отказало. Подчеркнем, что для описания степени неопределенности системы совершенно неважно, какие именно значения записаны в верхней строке таблицы; важны только количество этих значений и их вероятности. Понятие об энтропии является в теории информации основным.

Количество этой информации и называется энтропией. Предположим, что в некоторое сообщение вошло элементов алфавита, элементов и т.д. Величину называют энтропией источника сообщений. 3. Энтропия максимальна, если все состояния элементов сообщений равновероятны. В теории информации доказывается, что всегда, т. е. наличие вероятностных связей уменьшает энтропию источника сообщений.