Болезни Военный билет Призыв

Статистика имеет распределение пуассона. Распределение пуассона. Применение формулы Пуассона при решении задач

Объем выборки - это количество единиц выборочной совокупности, которые нужно изучить. Необходимый объем выборки может быть определен на основе качественных и количественных характеристик.

Среди наиболее значимых качественных факторов, определяющих объем выборки, можно назвать :

  • важность принимаемого решения. Как правило, для принятия важных решений необходима детальная, максимально точная информация. Ее получение предусматривает создание больших выборок, но при увеличении объема выборки возрастает и стоимость получения каждой дополнительной единицы информации;
  • характер исследования. На величину объема выборки влияет также характер исследования. В поисковых исследованиях, изучающих качественные характеристики респондентов, объем выборки, как правило, невелик. Для исследований, предусматривающих статистическую обработку собранных данных, таких как дескриптивные, необходим больший объем выборки;
  • количество переменных. Кроме того, большие выборки нужны, когда информация собирается с учетом большого количества переменных. Большой объем выборки позволяет снизить общий эффект от ошибок выборки по всем переменным;
  • характер анализа и уровень детализации. Большой объем выборки необходим при проведении углубленного анализа данных с использованием разнообразных методов многомерного статистического анализа. Это же касается и ситуации, когда надо провести анализ не только в целом по выборке, но и в разрезе отдельных групп (например, мужчины и женщины, возрастные группы, тип населенного пункта);
  • ограниченность ресурсов. Принимая решения об объеме выборки, необходимо учитывать временные, финансовые и кадровые ресурсы;
  • объем выборки в аналогичных исследованиях. Наконец, на величину объема выборки влияет типичный объем выборок, используемых в аналогичных исследованиях. В случае, если на каком-то рынке проводятся ежегодные исследования, то используется выборка одного и того же объема (панели).

Табл. 8 дает представление об объемах выборок, используемых в различных маркетинговых исследованиях. Эти величины установлены опытным путем и могут использоваться в качестве ориентировочных данных, особенно при детерминированных методах формирования выборки .

Таблица 8

Типичный размер выборок для конкретных видов исследования

Предмет исследования

Минимальный размер

Типовой размер, чел.

Изучение рынков

1000-1500 чел.

Стратегическое исследование

Внедрение на рынок - тест

Тестирование товара

Тестирование названия

Тестирование упаковки

Целевая группа

8-12 регион

Объем выборки может определяться на основе статистического анализа. Этот подход основан на определении минимального объема выборки исходя из конкретных требований к надежности и достоверности получаемых результатов.

Статистический расчет объема и ошибки выборки можно выполнить только для вероятностных выборок, для неверо ятностных выборок статистические методы расчета объема и ошибки выборки неприменимы.

Для расчета объема выборки необходимо иметь следующие данные:

  • 1. Заданный размер доверительной вероятности Р и коэффициент доверия t, зависящий от принятой вероятности (определяется эмпирически или на основе справочной таблицы функции Лапласа).
  • 2. Величину выборочного стандартного отклонения s^ ж S y , которая вычисляется либо принимается исходя из предшествующих исследований или пробных выборок.
  • 3. Стандартное отклонение, или меру степени разброса значений случайной величины относительно среднего. Оно может быть определено с использованием правила “трех сигм”, или исследователь может определить величину диапазона исходя из собственного понимания анализируемого явления. Например, задать величину максимально допустимой ошибки при оценке средней цены товара ±5 руб., а для доли респондентов, предпочитающих определенную марку товара, ±0,05%.
  • 4. Объем генеральной совокупности. Расчет объема выборки проводится с учетом типа выборки (простая, кластерная и пр.) и с использованием статистических программных средств или на основе формул математической статистики.

Пример 33. Допустим, необходимо провести маркетинговое исследование рынка автокресел для детей. Известно, что количество детей от 0 до 5 лет в регионе составляет 100 тыс. человек. Доверительная вероятность равна 95,4% (t=2), стандартное отклонение на основе предыдущих аналогичных исследований принято равным 100 и желаемая точность (погрешность) составляет ±10. Определить объем выборки. Используем формулу расчета объема простой случайной выборки при бесповторном отборе

Пример 34. Проведем расчет выборки для маркетингового исследования, посвященного узнаваемости потребителями торговой марки. Значение вероятности Р = 0,954, предельно допустимая ошибка данного исследования не должна превышать 5%. Какое количество респондентов необходимо опросить для решения этой проблемы в порядке случайной повторной выборки притом, что данные о распределении признаков отсутствуют?

Так как доля признака неизвестна, допустим, что 50% потребителей знают торговую марку, а 50% - нет.

Используем формулу расчета выборки с учетом доли признака:

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей

  • Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
  • Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
  • Юридические лица России (2,2 млн. на начало 2005 года)
  • Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
Пример:

  • Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.
  • Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
  • Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
Пример:

  • Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).
  • Проблема респондентов, отказывающихся отвечать на вопросы (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)

В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Типы выборок

Выборки делятся на два типа:

  • вероятностные
  • невероятностные

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – в газетах/журналах, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

Курс лекций по теории статистики

Более подробную информацию по выборочным наблюдениям можно получить просмотрев .

На практике решение вопроса об объеме выборки является компромиссным между предположением о точности результатов обследования и возможностями их практической реализации (т.е. исходя из затрат на проведение опроса).

На практике используется несколько подходов к определению объема выборки. Обратим внимание на самые простые из них. Первый из них называется произвольным подходом и основан он на применении «правила большого пальца».

Например, бездоказательно принимается, что для получения точных результатов выборка должна составлять 5 % от совокупности. Данный подход простой и доступный в исполнении, не позволяет получать точные результаты. Его достоинством является относительная дешевизна затрат. В соответствии со вторым подходом объем выборки может быть установлен исходя из заранее оговоренных условий. Заказчик маркетингового исследования, например, знает, что при изучении общественного мнения выборка обычно составляет 1000 – 1200 человек, поэтому он рекомендует исследователю придерживаться данной цифры.

Третий подход означает, что в некоторых случаях главным аргументом при определении объема выборки может быть стоимость проведения опроса. Хотя при этом ценность и достоверность получаемой информации не принимается в расчет.

В случае четвертого подхода объем выборки определяется на основе статистического анализа. Данный подход предполагает определение минимального объема выборки с учетом требований к надежности и достоверности получаемых результатов.

Пятый подход считается наиболее теоретически обоснованным и правильным подходом в определении объема выборки. Он основан на расчете доверительного интервала.

Доверительный интервал – это диапазон, крайние точки которого характеризуют процент определенных ответов на какой-то вопрос. Данное понятие тесто связано с понятием «среднее квадратичное отклонение получаемого признака в генеральной совокупности». Чем оно больше, тем шире должен быть доверительный интервал, чтобы включить в свой состав, например 9,5 % ответов.

Из свойств нормальной кривой распределения вытекает, что конечные точки доверительного интервала, равного к примеру 9,5 % определяются как произведение: 1,96 (нормированное отклонение) и среднего квадратичного отклонения.

Числа 1,96 и 2,58 (для 99 % доверительного интервала) обозначаются как z.

Существуют таблицы «Значение интеграла вероятности», которые дают возможность определить величины z для различных доверительных интервалов. Доверительный интервал равный 95% или 99% является стандартным при проведении маркетинговых исследований.

Например, проведено исследование числа визитов автовладельцев в сервисные мастерские за год. Доверительный интервал для среднего числа визитов был рассчитан равным 5 – 7 визитам при 99 % уровне доверительности. Это означает, что если появится возможность, провести независимо 100 раз выборочные исследования, то для 99 выборочных исследований среднее значение числа визитов попадут в диапазон от 5 до 7 визитов, Если сказать иначе, то 99 % автовладельцев попадут в доверительный интервал.

Допустим, было проведено исследование до 50 независимых выборок. Средние оценки для этих выборок образовали нормальную кривую распределения, которое называется выборочным распределением.

Средняя оценка для совокупности в целом равна средней оценке кривой распределения. Понятие «выборочное распределение» рассматривается также в качестве одного из базовых понятий теоретической концепции, лежащее в основе определения V выборки.

Естественно ни одна компания не в состоянии сформировать 10, 20, 50 независимых выборок. Обычно используется только одна выборка.

Математическая статистика позволяет получить некую информацию о выборочном распределении, владея точными данными о вариации единственной выборки.

Индикатором степени отличия оценки, истинной для совокупности в целом, которая ожидается для типичной выборки, является средне квадратическая ошибка . К примеру, исследуется мнение потребителей о новом товаре и заказчик данного исследования указал, что его устроит точность полученных результатов, равная плюс минус 5%.

Предположим, что 30 % членов выборки высказались за новый продукт. Это означает, что диапазон возможных оценок для всей совокупности составляет 25 – 35 %. Причем, чем больше объем выборки, тем меньше ошибка. Высокое значение вариации обусловливает высокое значение ошибки и наоборот.

Определим объем выборки на основе расчета доверительного интервала. Исходной информацией, необходимой для реализации данного подхода, является:

  • · величина вариации, которой, как считается, обладает совокупность;
  • · желаемая точность;
  • · уровень достоверности, которому должны удовлетворять результаты проводимого обследования.

Когда на заданный вопрос существует только два варианта ответов, выраженных в процентах (используется процентная мера), объем выборки определяется по следующей формуле:

где n – объем выборки;

z – нормированное отклонение, определяемое исходя из выбранного уровня доверительности (табл. 7);

р – найденная вариация для выборки;

q = (100 – p);

е – допустимая ошибка.

Таблица 7

Значение нормированного отклонения оценки z от среднего значения

в зависимости от доверительной вероятности (а) полученного результата

Например, предприятием, выпускающим покрышки, проводится опрос автолюбителей, использующих радиальные покрышки.

Поэтому на вопрос: «Используете ли Вы радиальные покрышки?» возможны только 2 ответа: «Да» или «Нет». Если предположить, что совокупность автолюбителей обладает низким показателем вариации, то это означает, что почти каждый опрошенный использует радиальные покрышки. В данном случае может быть сформирована выборка достаточно малых размеров. В формуле (1) произведение pg выражает вариацию, свойственную совокупности. Например, пусть 90 % единиц совокупности используют радиальные покрышки. Это означает, что pg = 900. Если принять, что показатель вариации выше (р = 70 %), то pg = 2100. Наибольшая вариация достигается в случае, когда одна половина совокупности (50 %) использует радиальные покрышки, а другие не используют. В этом случае произведение достигает значения равного 2500.

При проведении опроса важно указывать точность полученных оценок. Например, было установлено, что 44 % респондентов используют радиальные покрышки. Результаты измерения необходимо представить в виде: процент автолюбителей, использующих радиальные покрышки, составляет 44 плюс – минус е %. Величина допустимой ошибки заранее совместно определяется заказчиком исследования и исполнителем.

Уровень достоверности при проведении маркетинговых исследований обычно оценивается с учетом двух его значений: 95% или 99%. Первому значению соответствует значение z = 1,96; второму – z = 2,58. Если выбирается уровень доверительности равный 99 %, то это говорит о следующем: мы уверены на 99 % (иными словами доверительная вероятность равна 0,99) в том, что процент членов совокупности, попавший в диапазон плюс – минус е %, равен проценту членов выборки, попавших в тот же диапазон ошибки. Принимая вариацию равной 50 %, точность равной 10 % при 95 %-м уровне доверительности рассчитаем размер выборки:

n = 1,962 (50 х 50) / 102 = 96.

При уровне доверительности равном 99 %, и е = ±3 %, n = 1067.

При определении показателя вариации для конкретной совокупности целесообразно проводить предварительно качественный анализ исследуемой совокупности и установить схожесть единиц совокупности в демографическом, социальном и других отношениях, представляющих интерес для исследователя. Возможно определение объема выборки на основе использования средних значений, а не процентных величин. Предположим, что выбран уровень достоверности равный 95 % (z = 1.96,), среднеквадратическое отклонение (S) рассчитано и равно 100, и желаемая точность (погрешность) составляет ±10. Тогда объем выборки составит

Реально на практике, если выборка формируется заново и схожие опросы не проводились, S неизвестно.

В этом случае целесообразно задавать погрешность е в долях от среднеквадратического отклонения. Расчетная формула преобразуется и приобретает следующий вид:

Мы в основном говорили о совокупности очень больших размеров, характерных для рынков потребительских товаров. Но в отдельных случаях совокупности не являются столь большим, и например на рынках отдельных видов продукции производственного назначения.

Обычно, если выборка составляет менее 5 % совокупности, то совокупность считается большой, и расчеты проводятся по вышеприведенным правилам.

Если же V выборки превышает 5 % совокупности, то последняя считается малой, и в вышеприведенные формулы вводится поправочный коэффициент. Объем выборки в данном случае определяется следующим образом:

где n1 – объем выборки для малой совокупности,

n – объем выборки (или для процентных мер или для средних), рассчитанный по приведенным выше формулам,

N – объем генеральной совокупности.

Например, изучается мнение членов совокупности, состоящей из 1000 компаний, относительно строительства химического комбината в границах города Томска. Вследствие отсутствия информации о вариации принимается наихудший случай: 50:50. Исследователь вынес решение использовать уровень доверительности равный 95 %. Заказчик исследования указал, что его устроит точность результатов плюс минус 5 %. В этом случае используется следующая формула для процентной меры:

Данный подход к формированию V выборки с определенными оговорками может быть использован и при расчете численности панели и экспертной группы.

Приведенные формулы расчета выборки основаны на предположении, что все правила формирования выборки были соблюдены, и единственной ошибкой является ошибка, обусловленная ее объемом.

Глава из книги "Маркетинговые исследования"

  • Психология: личность и бизнес

Расчет объема выборки

Из всех вопросов, которые задают сотрудникам знаменитого Института опросов общественного мнения Гэллапа, самым попу­лярным является такой: как вы можете, проинтервьюировав 1000 человек, судить о том, что думают 250 млн американцев?

Для ответа на этот вопрос нужно упомянуть не только высокую квалификацию и огромный практический опыт сотрудников, но и использование ими статистики и математики. Если методы опроса не основаны на науке, результаты могут ввести вас в заблуждение.

В статистике приняты следующие разграничения объемов вы­борки. Объем выборки, достаточный для взаимопогашения слу­чайностей и.получения статистических характеристик закономер­ного характера, равен 30. Выборка такого объема называется ма­лой. Характер распределения значений признака в малых выборках приближается к нормальному с ростом числа испытаний. Мини­мальный объем выборки, позволяющий получить средние значе­ния признака с указанием доверительных вероятностей, равен 5. Выборки такого объема называются сверхмалыми. Распределение значений признака в таких выборках характеризуется распределе­нием Стьюдента. Но чаще всего в социологии имеют дело с го­раздо большим объемом выборки.

При планировании выборочного обследования наступает мо­мент, когда нужно решить, сколько человек опрашивать, т.е. ка­ким должен быть объем выборки. Это решение чрезвычайно важ­но, поскольку слишком большая выборка потребует излишних затрат, а слишком маленькая понизит качество результатов.

Объем выборки - общее число единиц наблюдения, включенных в выборочную совокупность.

Поскольку выборочная совокупность - это часть генеральной совокупности, отобранная с помощью специальных методов, - важно, чтобы эта часть не искажала представления о целом, т.е. репрезентировала его. Социологов, часто проводящих эмпиричес­кие исследования, постоянно волнует вопрос о том, как много надо опрашивать человек, чтобы получить достоверную информа­цию? Институт Гэллапа в США проводит регулярные опросы по национальной выборке объемом в 1,5 тыс. человек и достигает поразительной точности (ошибка выборки составляет от 1 до 1,5%). Центр «Социо-Экспресс» Института социологии РАН про­водит исследования на выборке объемом в 2 тыс. человек, при этом ошибка выборки не превышает 3% 31 .

Специалисты считают, что наилучшая выборка - не обязатель­но большая. Конечно, чем больше объем выборки, тем выше точ­ность ее результатов. Однако даже огромная выборка не гаранти­рует успеха, если генеральная совокупность «плохо перемешана», т.е. является неоднородной. Однородной считается такая совокуп­ность, в которой контролируемый признак распределен равномер­но, не образует пустот или сгущений. В этом случае, опросив не­скольких человек, можно получить точную информацию о распре­делении этого признака в генеральной совокупности.

Таким образом, на репрезентативность данных влияют не ко­личественные характеристики выборочной совокупности (ее объем), а качественные характеристики генеральной совокупнос­ти - степень ее однородности.

В социологии еще не придумано единой и четкой формулы, используя которую можно рассчитать оптимальный объем выбо­рочной совокупности, - такой формулы просто не существует в природе. И объясняется это весьма просто. Дело в том, что опре­деление объема выборочной совокупности - проблема не столько статистическая, сколько содержательная. Иными словами, объем выборочной совокупности зависит от множества факторов, в том числе от целей и задач, теоретической модели, гипотез и методов исследования, степени однородности генеральной совокупности, наконец, требующейся точности получаемой информации.

Надо всегда помнить, что каждый процент прироста точности ин­формации в исследовании приводит к резкому увеличению расходов на его проведение. Знаменитый институт Гэллапа, на протяжении многих десятилетий проводящий опросы в США, выявил, что при общенациональной выборке в 100 человек - ошибка выборки будет в пределах ±11%; 200 человек - ±8%; 400 - ±6%; 600 - ±5%; 750 -±4%; 1000 - ±4%; 1500 - ±3%; 4000 человек - ±2%. Именно поэто­му он проводит общенациональные опросы в США на выборке в 1500- 2000 человек. Как видно, он предпочитает увеличение ошибки на 1% многократному увеличению стоимости исследования.

Практика показывает, что для многих социологов обоснование объема выборки является камнем преткновения, несмотря на зна­чительное количество литературы, посвященной выборочным методам и, в частности, расчету объема выборки. Причин несколь­ко: 1) дефицит специальной литературы на периферии; 2) нехватка времени для самообразования; 3) неумение пользоваться матема­тическим аппаратом. В связи с этим возникает необходимость без сложных математических формул изложить стратегию и тактику обоснования объема выборки.

Процедура расчета объема выборки - цепь бесконечных компро­миссов между стремлением к точности и ограниченностью ресурсов, дефицитом времени и неполнотой сведений об изучаемом явлении. Вместе с тем это наука и искусство, познание которых доступно каж­дому человеку. Однако для этого нужно знать стратегии расчета объе­ма выборки (предварительного расчета, последовательной и комби­нированной стратегии), а также факторы, влияющие на объем вы­борки (объем генеральной совокупности, варьирование ответов респондентов, точность оценивания, характер предполагаемого рас­пределения ответов, метод исследования, процедура обработки).

Стратегия предварительного расчета состоит в том, что объем выборки определяется до проведения основного исследования. В наиболее простом случае можно воспользоваться уже наработан­ным опытом, например, института Гэллапа, где используется объем выборки приблизительно в 1500-2000 человек. Для средне­статистического отечественного исследования объема выборки - примерно 400-600 человек.

Для расчета объема случайной выборки надо знать желаемую точность оценивания, величину риска получаемого ответа и сте­пень изменчивости ответа. Традиционно точность оценивания принимают за 5%, а величину риска - за 0,95. Иными словами, если по данным выборочного исследования 60% опрошенных удовлетворены работой, то можно утверждать, что в генеральной совокупности доля удовлетворенных составит от 55 до 65% в 95% случаев, а в 5% случаев такая доля может выйти за этот интервал. Если исходить из 5%-ной точности и величины риска в 0,95, объем выборки будет следующим (табл. 2.4).

Таблица 2.4 Зависимость объема выборки от объема генеральной совокупности



Результаты, приведенные в табл. 2.4, свидетельствуют против распространенного заблуждения, будто бы объем выборки - жестко фиксированный процент от генеральной совокупности, рав­ный 10. На самом же деле эта величина - не постоянная, а пере­менная, изменяющаяся в конкретных условиях. Объем выборки зависит также от того, какие вопросы используются в анкете. Цифры в табл. 2.4 действительны только для одного случая - ког­да речь идет о дихотомическом вопросе, у которого максималь­ный разброс ответов - 50 на 50%. Не имея предварительной ин­формации о разбросе оценок, социолог как бы заранее страхуется и считает, что этот разброс составит 50 на 50%. Если же такая информация имеется, то объем выборки будет следующим.

Таблица 2.5 Зависимость объема выборки от распределения дихотомического ответа

В табл. 2.5 показано распределение ответов на качественные вопросы. Расчет объема выборки для количественных вопросов, включающих вопросы типа «возраст» и «заработная плата», стро­ится исходя из коэффициента вариации (табл. 2.6), который по­казывает, какой процент составляет среднее квадратическое откло­нение от средней арифметической, и позволяет сравнивать меж­ду собой (по степени варьирования) любые признаки.

Таблица 2.6 Зависимость объема выборки от коэффициента вариации

Коэффициент вариации, %
Объем выборки

Если изучаются условия труда, взаимоотношения в коллекти­ве, заработная плата и т.д. с помощью пятичленной шкалы, то коэффициент вариации изменяется здесь от 27 до 62%, а при ис­пользовании семичленной - от 78 до 113%. Стало быть, чем длиннее шкала, тем выше коэффициент вариации и больше дол­жен быть объем выборки. Если социолог хочет обойтись неболь­шой выборкой, то и вопросы должен формулировать проще. Иногда думают, что чем длиннее шкала, тем точнее измерение. Но преимущества семибалльных шкал над пятибалльными не доказаны.

Среди социологов распространено мнение, согласно которому чем больше объем выборки, тем точнее результат, и это заставля­ет их непомерно увеличивать количество опрошенных. В реальности дело обстоит иначе: табл. 2.7, составленная по данным Ин­ститута Гэллапа, показывает зависимость между объемом выбор­ки и точностью оценивания в процентах. Из нее следует, что с увеличением объема выборки точность возрастает, но до опреде­ленного порога. Уже при 600 опрошенных достигается желанный для всех 5%-ный уровень точности. Стало быть, 600 человек - приемлемый объем выборки.

Между цифрами 400 и 600 человек противоречия нет. В пер­вом случае объем выборки рассчитывался, исходя из положения о нормальном распределении ответов респондентов, а во втором - из практики. Расхождение между теорией и практикой обуслов­лено тем, что в реальной ситуации распределение оценок отлича­ется от нормального, поэтому объем выборки надо рассчитывать с учетом именно этого обстоятельства; наиболее эффективным способом уменьшения объема выборки является снижение коэф­фициента вариации оценок.

Таблица 2.7 Зависимость между объемом выборки и точностью оценивания

При расчете объема выборки социологи часто совершают та­кую ошибку: рассчитав по существующим формулам необходимый объем выборки в целом для совокупности, в дальнейшем пропор­ционально размещают его по отдельным подразделениям выбор­ки, например по цехам, предприятиям, районам, городам, типам семей. После чего на этапе обработки данных - анализируют уже сами различия между подразделениями. Однако правильнее вы­числить объем выборки отдельно для каждого подразделения, а)атем суммировать отдельные объемы. Допустим, расчеты объе­ма выборки по трем цехам (с учетом размерности шкалы, числен­ности работающих, характера предполагаемого распределения оценок) позволили установить, что в первом цехе необходимо спросить 384 человека, во втором - 222, а в третьем - 600. Тогда общий объем выборки составит 384 + 222 + 600 = 1206 человек.

Если социологу необходимо опросить какую-либо катего­рию работников (допустим, водителей автобусов), о которой из­вестно лишь, что к ней принадлежит, например, десятый работ­ник предприятия, и он решил спросить 139 водителей автобусов, а общий объем выборки для предприятия составит 1390 человек, т.е. иными словами, отбирая случайным образом 1390 респонден­тов на предприятии, мы в соответствии с теорией выборки наде­емся выявить 139 человек интересующей нас специальности.

При расчете квотной выборки социологи часто произвольно определяют ее объем в 1000 человек, исходя из удобства вычисле­ния квот. Но с таким же успехом можно взять любое другое круг­лое число. Более обоснованным является подход, при котором объем квотной выборки рассчитывается как для случайной. Дру­гим вариантом расчета объема квотной выборки является исполь­зование теории малых выборок. Ее суть: если не ставится цель дать дифференцированный анализ по группам работников, то умножа­ют количество градаций вопросов, подлежащих изучению, на 25 (минимальный статистический значимый размер группы). Напри­мер, изучают три переменные: пол - две категории, возраст - две категории (до 30 лет и свыше 30 лет), удовлетворенность трудом - измеряется пятибалльной шкалой. Тогда необходимый объем вы­борки для данного примера составит 2x2x5x25 = 500 человек. Объем выборки увеличивается в 2,5 раза. Ясно, что с расширени­ем числа переменных и числа градаций объем выборки может стать катастрофически большим. Выход только один: детальная проработка исходной проблемы, которая позволит отбраковать лишние вопросы в анкете, оставив самые важные. Если в иссле­довании проверяется несколько гипотез, то объем выборки для проверки каждой гипотезы вычисляется отдельно. Таким образом, при использовании выборки количество вопросов в анкете и ги­потез должно быть минимальным.

Итак, мы рассчитали требуемый объем выборки. Теперь, и только теперь необходимо проверить, совместима ли полученная величина с выделенными ресурсами. Типичная ошибка многих социологов-прикладников состоит в том, что при расчете объема выборки во главу угла ставятся наличные ресурсы или, хуже того, социолог пассивно принимает все условия, диктуемые заказчиком. Это в корне неверно по нескольким причинам. Во-первых, рас­чет объема выборки позволяет глубже проникнуть в суть изучае­мого предмета и специфику методов исследования, а значит, ар­гументированно требовать получения больших ресурсов или при­нять правильное решение о снижении объема выборки. Если администрация отказала в дополнительных ресурсах, а цели исследования не позволяют сократить объем выборки (т.е. социолог не может принять решение администрации), то надо переходить к другой схеме исследования. Во-вторых, обоснованный расчет объема выборки показывает профессионализм социолога и застав­ляет заказчика относится к нему более уважительно.

Стратегия последовательного расчета объема выборки. При расчете объема выборки желательно знать разброс оценок и не­которые другие параметры. Однако они-то, как правило, неиз­вестны. Для того чтобы не допустить ошибки, лучше предполо­жить, что они максимальны. Плата за наше незнание - разбухание объема выборки сверх необходимого и дополнительные финансовые и временные затраты (приходится опрашивать боль­шее число людей). Для сохранения затрат применяется последовательная стратегия - объем выборки не рассчитывается заранее, а ставится в зависимость от конечных результатов исследования. Например, опрашивают 100 человек, затем устанавливают величину разброса оценок и уже в зависимости от этого рассчитыва­ют необходимый объем выборки. Если оказывается, что 100 человек достаточно, то исследование заканчивается. В противном слу­чае добирается необходимое количество респондентов, но не до бесконечности. Известен пример из практики Дж. Гэллапа, ко­торый в начале своей карьеры активно экспериментировал с объемами выборки. В 1936 г. американцам был задан вопрос: «Хотели бы вы возобновления закона о восстановлении нацио­нальной промышленности?» Выяснился странный парадокс: Дж. Гэллап вначале опросил 500 человек и замерил ошибку выбор­ки, а затем последовательно наращивал число респондентов до 30 тыс. К своему сожалению, он обнаружил, что прибавление 29,5 тыс. опрошенных увеличило точность информации менее чем на 1%. Следовательно, опрос можно было прекращать уже при 500 опрошенных. Этот пример показывает, что, применяя последовательную стратегию, можно добиваться значительного снижения необходимого числа наблюдений по сравнению с пред­варительным расчетом объема выборки.

Однако стратегия последовательного расчета объема выборки приносит желаемый результат лишь в том случае, если социолог может производить необходимые расчеты в ходе самого опроса, например телефонного, с применением компьютерных систем. Социолог вводит ответы респондента в свой персональный компь­ютер, с него результаты сразу поступают на компьютер руководи­теля исследования, обрабатываются, и на экране дисплея выдается информация не только об одномерных частотах, распределенных по тому или иному вопросу, но и о требуемом объеме выборки.

Если существует опасность, что объем выборки может оказаться катастрофически большим, надо совместить оба вида стратегии - предварительную и последовательную, т.е. применить комбиниро­ванную стратегию. Рассчитывая выборку по предварительной стра­тегии, получаем верхние допустимые значения для последователь­ной стратегии или, иначе говоря, ту величину объема выборки, при достижении которой прекращается опрос по последователь­ной стратегии.

Наиболее обоснованный и корректный подход к определению объема выборки основан на расчете доверительных интервалов, в основе которого лежит ряд базовых понятий математической ста­тистики (вариация, среднее квадратическое отклонение, довери­тельный интервал, средняя квадратическая ошибка).

Для расчета необходимого размера выборки в количественном исследовании чаще всего используют два статистических поня­тия - доверительный интервал и доверительную вероятность. Доверительный интервал представляет собой заранее задаваемую вами погрешность выборки. Например, если вы задаете довери­тельный интервал в 3% и конкретный ответ на конкретный воп­рос исследования составит 48%, это значит, что даже при прове­дении опроса всей генеральной совокупности реальное значение попадет в интервал между 45 (48 - 3) и 51% (48 + 3). Доверитель­ная вероятность показывает, насколько вы можете быть уверены в полученных результатах, в том, что характеристики выборки со­ответствуют характеристикам всей генеральной совокупности - иными словами, с какой вероятностью случайный ответ попадет в доверительный интервал. Обычно используют доверительную вероятность 95 и 99%. Чаще всего используется 95% - этого впол­не достаточно в подавляющем большинстве исследований. Если объединить доверительную вероятность и доверительный интер­вал, то можно сказать, что ответы на вопрос с 95%-ной вероятно­стью попадут в интервал между 45 и 51%.

Весьма полезна следующая приблизительная оценка надеж­ности результатов выборочного обследования. Повышенная на­дежность допускает ошибку выборки до 3%, обыкновенная - от 3 до 10% (доверительный интервал распределений на уровне 0,03- 0,1), приближенная - от 10 до 20%, ориентировочная - от 20 до 40%, а прикидочная - более 40%.

На основе этих понятий с учетом ряда предположений выво­дятся формулы расчета объема выборки, которые предполагают, что репрезентативность гарантируется путем использования кор­ректных вероятностных процедур формирования выборки.

В ряде случаев в качестве главного аргумента при определе­нии объема выборки используется стоимость проведения обсле­дования. Так, в бюджете маркетинговых исследований пред­усматриваются затраты на проведение определенных обследова­ний, которые нельзя превышать, и очевидно, что ценность получаемой информации не принимается при этом в расчет. Однако в ряде случаев и малая выборка может дать достаточно точные результаты.

Исследовательская практика подсказывает следующее прави­ло: объем выборки должен обеспечивать не менее 100 наблюде­ний для каждой первостепенной и не менее 20-50 наблюдений для каждой второстепенной классификационной составляющей. 11ервостепенные классификационные составляющие соответ­ствуют наиболее критичным, а второстепенные - наименее кри­тичным ячейкам перекрестной классификации, принятой в данном исследовании 34 . Теоретические расчеты и практика дока­зывают, что для получения достоверных данных о мнении и предпочтениях населения такого крупного города, как Санкт-Петербург, достаточно опросить 700-800 человек. Однако боль­шинство опросов населения здесь проходят на выборках объемом до 1,5 тыс. человек.

Ошибка выборки

Как мы уже знаем, репрезентативность - свойство выборочной совокупности представлять характеристику генеральной. Если со­впадения нет, говорят об ошибке репрезентативности - мере от­клонения статистической структуры выборки от структуры соот­ветствующей генеральной совокупности. Предположим, что сред­ний ежемесячный семейный доход пенсионеров в генеральной совокупности составляет 2 тыс. руб., а в выборочной - 6 тыс. руб. Это означает, что социолог опрашивал только зажиточную часть пенсионеров, а в его исследование вкралась ошибка репрезента­тивности. Иными словами, ошибкой репрезентативности называ­ется расхождение между двумя совокупностями - генеральной, на которую направлен теоретический интерес социолога и представ­ление о свойствах которой он хочет получить в конечном итоге, и выборочной, на которую направлен практический интерес со­циолога, которая выступает одновременно как объект обследова­ния и средство получения информации о генеральной совокупно­сти.

Наряду с термином «ошибка репрезентативности» в отечествен­ной литературе можно встретить другой - «ошибка выборки». Иногда они употребляются как синонимы, а иногда «ошибка вы­борки» используется вместо «ошибки репрезентативности» как количественно более точное понятие.

Ошибка выборки - отклонение средних характеристик выбо­рочной совокупности от средних характеристик генеральной со­вокупности.

На практике ошибка выборки определяется путем сравнения известных характеристик генеральной совокупности с выбороч­ными средними. В социологии при обследованиях взрослого на­селения чаще всего используют данные переписей населения, те­кущего статистического учета, результаты предшествующих оп­росов. В качестве контрольных параметров обычно применяются социально-демографические признаки. Сравнение средних гене­ральной и выборочной совокупностей, на основе этого опреде­ление ошибки выборки и ее уменьшение называется контроли­рованием репрезентативности. Поскольку сравнение своих и чужих данных можно сделать по завершении исследования, та­кой способ контроля называется апостериорным, т.е. осуществ­ляемым после опыта.

В опросах Института Дж. Гэллапа репрезентативность конт­ролируется по имеющимся в национальных переписях данным о распределении населения по полу, возрасту, образованию, до­ходу, профессии, расовой принадлежности, месту проживания, величине населенного пункта. Всероссийский центр изучения общественного мнения (ВЦИОМ) использует для подобных це­лей такие показатели, как пол, возраст, образование, тип посе­ления, семейное положение, сфера занятости, должностной ста­тус респондента, которые заимствуются в Государственном ко­митете по статистике РФ. В том и другом случае генеральная совокупность известна. Ошибку выборки невозможно устано­вить, если неизвестны значения переменной в выборочной и ге­неральной совокупностях.

Специалисты ВЦИОМ обеспечивают при анализе данных тща­тельный ремонт выборки, чтобы минимизировать отклонения, возникшие на этапе полевых работ. Особенно сильные смещения наблюдаются по параметрам пола и возраста. Объясняется это тем, что женщины и люди с высшим образованием больше времени проводят дома и легче идут на контакт с интервьюером, т.е. яв­ляются легко достижимой группой по сравнению с мужчинами и людьми «необразованными».

Ошибка выборки обусловливается двумя факторами: методом формирования выборки и размером выборки.

Ошибки выборки подразделяются на два типа - случайные и систематические. Случайная ошибка - это вероятность того, что выборочная средняя выйдет (или не выйдет) за пределы заданного интервала. К случайным ошибкам относят статистические погреш­ности, присущие самому выборочному методу. Они уменьшаются при возрастании объема выборочной совокупности (табл. 2.8).

Таблица 2.8

Зависимость объема выборки от ее ошибки 36 (размер генеральной совокупности составляет 20 тыс. ед.)

Ошибка выборки, %
Объем выборки, ед.

Второй тип ошибок выборки - систематические ошибки. Если социолог решил узнать мнение всех жителей города о проводимой местными органами власти социальной политике, а опросил толь­ко тех, у кого есть телефон, то возникает предумышленное смеще­ние выборки в пользу зажиточных слоев, т.е. систематическая ошибка.

Таким образом, систематические ошибки - результат деятель­ности самого исследователя. Они наиболее опасны, поскольку приводят к довольно значительным смещениям результатов ис­следования. Систематические ошибки считаются страшнее случайных еще и потому, что они не поддаются контролю и изме­рению.

Они возникают, когда, например: 1) выборка не соответствует задачам исследования (социолог решил изучить только работаю­щих пенсионеров, а опросил всех подряд); 2) налицо незнание характера генеральной совокупности (социолог думал, что 70% всех пенсионеров не работает, а оказалось, что не работает толь­ко 10%); 3) отбираются только «выигрышные» элементы генераль­ной совокупности (например, только обеспеченные пенсионеры).

Внимание! В отличие от случайных ошибок систематические ошибки при возрастании объема выборки не уменьшаются.

Обобщив все случаи, когда происходят систематические ошиб­ки, методисты составили их реестр. Они полагают, что источни­ком неконтролируемых перекосов в распределении выборочных наблюдений могут быть следующие факторы:

♦ нарушены методические и методологические правила про­ведения социологического исследования;

♦ выбраны неадекватные способы формирования выборочной совокупности, методы сбора и расчета данных;

♦ произошла замена требуемых единиц наблюдения другими, более доступными;

♦ отмечен неполный охват выборочной совокупности (недо­получение анкет, неполное их заполнение, труднодоступность единиц наблюдения).

Намеренные ошибки социолог допускает редко. Чаще ошибки возникают из-за того, что социологу плохо известна структура генеральной совокупности: распределение людей по возрасту, профессии, доходам и т.д.

Систематические ошибки легче предупредить (по сравнению со случайными), но их очень трудно устранить. Предупреждать сис­тематические ошибки, точно предвидя их источники, лучше все­го заранее - в самом начале исследования.

Вот некоторые способы избежать ошибок:

♦ каждая единица генеральной совокупности должна иметь равную вероятность попасть в выборку;

♦ отбор желательно производить из однородных совокупностей;

♦ надо знать характеристики генеральной совокупности;

♦ при составлении выборочной совокупности надо учитывать случайные и систематические ошибки.

Если выборочная совокупность (или просто выборка) состав­лена правильно, то социолог получает надежные результаты, ха­рактеризующие всю генеральную совокупность. Если она состав­лена неправильно, то ошибка, возникшая на этапе составления выборки, на каждом следующем этапе проведения социологичес­кого исследования приумножается и достигает в конечном счете такой величины, которая перевешивает ценность проведенного исследования. Говорят, что от такого исследования больше вре­да, нежели пользы.

Подобные ошибки могут произойти только с выборочной со­вокупностью. Чтобы избежать или уменьшить вероятность ошиб­ки, самый простой способ - увеличивать размеры выборки (и идеале до объема генеральной: когда обе совокупности совпа­дут, ошибка выборки вообще исчезнет). Экономически такой ме­тод невозможен. Остается другой путь - совершенствовать мате­матические методы составления выборки. Они-то и применяют­ся на практике. Таков первый канал проникновения в социологию математики. Второй канал - математическая обработка данных.

Особенно важной проблема ошибок становится в маркетинговых исследованиях, где используются не очень большие выбор­ки. Обычно они составляют несколько сотен, реже - тысячу рес­пондентов. Здесь исходным пунктом расчета выборки выступает вопрос об определении размеров выборочной совокупности. Чис­ленность выборочной совокупности зависит от двух факторов: I) стоимости сбора информации и 2) стремления к определенной степени статистической достоверности результатов, которую на­деется получить исследователь. Конечно, даже не искушенные в статистике и социологии люди интуитивно понимают, что чем больше размеры выборки, т.е. чем ближе они к размерам генераль­ной совокупности в целом, тем более надежны и достоверны по­мученные данные. Однако выше мы уже говорили о практической невозможности сплошных опросов в тех случаях, когда они проводятся на объектах, численность которых превышает десятки, сотни тысяч и даже миллионы. Понятно, что стоимость сбора информации (включающая оплату тиражирования инструмента­рия, труда анкетеров, полевых менеджеров и операторов по ком­пьютерному вводу) зависит от той суммы, которую готов выделить заказчик, и слабо зависит от исследователей. Что же касается вто­рого фактора, то мы остановимся на нем чуть подробнее.

Итак, чем больше величина выборки, тем меньше возможная ошибка. Хотя необходимо отметить, что при желании увеличить точность вдвое вам придется увеличить выборку не в два, а в четыре раза. Например, чтобы сделать в два раза более точной оценку данных, полученных путем опроса 400 человек, вам потребуется опросить не 800, а 1600 человек. Впрочем, вряд ли маркетинговое исследование испытывает нужду в стопроцентной точности. Если пивовару необ­ходимо узнать, какая часть потребителей пива предпочитает имен­но его марку, а не сорт его конкурента, - 60% или 40%, то на его планы никак не повлияет разница между 57%, 60 или 63%.

Ошибка выборки может зависеть не только от ее величины, но и от степени различий между отдельными единицами внутри ге­неральной совокупности, которую мы исследуем. Например, если нам нужно узнать, какое количество пива потребляется, то мы обнаружим, что внутри нашей генеральной совокупности нормы потребления у различных людей существенно различаются (гетерогенная генеральная совокупность). В другом случае мы будем изучать потребление хлеба и установим, что у разных людей оно различается гораздо менее существенно (гомогенная генеральная совокупность). Чем больше различия (или гетерогенность) внут­ри генеральной совокупности, тем больше величина возможной ошибки выборки. Указанная закономерность лишь подтверждает то, что нам подсказывает простой здравый смысл. Таким образом, как справедливо утверждает В. Ядов, «численность (объем) выбор­ки зависит от уровня однородности или разнородности изучаемых объектов. Чем более они однородны, тем меньшая численность может обеспечить статистически достоверные выводы».

Определение объема выборки зависит также от уровня довери­тельного интервала допустимой статистической ошибки. Здесь имеются в виду так называемые случайные ошибки, которые свя­заны с природой любых статистических погрешностей. В.И. Паниотто приводит следующие расчеты репрезентативной выборки с допущением 5%-ной ошибки (табл. 2.9):

Таблица 2.9

Расчеты репрезентативной выборки

Это означает, что если вы, опросив, предположим, 400 человек в районном городе, где численность взрослого платежеспособно­го населения составляет 100 тыс. человек, выявили, что 33% оп­рошенных покупателей предпочитают продукцию местного мясо­комбината, то с 95%-ной 39 вероятностью можете утверждать, что постоянными покупателями этой продукции являются 33±5% (т.е. от 28 до 38%) жителей этого города.

Можно также воспользоваться расчетами института Гэллапа для оценки соотношения размеров выборки и ошибки выборки (см. выше).

Сегодня многие трудные расчеты берет на себя техника, а стати­стические программы можно получить по Интернету. Вот и с рас­четом выборки ленивому социологу предоставили такую возможность на веб-сайте Аналитического центра «Бизнес и маркетинг» (http://www.bma.ru/enter.htm), где пользователю надо лишь внести необходимые данные, а затем нажать на кнопку «Рассчитать».