Объем выборки вычисляется по формуле. Как правильно рассчитать объем выборки

Один из главных компонентов тщательно продуманного исследования – определение выборки и что такое репрезентативная выборка. Это как в примере с тортом. Ведь не обязательно съедать весь десерт, чтобы понять его вкус? Достаточно небольшой части.

Так вот, торт – это генеральная совокупность (то есть все респонденты, которые подходят для опроса). Она может быть выражена территориально, например, лишь жители Московской области. Гендерно – только женщины. Или иметь ограничения по возрасту – россияне старше 65 лет.

Высчитать генеральную совокупность сложно: нужно иметь данные переписи населения или предварительных оценочных опросов. Поэтому обычно генеральную совокупность «прикидывают», а из полученного числа высчитывают выборочную совокупность или выборку .

Что такое репрезентативная выборка?

Выборка – это чётко определенное количество респондентов. Её структура должна максимально совпадать со структурой генеральной совокупности по основным характеристикам отбора.

Например, если потенциальные респонденты – всё население России, где 54% — это женщины, а 46% — мужчины, то выборка должна содержать точно такое же процентное соотношение. Если совпадение параметров происходит, то выборку можно назвать репрезентативной. Это значит, что неточности и ошибки в исследовании сводятся к минимуму.

Объем выборки определяется с учётом требований точности и экономичности. Эти требования обратно пропорциональны друг другу: чем больше объем выборки, тем точнее результат. При этом чем выше точность, тем соответственно больше затрат необходимо на проведение исследования. И наоборот, чем меньше выборка, тем меньше на неё затрат, тем менее точно и более случайно воспроизводятся свойства генеральной совокупности.

Поэтому для вычисления объема выбора социологами была изобретена формула и создан специальный калькулятор :

Доверительная вероятность и доверительная погрешность

Что означают термины «доверительная вероятность » и «доверительная погрешность »? Доверительная вероятность – это показатель точности измерений. А доверительная погрешность – это возможная ошибка результатов исследования. К примеру, при генеральной совокупности более 500 00 человек (допустим, проживающие в Новокузнецке) выборка будет равняться 384 человека при доверительной вероятности 95% и погрешности 5% ИЛИ (при доверительном интервале 95±5%).

Что из этого следует? При проведении 100 исследований с такой выборкой (384 человека) в 95 процентов случаев получаемые ответы по законам статистики будут находиться в пределах ±5% от исходного. И мы получим репрезентативную выборку с минимальной вероятностью статистической ошибки.

После того, как подсчет объема выборки выполнен, можно посмотреть есть ли достаточное число респондентов в демо-версии Панели Анкетолога . А как провести панельный опрос можно подробнее узнать .

Перед непосредственным проведением выборочного наблюдения всегда решается вопрос, сколько единиц исследуемой совокупности необходимо отобрать для выборки. Формулы для определения ее численности выводят из формул предельных ошибок выборки в соответствии со следующими исходными положениями:

  • видом предлагаемой выборки;
  • способом отбора (повторный или бесповторный);
  • выбором оценивания параметра (среднего значения или доли).

Кроме того, необходимо заранее определиться со значением доверительной вероятности, которая устраивала бы потребителя информации, и с размером допустимой предельной ошибки выборки. Задать Д и I (соответствующих доверительной вероятности), как правило, не представляет особых трудностей, поскольку они связаны с природой изучаемой совокупности.

Однако надо помнить, что большая доверительная вероятность весьма увеличивает объем выборки. Аналогична ситуация с предельной ошибкой выборки: ее снижение вдвое увеличивает размер выборки вчетверо. Вопрос о том, какая точность удовлетворяет исследователя, становится принципиальным, если обследование еще одной единицы наблюдения приводит к большим финансовым и материальным затратам (при территориальной удаленности единиц наблюдения, конфиденциальности собираемых данных, сложности программы наблюдения и т.д.), и непринципиальным, если затраты на обследование одной единицы сравнительно небольшие.

Формулы для расчета необходимого объема выборки для разных способов отбора показаны в табл. 13.10.

При использовании приведенных в таблице формул рекомендуется получаемую численность выборки округлять в большую сторону для обеспечения некоторого «запаса» точности.

Кроме того, в статистической практике распространен вариант, когда величина предельной ошибки выборки задается в процентах (относительная предельная ошибка выборки). В этом случае абсолютное значение ошибки делят на среднее значение признака и умножают на 100%. Тогда для применения формул таблицы следует найти абсолютное значение предельной ошибки следующим образом:

Таблица 13.10

Формулы для нахождения объема выборочной совокупности

Способ отбора

Повторный отбор

Бесповторный отбор

При оценивании среднего значения

Собственно-случайный

Механический

Типический

Серийный с равными сериями

При оценивании доли

Собственно-случайный

Механический

Окончание

Способ отбора

Повторный отбор

Бесповторный отбор

Типический

Серийный с равными сериями

Если в качестве исходных параметров для определения объема выборки заданы относительная ошибка Д % и коэффициент вариации

изучаемого признака, исчисленный как F„=^100%, то формулу

собственно-случайной выборки при повторном отборе можно преобразовать следующим образом:

Реальную сложность для определения объема выборки представляет определение размера вариации признака - дисперсии. На практике эта величина чаще всего остается неизвестной до проведения обследования. Как поступить в каждом конкретном случае, решает сам исследователь.

Иногда дисперсию оценивают прямыми способами:

  • проводят плотные обследования до начала основного наблюдения с целью выяснения величины о 2 ;
  • принимают условно величину дисперсии из прошлых аналогичных обследований (чаще всего используемый на практике способ). Подобный подход оправдан, если генеральная совокупность в силу своей природы не подтверждена значительными динамичными процессами или их проявления не столь ярки.

Существует также ряд «косвенных» способов нахождения дисперсии изучаемого признака, представляющих собой определенные математические приемы, которые базируются на свойствах статистических совокупностей. Поскольку распределения большинства из них близки к нормальному закону, значение дисперсии приблизительно можно определить следующим образом.

Так как все значения варианта признака при нормальном законе распределения размещаются на За в одну и другую сторону от среднего, имеет место приблизительное равенство R « 6а, где R - размах вариации признака, определяемый как R = x max - x min .

Следовательно,

На практике для получения некоторого «запаса» выборочных единиц для обеспечения требуемой точности часто предпочитают пользоваться соотношением

Величины х тах и x min при наблюдении за социально-экономическими процессами обычно известны или определяются действующим законодательством. Например, среднесписочная численность работающих на малых предприятиях строго ограничена законодательно.

Для социально-экономических явлений, если некоторым образом (например, из данных прошлых обследований) известно значение среднего, для приближенной оценки среднего квадратичного отклонения используют соотношение

Дисперсия альтернативного признака зависит от доли единиц, которые обладают изучаемым признаком (свойством) w. Если эта доля неизвестна, берется максимально возможное значение дисперсии - 0,25, достигаемое при w = 0,5.

Из формул табл. 13.10 следует, что численность выборки прямо пропорциональна дисперсии изучаемого признака. Действительно, с увеличением колеблемости единиц, для того чтобы уловить вариацию, требуется все большее их количество для отбора и включения в выборку.

Итак, рассмотрено определение объема выборки при одном наблюдаемом признаке. Но как быть, если характерных признаков несколько и вариация этих признаков различна или некоторые их них альтернативные. Логично было бы выбрать тот признак, расчеты по которому приводят к наибольшему среди остальных объему выборки (этим признаком будет тот, по которому требуется получить наименьшую величину относительной ошибки выборки при одной и той же доверительной вероятности). Действительно, в этом случае определение генеральных параметров других признаков будет сопровождаться большей точностью, чем требуется, т.е. появится некоторый «запас» точности.

Надо также отметить, что на практике зачастую объем выборки корректируется в соответствии с имеющимися финансовыми и кадровыми ресурсами, тогда принимают во внимание необходимость достижения оптимального соотношения затрат и точности получаемых результатов. При трудностях с финансированием статистических наблюдений, особенно если снижение расходов происходит довольно значительно при допускаемых потерях в точности, подобный шаг более чем оправдан.

На определение объема выборки также оказывает влияние весьма распространенное при статических наблюдениях явление, связанное с неответами опрашиваемых единиц. В случае больших генеральных совокупностей, измеряемых сотнями и миллионами (например, совокупность населения страны), можно сделать определенную поправку на неответы, увеличив объем выборки. Однако при обработке результатов обследования и особенно при использовании на их основе конкретных рекомендаций следует помнить о произведенных при сборе данных допущениях.

Рассмотрим примеры задач на определение необходимой численности выборочной совокупности.

Пример 13. 7. Сколько объектов из совокупности 507 фирм надо проверить налоговой инспекции, чтобы с вероятностью 0,997 определить долю фирм с нарушениями в уплате налогов? По данным прошлого обследования величина среднего квадратичного отклонения составила 0,15; размер ошибок выборки должен быть не выше чем 0,15.

При повторном случайном отборе следует проверить

При бесповторном случайном отбое необходимо проверить

Как видим, использование бесповторного отбора приводит к обследованию гораздо меньшего числа объектов.

Пример 13.8. Администрация одного из субъектов РФ решила провести выборочное обследование 366 малых фирм, в процессе проведения которого предполагалось определить:

  • долю лиц с высшим образованием, работающих в малых фирмах (размер предельной ошибки не должен превышать 0,1);
  • долю работающих в малых фирмах женщин (размер предельной ошибки не должен превышать 0,12);
  • средний возраст работающих в малых фирмах (размер предельной ошибки не должен превышать два года).

Распределение малых фирм по отраслям экономики таково

Администрация города предполагает, что значение изучаемых признаков существенно варьируется в зависимости от отраслевой принадлежности фирмы, поэтому была выбрана типическая выборка, пропорциональная объему типических групп.

Определим, какова при этом должна быть ее численность и сколько единиц наблюдения следует извлечь из каждой типической группы при доверительной вероятности 0,954. Первые два признака - альтернативные, тогда оценкой неизвестной дисперсии является ее максимальное значение - 0,25.

Необходимый объем выборки при оценивании доли лиц с высшим образованием будет иметь следующее значение:

Оценивание доли работающих женщин требует обследовать

Можно было бы сразу определить, по какому признаку следует проводить расчеты. Им всегда является тот, который имеет большую точность (меньшую ошибку при одной и той же доверительной вероятности). Однако третий признак в нашем примере - количественный. Определим, какой объем выборки потребуется, чтобы оценить его. Приблизительное значение дисперсии получим исходя из свойств нормального распределения:

(при максимальном и минимальном возрасте, равном соответственно 60 и 18 лет, что является наиболее вероятным разбросом).

Откуда ст 2 = 49.

Проведем расчет:

Итак, для достижения заданной точности по всем наблюдаемым признакам следует выбрать максимальную численность, полученную по всем трем показателям, т.е. п = 65 фирм.

Отрасль экономики

Число фирм, отбираемых в выборочную совокупность

Промышленность

Сельское хозяйство

Строительство

Транспорт и связь

Торговля и общественное питание

Общая коммерческая деятельность

Жилищно-коммунальное хозяйство и непроизводственные виды бытового обслуживания населения

Другие отрасли

Неформализованные способы формирования выборки. Вопрос об оптимальном размере выборки всегда был спорным в среде исследователей. Решение относительно размера выборочной совокупности принимают с учетом целого ряда факторов, среди которых самую существенную роль играют два: 1) ценность и новизна получаемой в результате исследования информации; 2) затраты на проведение исследования (включая и временные) при заданном размере выборки.

Во многих случаях можно руководствоваться сложившейся практикой, т.е. размером выборки, использовавшейся в аналогичных исследованиях. Кроме того, существуют следующие простейшие правила для определения объема выборочной совокупности.

Размер выборки растет, если:

  • необходимо получить данные для отдельных подгрупп (размеры подвыборок при этом суммируются и выборка в целом растет пропорционально числу подгрупп);
  • уже имеющаяся информация по ключевым вопросам недостаточна и степень неопределенности значительна.

К тому же практикой многочисленных исследований уже отработаны «типические» размеры выборок. Так, для общенациональных опросов населения эти объемы варируют в пределах 1000-2500 респондентов (в зависимости от числа анализируемых групп). Для региональных опросов и опросов специальных популяций - от 200 до 500 (при анализе многочисленных подгрупп размер региональной или специальной выборки обычно возрастает как минимум до 1000 человек). Указанные значения, разумеется, могут служить лишь самым общим ориентиром для определения оптимального размера выборки.

Наиболее корректный статистический анализ общественного процесса обеспечивают сведения о каждом его проявлении. Или, говоря статистическим языком, полный анализ всей совокупности возможен только при учете значения признака у каждой единицы совокупности. В качестве примера такого анализа можно привести всеобщие переписи населения.

Однако, массовый характер общественного явления часто влечет за собой невозможность исследования его в полном объеме, т.е. во всех его проявлениях. В статистической науке разработан специальный метод, позволяющей исследовать лишь часть явления, а результаты и выводы транспонировать на все явление в целом. Такой метод называется «выборочное наблюдение». Основой метода выборочного наблюдения служит взаимосвязь между единичным и общим, между частью и целым, которая существует в общественных явлениях.

Исследуемая часть статистической совокупности называется выборочной, а количество единиц, составляющих ее объем принято обозначать n. Вся совокупность называется генеральной, объем генеральной совокупности обычно обозначают N.

Можно выделить ряд причин применения выборочного наблюдения:

— недостаток временных ресурсов (как для проведения обследования, так и для анализа полученного большого объема данных);

— недостаток кадровых ресурсов, т.е. квалифицированных специалистов для проведения наблюдения и анализа;

— недостаток материальных ресурсов, т.е. слишком дорогостоящее наблюдение;

— практическая невозможность учета всех единиц совокупности в связи с их уничтожением в результате наблюдения (например, в случае обследования всхожести партии семян, продолжительности горения электроламп и т.д.);

— практическая нецелесообразность наблюдения каждой единицы совокупности (например, определения уровня потребления продукта питания населением региона и т.д.)

Основным принципом выборочного наблюдения является принцип рэндомизации (от англ. random – случай), т.е. принцип случайности отбора единиц совокупности, определяющий равенство единиц по возможности быть отобранными в выборочную совокупность. Данный принцип должен выполняться даже в случае планомерного отбора единиц.

В результате неполного обследования генеральной совокупности могут возникнуть ошибки наблюдения – ошибки репрезентативности. Поэтому, основной задачей исследователя является, во-первых, обеспечение представительности (репрезентативности) выборки, и, во-вторых, определение степени уверенности в соответствии параметров выборочной и генеральной совокупностей.

Определение способа отбора единиц совокупности является важной частью выборочного исследования. Существует множество способов отбора единиц совокупности, все их можно представить в виде трех групп (см. рис. 1.):


Рис. 1 Способы отбора единиц совокупности

Собственно-случайный отбор – выбор единиц совокупности без какой-либо схемы или системы. Может осуществляться методом жеребьевки или с помощью таблицы случайных чисел. При применении данного способа отбора необходимо удостовериться в выполнении принципа рэндомизации.

Отбор с предварительным выделением структуры генеральной совокупности применяется, если исследуется структурированная распределенная на группы) совокупность. Серийный отбор предполагает выбор одной группы единиц, внутри которой производится сплошное обследование, среди всех групп. Районированный отбор представляет собой определение границ выборочной совокупности с учетом территориальной принадлежности единиц генеральной совокупности. Механический отбор применяется для совокупности, в которой каждой единице присвоен отдельный номер, а выбор осуществляется пропорционально количеству единиц, например, каждая десятая единица и др.

Ступенчатый или смешанный отбор применяется в случае поэтапного проведения выборочного наблюдения, когда на разных этапах наблюдения используют различные варианты отбора единиц.

Серийный отбор – с генеральной совокупности отбираются не отдельные единицы, а целые серии, группы, а затем в каждой попавшей в выборку серии обследуются все без исключения единицы. Например, рабочих отбирают бригадами.

Комбинированный отбор – генеральная совокупность делится на одинаковые группы, затем производится отбор групп из которых отбираются отдельные единицы.

Типический отбор
— генеральная совокупность делится на однородные типические группы из которых собственно случайным или механическим способом производится отбор единиц.

Типический отбор дает самые точные результаты по сравнению с другими способами, т.к. обеспечивается репрезентативность в выборке. Например, рабочие делятся на группы по квалификации.

Прежде чем приступить к осуществлению выборочного наблюдения необходимо определить количество единиц выборочной совокупности, обеспечивающее репрезентативность, и, следовательно, надежность результатов исследования.

На практике для реализации выборочного наблюдения исследователем задаются:

— степень точности исследования (вероятность);

— предельная ошибка, т.е. интервал отклонения, определяемый целями исследования.

Исходя из этих критериев, рассчитывается необходимая численность выборочной совокупности (n) на основе формулы предельной ошибки выборки.

Разность между показателями выборочной и генеральной совокупности называется
ошибкой выборки .
Ошибки выборки подразделяются на ошибки регистрации и ошибки репрезентативности.

Ошибки регистрации возникают из-за неправильных или неточных сведений. Источниками таких ошибок могут быть непонимание существа вопроса, невнимательность регистратора, пропуск или повторный счет некоторых единиц совокупности, описки при заполнении формуляров и т. д.

Среди ошибок регистрации выделяются систематические, обусловленные причинами, действующими в каком-то одном направлении и искажающими результаты работы (например, округление цифр, тяготение к полным пятеркам, десяткам, сотням и т. д.), и случайные, проявляющиеся в различных направлениях, уравновешивающие друг друга и лишь изредка дающие заметный суммарный итог.

Ошибки репрезентативности также могут быть систематическими и случайными. Систематические ошибки репрезентативности возникают из-за неправильного, тенденциозного отбора единиц, при котором нарушается основной принцип научно организованной выборки - принцип случайности. Случайные ошибки репрезентативности означают, что, несмотря на принцип случайности отбора единиц, все же имеются расхождения между характеристиками выборочной и генеральной совокупности. Изучение и измерение случайных ошибок репрезентативности и является основной задачей выборочного метода.

Предельная ошибка выборки определяется для средней величины () и для доли (w), то, соответственно, имеем два варианта определения необходимой численности выборочной совокупности:

а) для повторного отбора:


б) для бесповторного отбора:


Разрабатывая программу выборочного наблюдения, сразу задают величину допустимой ошибки выборки и доверительную вероятность. Неизвестным остается тот минимальный объем выборки, который должен обеспечить требуемую точность формулы для определения численности выборки (п) зависят от метода отбора.

n i =

где n i – объем выборки из I – й группы;

N – общий объем выборки;

N i — объем i – й группы;

N — объем генеральной совокупности.

ЗАДАНИЕ 1

В результате выборочного обследования заработной платы 60-ти работников предприятия промышленности были получены следующие данные (табл. 1).

Постройте интервальный ряд распределения по результативному признаку, образовав пять групп с равными интервалами.

Определите основные показатели вариации (дисперсию, среднее квадратическое отклонение, коэффициент вариации), среднюю степенную величину (среднее значение признака) и структурные средние. Изобразите графически в виде: а) гистограммы; б) кумуляты; в) огивы. Сделайте вывод.

РЕШЕНИЕ

1. Определим размах вариации по результативному признаку – по производственному стажу по формуле:

R = Хmax – Хmin = 36 – 5 = 31

где Хmax – максимальный размер активов

Хmin – минимальный размер активов

2. Определим величину интервала

i = R/n = 31/5= 6,2

с учетом полученной величины интервалов производим группировку банков и получаем

3. Построим вспомогательную таблицу

Группа призна-ка

Значение значений в группе

х i

Количество частота признака (частота)

f i

в % к итогу

ω

Накопленная частота

S i

Середина интервала

* f i

ω

I

5 – 11,2

6,8,7,5,8,6,10,9,9,6,66,9,10,7,9,10,10,11,89,8,7,6,6,10

43,3

43,3

210,6

350,73

44,89

1167,14

II

11,2 – 17,4

16,15,13,12,17,14, 14, 12,14,17,13,15,17, 14

23,3

66,6

14,3

200,2

333,19

0,25

III

17,4 – 23,6

18,21,20, 21,18, 19,22,21,21,21,18, 19

20,0

86,6

20,5

410,0

32,49

389,88

IV

23,6 –29,8

28,29,25,28, 24

26,7

133,5

221,61

11,9

141,61

708,05

V

29,8 – 36

36,35,33

32,9

98,7

164,5

18,1

327,61

982,83

ИТОГО

1480,03

546,85

3251,4

4. Среднее значение признака в изучаемой совокупности определяется по формуле арифметической взвешенной:

года

5. Дисперсия и среднее квадратическое отклонение признака определяется по формуле



Определение колеблемости


Таким образом, V>33,3%, следовательно, совокупность неоднородна.

6. Определение моды

Мода – значение признака, наиболее часто встречающееся в изучаемой совокупности. В исследуемом интервальном вариационном ряду мода рассчитывается по формуле:


где

x M0
– нижняя граница модального интервала:

i M0 – величина модального интервала;

f M0-1 f M0 f M0+1 – частоты (частости) соответственно модального, домо-дального и послемодального интервалов.

Модальный интервал – это интервал, имеющий наибольшую частоту (частость). В нашей задаче – это первый интервал.


7. Рассчитаем медиану.

Медиана – вариант, расположенный в середине упорядоченного вариационного ряда, делящий его на две равные части, таким образом, что половина единиц совокупности имеют значения признака меньше, чем медиана, а половина– больше, чем медиана.

В интервальном ряду медиана определяется по формуле:


где – начало медианного интервала;

– величина медианного интервала

– частота медианного интервала;

– сумма накопленных частот в домедианном интервале.

Медианный интервал – это интервал, в котором находится порядковый номер медианы. Для его определения необходимо подсчитать сумму накопленных частот до числа, превышающего половину совокупности.

По данным гр. 5 вспомогательной таблицы находим интервал, сумму накопленных часто в котором превышает 50%. Это второй интервал – от 11,6 до 18,4, он и является медианным.

Тогда


Следовательно, половина работников имеющих стаж работы меньше 12,971 лет, а половина – больше этой величины.

6. Изобразим ряд в виде полигона, гистограммы, кумулятивной прямой, огивы.

Графическое представление играет важную роль в изучении вариационных рядов, так как позволяет в простой и наглядной форме проводить анализ статистических данных.

Существует несколько способов графического изображения рядов (гистограмма, полигон, кумулята, огива), выбор которых зависит от цели исследования и от вида вариационного ряда.

Полигон распределения в основном используется для изображения дискретного ряда, но можно построить полигон и для интервального ряда, если предварительно привести его к декретному. Полигон распределения представляет собой замкнутую ломаную линию в прямоугольной системе координат с координатами (x i , q i), где x i — значение i-го признака, q i — частота или частость i-ro признака.

Гистограмма распределения применяется для изображения интервального ряда. Для построения гистограммы на горизонтальной оси откладывают последовательно отрезки, равные интервалам признака, и на этих отрезках, как на основаниях, строят прямоугольники, высоты которых равны частотам или частностям для ряда с равными интервалами, плотностям; для ряда с неравными интервалами.


Кумулята есть графическое изображение вариационного ряда, когда на вертикальной оси откладываются накопленные частоты или частности, а на горизонтальной – значения признака. Кумулята служит для графического представления как дискретных, так и интервальных вариационных рядов.


Вывод: Таким образом, были рассчитаны основные показатели вариации исследуемого ряда: среднее значение признака – производственного стажа составляет 14,8 лет, рассчитана дисперсия равная 54,19, в свою очередь среднее квадратическое отклонение признака – 7,36. Мода имеет значение 9,5, в модальным интервалом является первый интервал изучаемого ряда. Медиана ряда равная 12,971, делит ряд на две равные части говорит о том что в исследуемой организации половина работников имеет стаж работы меньше 12,971 лет, а половина – больше.

ЗАДАНИЕ 2

Имеются следующие исходные данные, характеризующие динамику за 2000 – 2004 г.г. (таблица 2). Исчислите основные показатели рядов динамики. Расчет представьте в виде таблицы. Рассчитайте среднегодовые значения показателей. В виде графического изображения – полигона, обозначьте динамику анализируемого показателя. Сделайте вывод.

Таблица 2 Исходные данные

Год

2000

2001

2002

2003

2004

РЕШЕНИЕ

1) Средний уровень динамики рассчитывается по формуле


2) Цепные и базисные темпы роста рассчитываем следующим образом:

1. Абсолютный прирост определяется по формуле:

Аiб = yi – y0

Аiц = yi – yi-1

2. Темп роста определяется по формуле: (%)

Трб = (yi / y0) *100

Трц = (yi / yi-1)*100

3. Темп прироста определяется по формуле: (%)

Тnрб = Трб –100%:

Тnрц = Трц – 100%

4. Средний абсолютный прирост:


y n
– конечный уровень динамического ряда;

y 0
– начальный уровень динамического ряда;

n ц
– число цепных абсолютных приростов.

5. Среднегодовой темп роста:


6. Среднегодовой темп прироста:


3) Абсолютное содержание 1% прироста:

А = Хi-1 / 100.

Все рассчитанные показатели сводим в таблицу.

Показатели

Годы

2000

2001

2002

2003

2004

Средняя численность работающих на предприятии

2. Абсолютный прирост

Aiц

3. Темп роста

Трib

81,25

50,0

62,5

56,25

Трiц

81,25

61,54

125,0

90,0

4. Темп прироста

Тпib

18,75

50,0

37,5

53,75

Тпiц

18,75

38,46

25,0

10,0

5. Значение 1% прироста

0,65

7. Изобразим графически в виде полигона.

Xi


Таким образом, получено следующее. Наибольшее значение средней численности работающих на предприятии отмечается в базовом 2000 году. Средний уровень численности работников предприятия равен 56 человек, средний абсолютный прирост имеет отрицательную величину и равен 8,75. Среднегодовой темп роста равен 75%. Ввиду отрицательной динамики ряда среднегодовой темп прироста равен -25%. Максимальное снижение численности работников по сравнению с базовым 2000 годом отмечается в 2002 году и равен -40 человек (темп роста 50%). Цепной рост в 2003 году имеет положительную величину (+10 человек, темп роста цепной 125%), в 2004 году продолжилось снижение численности работников.

ЗАДАНИЕ 3

Имеются данные о реализации товаров (см. таблицу 3)

Таблица 3 Исходные данные о реализации товаров

Товар

Базовый год

Отчетный год

кол-во

цена

кол-во

цена

1200

1300

1100

1000

Определить: а) индивидуальные индексы (i p , i q ); б) сводные индексы (I p , I q , I pq); в) абсолютное изменение товарооборота за счет: 1) количества товаров; 2) изменения цены. Сделать вывод по решению задачи.

РЕШЕНИЕ

Составим вспомогательную таблицу

Вид

Базисный период

Отчетный период

Произведение

Индексы

Кол-во, q 0

Цена, p 0

Кол-во, q 1

Цена, p 1

q 0 * p 0

q 1 * p 1

q 1 * p 0

i q =q 1 /q 0

i p =p 1 /p 0

49140

54780

51480

1,048

1,064

61320

54780

67200

1,096

0,941

62400

56700

50400

0,808

1,125

1848

2432

2128

1,152

1,143

1200

1300

90000

106600

97500

1,0833

1,093

1100

1000

92400

88000

84000

0,909

1,077

ИТОГО

357108

363292

352708


Вывод: Как видим общий прирост товарооборота за год составил 6184 усл.ед., включая влияние изменения количества проданного товара на — 4400 и из-за изменения цены на товар увеличение на 10584 усл.ед. Общий прирост товарооборота составил 101,7%. В тоже время в общем цены на реализуемые товары выросли на 103%, а объем реализации снизился на 1,1%.

ЗАДАНИЕ 4

Из исходных данных таблицы № 1 (выбрать строки с 14 до 23 провести корреляционно-регрессионный анализ, определить параметры корреляции и детерминации. Построить график корреляционной зависимости между двумя признаками (результативным и факторным). Сделать вывод.

РЕШЕНИЕ

Исходные данные

Производственный стаж

Размер заработной платы

1800

2500

1750

1580

1750

1560

1210

1160

1355

1480

Прямолинейная зависимость

Параметры уравнения определяются по методу наименьших квадратов, по системе нормальных уравнения


Для решения системы используем метод определителей.

Параметры рассчитывает по формулам


x

y

С одной стороны, величина выборочной совокупности должна быть статистически значимой, т. е. достаточно большой, для того, чтобы получить достоверную информацию. С другой стороны, выборка должна быть «экономной», т. е. оптимальной.

Каков же критерий оптимальности?

Математики считают, что таким критерием является числовые значения контрольных признаков респондентов (пол, возраст, стаж и т. д.), точнее их дисперсия (разброс). Напомним, что формы расчета дисперсии и другие формулы расчета выборки студенты проходят на занятиях по математике и статистике. Итак, чем больше дисперсия, тем больший объем выборки потребуется. Допустим, мы осуществляем отбор из генеральной совокупности в 2000 человек по признаку «пол»: 70% - мужчин и 30% - женщин. Согласно теории вероятности, можно предположить, что примерно, из каждых десяти отбираемых респондентов встретится 3 женщины. Если, например, мы хотим опросить 90 женщин, нам необходимо опросить 300 человек.

Когда информация о признаках элементов генеральной совокупности отсутствует, исключается возможность определения объема выборки при помощи формул.

В этом случае можно опереться на многолетний опыт социологов – практиков, свидетельствующий о том, что для пробных опросов достаточна выборка объемом 100-250 человек.

При массовых опросах , если величина генеральной совокупности составляет менее 5000 человек, достаточный объем выборки не менее 500 человек. Если же величина генеральной совокупности 5000 человек и более, то выборка должна быть не менее 10% ее состава, но не более 2000-2500 человек. Это гарантирует достаточно достоверные результаты.

Для телефонных опросов даже в крупных городах достаточна выборка в 100 максимум 300 респондентов.

Определение объема выборки

При проведении устных опросов целесообразно использовать метод случайной бесповоротной выборки (его суть заключается в том, что респондент отбирается случайно и второй раз уже не опрашивается). Формула выборки при этом такова:

, где

n – объем выборки;

t – коэффициент доверия, вычисляемый по таблицам в зависимости от вероятности, с которой можно гарантировать, что предельная ошибка не превысит t-кратную среднюю ошибку (при вероятности 0,990 он равен 3, а при вероятности 0,999 он равен –3, 28; чаще всего опираются на вероятность 0,954, при которой t составляет 2);

s - среднеквадратическое отклонение в генеральной совокупности или дисперсия;

Предельная (задаваемая) ошибка выборки;

N – численность генеральной совокупности.

Например, объем генеральной совокупности – 50771 человек;

· при уровне доверительной вероятности 95%, коэффициент доверия t =2

· среднеквадратическом отклонении s =50;

· и предельной ошибке выборки =7;

· объем выборки n = 203 чел.

Пример . Предположим, что магазин обслуживает за определенный период около 100 000 человек. По данным предыдущих опросов установлено, что дисперсия составляет ± 25 руб./чел. Коэффициент доверия равен 2. Предельную ошибку мы приняли равной 1 руб. Тогда численность выборки составит чел.

Следовательно, для получения надежных представительных данных надо опросить 100 чел.

В целях получения однородности изучаемой совокупности и общей точности расчета совокупность стратифицируют, разбивают на ряд групп по какому-то признаку, например по полу, доходу и т.д. Здесь формула выборки отличается от предыдущей только тем, что выборочная дисперсия заменяется средней из внутригрупповых дисперсий. Однако в этом случае целесообразно вести отбор по каждой группе пропорционально дифференциации признака (ni ). Тогда формула выборки (по каждой группе) значительно упрощается:

где k – число i -х групп населения;

Ni – численность i -й группы населения;

- среднеквадратическое отклонение признака в i- группе.

Пример. Для обследования, ставящего целью выявить мнение потребителей о новом товаре в населенном пункте, насчитывающем 50тыс. семей, необходимо провести анкетирование. Условно принимается, что в каждой квартире проживает одна семья и на нее будет выделена одна анкета. Предварительные исследования установили, что дисперсия среднего размера покупки составляет ± 25 руб.; t = 2; предельная ошибка не должна превышать 0,01 тыс. руб. Отсюда численность выборки составила:

Эта величина округляется до 1000 семей, т.е. установлена 2%-ная выборка.

Используются в практике расчета выборки и другие формулы:

Для малых массивов используется другая формула:

Ошибки выборки

Ошибки выборки бывают случайные (систематические) и ошибки смещения.

Случайные ошибки . Если отклонение полученных результатов в ту или иную сторону не превышает в среднем 5%, то выборка является репрезентативной, а ошибка случайной. Например, из соотношения генеральной совокупности 40% женщин 60% мужчин в выборку должны попасть 40% женщин 60% мужчин, а попало, например, 37% женщин и 62% мужчин, или 42% женщин и 58% мужчин. Указанные ошибки считаются случайными, т. к. они не превышают 5% барьера.

Ошибки смещения . Ошибки смещения – это более сложные ошибки. Например, в нашем примере вместо желаемых иметь в выборке 40% женщин и 60% мужчин, мы получаем, наоборот, 60% женщин и 40% мужчин. Проблема заключается в том, что рассчитать с помощью формул ошибки смещения невозможно, и они автоматически переходят на результаты и выводы исследования. Ошибки смещения могут являться следствием:

Неверных исходных статистических данных о параметрах контрольных признаков генеральной совокупности;

Слишком малого объема выборки;

Неверного применения способа отбора единиц анализа (например, отбор из неверно составленного списка, неудачный выбор места и времени проведения исследования).

При формировании выборочных совокупностей следует добиваться полноты, точности, адекватности, репрезентативности.

Полнота означает, что в генеральной совокупности должны быть представлены все единицы анализа, ибо неполнота ведет к ошибкам.

Точность характеризует информацию по каждой единице. Точность, например, считается достаточной, если сумма погрешностей и ошибок не превышает 5 %.

Адекватность есть свойство основы выборки. Довольно часто точность выборки отождествляется с ее адекватностью. Между тем это не так. Адекватность же подразумевает характеристику выборки как модели качества исследуемого объекта. Например, список молодых рабочих не может быть основой для выборки всех членов трудового коллектива. В этом случае основа выборки является неадекватной. И, наоборот, список членов трудового коллектива не может быть основой выборки для исследования молодых рабочих.

Свойство выборки отражать характеристики генеральной совокупности называется репрезентативностью. Репрезентативност ь (представительность) выборки означает, что у всех элементов генеральной совокупности был шанс попасть в выборку, и что выборка отражает генеральную совокупность.

В завершение темы представим стандартные таблицы выборки с учетом предельной ошибки выборки и доверительной вероятности, разработанные социологами - практиками (табл.5).

Таблица 5

Стандартные таблицы выборки

Суммарная численность объектов наблюдения (люди, домохозяйства, предприятия, населенные пункты и т.д.), обладающих определенным набором признаков (пол, возраст, доход, численность, оборот и т.д.), ограниченная в пространстве и времени. Примеры генеральных совокупностей

  • Все жители Москвы (10,6 млн. человек по данным переписи 2002 года)
  • Мужчины-Москвичи (4,9 млн. человек по данным переписи 2002 года)
  • Юридические лица России (2,2 млн. на начало 2005 года)
  • Розничные торговые точки, осуществляющие продажу продуктов питания (20 тысяч на начало 2008 года) и т.д.

Выборка (Выборочная совокупность)

Часть объектов из генеральной совокупности, отобранных для изучения, с тем чтобы сделать заключение обо всей генеральной совокупности. Для того чтобы заключение, полученное путем изучения выборки, можно было распространить на всю генеральную совокупность, выборка должна обладать свойством репрезентативности.

Репрезентативность выборки

Свойство выборки корректно отражать генеральную совокупность. Одна и та же выборка может быть репрезентативной и нерепрезентативной для разных генеральных совокупностей.
Пример:

  • Выборка, целиком состоящая из москвичей, владеющих автомобилем, не репрезентирует все население Москвы.
  • Выборка из российских предприятий численностью до 100 человек не репрезентирует все предприятия России.
  • Выборка из москвичей, совершающих покупки на рынке, не репрезентирует покупательское поведение всех москвичей.

В то же время, указанные выборки (при соблюдении прочих условий) могут отлично репрезентировать москвичей-автовладельцев, небольшие и средние российские предприятия и покупателей, совершающих покупки на рынках соответственно.
Важно понимать, что репрезентативность выборки и ошибка выборки – разные явления. Репрезентативность, в отличие от ошибки никак не зависит от размера выборки.
Пример:
Как бы мы не увеличивали количество опрошенных москвичей-автовладельцев, мы не сможем репрезентировать этой выборкой всех москвичей.

Ошибка выборки (доверительный интервал)

Отклонение результатов, полученных с помощью выборочного наблюдения от истинных данных генеральной совокупности.
Ошибка выборки бывает двух видов – статистическая и систематическая. Статистическая ошибка зависит от размера выборки. Чем больше размер выборки, тем она ниже.
Пример:
Для простой случайной выборки размером 400 единиц максимальная статистическая ошибка (с 95% доверительной вероятностью) составляет 5%, для выборки в 600 единиц – 4%, для выборки в 1100 единиц – 3% Обычно, когда говорят об ошибке выборки, подразумевают именно статистическую ошибку.
Систематическая ошибка зависит от различных факторов, оказывающих постоянное воздействие на исследование и смещающих результаты исследования в определенную сторону.
Пример:

  • Использование любых вероятностных выборок занижает долю людей с высоким доходом, ведущих активный образ жизни. Происходит это в силу того, что таких людей гораздо сложней застать в каком-либо определенном месте (например, дома).
  • Проблема респондентов, отказывающихся отвечать на вопросы (доля «отказников» в Москве, для разных опросов, колеблется от 50% до 80%)

В некоторых случаях, когда известны истинные распределения, систематическую ошибку можно нивелировать введением квот или перевзвешиванием данных, но в большинстве реальных исследований даже оценить ее бывает достаточно проблематично.

Типы выборок

Выборки делятся на два типа:

  • вероятностные
  • невероятностные

1. Вероятностные выборки
1.1 Случайная выборка (простой случайный отбор)
Такая выборка предполагает однородность генеральной совокупности, одинаковую вероятность доступности всех элементов, наличие полного списка всех элементов. При отборе элементов, как правило, используется таблица случайных чисел.
1.2 Механическая (систематическая) выборка
Разновидность случайной выборки, упорядоченная по какому-либо признаку (алфавитный порядок, номер телефона, дата рождения и т.д.). Первый элемент отбирается случайно, затем, с шагом ‘n’ отбирается каждый ‘k’-ый элемент. Размер генеральной совокупности, при этом – N=n*k
1.3 Стратифицированная (районированная)
Применяется в случае неоднородности генеральной совокупности. Генеральная совокупность разбивается на группы (страты). В каждой страте отбор осуществляется случайным или механическим образом.
1.4 Серийная (гнездовая или кластерная) выборка
При серийной выборке единицами отбора выступают не сами объекты, а группы (кластеры или гнёзда). Группы отбираются случайным образом. Объекты внутри групп обследуются сплошняком.

2.Невероятностные выборки
Отбор в такой выборке осуществляется не по принципам случайности, а по субъективным критериям – доступности, типичности, равного представительства и т.д..
2.1. Квотная выборка
Изначально выделяется некоторое количество групп объектов (например, мужчины в возрасте 20-30 лет, 31-45 лет и 46-60 лет; лица с доходом до 30 тысяч рублей, с доходом от 30 до 60 тысяч рублей и с доходом свыше 60 тысяч рублей) Для каждой группы задается количество объектов, которые должны быть обследованы. Количество объектов, которые должны попасть в каждую из групп, задается, чаще всего, либо пропорционально заранее известной доле группы в генеральной совокупности, либо одинаковым для каждой группы. Внутри групп объекты отбираются произвольно. Квотные выборки используются в достаточно часто.
2.2. Метод снежного кома
Выборка строится следующим образом. У каждого респондента, начиная с первого, просятся контакты его друзей, коллег, знакомых, которые подходили бы под условия отбора и могли бы принять участие в исследовании. Таким образом, за исключением первого шага, выборка формируется с участием самих объектов исследования. Метод часто применяется, когда необходимо найти и опросить труднодоступные группы респондентов (например, респондентов, имеющих высокий доход, респондентов, принадлежащих к одной профессиональной группе, респондентов, имеющих какие-либо схожие хобби/увлечения и т.д.)
2.3 Стихийная выборка
Опрашиваются наиболее доступные респонденты. Типичные примеры стихийных выборок – в газетах/журналах, отданные респондентам на самозаполнение, большинство интернет-опросов. Размер и состав стихийных выборок заранее не известен, и определяется только одним параметром – активностью респондентов.
2.4 Выборка типичных случаев
Отбираются единицы генеральной совокупности, обладающие средним (типичным) значением признака. При этом возникает проблема выбора признака и определения его типичного значения.

Курс лекций по теории статистики

Более подробную информацию по выборочным наблюдениям можно получить просмотрев .