Оценки математического ожидания и дисперсии, их свойства. Примеры. Математическое ожидание и его оценка

Важнейшими числовыми характеристиками случайной величины Х являются её математическое ожидание m x =M и дисперсия σ 2 x =D[x] = M[(X – m x) 2 ] = M – . Число m x является средним значением случайной величины, около которого разбросаны значения величин Х , мерой этого разброса являются дисперсия D[x] и среднеквадратическое отклонение:

s x = (1.11)

Мы будем в дальнейшем рассмотривать важную задачу для исследования наблюдаемой случайной величины. Пусть имеется некоторая выборка (будем обозначать её S ) случайной величины Х . Требуется по имеющейся выборке оценить неизвестные значения m x и .

Теория оценок различных параметров занимает в математической статистике значительное место. Поэтому рассмотрим сначала общую задачу. Пусть требуется оценить некоторый параметр a по выборке S . Каждая такая оценка a* является некоторой функцией a*=a*(S) от значений выборки. Значения выборки случайны, поэтому и сама оценка a* является случайной величиной. Можно построить множество различных оценок (то есть функций) a* , но при этом желательно иметь «хорошую» или даже «наилучшую», в некотором смысле, оценку. К оценкам обычно предъявляются следующие три естественных требования.

1. Несмещённость. Математическое ожидание оценки a* должно равняться точному значению параметра: M = a . Другими словами, оценка a* не должна иметь систематической ошибки.

2. Состоятельность. При бесконечном увеличении объёма выборки, оценка a* должна сходиться к точному значению, то есть при увеличении числа наблюдений ошибка оценки стремится к нулю.

3. Эффективность. Оценка a* называется эффективной, если она не смещена и имеет минимально возможную дисперсию ошибки. В этом случае минимален разброс оценки a* относительно точного значения и оценка в определённом смысле является «самой точной».

К сожалению, не всегда удаётся построить оценку, удовлетворяющую всем трём требованиям одновременно.

Для оценки математического ожидания чаще всего применяется оценка.

= , (1.12)

то есть среднее арифметическое по выборке. Если случайная величина X имеет конечные m x и s x , то оценка (1.12) не смещена и состоятельна. Эта оценка эффективна, например, если X имеет нормальное распределение (рис.п.1.4, приложение 1). Для других распределений она может оказаться неэффективной. Например, в случае равномерного распределения (рис.п.1.1, приложение 1) несмещённой, состоятельной оценкой будет

(1.13)

В то же время оценка (1.13) для нормального распределения не будет ни состоятельной, ни эффективной, и будет даже ухудшаться с ростом объёма выборки.

Таким образом, для каждого типа распределения случайной величины Х следовало бы использовать свою оценку математического ожидания. Однако в нашей ситуации тип распределения может быть известен лишь предположительно. Поэтому будем использовать оценку (1.12), которая достаточно проста и имеет наиболее важные свойства несмещённости и состоятельности.

Для оценки математического ожидания по группированной выборке используется следующая формула:

= , (1.14)

которую можно получить из предыдущей, если считать все m i значений выборки, попавших в i –й интервал, равными представителю z i этого интервала. Эта оценка, естественно, грубее, но требует значительно меньшего объёма вычислений, особенно при большом объёме выборки.

Для оценки дисперсии чаще всего используется оценка:

= , (1.15)

Эта оценка не смещена и состоятельна для любой случайной величины Х , имеющей конечные моменты до четвёртого порядка включительно.

В случае группированной выборки используется оценка:

= (1.16)

Оценки (1.14) и (1.16), как правило, смещены и несостоятельны, так как их математические ожидания и пределы, к которым они сходятся, отличны от m x и в силу замены всех значений выборки, попавших в i –й интервал, на представителя интервала z i .

Отметим, что при больших n, коэффициент n /(n – 1) в выражениях (1.15) и (1.16) близок к единице, поэтому его можно опустить.

Интервальные оценки.

Пусть точное значение некоторого параметра равно a и найдена его оценка a*(S) по выборке S . Оценке a* соответствует точка на числовой оси (рис.1.5), поэтому такая оценка называется точечной . Все оценки, рассмотренные в предыдущем параграфе, точечные. Практически всегда, в силу случайности

a* ¹ a , и мы можем надеяться только на то, что точка a* находится где–то вблизи a . Но насколько близко? Любая другая точечная оценка будет иметь тот же недостаток – отсутствие меры надёжности результата.


Рис.1.5. Точечная оценка параметра.

Более определённым в этом отношении являются интервальные оценки . Интервальные оценка представляет собой интервал I b = (a , b) , в котором точное значение оцениваемого параметра находится с заданной вероятностью b . Интервал I b называется доверительным интервалом , а вероятность b называется доверительной вероятностью и может рассматриваться как надёжность оценки .

Доверительный интервал состоится по имеющейся выборке S , он случаен в том смысле, что случайны его границы a(S) и b(S) , которые мы будем вычислять по (случайной) выборке. Поэтому b есть вероятность того, что случайный интервал I b накроет неслучайную точку a . На рис. 1.6. интервал I b накрыл точку a , а I b * - нет. Поэтому не совсем правильно говорить, что a « попадает» в интервал.

Если доверительная вероятность b велика (например, b = 0,999 ), то практически всегда точное значение a находится в построенном интервале.


Рис.1.6. Доверительные интервалы параметра a для различных выборок.

Рассмотрим метод построения доверительного интервала для математического ожидания случайной величины Х, основанный на центральной предельной теореме .

Пусть случайная величина Х имеет неизвестное математическое ожидание m x и известную дисперсию . Тогда, в силу центральной предельной теоремы, среднее арифметическое:

= , (1.17)

результатов n независимых испытаний величины Х является случайной величиной, распределение которой при больших n , близко к нормальному распределению со средним m x и среднеквадратическим отклонением . Поэтому случайная величина

(1.18)

имеет распределение вероятностей, которое можно считать стандартным нормальным с плотностью распределения j(t) , график которой изображён на рис.1.7 (а также на рис.п.1.4, приложение 1).



Рис.1.7. Плотность распределения вероятностей случайной величины t .

Пусть задана доверительная вероятность b и t b - число, удовлетворяющее уравнению

b = Ф 0 (t b) – Ф 0 (-t b) = 2 Ф 0 (t b), (1.19)

где - функция Лапласа . Тогда вероятность попадания в интервал (-t b , t b) будет равна заштрихованной на рис.1.7. площади, и, в силу выражения (1.19), равна b . Следовательно

b = P(-t b < < t b) = P( – t b < m x < + t b ) =

= P( – t b < m x < + t b ) . (1.20)

Таким образом, в качестве доверительного интервала можно взять интервал

I b = ( – t b ; + t b ) , (1.21)

так как выражение (1.20) означает, что неизвестное точное значение m x находится в I b с заданной доверительной вероятностью b . Для построения I b нужно по заданному b найтиt b из уравнения (1.19). Приведём несколько значений t b , необходимых в дальнейшем :

t 0,9 = 1,645; t 0,95 = 1,96; t 0,99 = 2,58; t 0,999 = 3,3.

При выводе выражения (1.21) предполагалось, что известно точное значение среднеквадратического отклонения s х . Однако оно известно далеко не всегда. Воспользуемся поэтому его оценкой (1.15) и получим:

I b = ( – t b ; + t b ) . (1.22)

Соответственно, оценки и , полученные по группированной выборке, дают следующую формулу для доверительного интервала:

I b = ( – t b ; + t b ) . (1.23)

Пусть над случайной величиной с неизвестными математическим ожиданием и дисперсией произведено независимых опытов, давших результаты – . Вычислим состоятельные и несмещенные оценки для параметров и .

В качестве оценки для математического ожидания возьмем среднее арифметическое опытных значений

. (2.9.1)

Согласно закону больших чисел эта оценка является состоятельной , при величина по вероятности. Эта же оценка является и несмещенной , поскольку

. (2.9.2)

Дисперсия этой оценки равна

. (2.9.3)

Можно показать, что для нормального закона распределения эта оценка является эффективной . Для других законов это может быть и не так.

Оценим теперь дисперсию. Выберем сначала для оценки формулу для статистической дисперсии

. (2.9.4)

Проверим состоятельность оценки дисперсии. Раскроем скобки в формуле (2.9.4)

.

При первое слагаемое сходится по вероятности к величине , в второе – к . Таким образом наша оценка сходится по вероятности к дисперсии

,

следовательно, она является состоятельной .

Проверим несмещенность оценки для величины . Для этого подставим в формулу (2.9.4) выражение (2.9.1) и учтем, что случайные величины независимы

,

. (2.9.5)

Прейдем в формуле (2.9.5) к флуктуациям случайных величин

Раскрывая скобки, получим

,

. (2.9.6)

Вычислим математическое ожидание величины (2.9.6), учитывая, что

. (2.9.7)

Соотношение (2.9.7) показывает, что величина , вычисленная по формуле (2.9.4) не является несмещенной оценкой для дисперсии . Ее математическое ожидание не равно, а несколько меньше . Такая оценка приводит к систематической ошибке в сторону уменьшения. Для ликвидации такого смещения нужно ввести поправку, умножив не величину . Тогда такая исправленная статистическая дисперсия может служить несмещенной оценкой для дисперсии

. (2.9.8)

Эта оценка является состоятельной также как и оценка , поскольку при величина .

На практике, вместо оценки (2.9.8) иногда удобнее применять эквивалентную оценку, связанную со вторым начальным статистическим моментом

. (2.9.9)

Оценки (2.9.8), (2.9.9) не являются эффективными. Можно показать, что в случае нормального закона распределения они будут асимптотически эффективными (при будут стремиться к минимально возможному значению).

Таким образом, можно сформулировать следующие правила обработки ограниченного по объему статистического материала. Если в независимых опытах случайная величина принимает значения с неизвестными математическим ожиданием и дисперсией , то для определения этих параметров следует пользоваться приближенными оценками

(2.9.10)

Конец работы -

Эта тема принадлежит разделу:

Конспект лекций по математике теория вероятностей математическая статистика

Кафедра высшей математики и информатики.. конспект лекций.. по математике..

Если Вам нужно дополнительный материал на эту тему, или Вы не нашли то, что искали, рекомендуем воспользоваться поиском по нашей базе работ:

Что будем делать с полученным материалом:

Если этот материал оказался полезным ля Вас, Вы можете сохранить его на свою страничку в социальных сетях:

Все темы данного раздела:

Теория вероятностей
Теория вероятностей – раздел математики, в котором изучаются закономерности случайных массовых явлений. Случайным называется явление, которо

Статистическое определение вероятности
Событием называется случайное явление, которое в результате опыта может появится или не появится (двузначное явление). Обозначают события большими латинскими буквами

Пространство элементарных событий
Пусть с некоторым опытом связано множество событий, причем: 1) в результате опыта появляется одно и только одно

Действия на событиями
Суммой двух событий и

Перестановки
Число различных перестановок из элементов обозначается

Размещения
Размещением из элементов по

Сочетания
Сочетанием из элементов по

Формула сложения вероятностей для несовместных событий
Теорема. Вероятность суммы двух несовместных событий равна сумме вероятностей этих событий. (1

Формула сложения вероятностей для произвольных событий
Теорема. Вероятность суммы двух событий равна сумме вероятностей этих событий без вероятности их произведения.

Формула умножения вероятностей
Пусть даны два события и. Рассмотрим событие

Формула полной вероятности
Пусть – полная группа несовместных событий, их называют гипотезами. Рассмотрим некоторое событие

Формула вероятностей гипотез (Байеса)
Рассмотрим снова – полную группу несовместных гипотез и событие

Асимптотическая формула Пуассона
В тех случаях, когда число испытаний велико, а вероятность появления события

Случайные дискретные величины
Случайной называется величина, которая при повторении опыта может принимать неодинаковые числовые значения. Случайная величина называется дискретной,

Случайные непрерывные величины
Если в результате опыта случайная величина может принимать любое значение из некоторого отрезка или всей действительной оси, то она называется непрерывной. Законо

Функция плотности вероятности случайной непрерывной величины
Пусть. Рассмотрим точку и дадим ей приращени

Числовые характеристики случайных величин
Случайная дискретная или непрерывная величины считаются полностью заданными, если известны их законы распределения. В самом деле, зная законы распределения можно всегда вычислить вероятность попада

Квантили случайных величин
Квантилем порядка случайной непрерывной величины

Математическое ожидание случайных величин
Математическое ожидание случайной величины характеризует ее среднее значение. Все значения случайной величины группируются вокруг этого значения. Рассмотрим сначала случайную дискретную величину

Среднеквадратичное отклонение и дисперсия случайных величин
Рассмотрим сначала случайную дискретную величину. Числовые характеристики мода, медиана, квантили и математическое ожида

Моменты случайных величин
Кроме математического ожидания и дисперсии в теории вероятностей используются числовые характеристики более высоких порядков, которые называются моментами случайных величин.

Теоремы о числовых характеристиках случайных величин
Теорема 1. Математическое ожидание неслучайной величины равно самой этой величине. Доказательство:Пусть

Биномиальный закон распределения

Закон распределения Пуассона
Пусть случайная дискретная величина, принимающая значения

Равномерный закон распределения
Равномерным законом распределения случайной непрерывной величины называется закон функция плотности вероятности, которого

Нормальный закон распределения
Нормальным законом распределения случайной непрерывной величины называется закон функция плотност

Экспоненциальный закон распределения
Экспоненциальное или показательное распределение случайной величины применяется в таких приложениях теории вероятностей, как теория массового обслуживания, теория надежности

Системы случайных величин
На практике в приложениях теории вероятностей часто приходиться сталкиваться с задачами, в которых результаты эксперимента описываются не одной случайной величиной, а сразу несколькими случайными в

Система двух случайных дискретных величин
Пусть две случайные дискретные величины образуют систему. Случайная величина

Система двух случайных непрерывных величин
Пусть теперь систему образуют две случайные непрерывные величины. Законом распределения этой системы называется вероятно

Условные законы распределения
Пусть и зависимые случайные непрерывные велич

Числовые характеристики системы двух случайных величин
Начальным моментом порядка системы случайных величин

Система нескольких случайных величин
Полученные результаты для системы их двух случайных величии могут быть обобщены на случай систем, состоящих из произвольного числа случайных величин. Пусть система образована совокупностью

Нормальный закон распределения системы двух случайных величин
Рассмотрим систему двух случайных непрерывных величин. Законом распределения этой системы является нормальный закон расп

Предельные теоремы теории вероятностей
Основной целью дисциплины теория вероятностей является изучение закономерностей случайных массовых явлений. Практика показывает, что наблюдение массы однородных случайных явлений обнаружив

Неравенство Чебышева
Рассмотрим случайную величину с математическим ожиданием

Теорема Чебышева
Если случайные величины попарно независимы и имеют конечные ограниченные в совокупности дисперсии

Теорема Бернулли
При неограниченном увеличении числа опытов частота появления события сходится по вероятности к вероятности события

Центральная предельная теорема
При сложении случайных величин с любыми законами распределения, но с ограниченными в совокупности дисперсиями, закон расп

Основные задачи математической статистики
Рассмотренные выше законы теории вероятностей представляют собой математическое выражение реальных закономерностей, фактически существующих в различных случайных массовых явлениях. Изучая

Простая статистическая совокупность. Статистическая функция распределения
Рассмотрим некоторую случайную величину, закон распределения которой неизвестен. Требуется на основании опытных данных о

Статистический ряд. Гистограмма
При большом числе наблюдений (порядка сотен) генеральная совокупность становится неудобной и громоздкой для записи статистического материала. Для наглядности и компактности статистический материал

Числовые характеристики статистического распределения
В теории вероятностей рассматривались различные числовые характеристики случайных величин: математическое ожидание, дисперсию, начальные и центральные моменты различных порядков. Аналогичные числов

Выбор теоретического распределения по методу моментов
Во всяком статистическом распределении неизбежно присутствуют элементы случайности, связанные с ограниченностью числа наблюдений. При большом числе наблюдений эти элементы случайности сглаживаются,

Проверка правдоподобия гипотезы о виде закона распределения
Пусть заданное статистическое распределение аппроксимировано некоторой теоретической кривой или

Критерии согласия
Рассмотрим один из наиболее часто применяемых критериев согласия – так называемый критерий Пирсона. Предположи

Точечные оценки для неизвестных параметров распределения
В п.п. 2.1. – 2.7 мы подробно рассмотрели способы решения первой и второй основных задач математической статистики. Это задачи определения законов распределения случайных величин по опытным данным

Доверительный интервал. Доверительная вероятность
На практике при малом числе опытов над случайной величиной приближенная замена неизвестного параметра

Пусть имеется случайная величина Х с математическим ожиданием m и дисперсией D , при этом оба эти параметра неизвестны. Над величиной Х произведено N независимых экспериментов, в результате которых была получена совокупность N численных результатов x 1 , x 2 , …, x N . В качестве оценки математического ожидания естественно предложить среднее арифметическое наблюдаемых значений

(1)

Здесь в качестве x i рассматриваются конкретные значения (числа), полученные в результате N экспериментов. Если взять другие (независимые от предыдущих) N экспериментов, то, очевидно, мы получим другое значение . Если взять еще N экспериментов, то мы получим еще одно новое значение . Обозначим через X i случайную величину, являющуюся результатом i -го эксперимента, тогда реализациями X i будут числа, полученные в результате этих экспериментов. Очевидно, что случайная величина X i будет иметь такую же плотность распределения вероятности, что и исходная случайная величина Х . Также считаем, что случайные величины X i и X j являются независимыми при i , не равном j (различные независимые друг относительно друга эксперименты). Поэтому формулу (1) перепишем в другом (статистическом) виде:

(2)

Покажем, что оценка является несмещенной:

Таким образом, математическое ожидание выборочного среднего равно истинному математическому ожиданию случайной величины m . Это достаточно предсказуемый и понятный факт. Следовательно, за оценку математического ожидания случайной величины можно принять выборочное среднее (2). Теперь возникает вопрос: что происходит с дисперсией оценки математического ожидания при увеличении числа экспериментов? Аналитические вычисления показывают, что

где - дисперсия оценки математического ожидания (2), а D - истинная дисперсия случайной величины X .

Из вышесказанного следует, что с ростом N (количества экспериментов) дисперсия оценки уменьшается, т.е. чем больше мы суммируем независимые реализации, тем ближе к математическому ожиданию мы получим оценку.


Оценки математического дисперсии

На первый взгляд наиболее естественной оценкой представляется

(3)

где вычисляется по формуле (2). Проверим, является ли оценка несмещенной. Формула (3) может быть записана следующим образом :

Подставим в эту формулу выражение (2):

Найдем математическое ожидание оценки дисперсии:

(4)

Так как дисперсия случайной величины не зависит от того, какое математическое ожидание у случайной величины, примем математическое ожидание равным 0, т.е. m = 0.

(5)
при . (6)

Пусть имеется случайная величина X, и ее параметры математическое ожидание а и дисперсия неизвестны. Над величиной X произведеноn независимых опытов, давших результаты x 1, x 2, x n .

Не уменьшая общности рассуждений, будем считать эти значения случайной величины различными. Будем рассматривать значения x 1, x 2, x n как независимые, одинаково распределенные случайные величины X 1, X 2, X n .

Простейший метод статистического оценивания - метод подстановки и аналогии - состоит в том, что в качестве оценки той или иной числовой характеристики (среднего, дисперсии и др.) генеральной совокупности берут соответствующую характеристику распределения выборки - выборочную характеристику.

По методу подстановки в качестве оценки математического ожидания а надо взять математическое ожидание распределения выборки - выборочное среднее. Таким образом, получаем

Чтобы проверить несмещенность и состоятельность выборочного среднего как оценки а , рассмотрим эту статистику как функцию выбранного вектора (X 1, X 2, X n). Приняв во внимание, что каждая из величин X 1, X 2, X n имеет тот же закон распределения, что и величина X, заключаем, что и числовые характеристики этих величин и величины X одинаковые: M(X i ) = M(X) = a , D(X i ) = D(X) = , i = 1, 2, n, причем X i - независимые в совокупности случайные величины.

Следовательно,

Отсюда по определению получаем, что - несмещенная оценка а , и так как D()®0 при n®¥, то в силу теоремы предыдущего параграфа является состоятельной оценкой математического ожидания а генеральной совокупности.

Эффективность или неэффективность оценки зависит от вида закона распределения случайной величины X. Можно доказать, что если величина X распределена по нормальному закону, то оценка является эффективной. Для других законов распределения это может быть не так.

Несмещенной оценкой генеральной дисперсии служит исправленная выборочная дисперсия

,

Так как , где - генеральная дисперсия. Действительно,

Оценка s -- 2 для генеральной дисперсии является также и состоятельной, но не является эффективной. Однако в случае нормального распределения она является «асимптотически эффективной», то есть при увеличении n отношение ее дисперсии к минимально возможной неограниченно приближается к единице.

Итак, если дана выборка из распределения F(x ) случайной величины X с неизвестным математическим ожиданием а и дисперсией , то для вычисления значений этих параметров мы имеем право пользоваться следующими приближенными формулами:

a ,

.

Здесь x- i - - варианта выборки, n- i - - частота варианты x i , - - объем выборки.
Для вычисления исправленной выборочной дисперсии более удобна формула


.

Для упрощения расчета целесообразно перейти к условным вариантам (в качестве с выгодно брать первоначальную варианту, расположенную в середине интервального вариационного ряда). Тогда

, .

Интервальное оценивание

Выше мы рассмотрели вопрос об оценке неизвестного параметра а одним числом. Такие оценки мы назвали точечными. Они имеют тот недостаток, что при малом объеме выборки могут значительно отличаться от оцениваемых параметров. Поэтому, чтобы получить представление о близости между параметром и его оценкой, в математической статистике вводятся, так называемые, интервальные оценки.

Пусть во выборке для параметра q найдена точечная оценка q * . Обычно исследователи заранее задаются некоторой достаточно большой вероятностью g (например, 0,95; 0,99 или 0,999) такой, что событие с вероятностью g можно считать практически достоверным, и ставят вопрос об отыскании такого значения e > 0, для которого

.

Видоизменив это равенство, получим:

и будем в этом случае говорить, что интервал ]q * - e; q * + e[ покрывает оцениваемый параметр q с вероятностью g.

Интервал ]q * -e; q * +e [ называется доверительным интервалом .

Вероятность g называется надежностью (доверительной вероятностью) интервальной оценки.

Концы доверительного интервала, т.е. точки q * -e и q * +e называются доверительными границами .

Число e называется точностью оценки .

В качестве примера задачи об определении доверительных границ, рассмотрим вопрос об оценке математического ожидания случайной величины Х, имеющей нормальный закон распределения с параметрами а и s, т.е. Х = N(a , s). Математическое ожидание в этом случае равно а . По наблюдениям Х 1 , Х 2 , Х n вычислим среднее и оценку дисперсии s 2 .

Оказывается, что по данным выборки можно построить случайную величину

которая имеет распределение Стьюдента (или t-распределение) с n = n -1 степенями свободы.

Воспользуемся таблицей П.1.3 и найдем для заданных вероятности g и числа n число t g такое, при котором вероятность

P(|t(n)| < t g) = g,

.

Сделав очевидные преобразования получим,

Порядок применения F-критерия следующий:

1. Принимается предположение о нормальности распределения генеральных совокупностей. При заданном уровне значимости a формулируется нулевая гипотеза Н 0: s х 2 = s y 2 о равенстве генеральных дисперсий нормальных совокупностей при конкурирующей гипотезе Н 1: s х 2 > s y 2 .

2. Получают две независимые выборки из совокупностей Х и Y объемом n x и n y соответственно.

3. Рассчитывают значения исправленных выборочных дисперсий s х 2 и s y 2 (методы расчета рассмотрены в §13.4). Большую из дисперсий (s х 2 или s y 2) обозначают s 1 2 , меньшую - s 2 2 .

4. Вычисляется значение F-критерия по формуле F набл = s 1 2 / s 2 2 .

5. По таблице критических точек распределения Фишера - Снедекора, по заданному уровню значимости a и числом степеней свободы n 1 = n 1 - 1, n 2 = n 2 - 1 (n 1 - число степеней свободы большей исправленной дисперсии), находится критическая точка F кр (a, n 1 , n 2).

Отметим, что в таблице П.1.7 приведены критические значения одностороннего F-критерия. Поэтому, если применяется двусторонний критерий (Н 1: s х 2 ¹ s y 2), то правостороннюю критическую точку F кр (a/2, n 1 , n 2) ищут по уровню значимости a/2 (вдвое меньше заданного) и числам степеней свободы n 1 и n 2 (n 1 - число степеней свободы большей дисперсии). Левостороннюю критическую точку можно и не отыскивать.

6. Делается вывод: если вычисленное значение F-критерия больше или равно критическому (F набл ³ F кр), то дисперсии различаются значимо на заданном уровне значимости. В противном случае (F набл < F кр) нет оснований для отклонения нулевой гипотезы о равенстве двух дисперсий.

Задача 15.1 . Расход сырья на единицу продукции по старой технологии составил:

По новой технологии:

Предположив, что соответствующие генеральные совокупности X и Y имеют нормальные распределения, проверить, что по вариативности расход сырья по новой и старой технологиям не отличаются, если принять уровень значимости a = 0,1.

Решение . Действуем в порядке, указанном выше.

1. Будем судить о вариативности расхода сырья по новой и старой технологиям по величинам дисперсий. Таким образом, нулевая гипотеза имеет вид Н 0: s х 2 = s y 2 . В качестве конкурирующей примем гипотезу Н 1: s х 2 ¹ s y 2 , поскольку заранее не уверены в том, что какая-либо из генеральных дисперсий больше другой.

2-3. Найдем выборочные дисперсии. Для упрощения вычислений перейдем к условным вариантам:

u i = x i - 307, v i = y i - 304.

Все вычисления оформим в виде следующих таблиц:

u i m i m i u i m i u i 2 m i (u i +1) 2 v i n i n i v i n i v i 2 n i (v i +1) 2
-3 -3 -1 -2
å -
å -

Контроль: å m i u i 2 + 2å m i u i + m i = Контроль: å n i v i 2 + 2å n i v i + n i = 13 + 2 + 9 = 24 = 34 + 20 + 13 = 67

Найдем исправленные выборочные дисперсии:

4. Сравним дисперсии. Найдем отношение большей исправленной дисперсии к меньшей:

.

5. По условию конкурирующая гипотеза имеет вид s х 2 ¹ s y 2 , поэтому критическая область двусторонняя и при отыскании критической точки следует брать уровни значимости, вдвое меньше заданного.

По таблице П.1.7 по уровню значимости a/2 = 0,1/2 = 0,05 и числам степеней свободы n 1 = n 1 - 1 = 12, n 2 = n 2 - 1 = 8 находим критическую точку F кр (0,05; 12; 8) = 3,28.

6. Так как F набл. < F кр то гипотезу о равенстве дисперсий расхода сырья при старой и новой технологиях принимаем.

Выше при проверке гипотез предполагалось нормальность распределения исследуемых случайных величин. Однако специальные исследования показали, что предложенные алгоритмы весьма устойчивы (особенно при больших объемах выборок) по отношению к отклонению от нормального распределения.

ТЕМА: Точечные оценки математического ожидания. Точечные оценки дисперсии. Точечная оценка вероятности события. Точечная оценка параметров равномерного распределения.

п.1. Точечные оценки математического ожидания.

Предположим, что функция распределения случайной величины ξ зависит от неизвестного параметра θ : P (ξ θ;).

Если x 1 , x 2 …., x n - выборка из генеральной совокупности случайной величиныξ, то оценкой параметра θ называется произвольная функция от выборочных значений

Значение оценки меняется от выборки к выборке и, значит, есть случайная величина. В большинстве экспериментов значение этой случайной величины близки к значению оцениваемого параметра, если для любого значения n математическое ожидание величины равно истинному значению параметра, то оценки , удовлетворяющие условию называются несмещенными . Несмещенность оценки означает, что эта оценка не несет в себе систематической ошибки.

Оценка называется состоятельной оценкой параметра θ , если для любого ξ>0 справедливо

Таким образом, с ростом объема выборки увеличивается точность результата.

Пусть x 1 , x 2 x n – выборка из генеральной совокупности, соответствующей случайной величине ξ с неизвестным математическим ожиданием и известной дисперсией Dξ=σ 2 . Построим несколько оценок неизвестного параметра. Если, то , т.е. рассматриваемая оценка является несмещенной оценкой. Но, поскольку значение вообще не зависит от объема выборки n, то оценка не является состоятельной.

Эффективной оценкой математического ожидания нормально распределенной случайной величины является оценка

Впредь для оценки неивестного математического ожидания случайной величины будем использовать выборочное среднее, т. е.

Существуют стандартные (регулярные) методы получения оценок неизвестных параметров распределения. Наиболее известные из них: метод моментов , метод максимального правдоподобия и метод наименьших квадратов.

п.2 Точечные оценки дисперсии.

Для дисперсии σ 2 случайной величины ξ можно предложить следующую оценку:

где - выборочное среднее.

Доказано, что эта оценка состоятельная, но смещенная.

В качестве состоятельной несмещенной оценки дисперсии исполь­зуют величину

Именно несмещенностью оценки s 2 объясняется ее более частое использование в качестве оценки величины D ξ.

Заметим, что Mathcad предлагает в качестве оценки дисперсии величину , а не s 2: функция var (x ) вычисляет величину

где mean (x ) -выборочное среднее .

ЗАДАНИЕ 6.5

Μξ и дисперсии D ξ случайной величины ξ по приведенным в задании выборочным значениям .

Порядок выполнения задания

    Прочитайте с диска файл, содержащий выборочные значения, или введите заданную выборку с клавиатуры.

    Вычислите точечные оценки Μξ и D ξ.

Пример выполнения задания

Найдите состоятельные несмещенные оценки математического ожи­дания Μξ и дисперсии D ξ случайной величины ξ по выборочным значениям, заданным следующей таблицей.

Для выборки, заданной таблицей такого типа (приведено выборочное значение и число, указывающее, сколько раз это значение встречается в выборке), формулы для состоятельных несмещенных оценок математического ожидания и дисперсии имеют вид:

, ,

где k - количество значений в таблице; n i - количество значений x i в выборке; n - объем выборки.

Фрагмент рабочего документа Mathcad с вычислениями точечных оценок приведен ниже.

Из приведенных вычислений видно, что смещенная оценка дает заниженное значение оценки дисперсии.

п.3. Точечная оценка вероятности события

Предположим, что в некотором эксперименте событие А (благоприят­ный исход испытания) происходит с вероятностью p и не происходит с вероятностью q = 1 - р. Задача состоит в получении оценки неизвест­ного параметра распределения p по результатам серии n случайных экспериментов. При заданном числе испытаний n количество бла­гоприятных исходов m в серии испытаний - случайная величина, имеющая распределение Бернулли. Обозначим ее буквой μ.

Если событие А в серии из n независимых испытаний произошло

m раз, то оценку величины p предлагается вычислять по формуле

Выясним свойства предлагаемой оценки. Поскольку случайная ве­личина μ имеет распределение Бернулли, то Μμ= np и M = M = р , т.е. налицо несмещенная оценка.

Для испытаний Бернулли справедлива теорема Бернулли, согласно которой, т.е. оценка p состоятельная.

Доказано, что эта оценка эффективна, так как обладает при прочих равных условиях минимальной дисперсией.

В Mathcad для моделирования выборки значений случайной ве­личины, имеющей распределение Бернулли, предназначена функция rbinom(fc,η,ρ), которая формирует вектор из к случайных чисел, κα­ ι ждое из которых равно числу успехов в серии из η независимых испы­таний с вероятностью успеха ρ в каждом.

ЗАДАНИЕ 6.6

Смоделируйте несколько выборок значений случайной величины, име­ющей распределение Бернулли с заданным значением параметра р . Вычислите для каждой выборки оценку параметра p и сравните с за­данным значением. Представьте результаты вычислений графически.

Порядок выполнения задания

1. Используя функцию rbinom(1, n , p ), опишите и сформируй­те последовательность значений случайной величины, име­ющей распределение Бернулли с заданными p и n для n = 10, 20, ..., Ν, как функцию объема выборки п.

2. Вычислите для каждого значения n точечные оценки веро­ятности р.

Пример выполнения задания

Пример получения точечных оценок выборок объема n = 10, 20,..., 200 значений случайной величины μ, имеющей распределение Бернулли с параметром p = 0.3, приведен ниже.

Указание. Поскольку значением функции является вектор , число успехов в серии n независимых испытаний с вероятностью успеха p в каждом испытании содержится в первой компоненте вектора rbinom(1,n , p ) , т.е. число успехов равно rbinom(1, n , p ). В приведенном выше фрагменте k - я компонента вектора Ρ содержит число успехов в серии 10k независимых испытаний для k = 1,2,..., 200.

п. 4. Точечная оценка параметров равномерного распределения

Обратимся еще к одному поучительному примеру. Пусть - выборка из генеральной совокупности, соответствующей случай­ной величине ξ, имеющей равномерное распределение на отрезке с неизвестным параметром θ . Наша задача - оценить этот неизвестный параметр.

Рассмотрим один из возможных способов построения требуемой оценки. Если ξ - случайная величина, имеющая равномерное распре­деление на отрезке , то Μ ξ = . Поскольку оценка величины известна, Μξ =, то за оценку параметра θ можно взять оценку

Несмещенность оценки очевидна:

Вычислив дисперсию и предел D при n →∞, убедимся в состоятельности оценки :

Для получения другой оценки параметра θ обратимся к другой статистике. Пусть = max). Найдем распределение случайной величины:

Тогда математическое ожидание и дисперсия случайной величины

с распределением равны соответственно:

;

т.е. оценка состоятельная, но смещенная. Однако если вместо = max) рассмотреть = max), то и , и, следовательно, оценка состоятельная и несмещенная.

При этом, поскольку

существенно эффективнее оценки

Например, при п= 97 разброс оценки θ^ в 33 рала меньше разброса оценки

Последний пример еще раз показывает, что выбор статистической оценки неизвестного параметра распределения - важная и нетриви­альная задача.

В Mathcad для моделирования выборки значений случайной величи­ны, имеющей равномерное распределение на отрезке [а, Ь], предназна­чена функция runif(fc,o,b), которая формирует вектор из к случайных чисел, каждое из которых - значение равномерно распределенной на отрезке [а, 6] случайной величины.