Chào các bạn! Vì nhiều lý do từ nay Truyen2U chính thức đổi tên là Truyen247.Pro. Mong các bạn tiếp tục ủng hộ truy cập tên miền mới này nhé! Mãi yêu... ♥

Основы

Основы

математической статистики

Выборки и их характеристики

6.1. Предмет математической статистики

Математическая статистика - раздел математики, в котором изучаются методы сбора, систематизации и обработки результатов на-блюдений массовых случайных явлений для выявления существующих закономерностей.

Математическая статистика тесно связана с теорией вероятностей. Обе эти математические дисциплины изучают массовые случайные явления. Связующим звеном между ними являются предельные теоре¬мы теории вероятностей. При этом теория вероятностей выводит из ма-тематической модели свойства реального процесса, а математическая статистика устанавливает свойства математической модели, исходя из данных наблюдений (говорят «из статистических данных»).

Предметом математической статистики является изучение случай-ных величин (или случайных событий, процессов) по результатам на-блюдений. Полученные в результате наблюдения (опыта, эксперимен¬та) данные сначала надо каким-либо образом обработать: упорядочить, представить в удобном для обозрения и анализа виде. Это первая зада-ча. Затем, это уже вторая задача, оценить, хотя бы приблизительно, интересующие нас характеристики наблюдаемой случайной величи¬ны. Например, дать оценку неизвестной вероятности события, оценку неизвестной функции распределения, оценку математического ожида-ния, оценку дисперсии случайной величины, оценку параметров рас-пределения, вид которого неизвестен, и т.д.

Следующей, назовем ее условно третьей, задачей является провер¬ка статистических гипотез, т. е. решение вопроса согласования ре-зультатов оценивания с опытными данными. Например, выдвигается гипотеза, что: а) наблюдаемая с. в. подчиняется нормальному закону; б) м. о. наблюдаемой с. в. равно нулю; в) случайное событие обладает данной вероятностью и т. д.

Одной из важнейших задач математической статистики является разработка методов, позволяющих по результатам обследования вы-

Глава 6. Выборки и их характеристики ■ 179

борки (т. е. части исследуемой совокупности объектов) делать обосно-ванные выводы о распределении признака (с. в. X) изучаемых объектов по всей совокупности.

Для обработки статистических данных созданы специальные про-граммные пакеты (STADIA, СтатЭксперт, Эвриста, SYSTAT, STAT-GRAPHICS и др.), которые выполняют трудоемкую работу по расче¬ту различных статистик, построению таблиц и графиков. Простейшие статистические функции имеются в программируемых калькуляторах и популярных офисных программах (EXCEL).

Результаты исследования статистических данных методами мате-матической статистики используются для принятия решения (в зада¬чах планирования, управления, прогнозирования и организации произ-водства, при контроле качества продукции, при выборе оптимального времени настройки или замены действующей аппаратуры и т.д.), т.е. для научных и практических выводов.

Говорят, что «математическая статистика - это теория принятия решений в условиях неопределенности».

Математическая статистика возникла в XVIII веке в работах Я. Бернулли, П. Лапласа, К. Пирсона. В ее современном развитии опре-деляющую роль сыграли труды Г. Крамера, Р. Фишера, Ю. Неймана и др. Большой вклад в математическую статистику внесли русские уче¬ные П. Л. Чебышев, A.M. Ляпунов, А. Н. Колмогоров, Б.В. Гнеденко и другие.

6.2. Генеральная и выборочная совокупности

Пусть требуется изучить данную совокупность объектов относи¬

тельно некоторого признака. Например, рассматривая работу диспет¬

чера (продавца, парикмахера,...), можно исследовать: его загружен¬

ность, тип клиентов, скорость обслуживания, моменты поступления

заявок и т.д. Каждый такой признак (и их комбинации) образует слу¬

чайную величину, наблюдения над которой мы и производим.

К| Совокупность всех подлежащих изучению объектов или возможных

результатов всех мыслимых наблюдений, производимых в неизменных условиях над одним объектом, называется генеральной совокупностью.

Более строго: генеральная совокупность - это с. в. X(UJ), заданная на пространстве элементарных событий П с выделенным в нем классом 5 подмножеств событий, для которых указаны их вероятности.

180 ■ Раздел второй. Основы математической статистики

Зачастую проводить сплошное обследование, когда изучаются все

объекты (например - перепись населения), трудно или дорого, эконо¬

мически нецелесообразно (например - не вскрывать же каждую кон¬

сервную банку для проверки качества продукции), а иногда невозмож¬

но. В этих случаях наилучшим способом обследования является вы¬

борочное наблюдение: выбирают из генеральной совокупности часть ее

объектов («выборку») и подвергают их изучению.

нч Выборочной совокупностью (выборкой) называется совокупность

объектов, отобранных случайным образом из генеральной совокупно-сти.

Более строго: выборка - это последовательность Х\,Х2,... ,Хп

независимых одинаково распределенных с. в., распределение каждой

из которых совпадает с распределением генеральной случайной вели¬

чины.

Рч| Число объектов (наблюдений) в совокупности называется ее объе-

мом.

К| Конкретные значения выборки, полученные в результате наблюде-

ний (испытаний), называют реализацией выборки и обозначают строч-ными буквами х\, X2, ■ - -, хп.

Метод статистического исследования, состоящий в том, что на осно¬ве изучения выборочной совокупности делается заключение о всей ге¬неральной совокупности, называется выборочным.

Для получения хороших оценок характеристик генеральной сово-купности необходимо, чтобы выборка была репрезентативной (или представительной), т.е. достаточно полно представлять изучаемые признаки генеральной совокупности. Условием обеспечения репрезен-тативности выборки является, согласно закону больших чисел, соблю-дение случайности отбора, т. е. все объекты генеральной совокупности должны иметь равные вероятности попасть в выборку.

Различают выборки с возвращением (повторные) и без возвраще¬ния (бесповторные). В первом случае отобранный объект возвращается в генеральную совокупность перед извлечением следующего; во вто¬ром - не возвращается. На практике чаще используется бесповторная выборка.

Заметим, если объем выборки значительно меньше объема гене-ральной совокупности, различие между повторной и бесповторной вы-борками очень мало, его можно не учитывать.

В зависимости от конкретных условий для обеспечения репрезента-тивности применяют различные способы отбора: простой, при котором из генеральной совокупности извлекают по одному объекту; типиче-ский, при котором генеральную совокупность делят на «типические»

Глава 6. Выборки и их характеристики ■ 1й1

части и отбор осуществляется из каждой части (например, мнение о референдуме спросить у случайно отобранных людей, разделенных по признаку пола, возраста,...); механический, при котором отбор произ-водится через определенный интервал (например, мнение спросить у каждого шестидесятого...); серийный, при котором объекты из гене-ральной совокупности отбираются «сериями», которые должны иссле-доваться при помощи сплошного обследования.

На практике пользуются сочетанием вышеупомянутых способов от-бора.

Пример 6.1. Десять абитуриентов проходят тестирование по матема-тике. Каждый из них может набрать от 0 до 5 баллов включительно. Пусть Xk - количество баллов, набранных /с-м (к = 1,2,..., 10) аби-туриентом.

Тогда значения 0, 1, 2, 3, 4, 5 - все возможные количества бал¬лов, набранных одним абитуриентом, - образуют генеральную сово-купность.

Выборка Х\, Xi, Xzt..., X\Q - результат тестирования 10 абитури-ентов.

Реализациями выборки могут быть следующие наборы чисел: {5, 3, 0, 1, 4, 2, 5, 4, 1, 5} или {4, 4, 5, 3, 3, 1, 5, 5, 2, 5} или {3, 4, 5, 0, 1, 2, 3, 4, 5, 4} и т.д.

6.3. Статистическое распределение выборки. Эмпирическая функция распределения

Пусть изучается некоторая св. Х. С этой целью над св. X про-изводится ряд независимых опытов (наблюдений). В каждом из этих опытов величина X принимает то или иное значение.

Пусть она приняла щ раз значение х\, n<i раз - значение Х2, - • -, rife раз - значение х^. При этом щ +П2 +... 4-n^ ~ n - объем выборки. Значения х\,Х2, • • • ->%к называются вариантами св. X.

Вся совокупность значений с. в. X представляет собой первичный статистический материал, который подлежит дальнейшей обработке, прежде всего - упорядочению.

I

Операция расположения значений случайной величины (призна¬ка) по неубыванию называется ранжированием статистических дан¬ных. Полученная таким образом последовательность х^, #(2), - • ■, £(п)

182 ' Раздел второй. Основы математической статистики

^>

значений с в. X (где rc(ij ^ хр) ^ ... ^ Х(п) и хщ = min Xj, ..., Х(„) = = max Xi) называется вариационным рядом.

Числа щ, показывающие, сколько раз встречаются варианты Х{ в ряде наблюдений, называются частотами, а отношение их к объему выборки - частостями или относительными частотами (р|), т.е.

(6.1)

где п ~ X]п*-

i=l

ф Перечень вариантов и соответствующих им частот или частостей

называется статистическим распределением выборки или статисти-ческим рядом.

Записывается статистическое распределение в виде таблицы. Пер-вая строка содержит варианты, а вторая - их частоты щ (или часто¬сти р*).

V Пример 6.2. В результате тестирования (см. пример 6.1) группа аби-туриентов набрала баллы: 5, 3, 0, 1, 4, 2, 5, 4, 1, 5. Записать полученную выборку в виде: а) вариационного ряда; б) статистического ряда.

О а) Проранжировав статистические данные (т.е. исходный ряд), по¬лучим вариационный ряд (х^ух^),... ,£(ю)):

(О, 1, 1, 2, 3, 4, 4, 5, 5, 5).

б) Подсчитав частоту и частость вариантов х\ = 0, хч = 1, жз ~ % Х4 = 3, х*> = 4, XQ = 5, получим статистическое распределение выборки (так называемый дискретный статистический ряд)

6 \

1-1 '

СЁ*-1)-

4-1 '

или

х{ 0 1 2 3 4 5

Щ 1 2 1 1 2 3

Xi 0 1 2 3 4 5

Pi 1

10 2 10 1 10 1 10 2 10 3 10

Статистическое распределение выборки является оценкой неиз-вестного распределения. В соответствии с теоремой Бернулли (п. 5.3) относительные частоты р* сходятся при п -> оо к соответствующим

Глава 6. Выборки и их характеристики ■ 183

вероятностям Pj, т.е. р.* > р\. Поэтому при больших значениях п

п->оо

статистическое распределение мало отличается от истинного распре-деления.

В случае, когда число значений признака (с. в. X) велико или при-знак является непрерывным (т. е. когда с. в. X может принять любое значение в некотором интервале), составляют интервальный стати-стический ряд. В первую строку таблицы статистического распределе-ния вписывают частичные промежутки [XQ,X\), [3:1,^2)) •••»[:rA-i»iC*)> которые берут обычно одинаковыми по длине: h = х\ - XQ = Х2 - х\ =

= Для определения величины интервала (h) можно использовать

формулу Стерджеса:

1 + log2 n '

где хтах - ^min - разность между наибольшим и наименьшим значени-ями признака, т = 1 + log2 n - число интервалов (log2 п яа 3,322 lg n). За начало первого интервала рекомендуется брать величину х„ач = = #min - -к- Во второй строчке статистического ряда вписывают коли¬чество наблюдений щ (г = 1, fc), попавших в каждый интервал.

[чГ] Пример 6.3. Измерили рост (с точностью до см) 30 наудачу отобран-ных студентов. Результаты измерений таковы:

178, 160, 154, 183, 155, 153, 167, 186, 163, 155, 157, 175, 170, 166, 159, 173, 182, 167, 171, 169,

179, 165, 156, 179, 158, 171, 175, 173, 164, 172. Построить интервальный статистический ряд.

Q Для удобства проранжируем полученные данные:

153, 154, 155, 155, 156, 157, 158, 159, 160, 163, 164, 165, 166, 167, 167, 169,

170, 171, 171, 172, 173, 173, 175, 175, 178, 179, 179, 182, 183, 186.

Отметим, что X - рост студента - непрерывная с. в. При более точном измерении роста значения с. в. X обычно не повторяются (веро-ятность наличия на Земле двух человек, рост которых равен, скажем \/3 = 1,732050808... метров, равна нулю!).

Как видим, xmin = 153, xmax = 186; по формуле Стерджеса, при п = 30, находим длину частичного интервала

h - 186 - 153 _ 33 _ 33 ^r,n

1 + log2 30 ~ 1 + 3,322 lg 30 ~ 5,907 ~ ' '

Примем h = 6. Тогда хяая - 153 - ~ = 150. Исходные данные разбиваем на 6 (т = 1 + log230 = 5,907 « 6) интервалов: [150,156), [156,162), [162,168), [168,174), [174, 180), [180, 186).

184 ' Раздел второй. Основы математической статистики

Подсчитав число студентов (щ), попавших в каждый из получен¬ных промежутков, получим интервальный статистический ряд:

Рост [150-156) [156-162) [162-168) [168-174) [174-180) [180-186)

Частота 4 5 6 7 5 3

Частость 0,13 0,17 0,20 0,23 0,17 0,10

Одним из способов обработки вариационного ряда является постро-ение эмпирической функции распределения.

Эмпирической (статистической) функцией распределения называ-ется функция F£(x), определяющая для каждого значения х частость события {X < х}:

F:(X)=P*{X<X}. (6.2)

Для нахождения значений эмпирической функции удобно F£(x) за-писать в виде

где п - объем выборки, пх - число наблюдений, меньших х (х € Щ.

Очевидно, что F£ (x) удовлетворяет тем же условиям, что и истин-ная функция распределения F(x) (см. п. 2.3).

При увеличении числа п наблюдений (опытов) относительная ча-стота события {X < х} приближается к вероятности этого события (теорема Бернулли, п. 5.3). Эмпирическая функция распределения F^(x) является оценкой вероятности события {X < х}, т.е. оценкой теоретической функции распределения F(x) с. в. X. Имеет место

Теорема 6.1 (Гливенко). Пусть F(x) - теоретическая функция рас-пределения с. в. X, a F£(x) - эмпирическая. Тогда для любого е > 0

lim {\F*{x)~F{x)\>e} = $.

Пример 6.4. Построить функцию F^(x), используя условие и резуль¬таты примера 6.2.

Q Здесь п = 10. Имеем F*0(x) = ~ = 0 при х < 0 (наблюдений мень¬ше 0 нет); F*Q(x) = ^х при 0 < х < 1 (здесь пх = 1) и т. д. Окончательно

Глава 6. Выборки и их характеристики ■ 185

получаем

0, при х ^ О,

0,1, при 0 < х ^ 1,

0,3, при 1 < х < 2,

FIQ(X) = { 0,4, при 2 < z < 3,

0,5, при 3 < х < 4,

0,7, при 4 < х ^ 5,

1, при 5 < х.

График эмпирической функции распределения приведен

на рис. 59.

^*о(41

Рис. 59

6.4. Графическое изображение статистического распределения

Статистическое распределение изображается графически (для на-глядности) в виде так называемых полигона и гистограммы. Полигон, как правило, служит для изображения дискретного (т. е. варианты от-личаются на постоянную величину) статистического ряда.

Полигоном частот называют ломаную, отрезки которой соединя¬ют точки с координатами (#i,ni), (#2,^2)1 ■ ■ • ■> (xkink)'i полигоном ча-стостей - с координатами (xi,pj), (а^Рг)» * • •> (хьр£)-

Варианты (х{) откладываются на оси абсцисс, а частоты и, соот-ветственно, частости - на оси ординат.

186 ■ Раздел второй. Основы математической статистики

!■■

0,5-

Рис. 60

Пример 6.5. Для примера 6.2 (п. 6.3) полигон частостей имеет вид, изображенный на рис. 60.

Заметим, что р\ -\-р\ + ■ • ■ + Рд = 1.

Как видно, полигон частостей является статистическим аналогом многоугольника распределения (см. п. 2.2).

Для непрерывно распределенного признака (т. е. варианты могут отличаться один от другого на сколь угодно малую величину) можно построить полигон частот, взяв середины интервалов в качестве значе-ний Х]_, Х2,. ■., %к- Более употребительна так называемая гистограмма.

Гистограммой частот (частостей) называют ступенчатую фигу-ру, состоящую из прямоугольников, основаниями которых служат ча-

стичные интервалы длины /г, а высоты равны отношению плот-

п

,Pi Щ

ность частоты (- или г-

п п ■ h

плотности частости).

Очевидно, площадь гистограммы частот равна объему выборки, а площадь гистограммы частостей равна единице.

Пример 6.6. Используя условие и результаты примера 6.3 из п. 6.3 построить гистограмму частостей.

ОДЗ 6

0,17

0,20

О В данном случае длина интервала равна h = 6. Находим высоты

0,022, h2 =

0,028, /i3 =

hi прямоугольников: h\ =

0,23 6

6 '-' ^ 6

0,033, hi =

0,038, h5

^ = 0,028, К ~ Ц- - 0,017.

Гистограмма частостей изображена на рис. 61.

Гистограмма частот является статистическим аналогом дифферен-циала функции распределения (плотности) f(x) с. в. X. Сумма площа-

Глава 6. Выборки и их характеристики ■ 187

0,038-

0,033" 0,028 0,022-0,017;

Рис. 61 дей прямоугольников равна единице

Л.^ + ... + А.^=Р; + ...+Р* = 1),

что соответствует условию

оо

f{x)dx = l

для плотности вероятностей f(x) (см. п. 2.4). На рис. 61 показана и плотность вероятностей f(x).

Если соединить середины верхних оснований прямоугольников от¬

резками прямой, то получим полигон того же распределения. •

6.5. Числовые характеристики статистического распределения

Для выборки можно определить ряд числовых характеристик, ана-логичным тем, что в теории вероятностей определялись для случайных величин (см. п. 2.5).

Пусть статистическое распределение выборки объема п имеет вид:

Xi Х\ %2 £з Хк

Щ ТЬ\ П1 п3 Пк

(6.3)

Выборочным средним хв называется среднее арифметическое всех

значений выборки:

к

Хв -n^Xi-Tli. (6.4)

188 ■ Раздел второй. Основы математической статистики

Выборочное среднее можно записать и так:

к

= YlXi'Pi> (6*5)

t=l

Ui

где р\ = -£ - частость. Для обозначения выборочного среднего ис-пользуют следующие символы: ж, М*(Х), т*.

Отметим, что в случае интервального статистического ряда в ра-венстве (6.4) в качестве Х{ берут середины его интервалов, &, щ - со-ответствующие им частоты.

Выборочной дисперсией DB называется среднее арифметическое

квадратов отклонений значений выборки от выборочной средней хв,

т. е.

к

или, что то же самое,

к

А> = J>;-xB)2-#. (6.7)

Можно показать, что DB может быть подсчитана также по формуле: к

А, = ^-(г)2, (6.8)

здесь х - хв.

Выборочное среднее квадратическое отклонение выборки опреде-ляется формулой

о-в - >Л>~ъ. (6-9)

Особенность выборочного с. к. о. (ств) состоит в том, что оно изме-ряется в тех же единицах, что и изучаемый признак.

При решении практических задач используется и величина

к

£

К

£2 = ^-5>'-3?»>2*n«' (6-ю)

S2 = ^DB, (6.11)

Глава 6. Выборки и их характеристики * 189

которая называется исправленной выборочной дисперсией (см. далее п. 7.1).

Величина

S = V$i (6.12)

называется исправленным выборочным средним квадратическим от-клонением.

Для непрерывно распределенного признака формулы для выбо-рочных средних будут такими же, но за значения Xi,x<z, ■ • ■,xk на¬до брать не концы промежутков [xo,xi),[xi,X2),.-., а их середины

Хр + Х\ Х\ + Х2

2 ' 2 '"•' В качестве описательных характеристик вариационного ряда £(i),

Х(2),..., хы\ (или полученного из него статистического распределения выборки (6.3)) используется медиана, мода, размах вариации (выбор¬ки) и т. д.

Размахом вариации называется число R = Х(п) - хщ, где х^ = = min xk, X(n) = max xk или R = xmaiX-xm[n, где xmax - наибольший,

#min - наименьший вариант ряда.

Модой Ы* вариационного ряда называется вариант, имеющий наи-большую частоту.

Медианой М* вариационного ряда называется значение признака (с. в. Х)у приходящееся на середину ряда.

Еслип = 2к (т.е. ряд ж^Жф,.. -,£(к)>Х(Ш)т •• >£(2А) имеет четное

л ,,* х(к) +х(к+1) п, , w*

число членов), то Ml = -\ если п = 2к + 1, то М* = x^k+iy

Пример 6.7. По условию примера 6.2 из п. 6.3 найти характеристики выборки - результаты тестирования 10 абитуриентов.

О Используя формулы (6.4)-(6.12) и определения из п. 6.5, находим: хв = i ■ (0 - 1 + 1 ■ 2 + ... + 5 ■ 3) = 3,

DB = ^ ((0 - З)2 ■ 1 + (1 - З)2 • 2 + ... + (5 - З)2 • 3) = 3,2, ств - л/3^ » 1,79, S2 = Ш - 3,2 и 3,56,

5 = v^56^ 1,87, R = 5 - 0 = 5,

М* = 5,

м; = ^±i = з,5. •

190 ■ Раздел второй. Основы математической статистики

Упражнения

1. Найти и построить эмпирическую функцию распределения для вы-борки, представленной статистическим рядом.

Xj 1 3 6

Щ 10 8 12

2. На телефонной станции производились наблюдения за числом не-правильных соединений в минуту. Результаты наблюдений в тече-ние часа представлены в виде статистического распределения.

хг 0 1 2 3 4 5 6

щ 8 17 16 10 б 2 1

Найти выборочные среднее и дисперсию. Сравнить распределение

-о . ат\

Рп,т ~ j 1 •

3. Изучается с. в. X - число выпавших очков при бросании игральной кости. Кость подбросили 60 раз. Получены следующие результаты:

3, 2, 5, 6, 6, 1, 4, 6, 4, 6, 3, 6, 4, 2, 1, 5, 3, 1, 6, 4, 5, 4, 2, 2, 4, 2, 6, 3, 1, 5, 6, 1, 6, 6, 4, 2, 5, 4, 3, 6,

4, 1, 5, 6, 3, 2, 4, 4, 5, 2, 5, 6, 2, 3, 5, 4, 1, 2, 5, 3.

1. Что в данном опыте-наблюдении представляет генеральную со-вокупность? 2. Перечислите элементы этой совокупности. 3. Что представляет собой выборка? 4. Приведите 1-2 реализации выбор-ки. 5. Оформите ее в виде: а) вариационного ряда; б) статистическо-го ряда. 6. Найдите эмпирическую функцию распределения выбор-ки. 7. Постройте интервальный статистический ряд. 8. Постройте полигон частот и гистограмму частостей. 9. Найдите: а) выбороч-ную среднюю; б) выборочную дисперсию; в) исправленную выбо-рочную дисперсию и исправленное среднее квадратическое откло-■че; г) размах вариации, моду и медиану.

Глава 7

Элементы теории оценок и проверки гипотез

7.1. Оценка неизвестных параметров Понятие оценки параметров

Пусть изучается случайная величина X с законом распределения, зависящим от одного или нескольких параметров. Например, это пара-

( пт • р~а\

метр а в распределении Пуассона ( Р{Х - т} = '-- ] или пара¬

метры аист для нормального закона распределения.

Требуется по выборке Х\,Х2,- ■ • ,ХП, полученной в результате п наблюдений (опытов), оценить неизвестный параметр в.

Напомним, что Х\,Х-2,--.,Хп - случайные величины: Х\ - ре-зультат первого наблюдения, X<i - второго и т.д., причем св. Xty г = 1,2,..., п, имеют такое же распределение, что и с. в. X; конкретная выборка xiyX2,... jXn - это значения (реализация) независимых св.

Статистической оценкой вп (далее просто - оценкой в) параме¬тра в теоретического распределения называют его приближенное зна¬чение, зависящее от данных выбора.

Очевидно, что оценка 0 есть значение некоторой функции резуль-татов наблюдений над случайной величиной, т. е.

в = в(ХиХ2,...уХп). (7.1)

Функцию результатов наблюдений (т. е. функцию выборки) назы-вают статистикой.

Можно сказать, что оценка в параметра в есть статистика, которая в определенном смысле близка к истинному значению 0.

Так, F*(x) есть оценка Fx(x), гистограмма - плотности f{x).

192 ' Раздел второй. Основы математической статистики

Оценка в является случайной величиной, так как является функ¬цией независимых с. в. Xi, Х2, ■ • •, Хп\ если произвести другую выборку, то функция примет, вообще говоря, другое значение.

Если число опытов (наблюдений) невелико, то замена неизвестного параметра в его оценкой 0, например математического ожидания сред-ним арифметическим, приводит к ошибке. Это ошибка в среднем тем больше, чем меньше число опытов.

К оценке любого параметра предъявляется ряд требований, кото-рым она должна удовлетворять, чтобы быть «близкой» к истинному значению параметра, т. е. быть в каком-то смысле «доброкачественной» оценкой.

Свойства статистических оценок

Качество оценки определяют, проверяя, обладает ли она свойства-ми несмещенности, состоятельности, эффективности.

Ё1

Оценка в параметра в называется несмещенной, если Мв = в.

Если МО Ф 0, то оценка в называется смещенной.

Чтобы оценка в не давала систематической ошибки (ошибки одного знака) в сторону завышения (Мв > в) или занижения (Мв < в), на¬до потребовать, чтобы «математическое ожидание оценки было равно оцениваемому параметру».

Если Мвп -> 9, то оценка вп называется асимптотически несме-щенной.

Требование несмещенности особенно важно при малом числе на-блюдений (опытов).

Оценка вп параметра в называется состоятельной^ если она схо-дится по вероятности к оцениваемому параметру:

вп > в,

п-)-оо

т. е. для любого е > 0 выполнено

lim р{\вп-в\ <e\ = l.

п->оо У. )

Это означает, что с увеличением объема выборки мы все ближе приближаемся к истинному значению параметра 0, т. е. практически достоверно вп да в.

Свойство состоятельности обязательно для любого правила оцени-вания (несостоятельные оценки не используются).

Глава 7. Элементы теории оценок и проверки гипотез • 193

Состоятельность оценки вп часто может быть установлена с помо-щью следующей теоремы.

Теорема 7.1. Если оценка вп параметра в является несмещенной и D9n -> 0 при п -> со, то вп -- состоятельная оценка.

□ Запишем неравенство Чебышева для с. в. вп для любого е > 0:

рфп-в\<е)>1-Щр.

Так как по условию lim D9n = 0, то lim Р(\9п - 9\ < е) > 1. Но вероятность любого события не превышает 1 и, следовательно,

Р(|0„-0|<е) = 1,

т. е. вп - состоятельная оценка параметра 9. ■

Несмещенная оценка 9п параметра 9 называется эффективной, если она имеет наименьшую дисперсию с^еди всех возможных несме¬щенных оценок параметра в, т. е. оценка вп эффективна, если ее дис¬персия минимальна.

Эффективную оценку в ряде случаев можно найти, используя не-равенство Рао-Крамера:

В~вп » ^-г

где J = 1{в) - информация Фишера, определяемая в дискретном слу¬чае формулой

7 = М[|ЬР(Х,,)]^|:[^]2.Р(„,,),

где р{х}9) = р{Х = х}, а в непрерывном - формулой

.2 г \Д(х,ву2

f(x,6)dx,

L/(M)J

= м[,|т/(Х,0)] =

где f(x,9) -- плотность распределения н.с.в. X.

Эффективность оценки определяется отношением

194 ' Раздел второй. Основы математической статистики

где 0„ - эффективная оценка. Чем ближе eff#„ к 1, тем эффективнее оценка $п. Если eS9n -> 1 при п -ч- оо, то оценка называется асимпто-тически эффективной.

Отметим, что на практике не всегда удается удовлетворить всем перечисленным выше требованиям (несмещенность, состоятельность, эффективность), и поэтому приходится довольствоваться оценками, не обладающими сразу всеми тремя свойствами. Все же три свойства, как правило, выделяют оценку однозначно.

Точечные оценки математического ожидания и дисперсии

Пусть изучается св. X с математическим ожиданием о = MX и дисперсией DX\ оба параметра неизвестны.

Статистика, используемая в качестве приближенного значения не-известного параметра генеральной совокупности, называется ее точеч-ной оценкой. То есть точечная оценка характеристики генеральной со-вокупности - это число, определяемое по выборке.

Пусть xi,^2,. • • -,хп - выборка, полученная в результате проведе-ния п независимых наблюдений за с. в. X. Чтобы подчеркнуть случай-ный характер величин х\,Х2,.- ■ ,хп, перепишем их в виде -X"i,-Х"а> - - * ... ,Хп, т.е. под Xi будем понимать значение св. X в i-м опыте. Случайные величины Х\,Х2, ■ • ■ ,Хп можно рассматривать как п не-зависимых «экземпляров» величины X. Поэтому МХ\ = MX? = ... ... = МХп = MX = a, DXX = DX2 = .,. = DXn = DX.

Теорема 7.2. Пусть Xi, А"2,- . ■ }Хп - выборка из генеральной совокуп-

ности и MXj, = MX = = a, DXi ~~ = DX (г = 1, п). Тогда выборочное среднее

Х* ~ nZ^Xi - несмещенная и состоятельная оценка математического

ожидания MX

Q Найдем м. о. оценки Х&:

Отсюда по определению получаем, что Хъ - несмещенная оценка MX. Далее, согласно теореме Чебышева (п. 5.2), для любого е > 0 имеет

Глава 7 Элементы теории оценок и проверки гипотез "195

место равенство

k i=l г=1 ! J

которое, согласно условию теоремы, можно переписать так:

Игл Р{\~ХЪ-МХ\ <е\ = 1

или, что то же самое, lim р {10 - 01 < е| = 1. Согласно определению

получаем, что Хв - состоятельная оценка MX. ■

Можно показать, что при нормальном распределении с. в. X эта оценка, т.е. Хв, будет и эффективной. На практике во всех случа¬ях в качестве оценки математического ожидания используется среднее арифметическое, т.е. Хв.

В статистике оценку математического ожидания принято обозна-чать через X или Хв, а не X.

Покажем, что

MDB = ^Ч^-ВХ. (7.2)

Действительно,

MD„ = MU±(Xt~X?)=MU±X?-U±Xt

^ г-1 ^ ^ г=1 ^ г=1

=1М(Х:^2)-ЛМ(Е^)2-^М№2+^2+---+^)-

4=1 ' п N=i '

- \ ■ м{хх + х2 +... + xnf = кмх2 + мх\ +... + мх1)-

п£ -\м(х1+Х1+.. .+Xl+2(XXX2 + ХгХ3 + Х2Х3 + ... + X„-iX„)) -

= ^~i • (MX? + МХ22 + ... + MXl)-2 (MXi • MX2 + MXXMXZ + MX2MX3 + ... + MXn-tMXn) =

n2

• (MX2 + MX2 + ... + MX2)-

- \{MX • MX + MX ■ MX + ... + MX - MX) = n1

196 ■ Раздел второй. Основы математической статистики

= ™^±{МХ2 - (MX)2) - 2L=J: • DX.

Из равенства (7.2) следует, что MDB ф DX, т.е. выборочная дис-персия является смещенной оценкой дисперсии DX. Поэтому выбороч-

п 1>т, умножив ее на, -

S2 - -^-гД, (см. (6.11)).

п-1

ную дисперсию исправляют, умножив ее на j, получая формулу

Теорема 7.3. Пусть ATi,^,... ,Хп - выборка из генеральной совокуп¬ности и MXi = MX = a, DXi = DX (г = 1,п). Тогда исправленная

п

выборочная дисперсия S2 = =- У^№ - X)2 = -~- • DB - несмещен-

ная состоятельная оценка дисперсии DX.

Q Примем без доказательства состоятельность оценки S2. Докажем ее несмещенность. Имеем

MS'

= М (^~DB) = -$- ■ MDB = -2Ц- ■ ^JT^-DX = DX,

Vn-l/n-1 n-1 n

т. e. MS = DX. Отсюда по определению получаем, что S2 - несме¬

щенная оценка DX. ■

Отметим, что при больших значениях п разница между DB и S2 очень мала и они практически равны, поэтому оценку S2 используют для оценки дисперсии при малых выборках, обычно при п ^ 30.

Имеют место следующие теоремы.

77 Л

Теорема 7.4. Относительная частота -=г- появления события А в п не-зависимых испытаниях является несмещенной состоятельной и эффек-тивной оценкой неизвестной вероятности р = Р(Л) этого события (р - вероятность наступления события Л в каждом испытании).

Отметим, что состоятельность оценки 9 ~ -^- непосредственно вы-текает из теоремы Бернулли (см. п. 5.3).

Теорема 7.5. Эмпирическая функция распределения выборки F*(x) является несмещенной состоятельной оценкой функции распределения F(x) случайной величины X.

Глава 7. Элементы теории оценок и проверки гипотез • 197

Пример 7.1. Монету подбрасывают п раз. Вероятность выпадения гер¬ба при каждом подбрасывания равна р. В ходе опыта монета выпала гербом ПА раз. Показать несмещенность оценки в = -=- вероятности в = р выпадения герба в каждом опыте.

О Число успехов (пд) имеет распределение Бернулли. Тогда М(пд) = = пр, В(пд) - прд = пр(1 - р). Следовательно, МО = М f - J =

= л • М(пд) - ~-п-р~р = в,т.е. оценка 0 = -~ - несмещенная. •

7.2. Методы нахождения точечных оценок

Рассмотрим наиболее распространенные методы получения точеч-ных оценок параметров распределения: метод моментов и метод мак-симального правдоподобия (кратко: ММП).

Метод моментов

Метод моментов для нахождения точечных оценок неизвестных параметров заданного распределения состоит в приравнивании теоре-тических моментов распределения соответствующим эмпирическим моментам, найденных по выборке.

Так, если распределение зависит от одного параметра в (например, задан вид плотности распределения f(x,9)), то для нахождения его оценки надо решить относительно в одно уравнение:

MX=JCB

оо

(MX = I х • f(x,9) dx = (р(в) есть функция от в).

-оо

Если распределение зависит от двух параметров (например, вид плотности распределения /(ж,^,^)) - надо решить относительно в\ и #2 систему уравнений:

(мх = хв,

[DX = DB.

198 * Раздел второй. Основы математической статистики

И, наконец, если надо оценить п параметров в\, $2, • ■ ■, 9п решить одну из систем вида:

надо

г=1

п

мх = ^хи

мх* = \т. *?,

t=l

ИЛИ

MX = Х, DX = 1?в,

МХк = I £ X*;

1=1

M(x-MX)k = ±j:(xl-xB)k.

г=1

а

Метод моментов является наиболее простым методом оценки пара-метров. Он был предложен в 1894 г. Пирсоном. Оценки метода момен¬тов обычно состоятельны, однако их эффективность часто значительно меньше единицы.

Пример 7.2. Найти оценки параметров нормального распределения с. в. X методом моментов.

О Требуется по выборке Х\,Х2, ■ ■ ■ }хп найти точечные оценки неиз-вестных параметров а = MX = вх и а2 = DX = Q<i-

По методу моментов приравниваем их, соответственно, к выбороч-ному среднему и выборочной дисперсии {pt\ = MX - начальный мо-мент I порядка, HI = DX - центральный момент II порядка). Полу-чаем

(MX =хв,

[DX = DB}

т.е.

\а = хв,

\а2 - DB. Итак, искомые оценки параметров нормального распределения:

#1 - Хв И 02 = \Щ1- •

Метод максимального правдоподобия

Пусть х\,Х2>- ■ • ,хп - выборка, полученная в результате проведе¬ния п независимых наблюдений за св. X. И пусть вид закона рас¬пределения величины X, например, вид плотности f(x, 0), известен, но

Глава 7. Элементы теории оценок и проверки гипотез "199

неизвестен параметр 9, которым определяется этот закон. Требуется по выборке оценить параметр в.

В основе метода максимального правдоподобия (ММП), предло¬

женного Р. Фишером, лежит понятие функции правдоподобия.

ф Функцией правдоподобия, построенной по выборке х\,Х2,. ■ - ,хп, на-

зывается функция аргумента 9 вида

Ь(хих2,...,хп;в) = f(xu9) ■ f(x2,0) •... • f(xn,9)

или

Hx,e) = f[f(xl,6)t

1=1

где f(x, 9) - плотность распределения с. в. X в случае, если X - не-прерывная. Если X - дискретная с. в., то функция правдоподобия име¬ет вид

п Цх,9) =р{хив) -р{х2,9) • ...-р{хп,9) = Др(ач,0),

х=1

гд,ер(хг79) ~р{Х = xiz9}.

Из определения следует, что чем больше значение функции L(x, #), тем более вероятно (правдоподобнее) появление (при фиксированном 9) в результате наблюдений чисел х\,Х2У ■.. -,хп.

За точечную оценку параметра 9, согласно ММП, берут такое его значение $, при котором функция правдоподобия достигает мак-симума.

Эта оценка, называемая оценкой максимального правдоподобия, является решением уравнения

dL(x,9) _ d9

Так как функции Ь(х,в) и

L(x,9) достигают максимума при од¬ном и том же значении #, то вместо отыскания максимума функции L(x,9) ищут (что проще) максимум функции

L(x,9).

Таким образом, для нахождения оценки максимального правдопо-добия надо: 1. решить уравнение правдоподобия

d(

L(x,9))

dO ~U)

200 ■ Раздел второй. Основы математической статистики

2. отобрать то решение, которое обращает функцию ЫЬ(х,в) в мак-симум (удобно использовать вторую производную: если

<P

L{x,0)

<0,

то в - в - точка максимума).

Если оценке подлежат несколько параметров $х, Q^-, • • ■ 1 @п распре¬деления, то оценки в\,... у9п определяются решением системы уравне¬ний правдоподобия:

d{

L)

0,

djlnL) двп

= 0.

Пример 7.3. Найти оценку параметра а распределения Пуассона ме-тодом максимального правдоподобия.

О В данном случае р{Х = т} = --'-.-. Поэтому р(Х1,в)=р{Х = хив} = 0^-^

Х{.

при Xi 6 N. Составляем функцию правдоподобия (для дискретной св. X):

г

Цх,9) =

х2\

pi . е-в 0х2 . е-в Qxn . е-в

Х„\

х\\

-вп

= е-™-е^Хг-

1

Х\\ • ... -Хп\

Тогда

1п£(ж,#) = -п- в + 2_]xi • ln# ~ ln(a?i! • Х2]- • • • ■ • х„!)

»=1

И

d

L(x,9) d§

11

i=l

Уравнение правдоподобия имеет вид:

(-»+i-i>)

в=е

= о.

Глава 7. Элементы теории оценок и проверки гипотез ■ 201

Отсюда находим

п

" ~ п 2^tXi = Хз'

А так как

<Р\пЦх,в)

d62

г-1

то оценка в - хв является оценкой максимального правдоподобия.

Итак, в = а = хв. •

Метод наименьших квадратов

Метод нахождения оценки 0 неизвестного параметра 0, основанный на минимизации суммы квадратов отклонений выборочных данных от определяемой (искомой) оценки в, называется методом наименьших квадратов (коротко: МНК).

Другими словами, в МНК требуется найти такое значение в, кото-рое минимизировало бы сумму

п F(0) = ^(Xi-0)2->min.

Отметим, что МНК является наиболее простым методом нахождения оценок параметра в.

Л*] Пример 7.4. Найти оценку параметра а распределения Пуассона ме-тодом наименьших квадратов.

п

ф Найдем точку минимума функции F(9) = /~J(-^i - &)2'

1=1

^ 1=1 '* v=\

п

из уравнения F'(6) = 0 находим критическую точку: -2 Е№ - ^) = ^'

п п п п

т.е. YJXi - >Jв = 0, т.е. 2_]Xi = пв, вкр = ^ 2_]^- А так как

t=l i=l i=l г=1

^"(М = (-2EW - $)) = "^t"1) - 2п > 0

V г=1 '0 i=l

202 " Раздел второй. Основы математической статистики

п

при любом значении 0, то 0кр = - \^ %i - точка минимума функ-

г=1

ции F(0). Таким образом, оценкой параметра а в распределении Пуас-сона Р{т\а) = ---~-, т - 0,1,2,... согласно МНК, является

ТТЬ-

Можно доказать, что:

М(в)=в = ау 0{в) = £ •

Упражнения

1. Найти оценку параметра распределения Пуассона методом момен-тов.

2. Пользуясь ММП, оценить вероятность появления герба, если при 10 бросаниях монеты герб появился 6 раз.

3. Найти оценку неизвестной вероятности успеха в схеме Бернулли методом моментов и ММП.

4. Дано: св. X ~ R[a,Ь]. По выборке х\,Х2,.■ ■,хп оценить величины а и 6 методом моментов.

5. Найти оценки параметров нормального распределения с. в. X ме-тодом максимального правдоподобия.

7.3. Понятие интервального оценивания параметров

Точечные оценки неизвестного параметра в хороши в качестве пер-воначальных результатов обработки наблюдений. Их недостаток в том, что неизвестно, с какой точностью они дают оцениваемый параметр.

Глава 7. Элементы теории оценок и проверки гипотез ■ 203

Для выборок небольшого объема вопрос о точности оценок очень су-щественен, так как между в и в может быть большое расхождение в этом случае. Кроме того, при решении практических задач часто тре-буется определить и надежность этих оценок. Тогда и возникает зада¬ча о приближении параметра в не одним числом, а целым интервалом

Оценка неизвестного параметра называется интервальной, если она определяется двумя числами - концами интервала.

Задачу интервального оценивания можно сформулировать так: по данным выборки построить числовой интервал (0i,#2)i относительно которого с заранее выбранной вероятностью 7 можно сказать, что вну-три этого интервала находится точное значение оцениваемого парамет-ра (см. рис. 62).

в

Рис. 62

Интервал (0ь#г), накрывающий с вероятностью 7 истинное зна¬чение параметра #, называется доверительным интервалом, а вероят¬ность 7 ~~ надежностью оценки или доверительной вероятностью.

Очень часто (но не всегда) доверительный интервал выбирается симметричным относительно несмещенной точечной оценки в, т. е. вы-бирается интервал вида (в - е,# + е) такой, что

р{в е (в- £,<? + £)} =р{|0-?| <е} =7-

Число е > 0 характеризует точность оценки: чем меньше разность [0 - 0|, тем точнее оценка.

Величина 7 выбирается заранее, ее выбор зависит от конкретно решаемой задачи. Так, степень доверия авиапассажира к надежности самолета, очевидно, должна быть выше степени доверия покупателя к надежности телевизора, лампочки, игрушки... Надежность j принято выбирать равной 0,9; 0,95; 0,99 или 0,999. Тогда практически достоверно нахождение параметра в в доверительном интервале (9 - £,# + £").

204 ■ Раздел второй. Основы математической статистики

7.4. Доверительные интервалы для параметров нормального распределения

Построим доверительные интервалы для параметров нормального распределения, т. е. когда выборка производится из генеральной сово-купности, имеющей нормальное распределение с параметрами аист2.

Доверительный интервал для математического ожидания при известной дисперсии

Пусть с. в. X ~ iV(a,er); a - известна, доверительная вероятность (надежность) 7 - задана.

Пусть х\, Х2, ■ • •, хп - выборка, полученная в результате проведе-ния п независимых наблюдений за св. X. Чтобы подчеркнуть случай¬ный характер величин x\,x2,-- ■ ,хп, перепишем их в виде Xi,X2,--. ... ,ХП, т.е. под Xi будем понимать значение св. X в г-м опыте. Случайные величины Х\, Х2,..., Хп - независимы, закон распреде¬ления любой из них совпадает с законом распределения с. в. X (т. е. Xi ~ N{a, а)). А это значит, что МХ\ ~ МХ2 = ... = МХп = MX = a, DXi = DX2 = ... = DXn = DX.

Выборочное среднее

xB - x = -¥iyjXj

также будет распределено по нормальному закону (примем без дока-зательства). Параметры распределения X таковы: М(Х) = a, D(X) =

2

= -yj-. Действительно,

м(х) = м (I J2 Xi) = k ■ Е мх< = к ■ Е мх = мх = а>

^ г=1 ' г=1 г=1

D(x) = DUJ2x,) = ^J2DX* = ^t.DX'k-ox = 4-

Таким образом, X ~ N ( а, -^= I.

V y/nj Следовательно, пользуясь формулой

р{|Х-а|<г} = 2Фо(^)=2ф(1)-1

Глава 7. Элементы теории оценок и проверки гипотез ■ 205

(формула (2.47)), можно записать

7 = Р{\Х - а\ < £} = 2Ф0 (^^) = 2Ф0(*),

где t = --=-. Из последнего равенства находим

е = ^?, (7.3)

поэтому 7 = Р { \Х - а\ < ~^ > = 2Ф0(£) или

I у/п)

р {х - * • -^ < а < X +1 ■ -?= ) = 2Ф0(0 = 7-

(7.4)

В соответствии с определением доверительного интервала получа-ем, что доверительный интервал для а = MX есть

X-t.VX + t.-Z;), (7.5)

где £ определяется из равенства (7.4), т.е. из уравнения

Фо« - \ (7-6)

1 + 7 (или Ф{£) = -к-); при заданном 7 по таблице функции Лапласа на¬ходим аргумент t.

Заметим, что из равенства (7.3) следует: с возрастанием объема выборки п число е убывает и, значит, точность оценки увеличивается; увеличение надежности j влечет уменьшение точности оценки.

[\*1 Пример 7.5. Произведено 5 независимых наблюдений над с. в. X ~ ~ iV(a,20). Результаты наблюдений таковы: х\ = -25, x<z - 34, #3 = = -20, Х4 = 10, хъ = 21. Найти оценку для а - МХ> а также построить для него 95%-й доверительный интервал.

О Находим сначала хв: х = ~ • (-25 + 34 - 20 + 10 + 21) = 4, т.е.

■у

х = 4. Учитывая, что 7 - 0,95 и Фо(*) = ^, получаем Фо(0 = 0,475. По таблице (см. Приложение) выясняем, что t = Ц = 1,96. Тогда е =

1 Qfi 9П

= ---- fa 17,5 (формула (7.3)). Доверительный интервал для а =

V5 = МХ (согласно (7.6)) таков: (4 - 17,5;4 + 17,5), т.е. (-13,5; 21,5). •

206 ' Раздел второй. Основы математической статистики

Доверительный интервал для математического ожидания при неизвестной дисперсии

Пусть с. в. X ~ N(a, а), а - неизвестна, 7 - задана. Найдем такое число е, чтобы выполнялось соотношение р{Х - е < а < X + е] = у или

(7.7)

р{\Х-а\ <£} = т Введем случайную величину

1С-а

Т =

где S - исправленное среднее квадратическое отклонение с. в. X, вы-численное по выборке:

^ ■§(*-*>'■

п 2 \ '2

Доказывается, что св. Г имеет распределение Стьюдента (см. п. 4.3) сп-1 степенью свободы. Плотность этого распределения имеет вид:

_t

П-1

г(5)

/т(*,"-1) =

1 +

v^T=iy-r(^)

оо

где Г(р) = / ир~х ■ e~udu - гамма-функция; fr(t, п - 1) - четная

о функция.

Перейдем в левой части равенства (7.7) от с. в. X к с. в. Т:

Р\

<

\Х - а\

S_ " _S_ I 7

или р | \Т\ < -^ I = 7 или р{\Т\ < Ц} = 7, где

h- s .

(7.8)

Глава 7. Элементы теории оценок и проверки гипотез ■ 207

Величина £7 находится из условия

р{\Т\ <h}= J Mt, n - 1) dt = 2 ■ f fT{t,n- 1) dt = 7,

т. е. из равенства

2- ffr(t,n-l)dt = y.

о

Пользуясь таблицей квантилей распределения Стьюдента (см. прило-жение 4 на с. 252), находим значение i7 в зависимости от доверительной вероятности 7 и числа степеней свободы п - 1 (£7 - квантиль уров¬ня 1 - 7)-

Определив значение £7 из равенства (7.8), находим значение г:

e = t7--^=. (7.9)

Следовательно, равенство (7.7) принимает вид

р \~Х - U • -^ < а < ~Х + Ц ■ -4= !> = 7-А это значит, что интервал

X - /.7 ■ --, X + £7 ■ --

ф\ у/И

покрывает а ~ MX с вероятностью 7) т- е- является доверительным интервалом для неизвестного математического ожидания с. в. X.

Пример 7.6. По условию примера 7.5, считая, что с. в. X ~ iV(a,er), построить для неизвестного MX - а доверительный интервал. Считать 7 = 0,95.

О Оценку х для MX уже знаем: х = 4. Находим значение 5: S2 = 1 ((-25 - 4)2 • 1 + (34 - 4)2 + (-20 - 4)2 + (10 - 4)2 + (21 - 4)2) =

= 660,5; S и 25,7. По таблице для 7 = 0,95 ип-1 = 4 находим t7 = 2,78.

25 7 Следовательно, £ = 2,78 ■ ттщ ~ 31,9. Доверительный интервал таков:

(-27,9; 35,9). ' •

208 ■ Раздел второй. Основы математической статистики

Доверительный интервал для среднего квадратического отклонения нормального распределения

Пусть св. X ~ А/"(а,<т), о - неизвестно, -у - задано. Можно по-казать, что если MX = а известно, то доверительный интервал для среднего квадратического отклонения а имеет вид:

у/п ■ So TJU • So

-, п

где п - объем выборки, 5д - ^ Yl i-^-i ~ а)2' a

9 2 2 2

xi = xi+7 ; х2 = xi-7

являются квантилями х2-РаспРе^леиия с п степенями свободы (см. п. 4.3), определяемые по таблице квантилей Ха п распределения х\ (см-приложение 3 на с. 251).

Если а - MX неизвестно, то доверительный интервал для неиз-вестного «7 имеет вид:

Х2 ' Xi

п

где п - объем выборки, S = --=- • 2_,{Xi - X) - исправленное среднее квадратическое отклонение, квантили

9 2 '22

Xl =Xl+7 , X2 = Xl-7

-2-;п-1 -5-i"-'

* 2 ; 1 !+7 1-7

определяются по таблице х^,* при к - п - 1 и а = -~- и а = -=-

соответственно.

Пример 7.7. Для оценки параметра нормально распределенной слу-чайной величины была сделана выборка объема в 30 единиц и вычи-слено S ~ 1,5. Найти доверительный интервал, покрывающий а с ве-роятностью 7 - 0,90.

Q) Имеем п - 30, у = 0,9. По таблице \\ k находим

Xi = Xi + o,9 =Х2(0,95;29) = 17,7,

-2--30-1

Глава 7. Элементы теории оценок и проверки гипотез ■ 209

Xl = Х2г-о,9 = Х2(0,05;29) = 42,6. ..^

Доверительный интервал имеет вид:

/УЗО-1-1,5 У30-1'-1,5\

или 1,238 < а < 1,920. •

Скажем несколько слов о доверительном интервале для оценки ве-роятности успеха при большом числе испытаний Бернулли.

Доверительный интервал, который с надежностью у покрывает оцениваемый параметр р при больших значениях п (порядка сотен), имеет вид (рьрг)? где

Pi=p'-t-f^± и P2=p- + t.J?^jn, (7.10)

где р* = -j£- -- относительная частота события Л; t определяется из равенства 2Фо(£) = 7-

Для оценки приближенного равенства р & р* можно использовать

равенство р{\р* - р\ < е} - 2Фо ( ] (см. п. 4.1).

Упражнения

1. Глубина моря измеряется прибором, систематическая ошибка ко-торого равна нулю, а случайные ошибки распределены нормально с а = 15 м. Сколько надо сделать независимых измерений, чтобы определить глубину моря с ошибкой не более 5 м при надежности 7 = 0,9?

2. По условию примера 6.3 найти точечную оценку и доверительный интервал для среднего роста студентов, считать 7 - 0,95.

3. Производятся независимые испытания с одинаковой, но с неизвест-ной вероятностью р появления события Л в каждом испытании. Найти доверительный интервал для оценки р с надежностью 0,95, если в 400 испытаниях события Л появилось 80 раз.

210 ■ Раздел второй. Основы математической статистики

7.5. Проверка статистических гипотез Задачи статистической проверки гипотез

Одна из часто встречающихся на практике задач, связанных с при-менением статистических методов, состоит в решении вопроса о том, должно ли на основании данной выборки быть принято или, напро¬тив, отвергнуто некоторое предположение (гипотеза) относительно ге-неральной совокупности (случайной величины).

Например, новое лекарство испытано на определенном числе лю-дей. Можно ли сделать по данным результатам лечения обоснованный вывод о том, что новое лекарство более эффективно, чем применявшие-ся ранее методы лечения? Аналогичный вопрос логично задать, говоря о новом правиле поступления в вуз, о новом методе обучения, о пользе быстрой ходьбы, о преимуществах новой модели автомобиля или тех-нологического процесса и т. д.

Процедура сопоставления высказанного предположения (гипотезы) с выборочными данными называется проверкой гипотез.

Задачи статистической проверки гипотез ставятся в следующем виде: относительно некоторой генеральной совокупности высказыва-ется та или иная гипотеза Н. Из этой генеральной совокупности из-влекается выборка. Требуется указать правило, при помощи которого можно было бы по выборке решить вопрос о том, следует ли отклонить гипотезу Н или принять ее.

Следует отметить, что статистическими методами гипотезу можно только опровергнуть или не опровергнуть, но не доказать. Например, для проверки утверждения (гипотеза Н) автора, что «в рукописи нет ошибок», рецензент прочел (изучил) несколько страниц рукописи.

Если он обнаружил хотя бы одну ошибку, то гипотеза Н отверга-ется, в противном случае - не отвергается, говорят, что «результат проверки с гипотезой согласуется».

Выдвинутая гипотеза может быть правильной или неправильной, поэтому возникает необходимость ее проверки.

Статистическая гипотеза. Статистический критерий

Рч| Под статистической гипотезой (или просто гипотезой) понима-

- ют всякое высказывание (предположение) о генеральной совокупности, проверяемое по выборке.

Глава 7. Элементы теории оценок и проверки гипотез «211

Статистические гипотезы делятся на гипотезы о параметрах рас-пределения известного вида (это так называемые параметрические ги-потезы) и гипотезы о виде неизвестного распределения (непараметри-ческие гипотезы).

Одну из гипотез выделяют в качестве основной (или нулевой) и обозначают #о, а другую, являющуюся логическим отрицанием Но, Т. е. противоположную Но - в качестве конкурирующей (или альтер-нативной) гипотезы и обозначают Н\.

Гипотезу, однозначно фиксирующую распределение наблюдений, называют простой (в ней идет речь об одном значении параметра), в противном случае - сложной.

Например, гипотеза i?o, состоящая в том что математическое ожи-дание св. X равно оо, т.е. MX ~ ао, является простой. В качестве альтернативной гипотезы можно рассматривать одну из следующих ги-потез: H\i MX > ао (сложная гипотеза), Н\: MX < ао (сложная), Н\\ MX ф ао (сложная) или .ffi: MX - <ц (простая гипотеза).

Имея две гипотезы Но И HI> надо на основе выборки Х\,... ,Хп принять либо основную гипотезу #о, либо конкурирующую Hi.

Правило, по которому принимается решение принять или откло¬нить гипотезу HQ (соответственно, отклонить или принять Н{), назы¬вается статистическим критерием (или просто критерием) проверки гипотезы Щ.

Проверку гипотез осуществляют на основании результатов выбор¬ки Xi,X2>. ■. ,Хп, из которых формируют функцию выборки Тп = = T(Xi,X2, ■ - • ,-^n)i называемой статистикой критерия.

Основной принцип проверки гипотез состоит в следующем. Мно-жество возможных значений статистики критерия Тп разбивается на два непересекающихся подмножества: критическую область 5, т. е. область отклонения гипотезы Но и область S принятия этой гипоте¬зы. Если фактически наблюдаемое значение статистики критерия (т. е. значение критерия, вычисленное по выборке: Хнабл - T{xi, %2-, • • ■, хп)) попадает в критическую область 5, то основная гипотеза Но отклоняет-ся и принимается альтернативная гипотеза Hi] если же Тнабл попадает в S, то принимается Но, a Hi отклоняется.

При проверке гипотезы может быть принято неправильное реше¬ние, т. е. могут быть допущены ошибки двух родов:

Ошибка первого рода состоит в том, что отвергается нулевая гипо-теза HQ , когда на самом деле она верна.

Ошибка второго рода состоит в том, что отвергается альтернатив-ная гипотеза Hi, когда она на самом деле верна.

212 ' Раздел второй. Основы математической статистики

Рассматриваемые случаи наглядно иллюстрирует следующая таб-лица.

Гипотеза Щ Отвергается Принимается

верна неверна ошибка 1-го рода правильное решение правильное решение ошибка 2-го рода

Вероятность ошибки 1-го рода (обозначается через а) называется уровнем значимости критерия.

Очевидно, а = p(Hi\Ho). Чем меньше а, тем меньше вероятность отклонить верную гипотезу. Допустимую ошибку 1-го рода обычно за-дают заранее.

В одних случаях считается возможным пренебречь событиями, ве-роятность которых меньше 0,05 (а = 0,05 означает, что в среднем в 5 случаях из 100 испытаний верная гипотеза будет отвергнута), в других случаях, когда речь идет, например, о разрушении сооружений, гибе¬ли судна и т.п., нельзя пренебречь обстоятельствами, которые могут появиться с вероятностью, равной 0,001.

Обычно для а используются стандартные значения: а = 0,05; а = 0,01; 0,005; 0,001.

Вероятность ошибки 2-го рода обозначается через /3, т.е. /3 = = p(#o|#i).

Величину 1 - /3, т. е. вероятность недопущения ошибки 2-го рода (отвергнуть неверную гипотезу HQ, принять верную Hi), называется мощностью критерия.

Очевидно, 1 -/? = p(#i|#i) ~p((xiyX2,...,xn) £ S\Hi).

Чем больше мощность критерия, тем вероятность ошибки 2-го рода меньше, что, конечно, желательно (как и уменьшение а).

Последствия ошибок 1-го, 2-го рода могут быть совершенно раз-личными: в одних случаях надо минимизировать а, в другом - /3. Так, применительно к радиолокации говорят, что а - вероятность пропуска сигнала, /3 - вероятность ложной тревоги; применительно к производству, к торговле можно сказать, что а - риск поставщика (т. е. забраковка по выборке всей партии изделий, удовлетворяющих стандарту), /3 - риск потребителя (т.е. прием по выборке всей партии изделий, не удовлетворяющей стандарту); применительно к судебной системе, ошибка 1-го рода приводит к оправданию виновного, ошибка 2-го рода - осуждению невиновного.

Отметим, что одновременное уменьшение ошибок 1-го и 2-го рода возможно лишь при увеличении объема выборок. Поэтому обычно при заданном уровне значимости а отыскивается критерий с наибольшей мощностью.

Глава 7. Элементы теории оценок и проверки гипотез ■ 213

Методика проверки гипотез сводится к следующему:

1. Располагая выборкой Xi, Х2, •. ■, Xnt формируют нулевую гипотезу Но и альтернативную Н\.

2. В каждом конкретном случае подбирают статистику критерия Т„ = = T{Xi, X2, -.., Хп), обычно из перечисленных ниже: U - нормаль¬ное распределение, х2 - распределение хи-квадрат (Пирсона), t - распределение Стьюдента, F - распределение Фишера-Снедекора.

3. По статистике критерия Тп и уровню значимости а определяют критическую область S (и S). Для ее отыскания достаточно найти критическую точку *кр, т.е. границу (или квантиль), отделяющую область S от S.

Границы областей определяются, соответственно, из соотношений: Р(Тп > £кр) = а, для правосторонней критической области S (рис. 63); Р{Тп < £Кр) = а» для левосторонней критической обла¬сти S (рис. 64); Р{Тп < *Jp) = Р{Тп > tnKp) = |, для двусторонней

критической области S (рис. 65). /т.

О

Рис. 63

Для каждого критерия имеются соответствующие таблицы, по ко-торым и находят критическую точку, удовлетворяющую приведен-ным выше соотношениям.

4. Для полученной реализации выборки х = (xi,X2,... ,хп) подсчи-тывают значение критерия, т. е. Гнабл = T(xi, ж2,..., хп) = t.

5. Если t £. S (например, t > £кр для правосторонней области 5), то нулевую гипотезу Щ отвергают; если же t £ S (t < £кр), то нет оснований, чтобы отвергнуть гипотезу HQ.

214 ■ Раздел второй. Основы математической статистики

/т»

Рис. 64 /т.

Рис. 65

7.6. Проверка гипотез о законе распределения

Во многих случаях закон распределения изучаемой случайно вели-чины неизвестен, но есть основания предположить, что он имеет вполне определенный вид: нормальный, биномиальный или какой-либо дру¬гой.

Пусть необходимо проверить гипотезу Щ о том, что св. X под-чиняется определенному закону распределения, заданному функцией распределения F0(x), т. е. Щ: Fx(%) - FQ(X). Под альтернативной гипо-тезой Hi будем понимать в данном случае то, что просто не выполнена основная (т.е. Hi: Fx{x) ф FQ(X)).

Глава 7. Элементы теории оценок и проверки гипотез ■ 215

Для проверки гипотезы о распределении случайной величины X проведем выборку, которую оформим в виде статистического ряда:

Xi Xi %2 %т

щ П\ п2 Tim

(7.11)

т где 2_. Щ = ть - объем выборки.

i=i

Требуется сделать заключение: согласуются ли результаты наблю-дений с высказанным предположением. Для этого используем специ-ально подобранную величину - критерий согласия.

Критерием согласия называют статистический критерий проверки гипотезы о предполагаемом законе неизвестного распределения. (Он используется для проверки согласия предполагаемого вида распреде-ления с опытными данными на основании выборки.)

Существуют различные критерии согласия: Пирсона, Колмогорова, Фишера, Смирнова и др.

Критерий согласия Пирсона - наиболее часто употребляемый кри-терий для проверки простой гипотезы о законе распределения.

Критерий х Пирсона

Для проверки гипотезы Но поступают следующим образом.

Разбивают всю область значений св. X на т интервалов Ai, Д2,..., Am и подсчитывают вероятности р^ (г - 1,2,..., т) попа¬дания св. X (т.е. наблюдения) в интервал Д^, используя формулу Р{а < X ^ /3} = Fo(0) - Fo(a). Тогда теоретическое число значений с. в. X, попавших в интервал А*, можно рассчитать по формуле п ■ р^. Таким образом, имеем статистический ряд распределения с. в. X (7.11) и теоретический ряд распределения:

Ai А2 Ат

п\ = пр\ П'2 = Пр2 п'т = пРт

(7-12)

Если эмпирические частоты (щ) сильно отличаются от теоретиче-ских (npi = nj), то проверяемую гипотезу Щ следует отвергнуть; в противном случае - принять.

Каким критерием, характеризующим степень расхождения между эмпирическими и теоретическими частотами, следует воспользовать¬ся? В качестве меры расхождения между щ и npi для г = 1,2,..., т

>J

Глава 7. Элементы теории оценок и проверки гипотез ■ 217

по выборке: х = ^~ • (-2 • 13 + (-0,5) ■ 15 + ... + 4 • 10) = 0,885 » 0,9, DB = jj^(4-13 + 0,25-15 + ...+ 16-10)-(0,885)2w 2,809, <т « 1,676 и 1,7.

Находим р% (г = 1,6). Так как св. X ~ N{a,a) определена на (-оо, со), то крайние интервалы в ряде распределения заменяем, соот¬ветственно, на (-оо, -1) и (3,+оо). Тогда р\ = р{-со < X < -1} =

= Ф0 \i^j ~ Фо(-оо) = | - Фо(1Д2) = 0,1314. Аналогично получаем: р2 - 0,1667, рз = 0,2258, р4 = 0,2183, р5 = 0,1503, р6 =

= р{3 ^ X < со} = Ф0(со) - Ф0 (^YY^) = °'5 " ^f1'24) = °>1075-Полученные результаты приведем в следующей таблице:

[XiyXi+i) (-оо,-1) [-1,0) [0,1) [1,2) Р,3) [3,со)

щ 13 15 24 25 13 10

п' = Прг 13,14 16,67 22,58 21,83 15,03 10,75

Вычисляем х1^л-

Хна&л

= £

t=i

- п =

13!

+

152

13,14 ' 16,67

+ ...+

10*

10,75

100 = 101,045-100,

Находим число степеней свободы; по выборке рассчитаны два па¬

раметра, значит, г = 2. Количество интервалов 6, т.е. т - 6. Следо¬

вательно, & = 6 - 2 - 1 - 3. Зная, что a - 0,01 и к = 3, по таблице

Х2-распределения находим xl,k = п>3- Итак> Хнабл < Ха,*> следова¬

тельно, нет оснований отвергнуть проверяемую гипотезу. •

Критерий Колмогорова

Критерий Колмогорова для простой гипотезы является наиболее простым критерием проверки гипотезы о виде закона распределения. Он связывает эмпирическую функцию распределения F£(x) с функци¬ей распределения F(x) непрерывной случайной величины X.

218 ■ Раздел второй. Основы математической статистики

Пусть х\,Х2,...,ХП - конкретная выборка из распределения с не-известной непрерывной функцией распределения F(x) и F£(x) - эмпи-рическая функция распределения. Выдвигается простая гипотеза Н0: F(x) - F0(x) (альтернативная #i: F(x) Ф FQ(X), X G R).

Сущность критерия Колмогорова состоит в том, что вводят в рас-смотрение функцию

Dn = max \F*(x) - FQ(x)\,

-оо<э;<оо

(7.14)

называемой статистикой Колмогорова, представляющей собой мак-симальное отклонение эмпирической функции распределения F^(x) от гипотетической {т. е. соответствующей теоретической) функции распре¬деления FQ(X).

Колмогоров доказал, что при п -> оо закон распределения слу-чайной величины у/п ■ Dn независимо от вида распределения с. в. X стремится к закону распределения Колмогорова:

P{\/n-Dn <x} -» К(х),

где К(х) - функция распределения Колмогорова, для которой соста-влена таблица, ее можно использовать для расчетов уже при n ^ 20:

а од 0,05 0,02 0,01 0,001

XQ 1,224 1,358 1,520 1,627 1,950

Найдем Do такое, что P(Dn > DQ) = a.

Рассмотрим уравнение К{х) - 1 - а. С помощью функции Колмого¬рова найдем корень хп этого уравнения. Тогда по теореме Колмогорова, P{Jn • Dn < хо} = 1 - а, Р{у/п - Dn > х0] = а, откуда Do = -=■

Если Dn < Do, то гипотезу HQ нет оснований отвергать; в против¬ном случае - ее отвергают.

Пример 7.9. Монету бросали 4040 раз (Бюффон). Получили щ = 2048 выпадений герба и ni = 1992 выпадений решки. Проверить, используя а) критерий Колмогорова; б) критерий Пирсона, согласуются ли эти данные с гипотезой HQ о симметричности монеты (а - 0,05).

О Случайная величина X принимает два значения: х\ = - 1 (решка) и x-i = 1 (герб). Гипотеза HQ: Р{х = -1} = Р{х = 1} = -.

а) По таблице распределения Колмогорова находим корень урав-

Х(\

нения К(х) = 1 - а при а ~ 0,05. Следует х$ = 1,358. Тогда Do = -=

'п

0,021.

1,358 v/4040

Глава 7. Элементы теории оценок и проверки гипотез ■ 219

Для нахождения по выборке Dn строим функции FQ(X) И F*{X) И вычисляем величину Dn - max|-F^(;r) - FQ{X)\.

Xi решка

Х\ ~ -1 герб х2 = 1

Pi 0,5 0,5

0, при х ^ - 1, F0(x) = { 0,5, при - 1 < х < 1,

1, при 1 < х.

Х{ решка

Х\ = -1 герб

х2 = 1

Щ 1992 2048

Рг ~ 0,493 ~ 0,507

0, при х < -1, •FnW = 4 0,493, при - 1 < х ^ 1,

1, при 1 < х.

Максимальное отклонение FQ(X) от F*{x) равно 0,007, т.е. Dn = = 0,007. Поскольку Dn < £>o, то нет оснований отвергать гипотезу HQ\ опытные данные согласуются с гипотезой Но о симметричности монеты.

б) Вычисляем статистику х2:

19922 +20482 ,4040^0,776.

2 2 П7

Хнабл / ^

i=l ПР{ П 5"4040 |-4040

По таблице x2~PaicnV>GRQJieiivi5i находим критическую точку Ха к =

= Хо 05-1 = 3,8- Так как Хнабл < Хо 05-1' то опытные данные согласуются

с гипотезой о симметричности монеты. •

Упражнения

1. Распределение признака X (случайной величины X) в выборке за¬дано следующей таблицей:

Х%-\ Х{ 0-0,1 0,1-0,2 0,2 - 0,3 0,3 - 0,4 0,4 - 0,5

щ 105 95 100 100 102

Xi-i - Xi 0,5-0,6 0,6 - 0,7 0,7-0,8 0,8 - 0,9 0,9 - 1,0

щ 98 104 96 105 95

При уровне значимости а = 0,01 проверить гипотезу #о, состоящую в том, что с. в. X имеет равномерное распределение на отрезке [0,1] (вероятности pi определяются формулами pi - hi (i = 1,2,..-, А:),

где hi - длина г-го отрезка [xi-i\ хЦ ( £ ~ hi = 1 1).

220 * Раздел второй. Основы математической статистики

2. Результаты наблюдений над св. X (рост мужчины) представлены в виде статистического ряда:

ЛГ(рост) [150 - 155) [155 - 160) [160 - 165) [165 - 170)

щ (частота) 6 22 36 46

Х(рост) [170 - 175) [175 - 180) [180 - 185) [185 - 190)

пг (частота) 56 24 8 2

Проверить при уровне значимости а = 0,05 гипотезу Но о том, что с. в. X подчиняется нормальному закону распределения, используя критерий согласия Пирсона.

3. По данным упражнения 2 проверить гипотезу о нормальном рас-пределении св. X, используя критерий Колмогорова.

Bạn đang đọc truyện trên: Truyen247.Pro