Курс „Элементы теории вероятностей и математической статистики”
До сих пор мы рассматривали небольшие статистические совокупности, исследуя их на нахождение среднего значения и рассеяния. На практике же часто приходится изучать очень большие совокупности, например, множество всех жителей Эстонии. Ясно, что полное исследование статистической совокупности большого объема обычно практически невозможно или неэкономично. Если вся статистическая совокупность, называемая генеральной совокупностью[понятие: Генеральная совокупность (üldkogum) – природное или общественное явление или множество всех объектов, для которого требуется сделать обоснованные выводы с точки зрения некоторого признака.], велика по объему, то из нее делают выборку[понятие: Выборка (valim) – совокупность индивидов, объектов или явлений, выбранных из генеральной совокупности, которую изучают с точки зрения одного или нескольких признаков с целью получить некоторые выводы о всей генеральной совокупности. Выборку производят в случае, когда генеральная совокупность имеет большой объем.], т. е. выбирают некоторым случайным образом только некоторые ее объекты. Выборка имеет значительно меньший объем и ее гораздо легче исследовать. Однако при этом возникает целый ряд проблем, на двух из которых мы остановимся.
Первый вопрос заключается в том, каким образом нужно сделать выборку, чтобы ее свойства как можно точнее описывали свойства всей генеральной совокупности. Например, если мы хотим исследовать совокупность всех учащихся общеобразовательных школ, то необоснованным является сделать выборку только среди учащихся Таллинна или же из множества всех учениц Эстонии. Правильно сделать выборку, в которой представлены учащиеся всех школьных ступеней, всех регионов, как девочки, так и мальчики, и, по возможности, в тех же пропорциях, в каких они представлены в генеральной совокупности. В общем случае говорят, что выборка должна быть репрезентативной (или представительной). При этом объем этой выборки также влияет на справедливость заключений, сделанных относительно всей генеральной совокупности.
Другой вопрос заключается в том, можно ли считать результаты, полученные для выборки, справедливыми и для всей генеральной совокупности. В общем случае ответ отрицательный. Отбор объектов для выборки (в нашем примере учащихся из разных типов школ, различных учебных ступеней, различных по полу и т. д.) производится случайным образом. Поэтому и характеристики выборки (
Рассмотрим вопрос о том, как оценивается арифметическое среднее генеральной совокупности, если известны арифметическое среднее и стандартное отклонение, либо дисперсия выборки.
Арифметическое среднее генеральной совокупности большого объема точно найти нельзя. Поэтому для этой величины находят лишь промежуток, в котором скорее всего расположено арифметическое среднее. Степень нашей уверенности в этом уточняют с помощью вероятности (обычно в процентах). В итоге оценку арифметического среднего генеральной совокупности получают в виде: с вероятностью 95% (или 60% или 99% или 99,5% и т. п.) арифметическое среднее расположено в промежутке ...
Но почему эта вероятность не может быть равной 1, т. е. 100%? Дело в том, что тогда было бы совершенно достоверным, где расположено арифметическое среднее. Рассмотрим такой пример: с вероятностью 1, или 100% можно (не производя никаких подсчетов) утверждать, что средний рост учащихся 11 классов в Эстонии расположен в промежутке от 130 см до 220 см. Это утверждение верно, но столь неопределенный результат не имеет никакой практической ценности. Если же найти промежуток с вероятностью 95%, то этот промежуток будет более узким. Мы получим более точные границы, которые уже о чем-то говорят.
Рассмотрим, как найти такой промежуток.
Вероятность, с которой утверждается, что арифметическое среднее генеральной совокупности расположено в некотором промежутке, меньше 1 и потому выражается в виде 1 – α. Эта вероятность называется доверительным уровнем[понятие: Доверитеьный уровень (usaldusnivoo) – показывает вероятность попадания среднего значения в некоторый интервал. Обозначение: 1 – ɑ.], а величина α – уровнем существенности[понятие: Уровень существенности, или уровень риска (оlulisuse nivoo, riski nivoo) – допустимая вероятность ошибки, превышение которой не позволяет делать аргументированные выводы. Обозначение: ɑ.] (или уровнем риска). Например, если доверительный уровень 1 – α = 0,95, или 95%, то уровень существенности α = 1 – 0,95 = 0,05, или соответственно 5%.
Промежуток, в котором расположено арифметическое среднее генеральной совокупности, называется доверительным интервалом[понятие: Доверительный интервал (usaldusvahemik) – промежуток, в котором расположено арифметическое среднее генеральной совокупности.], а его концы – доверительными пределами[понятие: Доверительные пределы (usalduspiirid) – концы доверительного интервала.]. Эти пределы находят по формулам
где n – объем выборки,
Арифметическое среднее выборки называется точечной оценкой[понятие: Точечная оценка (punkthinnang) – арифметическое среднее выборки.] арифметического среднего генеральной совокупности, а доверительный интервал – интервальной оценкой[понятие: Интервальная оценка (vahemikhinnang) – доверительный интервал рассматриваемого признака.].
Пример 1.
В большой школе врач хочет оценить средний рост мальчиков четырех параллельных классов. Для этого он произвел случайным образом выборку, состоящую из 30 мальчиков, и измерил их рост. Средний рост с учетом стандартного отклонения оказался равным
нижний
верхний 174,1 + 1,87 ≈ 175,97 ≈ 176,0.
Таким образом, с вероятностью 99% средний рост мальчиков всех четырех параллельных классов расположен в промежутке
Поскольку длина этого промежутка почти 4 см, то врач решил найти более узкий промежуток. Для этого он взял в качестве доверительного уровня 95%, что дает α = 0,05 и из таблицы
Пример 2.
Чтобы проверить результаты, полученные в предыдущем примере, школьный врач сделал еще одну случайную выборку, в этот раз из 37 мальчиков. Теперь оказалось, что средний рост
Так как в случае первой выборки (пример 1) получилось, что
На самом деле по имеющимся данным можно математически оценить, нужно ли считать различие результатов 174,1 см и 174,9 см существенным (в таком случае результаты различны) или же несущественным (в таком случае отличие результатов вызвано случайными факторами). Это делают, сравнивая соответствующие доверительные интервалы. Если эти интервалы частично пересекаются, то отличие результатов следует считать несущественным. Если же доверительные интервалы не имеют общей части, то полученные средние следует считать различными. На рисунке 1.19 видно, что при доверительном уровне 99% доверительные интервалы имеют длинную общую часть, в которой и может располагаться среднее значение всей генеральной совокупности. Таким образом, отличие значений арифметических средних у двух выборок является несущественным, и у врача не должно быть повода для беспокойства.

Значения распределения Стьюдента

* Если следующие n – 1 значений в таблице отсутствуют, то это означает, что значения, соответствующие данному α, такие же, что и в строке со звездочкой.
Упражнения
При испытаниях получили, что среднее время горения лампочки
Ответ: доверительный интервал для среднего времени горения лампочки с доверительным уровнем 0,95 есть [; ].
Ответ: с вероятностью 95% средний вес индийского слона расположен в промежутке
[; ].
![]() |
Отличие средних оценок в классе А и классе Б (см. задание 125) является существенным или же несущественным (т. е. можно ли считать, что работа прошла одинаково успешно) с доверительным уровнем 95%?
Ответ: доверительные интервалы:
в классе A [; ] и
в классе Б [; ].
Эти интервалы , поэтому отличие средних оценок является