До сих пор мы рассматривали весьма небольшие статистические совокупности, исследуя их на нахождение среднего значения и рассеяния. На практике же часто приходится изучать большие совокупности, например, множество всех жителей Эстонии. Напомним, что число элементов такого множества называют объемом совокупности. Полное исследование статистической совокупности большого объема обычно практически невозможно или неэкономично. Если вся исследуемая статистическая совокупность, называемая генеральной совокупностью[понятие: Генеральная совокупность (üldkogum) – природное или общественное явление или множество всех объектов, для которого требуется сделать обоснованные выводы с точки зрения некоторого признака.], велика по объему, то из нее делают выборку[понятие: Выборка (valim) – совокупность индивидов, объектов или явлений, выбранных из генеральной совокупности, которую изучают с точки зрения одного или нескольких признаков с целью получить некоторые выводы о всей генеральной совокупности. Выборку производят в случае, когда генеральная совокупность имеет большой объем.], т. е. выбирают некоторым случайным образом только некоторые ее объекты. Выборка имеет меньший объем и ее гораздо легче исследовать. Однако при этом возникает целый ряд проблем, на двух из которых мы остановимся.
Первый вопрос заключается в том, каким образом нужно сделать выборку, чтобы ее свойства как можно точнее описывали свойства всей генеральной совокупности. Например, если мы хотим исследовать ежедневные расходы всех учащихся школ, то необоснованно сделать выборку только среди учащихся Таллинна или же из множества всех учениц Эстонии. Правильно сделать выборку, в которой представлены учащиеся всех школьных ступеней, всех регионов, как девочки, так и мальчики, и притом в тех же пропорциях, в каких они представлены в генеральной совокупности. В общем случае говорят, что выборка должна быть представительной (или репрезентативной). При этом объем этой выборки также влияет на справедливость заключений, сделанных относительно всей генеральной совокупности.
Другой вопрос заключается в том, можно ли считать результаты, полученные для выборки, совершенно справедливыми и для всей генеральной совокупности. В общем случае ответ отрицательный. Oтбор объектов для выборки (в нашем примере учащихся из разных типов школ, различных учебных ступеней, различных по полу и т. д.) производится случайным образом. Поэтому и характеристики выборки (
Здесь мы рассмотрим, как оценивается арифметическое среднее генеральной совокупности, если известны арифметическое среднее и стандартное отклонение, либо дисперсия выборки.
Арифметическое среднее генеральной совокупности большого объема точно найти нельзя. Поэтому для этой величины дают лишь оценку, которой является промежуток, в котором скорее всего расположено арифметическое среднее. Но выражение «скорее всего» является лишь неопределенным предположением о том, что арифметическое среднее заключено именно в таких границах. Поэтому степень нашей уверенности в этом уточняют с помощью вероятности (обычно в процентах). В итоге оценку арифметического среднего генеральной совокупности получают в следующем виде: с вероятностью 95% (или 60%, или 99%, или 99,5% и т. п.) арифметическое среднее расположено в промежутке ... Но почему эта вероятность не может быть равной 1, т. е. 100%? Дело в том, что тогда было бы совершенно достоверным, где расположено арифметическое среднее. Рассмотрим такой пример: с вероятностью 1, или 100% можно (не производя никаких подсчетов) утверждать, что средний рост учащихся 11 классов в Эстонии расположен в промежутке от 140 см до 220 см. Это утверждение, очевидно, верно, но столь неопределенный результат не имеет никакой практической ценности. Если же уменьшить степень уверенности, например, найти промежуток с вероятностью 95%, то этот промежуток будет более узким. Несмотря на потерю уверенности, мы получим более точные границы, которые уже о чем-то говорят.
Рассмотрим, как найти упомянутый выше промежуток.
Вероятность, с которой утверждается, что среднее арифметическое генеральной совокупности расположено в некотором промежутке, меньше 1 и потому выражается в виде 1 – α. Эта вероятность называется доверительным уровнем[понятие: Доверитеьный уровень (usaldusnivoo) – показывает вероятность попадания среднего значения в некоторый интервал. Обозначение: 1 – ɑ.], а величина α – уровнем существенности[понятие: Уровень существенности, или уровень риска (оlulisuse nivoo, riski nivoo) – допустимая вероятность ошибки, превышение которой не позволяет делать аргументированные выводы. Обозначение: ɑ.] (или уровнем риска). Промежуток, в котором расположено арифметическое среднее генеральной совокупности, называется доверительным интервалом[понятие: Доверительный интервал (usaldusvahemik) – промежуток, в котором расположено арифметическое среднее генеральной совокупности.], а его концы – доверительными пределами[понятие: Доверительные пределы (usalduspiirid) – концы доверительного интервала.]. Эти пределы находят по формулам
где n – объем выборки,
Арифметическое среднее выборки называется точечной оценкой[понятие: Точечная оценка (punkthinnang) – арифметическое среднее выборки.] арифметического среднего генеральной совокупности, а доверительный интервал – интервальной оценкой[понятие: Интервальная оценка (vahemikhinnang) – доверительный интервал рассматриваемого признака.].
Пример 1.
В большой школе врач хочет оценить средний рост мальчиков четырех параллельных классов. Для этого он сделал случайным образом выборку, состоящую из 30 мальчиков, и измерил их рост.
Средний рост с учетом стандартного отклонения оказался равным
нижний
верхний 174,1 + 1,87 ≈ 175,96 ≈ 176,0.
Таким образом, с вероятностью 99% средний рост мальчиков всех четырех параллельных классов расположен в промежутке
Поскольку длина этого промежутка почти 4 см, то врач решил найти более узкий промежуток. Для этого он взял в качестве доверительного уровня 95%, что дает α = 0,05 и из таблицы
Пример 2.
Чтобы проверить результаты, полученные в предыдущем примере, школьный врач сделал еще одну случайную выборку, в этот раз из 37 мальчиков. Теперь оказалось, что средний рост
Так как в случае первой выборки (пример 1) получилось, что
На самом деле по имеющимся данным можно математически оценить, нужно ли считать различие результатов 174,1 см и 174,9 см существенным (в таком случае результаты различны) или же несущественным (в таком случае отличие результатов вызвано случайными факторами). Это делают, сравнивая соответствующие доверительные интервалы. Если эти интервалы частично пересекаются, то отличие результатов следует считать несущественным. Если же доверительные интервалы не имеют общей части, то полученные средние следует считать различными. На рисункe 1.22 видно, что при доверительном уровне 99% доверительные интервалы имеют длинную общую часть, в которой и может располагаться среднее значение всей генеральной совокупности. Таким образом, отличие значений арифметических средних у двух выборок является несущественным, и у врача не должно быть повода для беспокойства.

Значения распределения Стьюдента

* Если следующие n – 1 значений в таблице отсутствуют, то это означает, что значения, соответствующие данному α, такие же, что и в строке со звездочкой.
Упражнения A
Задание 181. Электрические лампочки
При испытаниях получили, что среднее время горения лампочки
Ответ: доверительный интервал для среднего времени горения лампочки с доверительным уровнем 0,95 есть [; ].
Задание 182. Доверительные интервалы для средних оценок контрольной работы
Задание 183. Средний вес индийских слонов
Ответ: с вероятностью 95% средний вес индийского слона расположен в промежутке
[; ].
Задание 184. Результаты контрольной работы
![]() |
Oтличие средних оценок в классе А и классе Б (см. задание 174) является существенным или же несущественным (т. е. можно ли считать, что работа прошла одинаково успешно) с доверительным уровнем 95%?
Ответ: доверительные границы:
в классе A есть [; ] ja
в классе Б – [; ].
Эти интервалы , поэтому отличие результатов является