Характеристики рассеяния

Курс „Элементы теории вероятностей и математической статистики”

Две статистические совокупности имеют следующие частотные таблицы:

Для обеих совокупностей N = 28, \overline{x}=10Me = 10. Но в случае первой совокупности значения признака более плотно расположены около арифметического среднего, а в случае второй совокупности – более редко. Можно сказать, что в первом случае значения признака имеют меньшее рассеяние, а во втором случае – бóльшее. Однако рассмотренные до сих пор характеристики этого не показывают.

В некоторых случаях рассеяние значений признака в какой-то мере характеризуется протяженностью вариационного ряда[понятие: Протяженность, или размах вариационного ряда (variatsioonrea ulatus) – расстояние между наименьшим и наибольшим значениями признака.], например, его «длиной» (или размахом[понятие: Размах вариационного ряда – см. протяженность вариационного ряда.]) – расстоянием между наименьшим и наибольшим значениями. Однако в случае рассматриваемого примера эта протяженность для обоих случаев одинакова, так как для обеих совокупностей 7 ≤ x ≤ 13.

Найдем характеристику, которая позволяет оценить рассеяние значений признака относительно арифметического среднего.

Отличие какого-либо отдельного значения xi от среднего значения \overline{x} хорошо показывает разность x_i-\overline{x}, которая называется отклонением[понятие: Отклонение (hälve) – разность между данным значением признака и некоторым фиксированным числом. Обычно рассматривают разность между значением признака и арифметическим средним.] (от арифметического среднего). При этом величина \left|x_i-\overline{x}\right| показывает, на сколько велико это отклонение, а знак разности x_i-\overline{x} («+» или «-») показывает, что x_i>\overline{x} или x_i>\overline{x}.

Рассеяние всего вариационного ряда, как единого целого, относительно \overline{x} характеризуется совокупностью всех отклонений, а стало быть, следующей таблицей.

Так как на основании полученной таблицы трудно сделать заключение относительно рассеяния значений признака, то нужно получить сводную, обобщающую характеристику. Можно предположить, что в качестве такой характеристики подходит среднее отклонение, т. е. арифметическое среднее всех отклонений. Однако, такое среднее отклонение всегда равно нулю, поскольку

сумма отклонений всех значений признака, вычисленных относительно арифметического среднего, равна нулю, т. е(x1-x¯)f1+(x2-x¯)f2++(xn-x¯)fn=0.

Действительно,

\left(x_1-\overline{x}\right)f_1+\left(x_2-\overline{x}\right)f_2+...+\left(x_n-\overline{x}\right)f_n = x_1f_1+x_2f_2+...+x_nf_x-\overline{x}\left(f_1+f_2+...+f_n\right) = x_1f_1+x_2f_2+...+x_nf_n-\frac{x_1f_1+x_2f_2+...+x_nf_n}{N}\cdot N = 0.

Чтобы избежать взаимного сокращения отклонений, в качестве величины, характеризующей рассеяние, берут арифметическое среднее квадратов этих отклонений (они являются неотрицательными числами), которое называется дисперсией[понятие: Дисперсия (dispersioon) – мера рассеяния значений признака 𝑋, равная арифметическому среднему квадратов всех отклонений значений признака. Обозначение: σ² (сигма квадрат).] и обозначается символом σ2 (или s2). При компьютерной обработке данных используется функция VARP.

Таким образом,

σ2=(x1 - x¯)2f1 + (x2 - x¯)2f2 +  + (xn - x¯)2fnN.

Чем больше величина σ2, тем больше рассеяние значений признака.

Полученная характеристика обладает, однако, тем недостатком, что единицей ее измерения является квадрат единицы измерения значений х рассматриваемого признака. Например, если мы вычисляем отклонение роста учеников класса (в сантиметрах) от среднего роста (также см), то единицей измерения рассеяния будет см2. Чтобы освободиться от этого недостатка, пользуются так называемым стандартным отклонением[понятие: Стандартное отклонение (standardhälve) – характеристика рассеяния значений признака, равная корню квадратному из дисперсии. Обозначение: σ (сигма).] (или средним квадратическим отклонением) σ (иногда обозначается символом s), которое определяется по формуле

σ=σ2=(x1 - x¯)2f1 + (x2 - x¯)2f2 +  + (xn - x¯)2fnN.

При компьютерной обработке данных используется функция STDEVP.

В большинстве случаев более половины значений признака отличаются от арифметического среднего меньше, чем на величину стандартного отклонения σ. Другими словами, большинство этих значений расположено в отрезке x¯-σ; x¯+σ. Поэтому арифметическое среднее часто указывают в виде x¯±σ.

Пример 1.

Найдем стандартные отклонения для статистических совокупностей, рассмотренных в начале данного раздела. Вычисления для простоты и наглядности оформим в виде таблицы. Отметим, что в обоих случаях \overline{x}=10.

В случае I совокупности получим, что σ=52281,36; для II совокупности σ=150282,31.

Результат еще раз подтверждает, что у второй статистической совокупности значения признака являются более рассеянными, чем у первой совокупности. При этом для I совокупности в отрезке x¯-σ; x¯+σ = [8,6; 11,4] расположено 20 объектов (т. е. 71%), а для второй совокупности в соответствующем отрезке [7,6; 12,4] расположено только 16 объектов (т. е. 57%).

Краткой записью для I случая часто пользуются в виде \overline{x}=10\pm1,36, для II случая \overline{x}=10\pm2,31.

Оказывается, что рассеяние значений признака относительно арифметического среднего всегда меньше рассеяния относительно любого другого числа. Другими словами,

значения признака гуще всего расположены около арифметического среднего.

Из предыдущих формул можно вывести следующую формулу для вычисления дисперсии σ2:

σ2=x2¯-x¯2,

где \overline{x}^2 – квадрат арифметического среднего, а \overline{x^2} – арифметическое среднее квадратов значений признака, т. е.

\overline{x^2}=\frac{1}{N}\left(x_1^2f_1+x_2^2f_2+...+x_n^2f_n\right).

Пример 2.

Стрелок стреляет по мишени, на которой можно выбить 1, 2, 3, 4 и 5 очков. Промах дает 0 очков. Результаты двадцати выстрелов приведены в таблице.

Найдем, сколько очков в среднем выбивал стрелок за один выстрел и каково стандартное отклонение, характеризующее рассеяние результатов. Сколько процентов попаданий находится в промежутке x¯-σ; x¯+σ?

На основании сделанных в таблице вычислений получим, что за один выстрел было выбито в среднем \overline{x}=\frac{66}{20}=3,3 очка, арифметическое среднее квадратов значений признака \overline{x^2}=\frac{254}{20}=12,7, а дисперсия σ2=12,7-3,32=1,81. Поэтому стандартное отклонение σ=1,811,35 и \overline{x}=3,3\pm1,35. Из полученных очков в отрезке [3,3 – 1,35; 3,3 + 1,35], или 1,95 ≤ x ≤ 4,65 находится 3 + 5 + 6 = 14 выстрелов. Таким образом, в так называемых границах одной сигмы находится \frac{14}{20}\cdot100\%=70\% выстрелов.

Сравнение двух совокупностей с точки зрения рассеяния сводится к сравнению их стандартных отклонений. Так мы поступим, например, при решении задания 125. В данном случае это оправдано, так как соответствующие данные находятся в пределах одной шкалы. Но данные могут находиться в различных шкалах. Например, если мы хотим сравнить рассеяние роста мальчиков начальной школы и рассеяние роста взрослых мужчин, то средние арифметические будут различными – слишком различны здесь числовые данные роста. В этом случае более подходящим будет найти так называемые относительное рассеяние в сравнении с арифметическим средним. Эта величина определяется равенством

v=σx¯,

и называется коэффициентом вариации[понятие: Коэффициент вариации (variatsioonkordaja) – частное от деления стандартного отклонения на арифметическое среднее значений признака; может выражаться и в процентах. В виде формулы: 𝑣 = σ : ̅𝑥.]. Как и все величины, выражающиеся в виде отношений, его можно выражать в процентах. Коэффициент вариации имеет смысл, если все значения признака положительны. Аналогичная ситуация наблюдается при сравнении рассеяния признаков, у которых значения выражены в разных единицах измерения (например, в сантиметрах и килограммах). Например, применение коэффициента вариации необходимо, если мы хотим выяснить, какой признак, рост или вес, имеет бóльшее рассеяние относительно среднего значения у юношей одного и того же 11 класса.

Упражнения

Найдите арифметические средние оценок (см. задание 110) и стандартные отклонения. Оцените, в котором из классов контрольная работа прошла успешнее. Сколько оценок попадает в каждом из этих случаев в отрезок x¯-σ; x¯+σ?

Ответ: в классе A арифметическое среднее оценок равно , а стандартное отклонение –  ; в классе Б арифметическое среднее оценок равно  , а стандартное отклонение –  . Следовательно, успешнее прошла контрольная работа в классе . В промежуток x¯-σ; x¯+σ в классе A попадает  оценок, или % всех оценок, а в классе Б – соответственно   оценок, или % всех оценок.

По данным таблицы оцените рассеяние результатов стрелка. Сколько результатов попадает в отрезок x¯-σ; x¯+σ?

Ответ: σ = . В промежутке x¯-σ; x¯+σ расположено  результата (или % выстрелов).

По данным заданий 102 и 123 найдите рассеяние оценок контрольной работы в своем классе. Найдите также промежуток x¯-σ; x¯+σ и сколько процентов оценок расположено в этом промежутке. Уточните данную в задании 123 оценку результатов контрольной работы.