Арифметическое среднее, медиана и мода

После сбора статистических данных происходит их обработка – анализ данных[понятие: Анализ данных (andmeanalüüs) – обработка и исследование статистических данных, в ходе которых вычисляются характеристики, отражающие распределение значений признака и на основании этого делаются выводы. ]. В ходе этого анализа данные соответствующим образом сортируют и по ним находят некоторые величины – характеристики[понятие: Характеристики (karakteristikud) – величины, характеризующие распределение значений исследуемого признака как единое целое с той или иной точки зрения.], которые характеризуют распределение значений рассматриваемого признака как единое целое с той или иной точки зрения. Основные характеристики можно разбить на две группы: 1) характеристики расположения, или средние; 2) характеристики рассéяния данных.

Характеристики расположения[понятие: Характеристики расположения (paiknemise karakteristikud) – величины, которые дают информацию о расположении значений признака на числовой прямой и характеризуют этот признак с точки зрения некоторого „среднего” значения. Например, среднее арифметическое, мода, медиана.] дают информацию о расположении значений признака на числовой прямой и характеризуют этот признак с точки зрения некоторого „среднего” значения.

Характеристики рассеяния[понятие: Характеристики рассеяния (hajuvuse karakteristikud) – величины, которые показывают, насколько отличаются друг от друга значения признака, насколько они разбросаны относительно среднего значения. Например, размах статистической совокупности, отклонение, дисперсия, стандартное отклонение.] показывают, насколько отличаются друг от друга значения признака, насколько они разбросаны относительно среднего значения.

Рассмотрим теперь характеристики расположения. Этими характеристиками являются арифметическое среднее, медиана и мода.

Арифметическим средним[понятие: Арифметическое среднее, или среднее арифметическое (aritmeetiline keskmine) – частное от деления суммы всех значений признака совокупности на число этих значений (объектов).] называется частное от деления суммы всех значений признака совокупности на число этих значений (объектов).

Арифметическое среднее обозначают символом \overline{x}. При обработке данных на компьютере пользуются функциями AVERAGE или MEAN (на русифицированном компьютере может быть и СРЗНАЧ).

Если значениями количественного признака являются a1, a2, a3, …, aN, то арифметическое среднее:

x¯=a1 + a2 + a3 +  + aNN.

Если статистические данные представлены с помощью частотной таблицы

то арифметическое среднее вычисляется по формуле

x¯=x1f1 + x2f2 +  + xnfnN,
 где N = f1 + f2 + f3 + ... + fn.

Эту формулу называют также формулой взвешенного среднего (арифметического)[понятие: Взвешенное среднее арифметическое (kaalutud aritmeetiline keskmine) – арифметическое среднее, вычисленное на основании частотной таблицы, в которой частоты показывают, каков "удельный вес" данного значения признака в множестве всех значений.], поскольку частоты fi показывают, каков «удельный вес» значения xi в множестве всех значений.

Если данные представлены с помощью таблицы относительных частот

то при обозначении wi=fi N арифметическое среднее выражается в виде x¯=x1w1+x2w2++xnwn, а в случае 

wi=fi N·100% в виде x¯=x1w1 + x2w2 +  + xnwn100.

Действительно, если w_i=\frac{f_i}{N}, то получим: \overline{x}=\frac{x_1f_1+x_2f_2+...+x_nf_n}{N} = x_1\frac{f_1}{N}+x_2\frac{f_2}{N}+...+x_n\frac{f_n}{N} = x_1w_1+x_2w_2+...+x_nw_n

Аналогично рассматривается случай, когда относительные частоты wi выражены в процентах.

Пример 1.

В случае примера 2 из параграфа 1.10 арифметическое среднее оценок контрольной работы класса А есть

\overline{x} = \frac{2\cdot3+3\cdot7+4\cdot10+5\cdot8}{28} = \frac{107}{28} ≈ 3,82 ≈ 3,8.

Арифметическое среднее оценок той же контрольной работы можно найти и по данным примера 3 того же параграфа:

\overline{x} = \frac{2\cdot11+3\cdot25+4\cdot36+5\cdot28}{100} = \frac{381}{100} ≈ 3,8.

Если статистические данные описаны частотной таблицей или таблицей относительных частот, в которой значения признака разбиты на интервалы, то в каждом интервале xi < xxi+1 все значения признака заменяют некоторым средним его значением, которое называется представителем этого интервала и которому приписывается соответствующая интервалу частота или относительная частота. В качестве такого среднего значения обычно берут

\frac{1}{2}\left(x_i+x_{i+1}\right),

Пример 2.

По данным примера 4 параграфа 1.10 найдем арифметическое среднее роста учащихся. Вычисления оформим в виде таблицы – применение такой таблицы особенно целесообразно при отсутствии калькулятора.

Получим: \overline{x}=\frac{5507,5}{33}\approx166,9

Таким образом, средний рост учеников составляет 166,9 см.

Медианой[понятие: Медиана (mediaan) – значение признака, которое делит вариационный ряд на две части, равные по числу членов. Обозначение: 𝑀𝑒 или 𝑚𝑒. Если вариационный ряд имеет четное число членов, то медианой считается арифметическое среднее двух серединных членов.] называется значение признака, которое делит вариационный ряд на две части, равные по числу членов.

Медиана обозначается символом Ме или me, в системе обработки данных – это функция MЕDIAN. Если вариационный ряд х1, х2, ... , хN имеет нечетное число членов (т. е. N нечетно), то медианой является член ряда, расположенный точно в его середине. Если же N четно, то медианой считается арифметическое среднее двух серединных членов. Другими словами,

Me=xi, где i=12(N+1), если N нечетное число,

Me=12(xi+xi+1), где i=N2, если N четное число.

Пример 3.

В лыжной команде вариационным рядом размера обуви является для юношей 39, 39, 40, 40, 40, 40, 41, 41, 41, а для девушек - 35, 35, 35, 35, 36, 39. Найдем соответствующие медианы.

В первом случае N = 9 и потому Ме х5 = 40, так как индекс серединного члена i = 0,5(9 + 1) = 5. Второй ряд имеет четное число членов (N = 6), следовательно, Me = 0,5(x3 + x4) = 0,5(35 + 35) = 35.

Пример 4.

Найдем медиану оценок контрольной работы по данным следующей таблицы.

Так как число оценок N = 28 четно, то Me = 0,5(x14x15). Если воспользоваться частотами, то, складывая последовательно частоты, найдем, что x14x15 = 4, откуда Me = 4.

Если же находить медиану по таблице относительных частот (последняя строка), то будем складывать последовательно проценты и проследим, при какой оценке преодолевается «барьер» в 50%: 11 + 25 = 36 < 50, но 11 + 25 + 36 > 50. Поэтому медиана расположена в интервале четверок, т. е. Me = 4.

Если распределение признака задано таблицей, разбитой на классы (интервалы), то действуют таким же образом, как и в примере 4, но результатом является так называемый медианный интервал[понятие: Медианный интервал (mediaanvahemik) – интервал, или класс, которому принадлежит медиана.]. В случае примера 2 таким интервалом будет промежуток 165 < x ≤ 170. Если оперировать представителями интервалов, то получим в качестве медианы число 167,5. Из соответствующего вариационного ряда (см. пример 4, § 1.10) найдем, что Me = 167.

Хотя из всех так называемых средних значений наиболее употребительным является арифметическое среднее, имеются ситуации, когда более подходящей характеристикой признака является медиана. Это относится, прежде всего, к случаю, когда в вариационном ряде имеются отдельные члены, которые намного больше или намного меньше остальных членов, а объем совокупности невелик. В этом случае арифметическое среднее под влиянием такого «ненормального» члена сдвигается на числовой оси в сторону, где нет значений признака или где их очень мало. В какой-то мере такую ситуацию отражает пример 3, где средним размером обуви у девушек является \overline{x}=35,8\approx36, в то же время, большинство значений колеблются от 35 до 36. Медианой же здесь является 35, что представляется более естественным средним значением.

Медиану легко найти, в то же время она удобна для приближенной оценки значения арифметического среднего. Чем симметричнее распределены значения признака, тем лучше медиана характеризует его среднее значение. Например, медиана размера обуви у юношей в примере 3 равна 40, а арифметическое среднее равно 40,1. Медиану часто удается найти с помощью одного или двух измерений. Например, чтобы найти медиану роста учеников, выстроим их в шеренгу по росту и затем измерим рост одного или двух учеников из середины шеренги.

Модой[понятие: Мода (mood) – наиболее часто встречающееся значение признака (т. е. значение, которое имеет наибольшую частоту). Обозначение: 𝑀𝑜 или 𝑚𝑜.] называется наиболее часто встречающееся значение признака (т. е. значение, которое имеет наибольшую частоту).

Мода обозначается символом Мо или mo, в системе обработки данных – это функция MODE. В примерe 4 модой оценок контрольной работы является “4”, так как это значение встречается чаще всего (f = 10 или w = 36%). Если данные разбиты на интервалы, то модой считают тот интервал, которому соответствует наибольшая частота. В примерe 2 таким интервалом является промежуток 165 < x ≤ 170.

Признак может иметь и более одной моды или вообще не иметь моды (все значения признака наблюдаются с одинаковой частотой). В случае двух мод говорят, что признак (или рассматриваемое распределение) является бимодальным.

Если распределение совершенно симметрично и имеется только одна мода, то \overline{x}=Me=Mo, т. е. все три средние совпадают.

Мода используется в экономических исследованиях, в торговле, при исследовании спроса и т. д. В некоторых случаях моду можно рассматривать как общепринятую норму. Например, модой мужской прически является нормальная прическа, модой возраста впервые вступающих в брак – нормальный для этого возраст.

Упражнения A

Задание 158. Результаты начинающего стрелка

Ответ: среднее число очков, приходящееся на один выстрел, равно.

Задание 159. Средняя оценка контрольной работы

Ответ: средняя оценка для класса A равна  и для класса Б она равна  . Следовательно, 

Ülesanne 160. Средний рост девушек и средний рост юношей класса

Задание 161. Арифметическое среднее роста учеников

\overline{x}=\frac{5507,5}{33}\approx166,9

Рост X

fi

Представитель интервала xi

fixi

 < x ≤ 

 < x ≤ 

 < x ≤ 

Всего

\overline{x}\approx

Задание 162. Медиана размеров обуви

Ответ: медиана размера проданной обуви равна .

Задание 163. Медианы размера обуви у девушек и у юношей

Задание 164. Медианные интервалы возраста для мужчин и для женщин а также наиболее часто встречающийся врзрастной интервал

Какой возрастной интервал является медианным интервалом для возраста мужчин в Эстонии и какой – для возраста женщин (заданиe 155). Какой интервал является модой?

Ответ: для мужчин медианным интервалом является лет, а для женщин –   лет. Для мужчин модой является интервалl лет, а для женщин –   лет.

Задание 165. Распределение по месяцам рождения

Ответ: меньше всего детей рождалось в  ( детей), а больше всего – в (детей было). Разность этих количеств детей составляет  ребенка. В среднем за один месяц рождалось %, т. е.  ребенка.

Задание 166. Таблица относительных частот месяцев рождения

Ответ: Mo

Задание 167. Результаты начинающего стрелка

Me

Mo и 

\overline{x} = 

Задание 168. Распределение гласных и согласных букв в тексте

Ответ: Mo

Задание 169. Распределение населения Эстонии по национальностям

Ответ: Mo

Задание 170. Средняя масса индийского слона

Ответ: средняя масса индийского слона равна  кг.

Задание 171. Распределение массы слонов  с помощью пяти интервалов

Ответ: медианный интервал для массы слона есть, наибольшую частоту имеет интервал  , а арифметическое среднее массы составляет .

Задание 172. Средняя оценка, медиана и мода контрольной работы

По данным задания 152 найдите для рассмотренной контрольной работы величины \overline{x}, Me и Mo. Сформулируйте собственную оценку результатов этой контрольной работы.

Ответ: \overline{x} = , Me, Mo.

Оценка: 

Задание 173. Средняя оценка в двух классах

Ответ: средняя оценка контрольной работы по двум классам вместе равна.