Арифметическое среднее, медиана и мода

Курс „Элементы теории вероятностей и математической статистики”

После сбора статистических данных происходит их обработка – анализ данных[понятие: Анализ данных (andmeanalüüs) – обработка и исследование статистических данных, в ходе которых вычисляются характеристики, отражающие распределение значений признака и на основании этого делаются выводы. ]. В ходе этого анализа данные сортируют и по ним находят некоторые величины – характеристики[понятие: Характеристики (karakteristikud) – величины, характеризующие распределение значений исследуемого признака как единое целое с той или иной точки зрения.], которые характеризуют распределение значений рассматриваемого признака как единое целое. Основные характеристики можно разбить на две группы: 1) характеристики расположения, или средние; 2) характеристики рассéяния данных.

Характеристики расположения[понятие: Характеристики расположения (paiknemise karakteristikud) – величины, которые дают информацию о расположении значений признака на числовой прямой и характеризуют этот признак с точки зрения некоторого „среднего” значения. Например, среднее арифметическое, мода, медиана.] дают информацию о расположении значений признака на числовой прямой и характеризуют этот признак с точки зрения некоторого «среднего» значения.

Характеристики рассéяния[понятие: Характеристики рассеяния (hajuvuse karakteristikud) – величины, которые показывают, насколько отличаются друг от друга значения признака, насколько они разбросаны относительно среднего значения. Например, размах статистической совокупности, отклонение, дисперсия, стандартное отклонение.] показывают, насколько отличаются друг от друга значения признака, насколько они разбросаны относительно среднего значения.

Рассмотрим характеристики расположения. Этими характеристиками являются арифметическое среднее, медиана и мода.

Арифметическим средним[понятие: Арифметическое среднее, или среднее арифметическое (aritmeetiline keskmine) – частное от деления суммы всех значений признака совокупности на число этих значений (объектов).] называется частное от деления суммы всех значений признака совокупности на число этих значений (объектов).

Арифметическое среднее обозначают символом \overline{x}(его часто называют и средним арифметическим). При обработке данных на компьютере пользуются функциями AVERAGE или MEAN.

Как мы выяснили ранее, всегда полезно представить данные статистического ряда в виде частотной таблицы.

Тогда арифметическое среднее вычисляется по формуле

x¯=x1f1 + x2f2 +  + xnfnN.

Эту формулу называют также формулой взвешенного среднего (арифметического)[понятие: Взвешенное среднее арифметическое (kaalutud aritmeetiline keskmine) – арифметическое среднее, вычисленное на основании частотной таблицы, в которой частоты показывают, каков "удельный вес" данного значения признака в множестве всех значений.]поскольку частоты fi показывают, каков «удельный вес» значения xi в множестве всех значений.

Напомним, что N = f1 + f2 + f3 + ... + fn.

Если данные представлены с помощью таблицы относительных частот

то

1) при обозначении wi=fi N арифметическое среднее выражается в виде x¯=x1w1+x2w2++xnwn,

2) а в случае wi=fi N·100% – в виде x¯=x1w1 + x2w2 +  + xnwn100.

Действительно, если w_i=\frac{f_i}{N}, то получим:

\overline{x}=\frac{x_1f_1+x_2f_2+...+x_nf_n}{N} = x_1\frac{f_1}{N}+x_2\frac{f_2}{N}+...+x_n\frac{f_n}{N} = x_1w_1+x_2w_2+...+x_nw_n.

Аналогично рассматривается случай, когда относительные частоты wi выражены в процентах.

Пример 1.

В случае примера 2 из раздела 3.1 арифметическое среднее оценок контрольной работы класса А есть

\overline{x} = \frac{2\cdot3+3\cdot7+4\cdot10+5\cdot8}{28} = \frac{107}{28} ≈ 3,82 ≈ 3,8.

Арифметическое среднее оценок той же контрольной работы можно найти и по данным примера 3 того же параграфа:

\overline{x} = \frac{2\cdot11+3\cdot25+4\cdot36+5\cdot28}{100} = \frac{381}{100} ≈ 3,8.

Если статистические данные разбиты на интервалы, то в каждом интервале xi < xxi+1 все значения признака заменяют его представителем, в качестве которого обычно берут

\frac{1}{2}\left(x_i+x_{i+1}\right),

рассматривая далее такие представители как отдельные значения признака.

Пример 2.

По данным примера 4 раздела 3.1 найдем арифметическое среднее роста учащихся. Вычисления оформим в виде таблицы – ее применение целесообразно при отсутствии калькулятора.

Получим: \overline{x}=\frac{5507,5}{33}\approx167.

Таким образом, средний рост учеников составляет 167 см.

Медианой[понятие: Медиана (mediaan) – значение признака, которое делит вариационный ряд на две части, равные по числу членов. Обозначение: 𝑀𝑒 или 𝑚𝑒. Если вариационный ряд имеет четное число членов, то медианой считается арифметическое среднее двух серединных членов.] называется значение признака, которое делит вариационный ряд на две части, равные по числу членов.

Медиана обозначается символом Ме или me, в системе обработки данных – это функция MЕDIAN. Если вариационный ряд х1, х2, ... , хN имеет нечетное число членов (т. е. N нечетно), то медианой является член ряда, расположенный точно в его середине. Если же N четно, то медианой считается арифметическое среднее двух серединных членов. Другими словами,

Me=xi, где i=12(N+1), если N нечетное число,

Me=12(xi+xi+1), где i=N2, если N четное число.

Пример 3.

В одном классе вариационным рядом размера обуви является для юношей 39, 39, 40, 40, 40, 40, 41, 41, 41, а для девушек – 35, 35, 35, 35, 36, 39. Найдем соответствующие медианы.

В первом случае N = 9 и потому Mex5 = 40, так как серединный член есть x5. Тот же индекс получается и из формулы i = 0,5(9 + 1) = 5. Второй ряд имеет четное число членов (N = 6), следовательно, 

Me = 0,5(x3 + x4) = 0,5(35 + 35) = 35.

Пример 4.

Найдем медиану оценок контрольной работы по данным таблицы, где приведены частоты и относительные частоты оценок.

Так как число оценок N = 28, четно, то Me = 0,5(x14x15). Складывая последовательно частоты, найдем, что x14x15 = 4, откуда Me = 4.

В случае относительных частот (последняя строка) будем складывать последовательно проценты и проследим, при какой оценке преодолевается «барьер» в 50%: 11 + 25 = 36 < 50, но, 11 + 25 + 36 > 50. Поэтому медиана расположена в интервале четверок, т. е. Me = 4.

Если распределение признака задано таблицей, разбитой на классы (интервалы), то действуют таким же образом, как и в примере 4, но результатом является так называемый медианный интервал. В случае примера 2 таким интервалом будет промежуток 165 < x ≤ 170. Если взять середину интервала, то получим в качестве медианы число 167,5. Из соответствующего вариационного ряда (см. пример 4, раздел 3.1) найдем, что Me = 167.

Хотя из всех средних значений чаще используют арифметическое среднее, иногда более подходящей характеристикой признака является медиана. Это относится к случаю, когда в вариационном ряду встречаются члены, которые намного больше или намного меньше остальных членов, а объем совокупности невелик. В этом случае арифметическое среднее сдвигается на числовой оси в сторону, где нет значений признака или где их очень мало. В какой-то мере такую ситуацию отражает пример 3, где средним размером обуви у девушек является \overline{x}=35,8\approx36, в то же время, большинство значений колеблются от 35 до 36. Медианой же здесь является 35, что и представляется более естественным средним значением.

Медиану легко найти, и она удобна для приближенной оценки значения арифметического среднего. Чем симметричнее распределены значения признака, тем лучше медиана характеризует его среднее значение. Например, медиана размера обуви у юношей в примере 3 равна 40, а арифметическое среднее равно 40,1. Медиану часто удается найти с помощью одного или двух измерений. Например, чтобы найти медиану роста учеников, выстроим их в шеренгу по росту и затем измерим рост одного или двух учеников из середины шеренги.

Модой[понятие: Мода (mood) – наиболее часто встречающееся значение признака (т. е. значение, которое имеет наибольшую частоту). Обозначение: 𝑀𝑜 или 𝑚𝑜.] называется наиболее часто встречающееся значение признака (т. е. значение, которое имеет наибольшую частоту).

Мода обозначается символом Мо или mo, в системе обработки данных – это функция MODE. В примере 4 модой оценок контрольной работы является «4», так как это значение встречается чаще всего (f = 10 или w = 36%). Если данные разбиты на интервалы, то модой считают тот интервал, которому соответствует наибольшая частота. В примере 2 таким интервалом является промежуток 167 < x ≤ 170.

Признак может иметь и более одной моды или вообще не иметь моды (все значения признака наблюдаются с одинаковой частотой). В случае двух мод говорят, что признак (или рассматриваемое распределение) является бимодальным[cноска: би- (от латинского bis) – двойной, дважды.].

Если распределение совершенно симметрично и имеется только одна мода, то \overline{x}=Me=Moт. е. все три средние совпадают.

Мода используется в экономических исследованиях, в торговле, при исследовании спроса и т. д. В некоторых случаях моду, а также арифметическое среднее можно рассматривать как общепринятую норму. Например, модой мужской прически является нормальная прическа, модой возраста впервые вступающих в брак – нормальный для этого возраст.

Пример 5.

По данным Департамента статистики Эстонии в 1970-х годах средний возраст впервые вступающих в брак мужчин был чаще всего 25 лет, а для женщин этот показатель составлял 23 года. Для мужчин данный показатель к 1991 году понизился до 24,5 лет, а для женщин к 1992 году до возраста 22,3 года. В дальнейшем средний возраст вступления в первый брак начал возрастать как у мужчин, так и у женщин, и к 2016 году достиг у мужчин 32,1 года, а у женщин 29,8 лет.

Упражнения

Ответ: на один выстрел приходитсяв среднем очка.

Ответ: средняя оценка в классе А была , а в классе B –  . Следовательно, 

\overline{x}=\frac{5507,5}{33}\approx166,9

Рост X

fi

Представитель интервала xi  

fixi

 < x ≤ 

 < x ≤ 

 < x ≤ 

Всего

\overline{x}\approx

Ответ: медиана размера проданной обуви равна .

Ответ: у мужчин медианным интервалом был лет, а у женщин –   лет. Модой у мужчин был интерваллет, а у женщин –   лет.

Ответ: меньше всего детей рождалось в  ( детей), а больше всего – в (всего детей ). Разность этих величин составляет  ребенка. В среднем за один месяц рождалось %, т. е.  ребенка.

Ответ: Mo

Me

Mo и 

\overline{x} = 

Ответ: Mo

Ответ: Mo

Ответ: средняя масса индийского слона составляет  кг.

Ответ: медианным интервалом для массы индийских слонов является , интервал с наибольшей частотой есть  , а арифметическое среднее масс равно .

По данным задания 102 найдите для рассмотренной контрольной работы величины \overline{x}, Me и Mo. Сформулируйте собственную оценку результатов этой контрольной работы.

Ответ: \overline{x} = , Me, Mo.

Ответ: средняя оценка контрольной работы по двум классам вместе равна .