Курс „Элементы теории вероятностей и математической статистики”
Часто требуется исследовать некоторую совокупность (множество) индивидов, предметов или явлений по каким-то свойствам или признакам. Так, например, нас может интересовать, каков средний рост 17-летних юношей в Эстонии, в котором из параллельных классов экзаменационная работа по математике прошла успешнее, каково распределение промышленных предприятий Эстонии по количеству их работников, как распределяются цветки сирени по числу лепестков и т. п.
Как производится сбор данных, их описание, исследование и выводы – ответы на эти вопросы находят при помощи методов одного из разделов математики – математической статистики. [cноска: Первые результаты в области математической статистики принадлежат французскому математику Пьеру-Симону Лапласу (Pierre-Simon Laplace, 1749–1827) и немецкому математику Карлу Фридриху Гауссу (Carl Friedrich Gauss, 1777–1855). Однако самостоятельным направлением исследований математическая статистика стала лишь в начале 20 века.]Математическая статистика[понятие: Математическая статистика (matemaatiline statistika) – раздел математики, в котором разрабатываются методы обработки статистических данных. Математическая статистика основывается на теории вероятностей.] в большой степени основывается на теории вероятнгостей.
Исследуемое множество однотипных предметов или явлений, относительно которого требуется сделать научные или практические выводы, называется статистической совокупностью[понятие: Статистическая совокупность (statistiline kogum) – исследуемое множество всех выбранных однотипных предметов, индивидов или явлений, относительно которого требуется сделать какие-либо научные или практические выводы. Это множество исследуется по одному или нескольким признакам.], или генеральной совокупностью. Такую совокупность исследуют с точки зрения одного или нескольких признаков[понятие: Признак (tunnus) – некоторое свойство 𝑋 элементов статистической совокупности, относительно которого исследуется эта совокупность. Например, возраст исследуемого множества людей.] (свойств). Этим признаком может быть рост человека, оценка по математике, профессия или национальность человека, величина зарплаты, количество семян в некотором овоще, цвет глаз человека и т. п.
Признаки подразделяются на количественные[понятие: Количественный признак (arvuline tunnus) – признак, значения которого выражаются числами. Например, рост человека.], или числовые[понятие: Числовой признак – см. количественный признак.], и нечисловые. Числовой признак – это признак, имеющий числовые значения. Например, рост человека, количество зерен в колосе пшеницы, величина зарплаты. Признаки, не имеющие числовой характеристики (например, цвет глаз, национальность), называются качественными[понятие: Качественный признак (mittearvuline tunnus) – признак, не имеющий числовой характеристики. Например, цвет глаз человека.], или нечисловыми[понятие: Нечисловой признак – см. качественный признак.] признаками.
Количественные признаки разделяются на два вида: на непрерывные и дискретные. Непрерывный признак[понятие: Непрерывный признак (pidev tunnus) – признак, возможными числовыми значениями которого являются все действительные числа из некоторого числового промежутка. Например, вес человека, температура воздуха.] характеризуется тем, что его числовыми значениями являются все действительные числа из некоторого числового промежутка. Такими признаками являются, например, рост или вес человека, температура и т. д. Дискретным признаком[понятие: Дискретный признак (diskreetne tunnus) – количественный признак, которому присущи только некоторые отдельные (обычно целыe) значения, не заполняющие никакого числового промежутка. Например, количество букв в слове.] называется признак, которому присущи только некоторые отдельные (обычно целые) значения. Дискретными признаками являются, например, количество семян в овоще, число букв в слове или страниц в книге.
Различие между дискретным и непрерывным признаками является условным, так как непрерывный признак (например, возраст человека) в ходе исследования часто заменяют дискретным (возраст можно учитывать в целых годах).
Признак, по которому изучается совокупность, часто обозначают латинской буквой Х, Y или Z. Произвольное же значение признака (в том числе, и в случае качественного признака) обозначают маленькой буквой х, у или z. Чтобы отметить конкретное значение, к ней добавляют индекс (х1, х2 и т. п.).
Изучение объектов статистической совокупности дает в результате множество значений признака, которые образуют так называемый статистический ряд[понятие: Статистический ряд (statistiline rida) – последовательность значений признака, полученная при предварительном изучении элементов статистической совокупности. ]:
a1, a2, a3, …, aN.
Каждое отдельное число (значение) из этого ряда называется членом[понятие: Член статистического ряда (statistilise rea liige) – любое из отдельных значений, из которых составлен статистический ряд.] статистического ряда. Количество N значений признака называется объемом совокупности[понятие: Объем статистического ряда или статистической совокупности (statistilise rea või kogumi maht) – количество членов статистического ряда или элементов статистической совокупности.] или объемом статистического ряда. Так как статистический ряд не является достаточно наглядным (данные в нем обычно появляются в порядке измерения), его следует упорядочить. Для этого все члены записывают либо в порядке возрастания, либо в порядке убывания, причем равные значения записывают подряд. В результате получается так называемый вариационный ряд[понятие: Вариационный ряд (variatsioonrida) – ряд, полученный из статистического ряда в результате упорядочения его членов по возрастанию или по убыванию. При этом равные значения записываются подряд.].
Пример 1.
Результаты контрольной работы в одном классе можно представить в виде следующего вариационного ряда:
2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5.
В данном случае легко найти наименьшее значение (аmin = 2) и наибольшее значение оценки (аmax = 5), но в случае обширной статистической совокупности такое представление является неудобным.
Понятнее представить данные примера 1 в виде частотной таблицы[понятие: Частотная таблица (sagedustabel) – таблица, в которой каждому значению признака соответствует число появлений (частота) этого значения.], в которой каждому значению оценки (х) соответствует число ее появлений ( f [cноска: От латинского слова frequens – часто встречающееся.]), которое называется частотой[понятие: Частота значения признака (sagedus) – количество равных значений признака, т. е. сколько раз встречается конкретное значение в статистическом или вариационном ряду.].

По таблице легче понять распределение оценок. Например видно, что чаще всего встречается оценка «4». Объем совокупности (число N значений признака) вычислим: N = 3 + 7 + 10 + 8 = 28.
Частотную таблицу записывают либо горизонтально, либо вертикально:
![]() |
![]() |
При этом объем совокупности
N = f1 + f2 + f3 + … + fn.
Для наглядного представления изменения данных используют линейные диаграммы. В результате получается полигон частот[понятие: Полигон частот (sagedushulknurk) – линейная диаграмма, на которой данные частотной таблицы (значение признака и соответствующая частота) изображены в виде точек координатной плоскости, которые, в свою очередь, соединены отрезками. Но может быть изображен и лишь в виде вертикальных отрезков.] (или ломаная частот[понятие: Ломаная частот (sagedusmurdjoon) – см. полигон частот.]). На рисунке 1.14 изображен полигон частот, соответствующий данным примера 1.

Пример 2.
В частотной таблице приведены данные по такой же контрольной работе, что и в примере 1 (класс А), но проведенной в параллельном классе Б (здесь N = 22). В каком из классов работа прошла успешнее?

Данные двух таблиц сравнить трудно, так как соответствующие диаграммы (рис. 1.15) хотя и похожи, но в одном классе контрольную работу писали 28, а в другом классе – 22 ученика. Поэтому неясно, насколько уменьшение одного или другого количества оценок повлияло на общий результат.
![]() Рис. 1.15 |
Чтобы сравнивать статистические совокупности разных объемов, вместо частот рассматривают относительные частоты. Относительная частота[понятие: Относительная частота значения признака (suhteline sagedus) – отношение частоты конкретного значения признака к объему статистического ряда. Часто выражается в процентах, показывает, каков удельный вес конкретного значения признака в множестве всех значений.] определяется либо в виде отношения
Таблица, в которой наблюдаемым значениям признака соответствуют относительные частоты их появления, называется таблицей статистического распределения относительных частот[понятие: Таблица статистического распределения относительнызх частот, или таблица относительных частот (jaotustabel) – таблица, в которой наблюдаемым значениям признака соответствуют относительные частоты их появления.] (или просто таблицей относительных частот[понятие: Таблица относительных частот (jaotustabel) – см. таблица статистического распределения относительных частот.]).
В общем виде таблица выглядит так:

При этом w1 + w2 + w3 + … + wn = 1, если
Соответствующую таблице распределения линейную диаграмму называют полигоном относительных частот[понятие: Полигон относительных частот (jaotushulknurk) – линейная диаграмма, соответствующая таблице распределения относительных частот.] (точнее, полигоном распределения относительных частот).
Пример 3.
В таблице даны распределения относительных частот, соответствующие данным примера 2. На рисунке 1.16 изображены соответствующие полигоны распределения относительных частот.

![]() Рис. 1.16 |
Как из таблицы, так и из диаграммы видно, что во втором классе (Б) контрольная работа прошла несколько успешнее: удельный вес оценок «2», «3» и «5» здесь меньше, но зато существенно больше удельный вес оценки «4». Сказанное подкрепляется сравнением суммарных относительных частот оценок «4» и «5»: в первом из классов – 64%, во втором – 68%.
Если рассматриваемый признак является непрерывным или если дискретный признак имеет очень много значений, то в таблицах данных представляют не отдельные значения признака, а некоторые интервалы[понятие: Интервал (vahemik) – см. класс.], или классы[понятие: Классы, или интервалы (klassid) – непересекающиеся интервалы одинаковой длины, на которые разбивается множество всех значений исследуемого признака. Разбиение на классы применяется в случае непрерывного признака или дискретного признака с большим количеством значений.], таких значений. Так получают сгруппированные частотные таблицы и таблицы относительных частот. Концы интервалов называют их границами. С такой таблицей мы встретимся в задании 105.
Число, являющееся общей границей двух интервалов, считают принадлежащим предыдущему интервалу. Такая таблица дана в примере 4.
Число классов, или интервалов, на которые разбиваются значения признака, зависит от исследуемого явления или целей исследования. Чаще всего руководствуются правилом: если объем N совокупности не очень велик, то это число берут близким к
Пример 4.
Составили вариационный ряд для роста (см) учеников одного класса: 156, 158, 159, 160, 160, 162, 163, 163, 163, 165, 165, 165, 166, 166, 167, 167, 167, 167, 168, 168, 168, 169, 170, 171, 171, 172, 173, 173, 173, 174, 174, 176, 184. Составим частотную таблицу, а также таблицу относительных частот, в которой значения признака распределены по интервалам.
Так как N = 33 и
![]() |
Интервалы можно обозначать неравенствами, как это сделано в таблице примера 4, а также в виде 155 ... 160, 160 ... 165 и т. д. или в виде 155–160, 160–165 и т. д.
Если в частотной таблице или таблице распределения относительных частот значения признака разбиты на интервалы, то графически такая таблица изображается в виде столбчатой диаграммы, называемой гистограммой[понятие: Гистограмма (histogramm) – столбчатая диаграмма, изображающая данные частотной таблицы или таблицы относительных частот. Обычно значения признака в этой таблице разбиваются на классы.]. Соответствующая таблице примера 4 гистограмма изображена на рисунке 1.17.

Крайние интервалы могут быть и открытыми, т. е. нижняя граница первого интервала и верхняя граница последнего интервала не фиксируются. Таковы, например, таблицы, показывающие распределение жителей некоторого региона по возрасту. Первому интервалу х ≤ 6 в этом случае принадлежат все дети дошкольного возраста, а последнему интервалу 85 < х люди преклонного возраста. В этом случае на гистограмме не чертят первого и последнего вертикальных отрезков.
Распределение признака изображают с помощью гистограммы или круговой (секторной) диаграммы и тогда, когда этот признак является качественным (нечисловым). Например, на рисунке 1.18 изображены столбчатая и круговая диаграммы, описывающие рождаемость детей в Тарту в 1990 г.

Упражнения
- год рождения
- зарплата
- имя
- размер обуви
- рост
- пол
- место работы
- образование
- возраст
- Количественный
- Качественный
- Непрерывный
- Дискретный
Составьте частотную таблицу и начертите диаграмму.
Размер обуви (x) | 38 | 39 | 40 | 41 | 42 | 43 | 44 |
Частота (f) |
Обуви какого размера было продано больше всего и какого размера - меньше всего?
Ответ: больше всего было продано обуви размера , а меньше всего – размеров и .
Ответ: у девушек чаще всего встречается размер , а у юношей – . У девушек нашего класса размер обуви меняется от до , а у юношей – от до .
Интервалы (см) | f | w(%) |
< x ≤ | ||
< x ≤ | ||
< x ≤ | ||
< x ≤ | ||
< x ≤ | ||
Всего |
Ответ: рост девушек изменяется от до , а рост юношей – от до . Рост девушки чаще всего принадлежит интервалу , а рост юноши – интервалу .

- Сколько мальчиков родилось в этом году на каждые 100 девочек?
Ответ: на каждые 100 девочек родилось в этом году мальчиков. - С какого возрастного интервала число женщин начало превосходить число мужчин?
Ответ: число женщин начало превосходить число мужчин с интервала . - Сколько процентов всех жителей составляли дети в возрасте меньше 1 года?
Ответ: дети в возрасте меньше 1 года составляли % всех жителей. - Сколько женщин приходилось на одного мужчину в возрастном интервале 20–34 года и сколько – в интервале 40–49 лет?
Ответ: в возрастном интервале 20–34 на одного мужчину приходилось женщин, а в возрастном интервале 40–49 на одного мужчину приходилось женщин.
Ответ: в 2016 году жители 85-летнего и более старшего возраста составлялиримерно % населения Эстонии, а в 2017 году – примерно % населения. Сравнивая эти проценты, можно сделать вывод, что


1934. a
- %
- %
- %
- %
- %
- %
1989. a
- %
- %
- %
- %
- %
- %
2014. a
- %
- %
- %
- %
- %
- %
2017. a
- %
- %
- %
- %
- %
- %