Статистические данные

Курс „Элементы теории вероятностей и математической статистики”

Часто требуется исследовать некоторую совокупность (множество) индивидов, предметов или явлений по каким-то свойствам или признакам. Так, например, нас может интересовать, каков средний рост 17-летних юношей в Эстонии, в котором из параллельных классов экзаменационная работа по математике прошла успешнее, каково распределение промышленных предприятий Эстонии по количеству их работников, как распределяются цветки сирени по числу лепестков и т. п.

Как производится сбор данных, их описание, исследование и выводы – ответы на эти вопросы находят при помощи методов одного из разделов математики – математической статистики[cноска: Первые результаты в области математической статистики принадлежат французскому математику Пьеру-Симону Лапласу (Pierre-Simon Laplace, 1749–1827) и немецкому математику Карлу Фридриху Гауссу (Carl Friedrich Gauss, 1777–1855). Однако самостоятельным направлением исследований математическая статистика стала лишь в начале 20 века.]Математическая статистика[понятие: Математическая статистика (matemaatiline statistika) – раздел математики, в котором разрабатываются методы обработки статистических данных. Математическая статистика основывается на теории вероятностей.] в большой степени основывается на теории вероятнгостей.

Исследуемое множество однотипных предметов или явлений, относительно которого требуется сделать научные или практические выводы, называется статистической совокупностью[понятие: Статистическая совокупность (statistiline kogum) – исследуемое множество всех выбранных однотипных предметов, индивидов или явлений, относительно которого требуется сделать какие-либо научные или практические выводы. Это множество исследуется по одному или нескольким признакам.], или генеральной совокупностью. Такую совокупность исследуют с точки зрения одного или нескольких признаков[понятие: Признак (tunnus) – некоторое свойство 𝑋 элементов статистической совокупности, относительно которого исследуется эта совокупность. Например, возраст исследуемого множества людей.] (свойств). Этим признаком может быть рост человека, оценка по математике, профессия или национальность человека, величина зарплаты, количество семян в некотором овоще, цвет глаз человека и т. п.

Признаки подразделяются на количественные[понятие: Количественный признак (arvuline tunnus) – признак, значения которого выражаются числами. Например, рост человека.], или числовые[понятие: Числовой признак – см. количественный признак.], и нечисловые. Числовой признак – это признак, имеющий числовые значения. Например, рост человека, количество зерен в колосе пшеницы, величина зарплаты. Признаки, не имеющие числовой характеристики (например, цвет глаз, национальность), называются качественными[понятие: Качественный признак (mittearvuline tunnus) – признак, не имеющий числовой характеристики. Например, цвет глаз человека.], или нечисловыми[понятие: Нечисловой признак – см. качественный признак.] признаками.

Количественные признаки разделяются на два вида: на непрерывные и дискретные. Непрерывный признак[понятие: Непрерывный признак (pidev tunnus) – признак, возможными числовыми значениями которого являются все действительные числа из некоторого числового промежутка. Например, вес человека, температура воздуха.] характеризуется тем, что его числовыми значениями являются все действительные числа из некоторого числового промежутка. Такими признаками являются, например, рост или вес человека, температура и т. д. Дискретным признаком[понятие: Дискретный признак (diskreetne tunnus) – количественный признак, которому присущи только некоторые отдельные (обычно целыe) значения, не заполняющие никакого числового промежутка. Например, количество букв в слове.] называется признак, которому присущи только некоторые отдельные (обычно целые) значения. Дискретными признаками являются, например, количество семян в овоще, число букв в слове или страниц в книге.

Различие между дискретным и непрерывным признаками является условным, так как непрерывный признак (например, возраст человека) в ходе исследования часто заменяют дискретным (возраст можно учитывать в целых годах).

Признак, по которому изучается совокупность, часто обозначают латинской буквой Х, Y или Z. Произвольное же значение признака (в том числе, и в случае качественного признака) обозначают маленькой буквой х, у или z. Чтобы отметить конкретное значение, к ней добавляют индекс (х1, х2 и т. п.).

Изучение объектов статистической совокупности дает в результате множество значений признака, которые образуют так называемый статистический ряд[понятие: Статистический ряд (statistiline rida) – последовательность значений признака, полученная при предварительном изучении элементов статистической совокупности. ]:

a1a2a3, …, aN.

Каждое отдельное число (значение) из этого ряда называется членом[понятие: Член статистического ряда (statistilise rea liige) – любое из отдельных значений, из которых составлен статистический ряд.] статистического ряда. Количество N значений признака называется объемом совокупности[понятие: Объем статистического ряда или статистической совокупности (statistilise rea või kogumi maht) – количество членов статистического ряда или элементов статистической совокупности.] или объемом статистического ряда. Так как статистический ряд не является достаточно наглядным (данные в нем обычно появляются в порядке измерения), его следует упорядочить. Для этого все члены записывают либо в порядке возрастания, либо в порядке убывания, причем равные значения записывают подряд. В результате получается так называемый вариационный ряд[понятие: Вариационный ряд (variatsioonrida) – ряд, полученный из статистического ряда в результате упорядочения его членов по возрастанию или по убыванию. При этом равные значения записываются подряд.].

Пример 1.

Результаты контрольной работы в одном классе можно представить в виде следующего вариационного ряда:

2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5.

В данном случае легко найти наименьшее значение (аmin = 2) и наибольшее значение оценки (аmax = 5), но в случае обширной статистической совокупности такое представление является неудобным.

Понятнее представить данные примера 1 в виде частотной таблицы[понятие: Частотная таблица (sagedustabel) – таблица, в которой каждому значению признака соответствует число появлений (частота) этого значения.], в которой каждому значению оценки (х) соответствует число ее появлений [cноска: От латинского слова frequens – часто встречающееся.]), которое называется частотой[понятие: Частота значения признака (sagedus) – количество равных значений признака, т. е. сколько раз встречается конкретное значение в статистическом или вариационном ряду.].

По таблице легче понять распределение оценок. Например видно, что чаще всего встречается оценка «4». Объем совокупности (число N значений признака) вычислим: N = 3 + 7 + 10 + 8 = 28.

Частотную таблицу записывают либо горизонтально, либо вертикально:

При этом объем совокупности

N = f1 + f2 + f3 + … + fn.

Для наглядного представления изменения данных используют линейные диаграммы. В результате получается полигон частот[понятие: Полигон частот (sagedushulknurk) – линейная диаграмма, на которой данные частотной таблицы (значение признака и соответствующая частота) изображены в виде точек координатной плоскости, которые, в свою очередь, соединены отрезками. Но может быть изображен и лишь в виде вертикальных отрезков.] (или ломаная частот[понятие: Ломаная частот (sagedusmurdjoon) – см. полигон частот.]). На рисунке 1.14 изображен полигон частот, соответствующий данным примера 1.

Рис. 1.14

Пример 2.

В частотной таблице приведены данные по такой же контрольной работе, что и в примере 1 (класс А), но проведенной в параллельном классе Бдесь N = 22). В каком из классов работа прошла успешнее?

Данные двух таблиц сравнить трудно, так как соответствующие диаграммы (рис. 1.15) хотя и похожи, но в одном классе контрольную работу писали 28, а в другом классе – 22 ученика. Поэтому неясно, насколько уменьшение одного или другого количества оценок повлияло на общий результат.

Рис. 1.15

Чтобы сравнивать статистические совокупности разных объемов, вместо частот рассматривают относительные частоты. Относительная частота[понятие: Относительная частота значения признака (suhteline sagedus) – отношение частоты конкретного значения признака к объему статистического ряда. Часто выражается в процентах, показывает, каков удельный вес конкретного значения признака в множестве всех значений.] определяется либо в виде отношения w_i=\frac{f_i}{N}, либо выражается в процентах: w_i\left(\%\right)=\frac{f_i}{N}\cdot100\%, (i=1,\ 2,\ ...,\ n), и показывает, каков удельный вес значения признака xi в множестве всех значений.

Таблица, в которой наблюдаемым значениям признака соответствуют относительные частоты их появления, называется таблицей статистического распределения относительных частот[понятие: Таблица статистического распределения относительнызх частот, или таблица относительных частот (jaotustabel) – таблица, в которой наблюдаемым значениям признака соответствуют относительные частоты их появления.] (или просто таблицей относительных частот[понятие: Таблица относительных частот (jaotustabel) – см. таблица статистического распределения относительных частот.]).

В общем виде таблица выглядит так:

При этом w1w2w3 + … + wn = 1, если w_i=\frac{f_i}{N}, и w1 + w2 + w3 + … + wn = 100%, если w_i=\frac{f_i}{N}\cdot100\%.

Соответствующую таблице распределения линейную диаграмму называют полигоном относительных частот[понятие: Полигон относительных частот (jaotushulknurk) – линейная диаграмма, соответствующая таблице распределения относительных частот.]  (точнее, полигоном распределения относительных частот).

Пример 3.

В таблице даны распределения относительных частот, соответствующие данным примера 2. На рисунке 1.16 изображены соответствующие полигоны распределения относительных частот.

Рис. 1.16

Как из таблицы, так и из диаграммы видно, что во втором классе (Б) контрольная работа прошла несколько успешнее: удельный вес оценок «2», «3» и «5» здесь меньше, но зато существенно больше удельный вес оценки «4». Сказанное подкрепляется сравнением суммарных относительных частот оценок «4» и «5»: в первом из классов – 64%, во втором – 68%.

Если рассматриваемый признак является непрерывным или если дискретный признак имеет очень много значений, то в таблицах данных представляют не отдельные значения признака, а некоторые интервалы[понятие: Интервал (vahemik) – см. класс.], или классы[понятие: Классы, или интервалы (klassid) – непересекающиеся интервалы одинаковой длины, на которые разбивается множество всех значений исследуемого признака. Разбиение на классы применяется в случае непрерывного признака или дискретного признака с большим количеством значений.], таких значений. Так получают сгруппированные частотные таблицы и таблицы относительных частот. Концы интервалов называют их границами. С такой таблицей мы встретимся в задании 105.

Число, являющееся общей границей двух интервалов, считают принадлежащим предыдущему интервалу. Такая таблица дана в примере 4.

Число классов, или интервалов, на которые разбиваются значения признака, зависит от исследуемого явления или целей исследования. Чаще всего руководствуются правилом: если объем N совокупности не очень велик, то это число берут близким к \sqrt{N}.

Пример 4.

Составили вариационный ряд для роста (см) учеников одного класса: 156, 158, 159, 160, 160, 162, 163, 163, 163, 165, 165, 165, 166, 166, 167, 167, 167, 167, 168, 168, 168, 169, 170, 171, 171, 172, 173, 173, 173, 174, 174, 176, 184. Составим частотную таблицу, а также таблицу относительных частот, в которой значения признака распределены по интервалам.

Так как N = 33 и \sqrt{33}\approx5,7, то можно образовать 6 или 5 интервалов. Поскольку размах выборки xmaxxmin = 184 – 56 = 28 не делится на 5 и на 6, а в качестве границ интервалов желательно взять целые числа, то примем за размах величину 30. Тогда при 6 интервалах длина каждого интервала составит 5 единиц. Удлинив размах на 2 единицы, возьмем в качестве нижней границы первого интервала 155, а в качестве верхней границы последнего интервала 185. Получим следующую таблицу:

Интервалы можно обозначать неравенствами, как это сделано в таблице примера 4, а также в виде 155 ... 160, 160 ... 165 и т. д. или в виде 155–160, 160–165 и т. д.

Если в частотной таблице или таблице распределения относительных частот значения признака разбиты на интервалы, то графически такая таблица изображается в виде столбчатой диаграммы, называемой гистограммой[понятие: Гистограмма (histogramm) – столбчатая диаграмма, изображающая данные частотной таблицы или таблицы относительных частот. Обычно значения признака в этой таблице разбиваются на классы.]. Соответствующая таблице примера 4 гистограмма изображена на рисунке 1.17.

Рис. 1.17

Крайние интервалы могут быть и открытыми, т. е. нижняя граница первого интервала и верхняя граница последнего интервала не фиксируются. Таковы, например, таблицы, показывающие распределение жителей некоторого региона по возрасту. Первому интервалу х ≤ 6 в этом случае принадлежат все дети дошкольного возраста, а последнему интервалу 85 < х люди преклонного возраста. В этом случае на гистограмме не чертят первого и последнего вертикальных отрезков.

Распределение признака изображают с помощью гистограммы или круговой (секторной) диаграммы и тогда, когда этот признак является качественным (нечисловым). Например, на рисунке 1.18 изображены столбчатая и круговая диаграммы, описывающие рождаемость детей в Тарту в 1990 г.

Рис. 1.18

Упражнения

        • год рождения
        • зарплата
        • имя
        • размер обуви
        • рост
        • пол
        • место работы
        • образование
        • возраст
        • Количественный
        • Качественный
        • Непрерывный
        • Дискретный

        Составьте частотную таблицу и начертите диаграмму.

        Размер обуви (x)

        38

        39

        40

        41

        42

        43

        44

        Частота (f)

        Обуви какого размера было продано больше всего и какого размера - меньше всего?

        Ответ: больше всего было продано обуви размера , а меньше всего – размеров  и  .

        Ответ: у девушек чаще всего встречается размер  , а у юношей –  . У девушек нашего класса размер обуви меняется от до , а у юношей –  от до .

        Интервалы (см)

        f

        w(%)

         < x ≤ 

         < x ≤ 

         < x ≤ 

         < x ≤ 

         < x ≤ 

        Всего

        Ответ: рост девушек изменяется от до , а рост юношей – от до . Рост девушки чаще всего принадлежит интервалу , а рост юноши – интервалу .

        1. Сколько мальчиков родилось в этом году на каждые 100 девочек?
          Ответ: на каждые 100 девочек родилось в этом году   мальчиков.
        2. С какого возрастного интервала число женщин начало превосходить число мужчин?
          Ответ: число женщин начало превосходить число мужчин с интервала .
        3. Сколько процентов всех жителей составляли дети в возрасте меньше 1 года?
          Ответ: дети в возрасте меньше 1 года составляли % всех жителей.
        4. Сколько женщин приходилось на одного мужчину в возрастном интервале 20–34 года и сколько – в интервале 40–49 лет?
          Ответ: в возрастном интервале 20–34 на одного мужчину приходилось  женщин, а в возрастном интервале 40–49 на одного мужчину приходилось  женщин.

        Ответ: в 2016 году жители 85-летнего и более старшего возраста составлялиримерно % населения Эстонии, а в 2017 году – примерно % населения. Сравнивая эти проценты, можно сделать вывод, что  

        1934. a

        1.  %
        2.  %
        3.  %
        4.  %
        5.  %
        6.  %

        1989. a

        1.  %
        2.  %
        3.  %
        4.  %
        5.  %
        6.  %

        2014. a

        1.  %
        2.  %
        3.  %
        4.  %
        5.  %
        6.  %

        2017. a

        1.  %
        2.  %
        3.  %
        4.  %
        5.  %
        6.  %