Статистические данные

Часто требуется исследовать некоторую совокупность индивидов, предметов или явлений по каким-то признакам. Так, например, нас может интересовать средний рост 17-летних юношей в Эстонии, в котором из параллельных классов экзаменационная работа по математике прошла успешнее, каково распределение промышленных предприятий Эстонии по количеству их работников, как распределяются цветки сирени по числу лепестков и т. п.

Ответы на подобные вопросы находят при помощи методов одного из разделов математики - математической статистики.[cноска: Первые результаты в области математической статистики принадлежат французскому математику Пьеру-Симону Лапласу (Pierre-Simon Laplace, 1749–1827) и немецкому математику Карлу Фридриху Гауссу (Carl Friedrich Gauss, 1777–1855). Однако самостоятельным направлением исследований математическая статистика стала лишь в начале 20 века.] Математическая статистика[понятие: Математическая статистика (matemaatiline statistika) – раздел математики, в котором разрабатываются методы обработки статистических данных. Математическая статистика основывается на теории вероятностей.] основывается на теории вероятностей.

Исследуемое множество однотипных предметов, индивидов или явлений, относительно которого требуется сделать какие-либо научные или практические выводы, называется статистической совокупностью[понятие: Статистическая совокупность (statistiline kogum) – исследуемое множество всех выбранных однотипных предметов, индивидов или явлений, относительно которого требуется сделать какие-либо научные или практические выводы. Это множество исследуется по одному или нескольким признакам.], или генеральной совокупностью. Мы будем рассматривать статистические совокупности небольшого объема.

Статистическая совокупность изучается с точки зрения некоторого свойства ее элементов, которое называется признаком[понятие: Признак (tunnus) – некоторое свойство 𝑋 элементов статистической совокупности, относительно которого исследуется эта совокупность. Например, возраст исследуемого множества людей.]. Таким признаком может быть рост человека, оценка по математике, профессия или национальность человека, величина зарплаты, количество семян в некотором овоще. Как следует из приведенного перечня, некоторые признаки выражаются числом (например, рост, размер зарплаты или количество семян). Такие признаки называются количественными[понятие: Количественный признак (arvuline tunnus) – признак, значения которого выражаются числами. Например, рост человека.], или числовыми признаками[понятие: Числовой признак – см. количественный признак.]. Признаки, не имеющие числовой характеристики (например, цвет глаз, национальность), называются качественными[понятие: Качественный признак (mittearvuline tunnus) – признак, не имеющий числовой характеристики. Например, цвет глаз человека.], или нечисловыми признаками.[понятие: Нечисловой признак – см. качественный признак.]

Количественные признаки разделяются на два вида: на непрерывные и дискретные. Непрерывный признак[понятие: Непрерывный признак (pidev tunnus) – признак, возможными числовыми значениями которого являются все действительные числа из некоторого числового промежутка. Например, вес человека, температура воздуха.] характеризуется тем, что его возможными числовыми значениями являются все действительные числа из некоторого числового промежутка. Такими признаками являются, например, рост или вес человека, температура и т. д. Дискретным признаком[понятие: Дискретный признак (diskreetne tunnus) – количественный признак, которому присущи только некоторые отдельные (обычно целыe) значения, не заполняющие никакого числового промежутка. Например, количество букв в слове.] называется признак, которому присущи только некоторые отдельные (обычно целыe) значения, не заполняющие никакого числового промежутка. Дискретными признаками являются, например, количество семян в овоще, число букв в слове или страниц в книге.

Различие между дискретным и непрерывным признаками является, в некотором смысле, условным, так как непрерывный признак (например, возраст человека) в ходе исследования часто заменяют дискретным (возраст начинают учитывать в ц

Признак, с точки зрения которого изучается рассматриваемая совокупность, часто обозначают одной латинской буквой, как правило, Х, Y или Z. Произвольное же значение признака (в том числе, и в случае качественного признака) обозначают маленькой буквой х, у или z. Чтобы отметить конкретное значение, к ней добавляют индекс (х1, уi и т. п.).

Изучение объектов статистической совокупности дает в результате множество значений признака, которые образуют так называемый статистический ряд[понятие: Статистический ряд (statistiline rida) – последовательность значений признака, полученная при предварительном изучении элементов статистической совокупности. ]:

a1a2a3, …, aN.

Каждое отдельное число (значение) из этого ряда называется членом[понятие: Член статистического ряда (statistilise rea liige) – любое из отдельных значений, из которых составлен статистический ряд.] или вариантой[понятие: Варианта статистического ряда – см. член статистического ряда.] статистического ряда. Количество N членов статистического ряда или статистической совокупности называется объемом[понятие: Объем статистического ряда или статистической совокупности (statistilise rea või kogumi maht) – количество членов статистического ряда или элементов статистической совокупности.] этого ряда или совокупности.  Чтобы получить лучшее представление о распределении значений признака, его следует привести в систему. Для этого все члены записывают либо в порядке возрастания, либо в порядке убывания, причем равные значения записывают подряд. В результате получается так называемый вариационный ряд[понятие: Вариационный ряд (variatsioonrida) – ряд, полученный из статистического ряда в результате упорядочения его членов по возрастанию или по убыванию. При этом равные значения записываются подряд.]. Количество равных значений признака есть частота[понятие: Частота значения признака (sagedus) – количество равных значений признака, т. е. сколько раз встречается конкретное значение в статистическом или вариационном ряду.] этого значения.

Пример 1.

Результаты контрольной работы в одном классе можно представить в виде следующего вариационного ряда:

2, 2, 2, 3, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 5, 5, 5, 5.

В данном случае легко найти наименьшее значение (xmin = 2) и наибольшее значение оценки (xmax = 5), однако в случае обширной статистической совокупности такое представление полученных данных является неудобным.

Целесообразнее представить данные примера 1 в виде частотной таблицы[понятие: Частотная таблица (sagedustabel) – таблица, в которой каждому значению признака соответствует число появлений (частота) этого значения.], в которой каждому значению оценки (х) соответствует число ее появлений ( f ):

Такая таблица дает уже гораздо лучшее представление о распределении оценок, например, легко заметить, что чаще всего встречается оценка “4”. Легко найти также объем совокупности (число N значений признака): N = 3 + 7 + 10 + 8 = 28.

Частотную таблицу записывают  

либо горизонтально,

либо вертикально:

При этом объем совокупности

N = f1 + f2 + f3 + … + fn.

Графически данные частотной таблицы представляют в виде линейной диаграммы. В результате получается так называемый полигон частот[понятие: Полигон частот (sagedushulknurk) – линейная диаграмма, на которой данные частотной таблицы (значение признака и соответствующая частота) изображены в виде точек координатной плоскости, которые, в свою очередь, соединены отрезками. Но может быть изображен и лишь в виде вертикальных отрезков.] (или ломаная частот[понятие: Ломаная частот (sagedusmurdjoon) – см. полигон частот.]). На рисунке 1.17 изображен полигон частот, соответствующий данным примера 1.

Рис. 1.17

При сравнении двух совокупностей на основании некоторого признака нужно сравнить соответствующие частотные таблицы. Однако, если совокупности имеют разные объемы, то это может оказаться трудоемким и не привести сразу к правильным выводам.

Пример 2.

В следующей частотной таблице приведены данные по такой же контрольной работе, что и в примере 1 (класс А), но проведенной в параллельном классе Б (здесь N = 22). В каком из классов работа прошла успешнее?

Данные двух таблиц сравнить трудно, так как соответствующие диаграммы (рис. 1.18) имеют сходный вид и, кроме того, в одном классе контрольную работу писали 28, а в другом классе – 22 ученика. Поэтому неясно, насколько уменьшение одного или другого количества оценок повлияло на общий результат.

Рис. 1.18

Чтобы сравнивать статистические совокупности разных объемов, целесообразно вместо частот рассматривать относительные частоты. Относительная частота[понятие: Относительная частота значения признака (suhteline sagedus) – отношение частоты  конкретного значения признака к объему статистического ряда. Часто выражается в процентах, показывает, каков удельный вес конкретного значения признака в множестве всех значений.] определяется либо в виде отношения w_i=\frac{f_i}{N} , либо выражается в процентах: \left(w_i\right)=\frac{f_i}{N}\cdot100\% \left(i=1,\ 2,\ \dots,\ n\right), и показывает, каков удельный вес значения признака xi в множестве всех значений.

Таблица, в которой наблюдаемым значениям признака соответствуют относительные частоты их появления, называется таблицей статистического распределения относительных частот[понятие: Таблица статистического распределения относительнызх частот, или таблица относительных частот (jaotustabel) – таблица, в которой наблюдаемым значениям признака соответствуют относительные частоты их появления.].

В дальнейшем такую таблицу мы будем для краткости называть и просто таблицей относительных частот[понятие: Таблица относительных частот (jaotustabel) – см. таблица статистического распределения относительных частот.]. В общих обозначениях такая таблица имеет следующий вид:

При этом w1w2w3 + … + wn = 1, если w_i=\frac{f_i}{N}, и w1 + w2 + w3 + … + wn = 100%, если w_i=\frac{f_i}{N}\cdot100\%.

Соответствующую таблице распределения линейную диаграмму называют полигоном относительных частот[понятие: Полигон относительных частот (jaotushulknurk) – линейная диаграмма, соответствующая таблице распределения относительных частот.] (точнее, полигоном распределения относительных частот).

Пример 3.

В следующей таблице даны распределения относительных частот, соответствующие данным примера 2. На рисунке 1.19 изображен полигон распределения относительных частот.

Рис. 1.19

Как из таблицы, так и из диаграммы видно, что во втором классе (Б или В) контрольная работа прошла несколько успешнее: удельный вес оценок „2” и „3” здесь меньше, немного уменьшился также удельный вес оценки „5”, но зато существенно больше удельный вес оценки „4”. Сказанное подкрепляется сравнением суммарных относительных частот оценок „4” и „5”: 64% и 68%.

Если рассматриваемый признак является непрерывным или если дискретный признак имеет очень много значений, то в таблицах данных представляют не отдельные значения признака, а некоторые интервалы[понятие: Интервал (vahemik) – см. класс.], или классы[понятие: Классы, или интервалы (klassid) – непересекающиеся интервалы одинаковой длины, на которые разбивается множество всех значений исследуемого признака. Разбиение на классы применяется в случае непрерывного признака или дискретного признака с большим количеством значений.], таких значений. Таким способом получают сгруппированные частотные таблицы и таблицы относительных частот. Концы интервалов называют их границами. С подобной таблицей мы встретимся ниже, в задании 155.

Число, являющееся общей границей двух интервалов, считается по соглашению принадлежащим предыдущему интервалу. Такая таблица дана в нижеследующем примере 4.

Число классов, или интервалов, на которые разбиваются значения признака, зависит от характера исследуемого явления или целей исследования. Чаще всего руководствуются следующим правилом: если объем N совокупности не очень велик, то это число берут близким к \sqrt{N}.

Пример 4.

Вариационный ряд, составленный для роста (см) учеников одного класса, оказался следующим: 156, 158, 159, 160, 160, 162, 163, 163, 163, 165, 165, 165, 166, 166, 167, 167, 167, 167, 168, 168, 168, 169, 170, 171, 171, 172, 173, 173, 173, 174, 174, 176, 184. Составим частотную таблицу, а также таблицу относительных частот, в которой значения признака распределены по интервалам.

Так как N = 33 и \sqrt{33}\approx5,7, то число интервалов 6 или 5. Поскольку размах выборки xmaxxmin = 184 – 56 = 28 не делится на 5 и на 6, а в качестве границ интервалов желательно взять целые числа, то примем за размах величину 30. Тогда при 6 интервалах длина каждого интервала составит 5 единиц. Удлинив размах на 2 единицы, возьмем в качестве нижней границы первого интервала 155, а в качестве верхней границы последнего интервала 185. Получим:

При этом интервалы можно обозначать неравенствами, как это сделано в таблице примера 4, а также в виде 155 ... 160, 160 ... 165 и т. д. или в виде 155-160, 160-165 и т. д.

Если в частотной таблице или таблице распределения относительных частот значения признака разбиты на интервалы, то графически такая таблица изображается в виде столбчатой диаграммы, называемой гистограммой[понятие: Гистограмма (histogramm) – столбчатая диаграмма, изображающая данные частотной таблицы или таблицы относительных частот. Обычно значения признака в этой таблице разбиваются на классы.]. Соответствующая последней таблице гистограмма изображена на рисунке 1.20.

Рис. 1.20

Крайние интервалы могут быть и открытыми в том смысле, что нижняя граница первого интервала и верхняя граница последнего интервала не фиксируются. В примерe 4 первый интервал можно задать неравенством х ≤ 160, а последний интервал – неравенством 180 < х. В этом случае первая и последняя граница отсутствуют, и на гистограмме не чертят соответствующего вертикального отрезка.

Распределение признака изображают с помощью гистограммы и в том случае, когда этот признак является качественным (нечисловым). Столь же наглядными являются в этом случае и круговые (секторные) диаграммы. Например, на рисунке 1.21 изображены столбчатая и круговая диаграммы, описывающие рождаемость детей в Тарту в 1990 г.

Рис. 1.21

Упражнения A

Задание 149. Количественные, качественные, непрерывные и дискретные признаки
        • зарплата
        • год рождения
        • размер обуви
        • рост
        • образование
        • возраст
        • пол
        • место работы
        • имя
        Задание 150. Продажа обуви
        • Количественный
        • Качественный
        • Непрерывный
        • Дискретный

        Составьте частотную таблицу и начертите диаграмму.

        Размер обуви (x)

        38

        39

        40

        41

        42

        43

        44

        Частота (f)

        Обуви какого размера было продано больше всего и какого размера – меньше всего?

        Ответ: больше всего было продано обуви  размера, а меньше всего – обуви  и  размеров.

        Задание 151. Размер обуви

        Ответ: у девушек чаще всего встречается размер , а у юношей –  размер. У девушек нашего класса размер обуви изменяется в границах от до , а у юношей – от  до .

        Задание 152. Оценки контрольной работы по математике

        Задание 153. Рост учеников, разбитый на 5 интервалов

        Интервалы (см)

        f

        w(%)

         < x ≤ 

         < x ≤ 

         < x ≤ 

         < x ≤ 

         < x ≤ 

        Всего

        Задание 154. Таблицы относительных частот роста

        Ответ: рост девушек изменяется от до , а рост юношей – от до . Рост девушки чаще всего принадлежит интервалу , а рост юноши – интервалу .

        Задание 155. Население Эстонии в 2011 году
        1. Какова была вероятность того, что увиденный на улице ребенок младше 1 года окажется мальчиком?
          Ответ: вероятность того, что увиденный на улице ребенок младше 1 года окажется мальчиком, была  .
        2. Составьте таблицы распределения относительных частот и соответствующие гистограммы (желательно с помощью компьютера) отдельно по возрастам мужчин и возрастам женщин.
        3. С какого возраста число женщин начинало превосходить число мужчин?
          Ответ: число женщин начинало превосходить число мужчин с возраста лет.
        4. Сколько процентов всех жителей составляли дети в возрасте меньше 1 года?
          Ответ: дети в возрасте меньше 1 года составляли % всех жителей.
        5. Сколько процентов всех жителей составляли дети в возрасте от 10 до 14 лет, как они распределялись на мальчиков и девочек?
          Ответ: дети в возрасте от 10 до 14 лет составляли всего % всех жителей. Из них % были мальчики и % девочки.
        6. Сколько процентов составляли пенсионеры (начиная с 65-летнего возраста) отдельно среди мужчин и среди женщин, а также среди всех жителей?
          Ответ: пенсионеры составляли % среди мужчин и % среди женщин, а среди всех жителей они составляли %.
        7. Сколько женщин приходилось на одного мужчину в возрастном интервале 20–29 лет и сколько – в интервале 30–39 лет?
          Ответ: в возрастном интервале 20–29 лет на одного мужчину приходилось  женщин, а в возратном интервале 30–39 лет на одного мужчину приходилось  женщин.

        Задание 156. Число гласных и число согласных букв в тексте

        Начертите четыре соответствующие круговые диаграммы.

        Задание 157. Распределение жителей Эстонии по национальности

        1934. a

        1.  %
        2.  %
        3.  %
        4.  %
        5.  %

        1989. a

        1.  %
        2.  %
        3.  %
        4.  %
        5.  %

        2000. a

        1.  %
        2.  %
        3.  %
        4.  %
        5.  %

        2011. a

        1.  %
        2.  %
        3.  %
        4.  %
        5.  %