Корреляционные таблицы

Рис. 1.26

Рассмотрим корреляционное поле, соответствующее примеру предыдущего параграфа, которое изображено на рисунке 1.23. Нанесем на это поле прямоугольную сетку (рис. 1.26). Теперь значения признаков Х и Y разбиты на классы. При этом значение, являющееся общим концом двух промежутков, будем считать принадлежащим нижнему классу. Cоставим таблицу, столбцы которой – классы признака Х, а строки – классы признака Y. Если требуется провести какие-либо вычисления, то каждый класс удобно заменить его представителем – серединой сответствующего промежутка. Подсчитаем число точек поля корреляции, попадающих в каждый квадрат клеточного разбиения (на рисунке 1.26 отмечены эти числа) и запишем в таблицу. Полученная таблица называется корреляционной таблицей[понятие: Корреляционная таблица (korrelatsioonitabel) – таблица, столбцы которой – значения или классы одного признака, а строки – классы второго признака. В остальные клетки таблицы записывают частоты появления соответствующих пар значений двух признаков.].

Обычно корреляционные таблицы составляют без использования корреляционного поля. Для этого области изменения Х и Y разбивают на подходящие промежутки (классы), затем записывают эти классы или их представителeй в первую строку и в первый столбец (или наоборот) таблицы. После этого в каждой клетке таблицы отмечают крестиками соответствующие числовые пары. В заключение подсчитывают число крестиков и записывают в каждую клетку полученную частоту.

Чтобы облегчить дальнейшие вычисления, эту таблицу удобно дополнить строкой (u) и столбцом (v), в которые записываются соответственно суммы частот каждого столбца и каждой строки. Теперь первая строка (х) вместе со строкой u описывает распределение статистической совокупности относительно признака Х, а первый столбец (у) вместе со столбцом v распределение совокупности относительно признака Y.

Если в корреляционной таблице заменить частоты наблюдения числовых пар соответствующими относительными частотами, то мы получим для исследуемой совокупности ее распределение по двум признакам[понятие: Распределение по двум признакам (jaotus kahe tunnuse järgi) – корреляционная таблица, в которой частоты появления числовых пар заменены их относительными частотами.].

Как правило, статистические данные представляются в виде корреляционной таблицы в тех случаях, когда различных числовых пар (xi ; yi) очень много и значения признаков целесообразно разбить на классы, либо в тех случаях, когда имеется много совершенно одинаковых числовых пар. Разумеется, в нашем примере нет ни того, ни другого, и этот пример можно рассматривать лишь как иллюстрацию к сказанному.

Пример.

Найдем по данным рассмотренной корреляционной таблицы арифметические средние (\overline{x} и \overline{y}), а также стандартные отклонения σx и σy соответственно для значений признаков Х и Y.

Если вычисления проводятся письменно, то корреляционную таблицу целесообразно дополнить еще некоторыми строками и столбцами. В нашем примере добавлены строки произведений ux и x2u, а также столбцы произведений vy и y2v, в которые записаны соответствующие суммы. Получим, что

\overline{x}=\frac{2630}{15}\approx175,33\ \mathrm{\left(см\right)}\overline{y}=\frac{1230}{15}\approx82,00\ \mathrm{\left(кг\right)},

σx2\overline{x^2}-\overline{x}^2\frac{461948}{15}-175,33^2\approx55,924 ⇒ σx ≈ 7,48 см,

σy2\overline{y^2}-\overline{y}^2 =\frac{101660}{15}-82^2\approx53,333 ⇒ σy ≈ 7,30 кг.

Корреляционное поле и соответствующая таблица (например, корреляционное поле на рисунке 1.23 и таблица в примере параграфа 1.15) представляют взаимосвязь между значениями х и y признаков Х и Y. Однако эта взаимосвязь не является функциональной. Напомним, что в случае функции каждому возможному значению одной переменной должно соответствовать в точности одно значение другой переменной. В данном же случае одному значению одной переменной (будем считать первой переменной Х) может зачастую соответствовать и несколько значений другой переменной. В данной ситуации все зависит от случая: соответствует ли фиксированному значению одной переменной одно или же несколько значений другой переменной. Например, в случае упомянутого примера росту мужчины, равному 163 см, соответствует только один вес в 69 кг, а росту 172 см – два веса 78 кг и 83 кг. Таким образом, вес зависит от случая. Рассматриваемую нами зависимость между значениями х и y признаков Х и Y называют статистической[понятие: Статистическая, или стохастическая зависимость (statistiline ehk stohhastiline sõltuvus) – соответствие, при котором каждому возможному значению одной переменной соответствует возможное распределение значений другой переменной.], или стохастической зависимостью. В краткой формулировке:

статистической зависимостью между двумя случайными переменными (величинами) называется соответствие, при котором каждому возможному значению одной переменной соответствует возможное распределение значений другой переменной.

Упражнения Б

Задание 191. Таблица и корреляционное поле признаков рост и вес

Задание 192. Оценки контрольных работ по математике и по физике