Коэффициент линейной корреляции

Статистическая зависимость между двумя случайными переменными х и y может быть весьма близкой к некоторой функциональной зависимости, но может и значительно отличаться от нее. Лучше всего пояснить это графически. На рисунке 1.27 цветные точки, соответствующие статистической зависимости, очень тесно прилегают к некоторой прямой, т. е. к графику линейной функции. A на рисункe 1.28 точки корреляционного поля менее тесно расположены около прямой. В данном случае можно сказать, что связь (корреляция) между значениями х и y признаков Х и Y в случае рисунка 1.27 сильнее, чем в случае рисунка 1.28. Каким образом можно численно измерить степень этой корреляциии (или тесноту прилегания)?

Рис. 1.27
Рис. 1.28

Оказывается, что для этого подходит так называемый коэффициент линейной корреляции[понятие: Коэффициент линейной корреляции (lineaarne korrelatsioonikordaja) – число, выражающее степень корреляции между значениями двух признаков.] (будем называть его просто коэффициентом корреляции[понятие: Коэффициент корреляции – см. коэффициент линейной корреляции.]), который обозначается буквой r и вычисляется по формуле:

r=xy¯ - x¯ · y¯σx · σy,

где \overline{xy}=\frac{x_1y_1f_{11}+x_1y_2f_{12}+...+x_1y_mf_{1m}+x_2y_1f_{21}+...+x_ny_mf_{nm}}{N}.

Таким образом, коэффициент корреляции – это арифметическое среднее произведений координат всех точек (хy).

Пример.

Найдем коэффициент корреляции r по данным корреляционной таблицы, составленной в предыдущем параграфе.

Так как \overline{xy}=\frac{190\cdot98\cdot1+186\cdot90\cdot1+182\cdot90\cdot2+...+162\cdot70\cdot1}{15} ≈ 14427,47 и в предыдущем параграфе мы нашли, что \overline{x}\approx175,3, \overline{y}\approx82,0, σx = 7,48, σy = 7,30, то r=\frac{14427,47-175,3\cdot82}{7,48\cdot7,3}=0,97.

Рассмотрим свойства коэффициента корреляции, показывающие роль этои величины.

1. Всегда –1 ≤ r ≤ 1, или | r | ≤ 1 – коэффициент корреляции по модулю не превосходит единицы.

2. Чем ближе к числу 1 величина | r |, тем сильнее связь (корреляция) между признаками.

В рассмотренном примерe r = 0,97, а значит рост и вес у взрослых мужчин очень тесно связаны между собой.

3. Если | r | = 1, то значения Х и Y находятся в функциональной зависимости[понятие: Функциональная зависимость (funktsionaalne sõltuvus) – соотношение между двумя переменными(например, 𝑥 и 𝑦), при котором каждому значению одной переменной (независимой переменной 𝑥) соответствует одно определенное значение другой переменной (зависимой переменной  𝑦), т. е. существует такая функция, или оператор 𝑓, что выполняется равенство 𝑦 = 𝑓(𝑥).].

Такова, например, связь между количеством (х) купленного товара и его стоимостью (у) при фиксированной цене (а) единицы товара. В этом случае y = ax и r = 1.

4. Чем ближе к числу 0 величина | r |, тем слабее связь между признаками.

5. Если признаки независимы друг от друга, то r = 0.

6. Если r > 0, то бóльшим значениям признака Х соответствуют, в общем, бóльшие значения признака Y; если r < 0, то бóльшим значениям признака Х соответствуют, как правило, меньшие значения признака Y.

В случае корреляционного поля на рисунке 1.23 r = 0,97 > 0, а на рисункe 1.24 r < 0.

Упражнения Б

Задание 193. Коэффициент корреляции роста и веса

Задание 194. Коэффициент корреляции размера обуви и роста

Задание 195. Коэффициент корреляции роста отца и роста сына

Ответ: r