Корреляционная зависимость. Коэффициент парной корреляции. Основы корреляционного анализа
Понятие корреляционной зависимости
Корреляционная зависимость - это вероятностная зависимость между величинами, которая возникает тогда, когда одна из величин зависит не только от данной второй, но и от ряда случайных факторов, или когда среди условий, от которых зависят та и другая величины, имеются общие для них обоих условия.
То есть корреляционная зависимость отличается от функциональной зависимости, при которой одна величина зависит только от второй и возникает взаимно-однозначное соответствие: значению одной величины соответствует строго определённое значение второй величины. Поэтому, хотя и при корреляционной зависимости результаты наблюдения находятся на некотором приближении к прямой линии, они не лежат на прямой, а лишь приближаются к ней (рисунок внизу). Для увеличения рисунка нужно щёлкнуть по нему левой кнопкой мыши.

Понятие корреляционной зависимости проиллюстрируем на примере из так любимой многоми темы цен на недвижимость. По некоторой выборке обобщены данные об общей площади квартир и ценах на квартиры. На оси Ox задана общая площадь квартир, а на оси Oy - цены на квартиры. Точки на графике (рис. выше) - результаты выборочного наблюдения.
На графике видно, что результаты наблюдения находятся на некотором приближении к прямой. Поэтому можно утверждать, что между признаками (общей площадью квартиры и ценой квартиры) существует зависимость. А именно: чем больше общая площадь квартиры, тем выше цена. Но результаты наблюдения располагаются не строго на прямой, поэтому нельзя утверждать, что каждой определённой величине площади квартиры в квадратных метрах соответствует строго определённая величина цены. Значит, мы говорим, что зависимость между признаками - корреляционная.
Пусть обобщены и данные о площади кухни квартир и ценами квартир. На оси Ox задана площадь кухни, а на оси Oy - цены на квартиры (рис. внизу). Для увеличения рисунка нужно щёлкнуть по нему левой кнопкой мыши.

Видим, что результаты наблюдений также выстраиваются на некотором приближении к прямой. Но в случае с площадью кухни отклонения результатов наблюдения от прямой несколько больше, чем в случае с общей площадью. Между тем здесь мы также наблюдаем корреляционную зависимость и можно утверждать, что чем больше площадь кухни, тем выше цена квартиры.
В этих двух случаях мы наблюдаем корреляционные зависимости разной интенсивности или тесноты. В случае общей площади квартиры зависимости более интенсивная (тесная), а в случае с площадью кухни - менее интенсивная (тесная).
В описанных случаях случайная величина Y (цена квартиры) - зависимая переменная, а случайна величина X (общая площадь квартиры или площадь кухни) - независимая переменная.
Коэффициент парной корреляции и теснота корреляционной зависисмости
Тесноту линейной зависимости характеризует коэффициент парной линейной корреляции. Коэффициент корреляции рассчитывается следующим образом:
.
Для более предметного изложения следует заметить, что здесь идёт речь о коэффициенте парной корреляции Пирсона. Существуют и другие виды коэффициентов корреляции, например, коэффициент корреляции Спирмена, коэффициент корреляции Кендалла и другие. Кроме того, коэффициент корреляции Пирсона не применяется, когда исследуются качественные переменные, что нередко в исследованиях поведения человека. Но коэффициент корреляции Пирсона применяется в большинстве случаев, поскольку чаще всего предполагается, что распределение переменных нормальное или несущественно отличается от нормального, и исследуются количественные факторы. Именно такое распределение является условием применения коэффициента корреляции Пирсона.
Значения коэффициента корреляции находится в пределах от -1 до 1.
Ниже приведена таблица значений коэффициента корреляции и соответствующих им характеристик тесноты связи между переменными.
Значение коэффициента корреляции |
Линейная зависимость |
-1 |
функциональная отрицательная |
0 |
не существует |
1 |
функциональная положительная |
слабая |
|
средней тесноты |
|
тесная |
Пример. В таблице – данные о валовом внутреннем продукте (ВВП) и частным потреблением (в средних ценах 1995 года), в условных единицах. Найти коэффициент корреляции между этими величинами.
Квартал, год |
ВВП |
Частное потребление |
I, 1995 |
652,870 |
357,191 |
II, 1995 |
601,893 |
356,533 |
III, 1995 |
590,792 |
376,951 |
IV, 1995 |
593,667 |
379,866 |
I, 1996 |
580,435 |
385,749 |
II, 1996 |
612,063 |
392,194 |
III, 1996 |
620,847 |
417,342 |
IV, 1996 |
614,360 |
426,991 |
I, 1997 |
609,708 |
394,661 |
II, 1997 |
664,246 |
416,367 |
III, 1997 |
682,696 |
428,103 |
IV, 1997 |
680,104 |
464,410 |
I, 1998 |
667,513 |
412,133 |
II, 1998 |
704,317 |
450,606 |
III, 1998 |
698,793 |
469,775 |
IV, 1998 |
668,498 |
477,421 |
I, 1999 |
663,786 |
415,650 |
II, 1999 |
703,213 |
477,013 |
III, 1999 |
707,238 |
498,525 |
IV, 1999 |
694,329 |
510,171 |
I, 2000 |
704,055 |
447,272 |
II, 2000 |
738,637 |
504,100 |
III, 2000 |
753,565 |
522,277 |
IV, 2000 |
754,459 |
533,585 |
Решение. Результативным признаком Y является частное потребление, а факториальным признаком X – валовой внутренний продукт.
Для расчёта коэффициента корреляции создадим рабочую таблицу:
|
X |
Y |
XY |
||
I, 1995 |
562,870 |
357,191 |
201052,098 |
316822,637 |
127585,410 |
II, 1995 |
601,893 |
356,533 |
214594,717 |
362275,183 |
127115,780 |
... |
... |
... |
... |
... |
... |
III, 2000 |
753,565 |
522,277 |
393569,668 |
567860,209 |
272773,265 |
IV, 2000 |
754,459 |
533,585 |
402568,006 |
569208,383 |
284712,952 |
Всего |
15872,084 |
10514,886 |
7015990,600 |
10569153,153 |
4670555,076 |
Используя первоначальные данные и производя расчёты, находим коэффициент корреляции:
Основы корреляционного анализа
Корреляционный анализ - совокупность основанных на теории корреляции методов обнаружения корреляционной зависимости между случайными величинами или признаками. Корреляционный анализ экспериментальных данных для двух случайных величин предлагает следующие основные практические приёмы:
- построение корреляционного поля и составление корреляционной таблицы;
- вычисление выборочных коэффициентов корреляции;
- проверка статистической гипотезы значимости корреляционной связи.
Корреляционное поле и корреляционная таблица являются вспомогательными средствами при анализе выборочных данных. При нанесении на координатную плоскость двумерных выборочных точек получают корреляционное поле. По характеру расположения точек поля можно составить предварительное мнение о форме зависимости случайных величин (например, о том, что одна величина в среднем возрастает или убывает при возрастании другой). Для численной обработки результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке корреляционной таблицы приводятся численности тех пар, компоненты которых попадают в соответствующие интервалы группировки по каждой переменной. Предполагая длины интервалов группировки равными между собой, выбирают центры интервалов и численность пар в качестве основы для расчётов.
При корреляционном анализе обычно не указываают, какой из факторов является зависимым, а какой - независимым. Также в задачи корреляционного анализа не входит уставления формы зависимости между переменными и, соответственно, составления формулы, отражающей форму зависимости. Это входит в задачи регрессионного анализа.
Назад<<< | Листать | Вперёд>>> |