"Чистая"
и прикладная математика

Корреляционная зависимость. Коэффициент парной корреляции. Основы корреляционного анализа

Понятие корреляционной зависимости

Корреляционная зависимость - это вероятностная зависимость между величинами, которая возникает тогда, когда одна из величин зависит не только от данной второй, но и от ряда случайных факторов, или когда среди условий, от которых зависят та и другая величины, имеются общие для них обоих условия.

То есть корреляционная зависимость отличается от функциональной зависимости, при которой одна величина зависит только от второй и возникает взаимно-однозначное соответствие: значению одной величины соответствует строго определённое значение второй величины. Поэтому, хотя и при корреляционной зависимости результаты наблюдения находятся на некотором приближении к прямой линии, они не лежат на прямой, а лишь приближаются к ней (рисунок внизу). Для увеличения рисунка нужно щёлкнуть по нему левой кнопкой мыши.

график корреляционной зависимости большей тесноты

Понятие корреляционной зависимости проиллюстрируем на примере из так любимой многоми темы цен на недвижимость. По некоторой выборке обобщены данные об общей площади квартир и ценах на квартиры. На оси Ox задана общая площадь квартир, а на оси Oy - цены на квартиры. Точки на графике (рис. выше) - результаты выборочного наблюдения.

На графике видно, что результаты наблюдения находятся на некотором приближении к прямой. Поэтому можно утверждать, что между признаками (общей площадью квартиры и ценой квартиры) существует зависимость. А именно: чем больше общая площадь квартиры, тем выше цена. Но результаты наблюдения располагаются не строго на прямой, поэтому нельзя утверждать, что каждой определённой величине площади квартиры в квадратных метрах соответствует строго определённая величина цены. Значит, мы говорим, что зависимость между признаками - корреляционная.

Пусть обобщены и данные о площади кухни квартир и ценами квартир. На оси Ox задана площадь кухни, а на оси Oy - цены на квартиры (рис. внизу). Для увеличения рисунка нужно щёлкнуть по нему левой кнопкой мыши.

график корреляционной зависимости меньшей тесноты

Видим, что результаты наблюдений также выстраиваются на некотором приближении к прямой. Но в случае с площадью кухни отклонения результатов наблюдения от прямой несколько больше, чем в случае с общей площадью. Между тем здесь мы также наблюдаем корреляционную зависимость и можно утверждать, что чем больше площадь кухни, тем выше цена квартиры.

В этих двух случаях мы наблюдаем корреляционные зависимости разной интенсивности или тесноты. В случае общей площади квартиры зависимости более интенсивная (тесная), а в случае с площадью кухни - менее интенсивная (тесная).

В описанных случаях случайная величина Y (цена квартиры) - зависимая переменная, а случайна величина X (общая площадь квартиры или площадь кухни) - независимая переменная.

Коэффициент парной корреляции и теснота корреляционной зависисмости

Тесноту линейной зависимости характеризует коэффициент парной линейной корреляции. Коэффициент корреляции рассчитывается следующим образом:

формула коэффициента парной корреляции Пирсона.

Для более предметного изложения следует заметить, что здесь идёт речь о коэффициенте парной корреляции Пирсона. Существуют и другие виды коэффициентов корреляции, например, коэффициент корреляции Спирмена, коэффициент корреляции Кендалла и другие. Но коэффициент корреляции Пирсона применяется в большинстве случаев, поскольку чаще всего предполагается, что распределение переменных нормальное или несущественно отличается от нормального. Именно такое распределение является условием применения коэффициента корреляции Пирсона.

Значения коэффициента корреляции находится в пределах от -1 до 1.

Ниже приведена таблица значений коэффициента корреляции и соответствующих им характеристик тесноты связи между переменными.

Значение коэффициента корреляции

Линейная зависимость

-1

функциональная отрицательная

0

не существует

1

функциональная положительная

слабая

средней тесноты

тесная

 


Пример. В таблице – данные о валовом внутреннем продукте (ВВП) и частным потреблением (в средних ценах 1995 года), в условных единицах. Найти коэффициент корреляции между этими величинами.

Квартал, год

ВВП

Частное потребление

I, 1995

652,870

357,191

II, 1995

601,893

356,533

III, 1995

590,792

376,951

IV, 1995

593,667

379,866

I, 1996

580,435

385,749

II, 1996

612,063

392,194

III, 1996

620,847

417,342

IV, 1996

614,360

426,991

I, 1997

609,708

394,661

II, 1997

664,246

416,367

III, 1997

682,696

428,103

IV, 1997

680,104

464,410

I, 1998

667,513

412,133

II, 1998

704,317

450,606

III, 1998

698,793

469,775

IV, 1998

668,498

477,421

I, 1999

663,786

415,650

II, 1999

703,213

477,013

III, 1999

707,238

498,525

IV, 1999

694,329

510,171

I, 2000

704,055

447,272

II, 2000

738,637

504,100

III, 2000

753,565

522,277

IV, 2000

754,459

533,585

Решение. Результативным признаком Y является частное потребление, а факториальным признаком X – валовой внутренний продукт.

Для расчёта коэффициента корреляции создадим рабочую таблицу:

 

X

Y

XY

I, 1995

562,870

357,191

201052,098

316822,637

127585,410

II, 1995

601,893

356,533

214594,717

362275,183

127115,780

...

...

...

...

...

...

III, 2000

753,565

522,277

393569,668

567860,209

272773,265

IV, 2000

754,459

533,585

402568,006

569208,383

284712,952

Всего

15872,084

10514,886

7015990,600

10569153,153

4670555,076

Используя первоначальные данные и производя расчёты, находим коэффициент корреляции:


 

Основы корреляционного анализа

Корреляционный анализ - совокупность основанных на теории корреляции методов обнаружения корреляционной зависимости между случайными величинами или признаками. Корреляционный анализ экспериментальных данных для двух случайных величин предлагает следующие основные практические приёмы:

  1. построение корреляционного поля и составление корреляционной таблицы;
  2. вычисление выборочных коэффициентов корреляции;
  3. проверка статистической гипотезы значимости корреляционной связи.

Корреляционное поле и корреляционная таблица являются вспомогательными средствами при анализе выборочных данных. При нанесении на координатную плоскость двумерных выборочных точек получают корреляционное поле. По характеру расположения точек поля можно составить предварительное мнение о форме зависимости случайных величин (например, о том, что одна величина в среднем возрастает или убывает при возрастании другой). Для численной обработки результаты обычно группируют и представляют в форме корреляционной таблицы. В каждой клетке корреляционной таблицы приводятся численности тех пар, компоненты которых попадают в соответствующие интервалы группировки по каждой переменной. Предполагая длины интервалов группировки равными между собой, выбирают центры интервалов и численность пар в качестве основы для расчётов.

При корреляционном анализе обычно не указываают, какой из факторов является зависимым, а какой - независимым. Также в задачи корреляционного анализа не входит уставления формы зависимости между переменными и, соответственно, составления формулы, отражающей форму зависимости. Это входит в задачи регрессионного анализа.

Всё по теме "Математическая статистика"