"Чистая"
и прикладная математика

Множественная корреляция, её коэффициент. Частная корреляция

Множественная корреляция, её коэффициент

Множественная корреляция - это вероятностная зависимость между одной величиной Y с одной стороны, и одновременно несколькими другими X1, X2, ..., Xm, с другой стороны. То есть, в отличие от парной корреляции, при которой на изменения зависимой (результирующей) переменной влияет одна независимая (объясняющая) переменная, при множественной корреляции независимых (объясняющих) переменных две или больше.

Цель корреляционного анализа в случае множественной корреляции - установить, есть ли зависимость между переменными и насколько тесно связаны между собой зависимая переменная, с одной стороны, и независимые переменные, с другой стороны, и зависят ли друг от друга независимые переменные X1, X2, ..., Xm.

Для того чтобы можно было бы применять модель множественной линейной регрессии, прежде, при анализе множественной корреляции должны быть установлены следующие факты:

  • зависимая переменная тесно зависит от независимых переменных (тесноту связи, как и в случае парной корреляции, показывают значения коэффициента корреляции);
  • нет тесной зависимости между независимыми переменными.

Коэффициент множественной корреляции в случае двухфакторной корреляции рассчитывается по следующей формуле:

.

Коэффициенты множественной корреляции между зависимой переменной Y и независимыми переменными X1, X2, ..., Xm записываются в корреляционную матрицу:

Пример 1. Аналитик предприятия решил проверить факторы, которые влияют на размер заработной платы сотрудников Y. Предварительно в качестве объясняющих факторов выбраны: возраст сотрудника X1, стаж работы X2, оценка теста для приёма на работу X3 и число подчинённых сотрудников X4. Случайно были выбраны 200 сотрудников, данные которых были обобщены. В результате была получена следующая корреляционная матрица:

YX1X2X3X4
Y1
X1-0,271
X20,78-0,631
X3-0,830,47-0,891
X40,65-0,460,17-0,211

Установить, какие переменные можно выбрать как независимые, для того, чтобы далее можно было бы строить модель множественной регрессии.

Решение.

Корреляционная матрица показывает, что между переменными:

  • Y и X1 - слабая линейная связь: -0,27;
  • Y и X2 - средне тесная положительная линейная связь: 0,78;
  • Y и X3 - тесная отрицательная линейная связь: -0,83;
  • Y и X4 - средне тесная линейная связь: 0,65;
  • X2 и X3 - тесная отрицательная линейная связь: -0,89;
  • X2 и X4 - слабая линейная связь: 0,17;
  • X3 и X4 - слабая линейная связь: -0,21.

Таким образом, не следует включать в число переменных, влияющих на размер заработной платы возраст сотрудников X1. Так как между независимыми переменными X2 и X3 установлена тесная отрицательная связь, не включаем в число переменных, влияющих на размер заработной платы стаж работы X2. Выбираем в качестве независимых переменных оценку теста для приёма на работу X3 и число подчинённых сотрудников X4.

Чтобы установить тесноту связи между заработной платой сотрудников Y, с одной стороны, и оценкой теста для приёма на работу X3 и числом подчинённых сотрудников X4, с другой стороны, вычислим коэффициент множественной (двухфакторной) корреляции:

Таким образом, между заработной платой сотрудников, с одной стороны, и оценкой теста для приёма на работу и числом подчинённых, с другой стороны, существует тесная линейная связь.

Частная корреляция

С помощью коэффициента частной корреляции определяется теснота связи между двумя факторами при фиксировании или исключении влияния остальных. Коэффициент частной корреляции рассчитывается по следующей формуле:

Пример 2. Собраны данные для установления зависимости цены квартиры, с одной стороны, и общей площади, площади жилой зоны и площади кухни, с другой стороны. Установить тесноту связи между ценой квартиры и её общей площади при исключении влияния площади жилой зоны и площади кухни.

Решение. Сначала выбираем две независимые переменные - площадь жилой зоны и общая площадь. Устанавливаем тесноту связи между ценой квартиры и площадью жилой зоны при исключении влияния общей площади. Значение коэффициента частной корреляции: 0,74. Теперь устанавливаем тесноту связи между ценой квартиры и площадью жилой зоны при исключении влияния площади кухни. Значение коэффициента частной корреляции: 0,61. Вывод: от площади жилой зоны цена квартиры более тесно зависит при исключении влияния общей площади, чем при исключении площади кухни.

Всё по теме "Математическая статистика"