"Чистая"
и прикладная математика

Дисперсионный анализ: соединение теории и практики

Дисперсионный анализ: основные понятия

Для чего применяется дисперсионный анализ? Цель дисперсионного анализа - исследование наличия или отсутствия существенного влияния какого-либо качественного или количественного фактора на изменения исследуемого результативного признака. Для этого фактор, предположительно имеющий или не имеющий существенного влияния, разделяют на классы градации (говоря иначе, группы) и выясняют, одинаково ли влияние фактора путём исследования значимости между средними в наборах данных, соответствующих градациям фактора. Примеры: исследуется зависимость прибыли предприятия от типа используемого сырья (тогда классы градации - типы сырья), зависимость себестоимости выпуска единицы продукции от величины подразделения предприятия (тогда классы градации - характеристики величины подразделения: большой, средний, малый).

Минимальное число классов градации (групп) - два. Классы градации могут быть качественными либо количественными.

Почему дисперсионный анализ называется дисперсионным? При дисперсионном анализе исследуется отношение двух дисперсий. Дисперсия, как мы знаем - характеристика рассеивания данных вокруг среднего значения. Первая - дисперсия, объяснённая влиянием фактора, которая характеризует рассеивание значений между градациями фактора (группами) вокруг средней всех данных. Вторая - необъяснённая дисперсия, которая характеризует рассеивание данных внутри градаций (групп) вокруг средних значений самих групп. Первую дисперсию можно назвать межгрупповой, а вторую - внутригрупповой. Отношение этих дисперсий называется фактическим отношением Фишера и сравнивается с критическим значением отношения Фишера. Если фактическое отношение Фишера больше критического, то средние классов градации отличаются друг от друга и исследуемый фактор существенно влияет на изменение данных. Если меньше, то средние классов градации не отличаются друг от друга и фактор не имеет существенного влияния.

Как формулируются, принимаются и отвергаются гипотезы при дисперсионном анализе? При дисперсионном анализе определяют удельный вес суммарного воздействия одного или нескольких факторов. Существенность влияния фактора определяется путём проверки гипотез:

  • H0μ1 = μ2 = ... = μa, где a - число классов градации - все классы градации имеют одно значение средних,
  • H1: не все μi равны - не все классы градации имеют одно значение средних.

Если влияние фактора не существенно, то несущественна и разница между классами градации этого фактора и в ходе дисперсионного анализа нулевая гипотеза H0 не отвергается. Если влияние фактора существенно, то нулевая гипотеза H0 отвергается: не все классы градации имеют одно и то же среднее значение, то есть среди возможных разниц между классами градации одна или несколько являются существенными.

Ещё некоторые понятия дисперсионного анализа. Статистическим комплексом в дисперсионном анализе называется таблица эмпирических данных. Если во всех классах градаций одинаковое число вариантов, то статистический комплекс называется однородным (гомогенным), если число вариантов разное - разнородным (гетерогенным).

В зависимости от числа оцениваемых факторов различают однофакторный, двухфакторый и многофакторный дисперсионный анализ.

Однофакторный дисперсионный анализ: суть метода, формулы, примеры

Суть метода, формулы

Однофакторный дисперсионный анализ основан на том, что сумму квадратов отклонений статистического комплекса возможно разделить на компоненты:

SS = SSa + SSe,

где

SS - общая сумма квадратов отклонений,

SSa - объяснённая влиянием фактора a сумма квадратов отклонений,

SSe - необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки.

Если через ni обозначить число вариантов в каждом классе градации (группе) и a - общее число градаций фактора (групп), то - общее число наблюдений и можно получить следующие формулы:

общее число квадратов отклонений: ,

объяснённая влиянием фактора a сумма квадратов отклонений: ,

необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки: ,

где

- общее среднее наблюдений,

- среднее наблюдений в каждой градации фактора (группе).

Кроме того,

где - дисперсия градации фактора (группы).

Чтобы провести однофакторный дисперсионный анализ данных статистического комплекса, нужно найти фактическое отношение Фишера - отношение дисперсии, объяснённой влиянием фактора (межрупповой), и необъяснённой дисперсии (внутригрупповой):

и сравнить его с критическим значением Фишера .

Дисперсии рассчитываются следующим образом:

- объяснённая дисперсия,

- необъяснённая дисперсия,

при этом

va = a − 1 - число степеней свободы объяснённой дисперсии,

ve = n − a - число степеней свободы необъяснённой дисперсии,

v = n − 1 - общее число степеней свободы.

Критическое значение отношения Фишера с определёнными значениями уровня значимости и степеней свободы можно найти в статистических таблицах или рассчитать с помощью функции MS Excel F.ОБР (рисунок ниже, для его увеличения щёлкнуть по нему левой кнопкой мыши).

окно программы excel с функцией f.обр, используемой при дисперсионном анализе

Функция требует ввести следующие данные:

Вероятность - уровень значимости α,

Степени_свободы1 - число степеней свободы объяснённой дисперсии va,

Степени_свободы2 - число степеней свободы необъяснённой дисперсии ve.

Если фактическое значение отношения Фишера больше критического (), то нулевая гипотеза отклоняется с уровнем значимости α. Это означает, что фактор существенно влияет на изменение данных и данные зависимы от фактора с вероятностью P = 1 − α.

Если фактическое значение отношения Фишера меньше критического (), то нулевая гипотеза не может быть отклонена с уровнем значимости α. Это означает, что фактор не оказывает существенного влияния на данные с вероятностью P = 1 − α.

Однофакторный дисперсионный анализ: примеры

Пример 1. Требуется выяснить, влияет ли тип используемого сырья на прибыль предприятия. В шести классах градации (группах) фактора (1-й тип, 2-й тип и т.д.) собраны данные о прибыли от производства 1000 единиц продукции в миллионах рублей в течении 4 лет.

Тип сырья2014201520162017
1-й7,217,557,297,6
2-й7,898,277,398,18
3-й7,257,017,377,53
4-й7,757,417,277,42
5-й7,78,288,558,6
6-й7,568,058,077,84
Среднее
Дисперсия
7,4130,0367
7,9330,1571
7,2900,0480
7,4630,0414
8,2830,1706
7,8800,0563

Число классов градации фактора (групп) a = 6 и в каждом классе (группе) ni = 4 наблюдения. Общее число наблюдений n = 24.

Числа степеней свободы:

va = a − 1 = 6 − 1 = 5,

ve = n − a = 24 − 6 = 18,

v = n − 1 = 24 − 1 = 23.

Вычислим суммы квадратов отклонений:

Вычислим дисперсии:

.

Вычислим фактическое отношение Фишера:

.

Критическое значение отношения Фишера:

Так как фактическое отношение Фишера больше критического:

,

с уровнем значимости α = 0,05 делаем вывод, что прибыль предприятия в зависимости от вида сырья, использованного в производстве, существенно отличается.

Или, что то же самое, отвергаем основную гипотезу о равенстве средних во всех классах градации фактора (группах).

В только что рассмотренном примере в каждом классе градации фактора было одинаковое число вариантов. Но, как говорилось во вступительной части, число вариантов может быть и разным. И это ни в коей мере не усложняет процедуру дисперсионного анализа. Таков следующий пример.

Пример 2. Требуется выяснить, существует ли зависимость себестоимости выпуска единицы продукции от величины подразделения предприятия. Фактор (величина подразделения) делится на три класса градации (группы): малые, средние, большие. Обобщены соответствующие этим группам данные о себестоимости выпуска единицы одного и того же вида продукции за некоторый период.

малыйсреднийбольшой
484746
506157
636357
724755
4332
5959
58
Среднее 58,654,051,0
Дисперсия 128,2565,00107,60

Число классов градации фактора (групп) a = 3, число наблюдений в классах (группах) n1 = 4, n2 = 7, n3 = 6. Общее число наблюдений n = 17.

Числа степеней свободы:

va = a − 1 = 2,

ve = n − a = 17 − 3 = 14,

v = n − 1 = 16.

Вычислим суммы квадратов отклонений:

Вычислим дисперсии:

,

.

Вычислим фактическое отношение Фишера:

.

Критическое значение отношения Фишера:

.

Так как фактическое значение отношения Фишера меньше критического: , делаем вывод, что размер подразделения предприятия не оказывает существенного влияния на себестоимость выпуска продукции.

Или, что то же самое, с вероятностью 95% принимаем основную гипотезу о том, что средняя себестоимость выпуска единицы одной и той же продукции в малых, средних и крупных подразделениях предприятия существенно не различается.

Однофакторный дисперсионный анализа в MS Excel

Однофакторный дисперсионный анализ можно провести с помощью процедуры MS Excel Однофакторный дисперсионный анализ. Используем его для анализа данных о связи типа используемого сырья и прибыли предприятия из примера 1.

В меню MS Excel выполняем команду Сервис/Анализ данных и выбираем средство анализа Однофакторный дисперсионный анализ.

В окошке Входной интервал указываем область данных (в нашем случае это $A$2:$E$7). Указываем, как сгруппирован фактор - по столбцам или по строкам (в нашем случае по строкам). Если первый столбец содержит названия классов фактора, помечаем галочкой окно Метки в первом столбце. В окне Альфа указываем уровень значимости α = 0,05.

В результате действия процедуры выводятся две таблицы. Первая таблица - Итоги. В ней содержатся данные обо всех классах градации фактора: число наблюдений, суммарное значение, среднее значение и дисперсия.

Во второй таблице - Дисперсионный анализ - содержатся данные о величинах для фактора между группами и внутри групп и итоговых. Это сумма квадратов отклонений (SS), число степеней свободы (df), дисперсия (MS). В последних трёх столбцах - фактическое значение отношения Фишера(F), p-уровень (P-value) и критическое значение отношения Фишера (F crit).

Дисперсионный анализ
Источник вариацииSSdf
Между группами2,92935
Внутри групп1,530318
Итого4,459623
 
MSFP-valueF crit
0,585856,8911190,0009362,77285
0,085017
 

Так как фактическое значение отношения Фишера (6,89) больше критического (2,77), с вероятностью 95% отклоняем нулевую гипотезу о равенстве средних производительности при использовании всех типов сырья, то есть делаем вывод о том, что тип используемого сырья влияет на прибыль предприятия.

Двухфакторный дисперсионный анализ без повторений: суть метода, формулы, пример

Двухфакторный дисперсионный анализ применяется для того, чтобы проверить возможную зависимость результативного признака от двух факторов - A и B. Тогда a - число градаций фактора A и b - число градаций фактора B. В статистическом комплексе сумма квадратов остатков разделяется на три компоненты:

SS = SSa + SSb + SSe,

где

- общая сумма квадратов отклонений,

- объяснённая влиянием фактора A сумма квадратов отклонений,

- объяснённая влиянием фактора B сумма квадратов отклонений,

- необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки,

- общее среднее наблюдений,

- среднее наблюдений в каждой градации фактора A,

- среднее число наблюдений в каждой градации фактора B.

Дисперсии вычисляются следующим образом:

- дисперсия, объяснённая влиянием фактора A,

- дисперсия, объяснённая влиянием фактора B,

- необъяснённая дисперсия или дисперсия ошибки,

где

va = a − 1 - число степеней свободы дисперсии, объяснённой влиянием фактора A,

vb = b − 1 - число степеней свободы дисперсии, объяснённой влиянием фактора B,

ve = (a − 1)(b − 1) - число степеней свободы необъяснённой дисперсии или дисперсии ошибки,

v = ab − 1 - общее число степеней свободы.

Если факторы не зависят друг от друга, то для определения существенности факторов выдвигаются две нулевые гипотезы и соответствующие альтернативные гипотезы:

для фактора A:

H0μ1A = μ2A = ... = μaA,

H1: не все μiA равны;

для фактора B:

H0μ1B = μ2B = ... = μaB,

H1: не все μiB равны.

Чтобы определить влияние фактора A, нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

Чтобы определить влияние фактора B, нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

Если фактическое отношение Фишера больше критического отношения Фишера, то следует отклонить нулевую гипотезу с уровнем значимости α. Это означает, что фактор существенно влияет на данные: данные зависят от фактора с вероятностью P = 1 − α.

Если фактическое отношение Фишера меньше критического отношения Фишера, то следует принять нулевую гипотезу с уровнем значимости α. Это означает, что фактор не оказывает существенного влияния на данные с вероятностью P = 1 − α.

Двухфакторный дисперсионный анализ без повторений: пример

Пример 3. Дана информация о среднем потреблении топлива на 100 километров в литрах в зависимости от объёма двигателя и вида топлива.

Бензин со свинцом
1001-1500 см³9,3
1501-2000 см³9,4
Более 2000 см³12,6
Среднее 10,42
Бензин без свинцаДизельное топливоСреднее
8,96,58,23
9,17,18,53
9,88,010,13
9,277,2

Требуется проверить, зависит ли потребление топлива от объёма двигателя и вида топлива.

Решение. Для фактора A число классов градации a = 3, для фактора B число классов градации b = 3.

Вычисляем суммы квадратов отклонений:

,

,

,

.

Соответствующие дисперсии:

,

,

.

Фактическое отношение Фишера для фактора A , критическое значение отношения Фишера: . Так как фактическое отношение Фишера меньше критического, с вероятностью 95% принимаем гипотезу о том, что объём двигателя не влияет на потребление топлива. Однако, если мы выбираем уровень значимости α = 0,1, то фактическое значение отношения Фишера и тогда с вероятностью 95% можем принять, что объём двигателя влияет на потребление топлива.

Фактическое отношение Фишера для фактора B , критическое значение отношения Фишера: . Так как фактическое отношение Фишера больше критического значения отношения Фишера, с вероятностью 95% принимаем, что вид топлива влияет на его потребление.

Двухфакторный дисперсионный анализ без повторений в MS Excel

Двухфакторный дисперсионный анализ без повторений можно провести с помощью процедуры MS Excel Двухфакторный дисперсионный анализ без повторений. Используем его для анализа данных о связи типа вида топлива и его потребления из примера 3.

В меню MS Excel выполняем команду Сервис/Анализ данных и выбираем средство анализа Двухфакторный дисперсионный анализ без повторений.

Заполняем данные также, как и в случае с однофакторным дисперсионным анализом.

процедура excel двухфакторный дисперсионный анализ без повторений: ввод данных

В результате действия процедуры выводятся две таблицы. Первая таблица - Итоги. В ней содержатся данные обо всех классах градации фактора: число наблюдений, суммарное значение, среднее значение и дисперсия.

процедура excel двухфакторный дисперсионный анализ без повторений: получение данных

Во второй таблице - Дисперсионный анализ - содержатся данные об источниках вариации: рассеивании между строками, рассеивании между столбцами, рассеивании ошибки, общем рассеивании, сумма квадратов отклонений (SS), число степеней свободы (df), дисперсия (MS). В последних трёх столбцах - фактическое значение отношения Фишера(F), p-уровень (P-value) и критическое значение отношения Фишера (F crit).

Дисперсионный анализ
Источник вариацииSSdf
Строки6,262
Столбцы16,086672
Погрешность2,3733334
Итого24,728
 
MSFP-valueF crit
3,135,2752810,0755726,94476
8,04333313,556180,0165296,944276
0,593333
 

Фактор A (объём двигателя) сгурппирован в строках. Так как фактическое отношение Фишера 5,28 меньше критического 6,94, с вероятностью 95% принимаем, что потребление топлива не зависит от объёма двигателя.

Фактор B (вид топлива) сгруппирован в столбцах. Фактическое отношение Фишера 13,56 больше критического 6,94, поэтому с вероятностью 95% принимаем, что потребление топлива зависит от его вида.

Двухфакторный дисперсионный анализ с повторениями: суть метода, формулы, пример

Двухфакторный дисперсионный анализ с повторениями применяется для того, чтобы проверить не только возможную зависимость результативного признака от двух факторов - A и B, но и возможное взаимодействие факторов A и B. Тогда a - число градаций фактора A и b - число градаций фактора B, r - число повторений. В статистическом комплексе сумма квадратов остатков разделяется на четыре компоненты:

SS = SSa + SSb + SSab + SSe,

где

- общая сумма квадратов отклонений,

- объяснённая влиянием фактора A сумма квадратов отклонений,

- объяснённая влиянием фактора B сумма квадратов отклонений,

- объяснённая влиянием взаимодействия факторов A и B сумма квадратов отклонений,

- необъяснённая сумма квадратов отклонений или сумма квадратов отклонений ошибки,

- общее среднее наблюдений,

- среднее наблюдений в каждой градации фактора A,

- среднее число наблюдений в каждой градации фактора B,

- среднее число наблюдений в каждой комбинации градаций факторов A и B,

n = abr - общее число наблюдений.

Дисперсии вычисляются следующим образом:

- дисперсия, объяснённая влиянием фактора A,

- дисперсия, объяснённая влиянием фактора B,

- дисперсия, объяснённая взаимодействием факторов A и B,

- необъяснённая дисперсия или дисперсия ошибки,

где

va = a − 1 - число степеней свободы дисперсии, объяснённой влиянием фактора A,

vb = b − 1 - число степеней свободы дисперсии, объяснённой влиянием фактора B,

vab = (a − 1)(b − 1) - число степеней свободы дисперсии, объяснённой взаимодействием факторов A и B,

ve = ab(r − 1) - число степеней свободы необъяснённой дисперсии или дисперсии ошибки,

v = abr − 1 - общее число степеней свободы.

Если факторы не зависят друг от друга, то для определения существенности факторов выдвигаются три нулевые гипотезы и соответствующие альтернативные гипотезы:

для фактора A:

H0μ1A = μ2A = ... = μaA,

H1: не все μiA равны;

для фактора B:

H0μ1B = μ2B = ... = μaB,

H1: не все μiB равны;

для взаимодействия факторов A и B:

H0ABij = 0,

H1ABij ≠ 0 для всех i и j.

Чтобы определить влияние фактора A, нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

Чтобы определить влияние фактора B, нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

Чтобы определить влияние взаимодействия факторов A и B, нужно фактическое отношение Фишера сравнить с критическим отношением Фишера .

Если фактическое отношение Фишера больше критического отношения Фишера, то следует отклонить нулевую гипотезу с уровнем значимости α. Это означает, что фактор существенно влияет на данные: данные зависят от фактора с вероятностью P = 1 − α.

Если фактическое отношение Фишера меньше критического отношения Фишера, то следует принять нулевую гипотезу с уровнем значимости α. Это означает, что фактор не оказывает существенного влияния на данные с вероятностью P = 1 − α.

Двухфакторный дисперсионный анализ с повторениями: пример

Пример 4. Торговое предприятие имеет три магазина - A, B и C. Проводятся две рекламные кампании. Требуется выяснить, зависят ли средние дневные доходы магазинов от двух рекламных кампаний. Для процедуры проверки случайно выбраны по 3 дня каждой рекламной кампании (то есть число повторений r = 3). Результаты обобщены в таблице:

Рекламная кампанияМагазин A
Рекламная кампания 112,05
23,94
14,63
Рекламная кампания 225,78
17,52
18,45
Среднее 18,73
Магазин BМагазин CСреднее
15,179,4814,53
18,526,92
19,5710,47
21,407,6315,86
13,5911,90
20,575,92
18,148,72

Факторы, подлежащие проверке: магазин (A, B и C) и рекламная кампания (1 и 2). Пусть эти факторы не зависят друг от друга.

Вычислим суммы квадратов отклонений:

SS = 592,47

SSa = 8,01,

SSb = 378,38,

SSab = 13,85,

SSe = 192,22.

Числа степеней свободы:

va = a − 1 = 2 − 1 = 1,

vb = b − 1 = 3 − 1 = 2,

vab = (a − 1)(b − 1) = 2,

ve = ab(r − 1) = 2 ⋅ 3 ⋅ (3 − 1) = 12,

v = abr − 1 = 2 ⋅ 3 ⋅ 3 − 1 = 17.

Дисперсии:

,

,

,

.

Фактические отношения Фишера:

для фактора A:

для фактора B:

для взаимодействия факторов A и B: .

Критические значения отношения Фишера:

для фактора A: ,

для фактора B:

для взаимодействия факторов A и B: .

Делаем выводы:

о влиянии фактора A: фактическое отношение Фишера меньше критического значения, следовательно, рекламная кампания существенно не влияет на дневные доходы магазина с вероятностью 95%,

о влиянии фактора B: фактическое отношение Фишера больше критического, следовательно, доходы существенно различаются между магазинами,

о взаимодействии факторов A и B: фактическое отношение Фишера меньше критического, следовательно, взаимодействие рекламной кампании и конкретного магазина не существенно.

Двухфакторный дисперсионный анализ с повторениями в MS Excel

Двухфакторный дисперсионный анализ с повторениями можно провести с помощью процедуры MS Excel Двухфакторный дисперсионный анализ с повторениями. Используем его для анализа данных о связи доходов магазина с выбором конкретного магазина и рекламной кампанией из примера 4.

В меню MS Excel выполняем команду Сервис/Анализ данных и выбираем средство анализа Двухфакторный дисперсионный анализ с повторениями.

Заполняем данные также, как и в случае с двухфакторным дисперсионным анализом без повторений, с тем дополнением, что в окне число строк для выборки нужно ввести число повторений.

процедура excel двухфакторный дисперсионный анализ с повторениями: ввод данных

В результате действия процедуры выводятся две таблицы. Первая таблица состоит из трёх частей: две первые соответствуют каждой из двух рекламных кампаний, третья содержит данные об обеих рекламных кампаниях. В столбцах таблицы содержится информация обо всех классах градации второго фактора - магазина: число наблюдений, суммарное значение, среднее значение и дисперсия.

процедура excel двухфакторный дисперсионный анализ с повторениями: получение данных

Во второй таблице - данные о сумме квадратов отклонений (SS), числе степеней свободы (df), дисперсии (MS), фактическом значение отношения Фишера(F), p-уровне (P-value) и критическом значении отношения Фишера (F crit) для различных источниках вариации: двух факторах, которые даны в строках (выборка) и столбцах, взаимодействии факторов, ошибки (внутри) и суммарных показателях (итого).

Дисперсионный анализ
Источник вариацииSSdf
Выборка8,0133391
Столбцы378,38082
Взаимодействие13,85042
Внутри192,223312
Итого592,468117
 
MSFP-valueF crit
8,0133390,5002520,4928974,747221
189,190411,810660,0014623,88529
6,9252720,4323270,6587173,88529
16,01861
 

Для фактора A фактическое отношение Фишера меньше критического значения, следовательно, рекламная кампания существенно не влияет на дневные доходы магазина с вероятностью 95%.

Для фактора B фактическое отношение Фишера больше критического, следовательно, с вероятностью 95% доходы существенно различаются между магазинами.

Для взаимодействия факторов A и B фактическое отношение Фишера меньше критического, следовательно, с вероятностью 95% взаимодействие рекламной кампании и конкретного магазина не существенно.

Всё по теме "Математическая статистика"