"Чистая"
и прикладная математика

Распределение Стьюдента и малые выборки

Если среднее рассчитывается по данным малой выборки, то отклонение имеет распределение Стьюдента, называемое также t-распределением. Распределение Стьюдента близко к нормальному распределению, но отличается от него: концентрация отклонений в центральной части распределения меньше.

Если случайная величина X1 распределена по нормальному закону, а случайная величина X2 распределена по закону Хи-квадрат с v степенями свободы, тогда случайная величина, получаемая как

,

имеет распределение Стьюдента (t-распределение) с v степенями свободы.

Преимущество распределения Стьюдента заключается в его независимости от параметров генеральной совокупности: оно зависит только от объёма выборки n. В случае малых выборок (с объёмом менее 30 наблюдений) для определения доверительного интервала среднего значения нельзя использовать критические значения стандартизированного нормального распределения, так как это приводит к грубым оценкам.

Нередко проведение каждого наблюдения настолько сложно, трудоёмко и связано с высокой стоимостью, что невозможно многократное повторение эксперимента. Чтобы оценить среднее значение малой выборки, нужно учитывать, что дисперсия малой выборки рассчитывается по формуле несмещённой оценки дисперсии:

.

Функцию плотности распределения Стьюдента в рассчётах непосредственно не используют, обычно используют таблицы интегральных функций, которые есть в приложениях почти ко всем книгам по статистике, или же её значение выдаёт программа, в которой выполняются рассчёты, например, STATISTICA. В таблицах значения интегральной функции даны для тех же пределов интегрирования, что и у функции нормального распределения. Функция нормального распределения рассчитана для определённого значения аргумента z, а интегральная функция распределения Стьюдента - для аргумента t и числа степеней свободы v = n - 1. Если число степеней свободы стремится к бесконечности, то распределение Стьюдента стремится к нормальному распределению.

Числом степеней свободы в статистике называют число взаимно независимых элементов информации, используемых для вычисления стандартной ошибки. Число степеней свободы равно числу элементов выборки, из которого вычтено число условий, связывающих данные.

Если объём выборки мал и стандартное отклонение генеральной совокупности неизвестно, то доверительный интервал оценки среднего рассчитывается следующим образом:

,

где - критическое значение распределения Стьюдента для уровня значимости α = 1 - P и числа степеней свободы v

s - стандартное отклонение выборки.

Распределение Стьюдента названо в честь Уильяма Госсета, который впервые использовал свойства этого распределения и публиковал свои работы под псевдонимом Стьюдент.

Пример. Производитель кваса решил выяснить, каков доверительный интервал 95% незаполненного уровня в бутылках с квасом (в миллимитрах от пробки). Рассчитать этот доверительный интервал.

Решение.

Случайно выбраны 20 бутылок с квасом, по которым собраны значения незаполненного уровня. С помощью функций MS Excel рассчитаны сумма этих значений и сумма отклонений . Тогда среднее , а стандартное отклонение .

Так как для проверки выбраны только 20 бутылок, то для определения доверительного интервала среднего следует использовать распределение Стьюдента:

,

где 2,093 - критическое значение распределения Стьюдента для уровня значимости 0,05 и числа степеней свободы 19 (найдено по статистической таблице, которые есть в приложениях почти во всех книгах по статистике).

Таким образом, доверительный уровень 95% незаполненного уровня бутылок с квасом составил от 46,44 до 53,76 миллиметров.

Всё по теме "Математическая статистика"