Характеристики выборки и генеральной совокупности
Основные понятия математической статистики
Математическая статистика – раздел математики, посвященный математическим методам систематизации, обработки и использованию статистических данных для научных и практических выводов. При этом статистическими данными называются сведения о числе объектов в какой-либо более или менее обширной совокупности, обладающих теми или иными признаками.
Статистическая совокупность, из которой отбирают часть объектов, называется генеральной совокупностью. Множество объектов, случайно отобранных из генеральной совокупности, называется выборкой. Число объектов N из генеральной совокупности и из выборки n называются соответственно объемом генеральной совокупности N и объемом выборки n.
Статистическое описание и вероятностные модели применяются к физическим, экономическим, социологическим, биологическим процессам, обладающим тем свойством, что хотя результат отдельного измерения физической величины X не может быть предсказан с достаточной точностью, но значение некоторой функции от множества результатов
повторных измерений может быть предсказан с существенно лучшей точностью. Такая функция называется статистикой. Часто точность предсказания некоторой статистики возрастает с возрастанием объема выборки.
Наиболее известные статистики – относительная частота, выборочные средние, дисперсия. Когда возрастает объем выборки n, многие выборочные статистики сходятся по вероятности к соответствующим параметрам теоретического распределения величины X. Поэтому каждую выборку рассматривают как выборку из теоретически бесконечной генеральной совокупности, распределение признака в которой совпадает с теоретическим распределением вероятности случайной величины. Во многих случаях теоретическая генеральная совокупность есть идеализация действительной совокупности, из которой получена выборка.
Различные значения наблюдаемого признака, встречающегося в совокупности, называются вариантами. Частоты вариантов выражают доли (удельные веса) элементов совокупности с одинаковыми значениями признака. Вариационным рядом называется ранжированный в порядке возрастания или убывания ряд вариантов с соответствующим им частотами.
Средние значения выборки
Значения, находящиеся в середине вариационного ряда, принято делить на собственно средние и структурные средние. Собственно среднее - это арифметическое среднее. Структурные средние - мода и медиана. Кроме того, чтобы охарактеризовать структуру вариационного ряда, используют квартили, квинтили, децили и процентили. Теперь обо всём по порядку.
Среднее арифметическое значение генеральной совокупности находят по формуле:
(1)
где
- число единиц генеральной совокупности,
- значение j-го наблюдения.
Если величина выборки X может принимать значения с вероятностями соответственно
, то средним значением
величины X для выборки (её математическим ожиданием E(x) ,будет
или
или же (2)
для негруппированных выборок и
(3)
для группированных выборок, где
- число единиц выборки,
- число классов,
- значение i-го класса,
- частота i-го класса.
Пример 1. В таблице даны значения средней температуры воздуха в населённом пункте N в 2014 году:
Месяц | ![]() |
1 | -2,3 |
2 | -4,0 |
3 | 2,0 |
4 | 9,0 |
5 | 10,0 |
6 | 19,4 |
7 | 19,9 |
8 | 17,1 |
9 | 14,9 |
10 | 7,3 |
11 | 2,2 |
12 | -0,3 |
Найти среднюю температуру воздуха.
Решение. Найдём среднюю температуру воздуха как среднее значение для негруппированной выборки:
Пример 2. В таблице – данные о группировке сельских хозяйств по урожайности зерновых:
Урожайность зерновых в центнерах с га |
Число сельских хозяйств – абсолютное |
Удельный вес сельских хозяйств – в процентах |
до 5,0 |
4244 |
6,2 |
5,1-10,0 |
10446 |
15,2 |
10,1-15,0 |
18956 |
27,5 |
15,1-20,0 |
20207 |
29,3 |
20,1-25,0 |
8159 |
11,9 |
25,1-30,0 |
4145 |
6,0 |
30,1-35,0 |
1316 |
1,9 |
35,1-40,0 |
792 |
1,2 |
40,1-45,0 |
183 |
0,3 |
45,1-50,0 |
182 |
0,3 |
50,1-55,0 |
161 |
0,2 |
Всего |
68791 |
100,0 |
Найти среднюю урожайность зерновых.
Решение. Так как имеем только группированные данные и неизвестна средняя урожайность каждой группы, как приближенные значения к средней каждой группы примем центры интервалов:
Центры интервалов |
||
2,5 |
4222 |
10610,0 |
7,5 |
10446 |
78345,0 |
12,5 |
18956 |
236950,0 |
17,5 |
20207 |
363622,5 |
22,5 |
8159 |
183577,5 |
27,5 |
4145 |
113987,5 |
32,5 |
1316 |
42770,0 |
37,5 |
792 |
29700,0 |
42,5 |
183 |
7777,5 |
47,5 |
182 |
8645,0 |
52,5 |
161 |
8452,5 |
Всего |
68791 |
1074437,5 |
Найдём требуемую в условии задачи среднюю урожайности зерновых:
Итак, средняя урожайность по выборке составляет 15,6 центнеров с га.
Модой называют значение, которое в вариационном ряду встречается чаще других. Моду можно найти на гистограмме как самый высокий столбец.
Например, в выборке, значения которой 20, 50, 60, 70, 80, 20, 20, 75, 70, 20, 80, 20, 50, 60, модой является 20.
Медианой называют значение, которое находится в середине вариационного ряда. Первая половина элементов выборки меньше этого значения, а вторая половина - больше.
Если в выборке нечётное число элементов, то за медиану принимают собственно серединное значение. Например, в выборке, значения которой 14, 15, 18, 21, 27, медианой является 18.
Если в выборке чётное число элементов, то медиану находят, выбирая два значения, которые находятся в середине и вычисляя их среднее арифметическое. Например, есть выборка 11, 14, 15, 18, 21, 27. Медиану находят так: (15+18)/2 = 16,5.
На сайте есть подробный урок Как найти моду и медиану выборки, в котором даны формулы и пояснения по расчету этих показателей для дискретного и для интервального рядов распределения.
По аналогии с медианой, которая делит значения выборки на две части, вводят понятие квартилей, которые делят вариационный ряд на 4 равные части.
Децили делят вариационный ряд уже на 10 одинаковых частей, а квинтили - на 5. Процентили делят вариационный ряд на 100 равных частей.
Дисперсия выборки. Стандартное отклонение
Дисперсией величины называется среднее значение квадрата отклонения величины от её среднего значения. Дисперсию генеральной совокупности рассчитывают по формуле:
(4)
Дисперсию выборки рассчитывают по формуле:
(5)
для негруппированных выборок и
(6)
для группированных выборок.
Пример 3. В таблице – данные о возрасте жителей административной территории Т в 2013 году. Не будем приводить эту таблицу из-за её громоздкости. Отметим лишь, что в таблице дана численность каждого из возрастов (по одному году, например, 33 года, 40 лет, 65 лет и т.д.) в группах от 0 лет по 94 года (включительно) и численность всей возрастной группы в интервале 95-99 лет, а также численность жителей старше 100 лет.
Требуется найти средний возраст жителей административной территории и дисперсию среднего возраста.
Решение. Найдём средний возраст. Так как данные в таблице являются данными генеральной совокупности, находим средний возраст генеральной совокупности:
В таблице – данные о числе жителей каждого возраста, исключение же – жители в возрасте 95-99 лет и старше 100 лет. Поэтому рассчитали центр интервала возрастной группы 95-99 лет: 97 лет и в расчётах использовали его.
Так как число жителей старше 100 лет относительно небольшое, чтобы упростить расчёты, нижнюю границу интервала приняли за значение признака.
Итак, средний возраст жителей административной территории Т – 38,2 года
Найдём теперь его дисперсию:
Пример 4. Найти дисперсию урожайности зерновых в сельских хозяйствах, используя данные примера 2.
Решение. Средняя урожайность по выборке составляет 15,6 центнеров с га. Чтобы найти дисперсию, создадим дополнительную таблицу.
Центры интервалов |
Число хозяйств |
|||
2,5 |
4244 |
-13,1 |
172,1 |
730412,3 |
7,5 |
10446 |
-8,1 |
65,9 |
688558,6 |
12,5 |
18956 |
-3,1 |
9,7 |
184391,3 |
17,5 |
20207 |
1,9 |
3,5 |
71505,7 |
22,5 |
8159 |
6,9 |
47,3 |
386328,5 |
27,5 |
4165 |
11,9 |
141,2 |
585113,6 |
32,5 |
1316 |
16,9 |
285,0 |
375024,0 |
37,5 |
792 |
21,9 |
478,8 |
379196,9 |
42,5 |
183 |
26,9 |
722,6 |
132234,9 |
47,5 |
182 |
31,9 |
1016,4 |
184986,0 |
52,5 |
161 |
36,9 |
1360,2 |
218995,1 |
Всего |
68791 |
- |
- |
393679,1 |
Теперь у нас есть всё, чтобы найти дисперсию:
Пример 5. Найти дисперсию температуры в населённом пункте N в 2009 году, используя данные примера 1.
Решение. Данная выборка – негруппированная, найдём дисперсию температуры для негруппированной выборки:
Стандартное отклонение равно положительному корню из дисперсии. Стандартное отклонение генеральной совокупности находят по формуле
(7)
Стандартное отклонение выборки находят по формуле
. (9)
для негруппированных выборок и
(10)
для группированных выборок.
Погрешности выборки
Погрешности выборки характеризуют, насколько значительная ошибка допущена при замещении генеральной совокупности выборкой. Сколь бы тщательно ни подбирали выборку, параметр генеральной совокупности и оценка выборки Т всегда будут отличаться. Их разница является погрешность выборки
.
Среднюю стандартную погрешность выборки находят по формуле
(11)
Средняя стандартная погрешность выборки характеризует рассеяние средних арифметических выборки по отношению к средним генеральной совокупности: чем больше погрешность, тем дальше среднее арифметическое выборки может находиться от среднего генеральной совокупности. В свою очередь, чем меньше погрешность, тем ближе к среднему генеральной совокупности находится среднее выборки. При увеличении числа наблюдений n стандартная погрешность уменьшается.
Стандартную погрешность называют также абсолютной погрешностью средней величины и нередко записывают .
Пример 6. Найти стандартную погрешность средней урожайности сельских хозяйств и интервал оценки, используя результаты примеров 2 и 4.
Решение. В примере 2 найдена средняя урожайность зерновых, равная 15,6 центнеров с га. В примере 4 найдена дисперсия урожайности, равная 57,2. Найдём стандартное отклонение урожайности:
Найдём теперь стандартную погрешность:
Интервал оценки средней урожайности:
Назад<<< | Листать | Вперёд>>> |