Статистический ряд, гистограмма и порядок ее построения. Дискретный статистический ряд

Располагая данные статистического наблюдения, характеризующих то или иное явление, прежде всего необходимо их упорядочить, т.е. придать характер системности

Английский статистик. УДжРейхман по поводу неупорядоченных совокупностей образно сказал, что столкнуться с массой необобщенных данных равнозначно ситуации, когда человека бросают в лесной чаще без компаса. Что же собой представляет систематизация статистических данных в виде рядов распределениялу?

Статистический ряд распределения - это упорядоченные статистические совокупности (табл. 17). Простейшим видом статистического ряда распределения ранжированном ряд, т.е. ряд чисел, находящейся в порядке возрастания ч или падения варьируя признаки. Такой ряд не позволяет судить о закономерности, заложенные в распределенных данных: у какой величины группируется большинство показателей, какие есть отклонения от этой величины; как а общая картина распределения. С этой целью группируют данные, показывая, как часто встречаются отдельные наблюдения в общем их числе (Схема 1а 1).

. Таблица 17

. Общий вид статистических рядов распределения

. Схема 1. Схемастатистичних рядов распределения

Распределение единиц совокупности по признакам, не имеют количественного выражения, называется атрибутивным рядом (например, распределение предприятий по их производственным направлением)

Ряды распределения единиц совокупности по признакам, имеют количественное выражение, называются вариационными рядами . В таких рядах значение признака (варианты) находятся в порядке возрастания или убывания

В вариационном ряде распределения различают два элемента: варианта и частота. Варианта - это отдельное значение группировочного признаки частота - число, которое показывает, сколько раз встречается каждый варианта

В математической статистике исчисляется еще один элемент вариационного ряда - частисть . Последняя определяется как отношение частоты случаев данного интервала к общей сумме частот частисть определяется в долях единицы, процентах (%) в промилле (% о)

Таким образом, вариационный ряд распределения - это такой ряд, в котором варианты расположены в порядке возрастания или убывания, указаны их частоты или частости. Вариационные ряды бывают дискретные (переривни) и др. нтервальни (непрерывного).

. Дискретные вариационные ряды - это такие ряды распределения, в которых варианта как величина количественного признака может принимать только определенное значение. Варианты различаются между собой на одну или несколько единиц

Так, количество произведенных деталей за смену конкретным рабочим может выражаться только одним определенным числом (6, 10, 12 и тд). Примером дискретного вариационного ряда может быть распределение работников по к количеством произведенных деталей (табл 18 18).

. Таблица 18

. Дискретный ряд распределения _

. Интервальные (непрерывного) вариационные ряды - такие ряды распределения, в которых значение варианты даны в виде интервалов, т.е. значения признаков могут отличаться друг от друга на сколь угодно малую величину. При построении вариационного ряда нэп переривнои признаки невозможно указать каждое значение варианты, поэтому совокупность распределяется по интервалам. Последние могут быть равны и неравны. Для каждого из них указываются частоты или частости (табл. 1 9 19).

В интервальных рядах распределения с неравными интервалами вычисляют такие математические характеристики, как плотность распределения и относительная плотность распределения на данном интервале. Первая характеристика определи ся отношением частоты до величины того же интервала, вторая - отношением частости к величине того же интервала. Для приведенного выше примера плотность распределения на первом интервале составит 3: 5 = 0,6, а относительная плотность на этом интервале - 7,5:5 = 1,55%.

. Таблица 19

. Интервальный ряд распределения _

Введение

С незапамятных времен человечество осуществляло учет многих сопутствующих его жизнедеятельности явлений и предметов и связанные с ним вычисления. Люди получали разносторонние, хотя и различающиеся полнотой на различных этапах общественного развития. Данные, учитывавшиеся повседневно в процессе принятия хозяйственных решений, а в обобщенном виде и на государственном уровне при определении русла экономической и социальной политики и характера внешнеполитической деятельности.

Руководствуясь соображениями зависимости благосостояния нации от величины создаваемого полезного продукта, интересов стратегической безопасности государств и народов от численности взрослого мужского населения, доходов казны от размера налогооблагаемых ресурсов и т. д., издавна отчетливо осознавалась и реализовывалась в форме различных учетных акций.

С учетом достижений экономической науки стал возможен расчет показателей, обобщенно характеризующих результаты воспроизводственного процесса на уровне общества: совокупного общественного продукта, национального дохода, валового национального продукта.

Всю перечисленную информацию в постоянно возрастающих объемах предоставляет обществу статистика, являющаяся необходимо принадлежностью государственного аппарата. Статистические данные, таким образом, способны сказать языком статистических показателей о многом в весьма яркой и убедительной форме.

Для статистического анализа данных в своей работе я использовала программу Excel (расчет формул и построение графиков).

Статистические ряды распределения, их значение и применение в статистике

В результате обработки и систематизации первичных данных статистического наблюдения получают группировки, называемые рядами распределения. В них известна численность единиц наблюдения в группах. Представленная в абсолютном и относительном выражении.

Статистический ряд распределения представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку. Он характеризует состав (структуру) изучаемого явления, позволяет судить об однородности совокупности, закономерности распределения и границах варьирования единиц совокупности.

Статистические ряды подразделяются на:

Атрибутивные - это ряды, построенные по атрибутивным признакам, в порядке возрастания или убывания наблюдаемых знаний.

То есть качественным признакам, не имеющим числового выражения и характеризующим свойство, качество изучаемого социально-экономического явления.

Атрибутивные ряды распределения характеризуют состав совокупности по тем или иным существенным признакам.

Взятые за несколько периодов, эти данные позволяют исследовать изменение структуры.

Число групп атрибутивного ряда распределения адекватно числу градаций. Разновидностей атрибутивного признака.

Пример атрибутивного ряда распределения приведен в таблице 1.

Таблица 1. Распределение студентов 1-го курса по успеваемости

Элементами данного ряда распределения являются градации атрибутивного признака «Успеваемость» («успевают» - «не успевают») и численность каждой группы в абсолютном (человек) и относительном (%) выражении.

Студентов, сдавших экзамен по дисциплине, было 46 человек. Их удельный вес составил 92%.

Вариационные - это ряды, построенные по количественному признаку.

Вариационные ряды распределения состоят из двух элементов: вариантов и частот:

Варианты - это числовые значения количественного признака в вариационном ряду распределения. Они могут быть положительными и отрицательными, абсолютными и относительными. Так, при группировке предприятий по результатам хозяйственной деятельности варианты положительные - это прибыль, а отрицательные числа - это убыток.

Частоты - это численности отдельных вариантов или каждой группы вариационного ряда, т.е. это числа, показывающие, как часто встречаются те или иные варианты в ряду распределения. Сумма всех частот называется объемом совокупности и определяется числом элементов всей совокупности.

Частости - это частоты, выраженные в виде относительных величин (долях единиц или процентах). Сумма частостей равна единице или 100%. Замена частот частостями позволяет сопоставлять вариационные ряды с разным числом наблюдений.

Вариационные ряды в зависимости от характера вариации подразделяются на дискретные и интервальные.

Дискретный вариационный ряд распределения - это ряд, в котором группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

Пример дискретного вариационного ряда распределения приведен в таблице 2.

Таблица 2. Распределение студентов по экзаменационному баллу

В гр. 1 таблицы 2 представлены варианты дискретного вариационного ряда. В гр. 2 - частоты, а в гр. 3 - частости. В случае непрерывной вариации величина признака у единиц совокупности может принимать в определенным пределах любые значения. Отличающиеся друг от друга на сколь угодно малую величину.

Интервальный вариационный ряд распределения - это ряд, в котором группировочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения, в том числе и дробные.

Интервальный ряд распределения целесообразно строить, прежде всего, при непрерывной вариации признака, а также, если дискретная вариация проявляется в широких пределах, т.е. число вариантов дискретного признака достаточно велико.

Правила и принципы построения интервальных рядов распределения аналогичны правилам и принципам построения статистических группировок. В случае, если интервальный вариационный ряд распределения построен с равными интервалами, частоты позволяют судить о степени заполнения интервала единицами совокупности. При построении неравных интервалов нельзя получить информацию о степени заполнения каждого интервала. С целью проведения сравнительного анализа заполненности интервалов определяется показатель, характеризующий плотность распределения. Это отношение числа единиц совокупности к ширине интервала.

Пример интервального вариационного рада распределения приведен в таблице 3.

Таблица 3. Распределение строительных фирм региона по среднесписочной численности работающих*

* - Цифры условные

Представленный ряд распределения является интервальным, в основании образования групп которого лежит непрерывный признак.

Анализ рядов распределения можно для наглядности проводить на основе их графического изображения. Для этой цели строят полигон, гистограмму, огиву и кумуляту распределения.

Расчетная часть задания № 5

Имеются выборочные данные (выборка 5%-я механическая) о среднегодовой стоимости основных производственных фондов и выпуске продукции предприятий отрасли экономики за отчетный период.

Таблица 4. Исходные данные

Выпуск продукции, млн. руб.

По исходным данным:

1. Постройте статистический ряд распределения предприятий по среднегодовой стоимости основных производственных фондов, образовав четыре группы предприятий с равными интервалами, охарактеризовав их числом предприятий и удельным весом предприятий.

2. Рассчитайте обобщающие показатели ряда распределения:

а) среднегодовую стоимость основных производственных фондов, взвешивая значения признака по абсолютной численности предприятий и их удельному весу;

б) моду и медиану;

в) постройте графики ряда распределения и определите на них значение моды и медианы.

Решение:

1. Сначала определяем длину интервала по формуле:

е=(х max - x min)/k,

где k - число групп в группировке (из условия k=4),

х max и x min - максимальное и минимальное значения ряда распределения,

е=(60 - 20)/4=10 млн. руб.

Затем определим нижнюю и верхнюю интервальные границы для каждой группы:

Номер группы

нижняя граница

верхняя граница

Составим рабочую таблицу 5, куда сведем исходные данные:

Таблица 5. Рабочая таблица

Группы пред-ий по среднегодовой стоимости ОПФ,

№ предпри-ятия

Среднегодовая стоимость ОПФ, млн. руб.

Выпуск продукции,

Рассчитаем характеристику ряда распределения по удельному весу предприятий по формуле:

где d - удельный вес предприятия;

f i - кол-во предприятий в группе;

F i - общее кол-во предприятий.

Подставляем данные в формулы. Полученные результаты заносим в итоговую таблицу 6.

Все формулы и расчеты таблицы 6 введены в программе Excel и даны в Приложении 1.

Таблица 6. Распределения предприятий по среднегодовой стоимости основных производственных фондов

Данная группировка показывает, что у наибольшей части данных предприятий (33,3%) среднегодовая стоимость основных производственных фондов составляет от 40 до 50 млн. руб.

2. а) Рассчитаем среднегодовую стоимость основных производственных фондов по формуле средней арифметической взвешенной, взвешивая значения по абсолютной численности предприятий:

и по удельному весу:

Для расчета средней из интервального ряда необходимо выразить варианты одним (дискретным) числом, это средняя арифметическая простая из верхнего и нижнего значений интервала:

Подставляем данные в формулы. Полученные результаты занесем в таблицу 7.

Все формулы и расчеты таблицы 7 введены в программе Excel и даны в Приложении 1.

Таблица 7. Расчет среднегодовой стоимости ОПФ

Показатели средних равны, что доказывает правильность расчетов. Среднегодовая стоимость ОПФ равна 41,333 млн. руб.

б) Рассчитаем моду и медиану данного ряда.

Мода - это значение признака, наиболее часто встречающееся в изучаемой совокупности. Для интервальных вариационных рядов распределения мода рассчитывается по формуле:

где x Mo - нижняя граница модального интервала;

i Mo - величина модального интервала;

f Mo - частота модального интервала;

f Mo-1 - частота интервала, предшествующего модальному;

f Mo+1 - частота интервала, следующего за модальным.

Первоначально по наибольшей частоте признака определим модальный интервал. Наибольшее число предприятий - 10 - среднегодовая стоимость основных производственных фондов в интервале 40 - 50 млн. руб., который и является модальным.

Подставляем данные в формулу.

Из расчета видно, что модальным значением стоимости ОПФ предприятий является стоимость равная 44 млн. руб.

Медиана - это вариант, расположенный в середине упорядоченного вариационного ряда, делящий его на две равные части. Для интервальных вариационных рядов медиана рассчитывается по формуле:

где x Mе - нижняя граница медианного интервала;

i Mе - величина медианного интервала;

F - сумма частот ряда;

S Mе-1 - сумма накопленных частот ряда, предшествующих медианному интервалу;

f Mе - частота медианного интервала.

Определяем медианный интервал, в котором находится порядковый номер медианы. Для этого подсчитаем сумму частот накопленным итогом до числа, превышающего половину объема совокупности (30/2 = 15). Полученные данные заносим в расчетную таблицу 8.

Таблица 8. Расчет медианны

В графе «Сумма накопленных частот» значение 23 соответствует интервалу 40 - 50. Это и есть медианный интервал, в котором находится медиана.

Подставляем данные в формулу.

Из расчета видно, что у половины предприятий среднегодовая стоимость основных производственных фондов до 42 млн. руб., а у другой половина - выше этой суммы.

в) Построим графики данного ряда распределения по полученным данным:

Рис. 1.

Медиана

Рис. 2. Кумулята распределения предприятий по среднегодовой стоимости ОПФ

Математическая статистика - раздел математики, посвященный математическим методам обработки, систематизации и использования статистических данных для научных и практических выводов.

3.1. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ

В медико-биологических задачах часто приходится исследовать распределение того или иного признака для очень большого числа индивидуумов. У разных индивидуумов этот признак имеет различное значение, поэтому он является случайной величиной. Например, любой лечебный препарата имеет различную эффективность при его применении к разным пациентам. Однако для того чтобы составить представление об эффективности данного препарата, нет необходимости применять его ко всем больным. Можно проследить результаты применения препарата к сравнительно небольшой группе больных и на основании полученных данных выявить существенные черты (эффективность, противопоказания) процесса лечения.

Генеральная совокупность - подлежащая изучению совокупность однородных элементов, характеризуемых некоторым признаком. Этот признак является непрерывной случайной величиной с плотностью распределения f(x).

Например, если нас интересует распространенность какого-либо заболевания в некотором регионе, то генеральная совокупность - все население региона. Если же мы хотим выяснить подверженность этому заболеванию мужчин и женщин по отдельности, то следует рассматривать две генеральные совокупности.

Для изучения свойств генеральной совокупности отбирают некоторую часть ее элементов.

Выборка - часть генеральной совокупности, выбираемая для обследования (лечения).

Если это не вызывает недоразумений, то выборкой называют как совокупность объектов, отобранных для обследования, так и совокупность

значений исследуемого признака, полученных при обследовании. Эти значения могут быть представлены несколькими способами.

Простой статистический ряд - значения исследуемого признака, записанные в том порядке, в котором они были получены.

Пример простого статистического ряда, полученного при измерении скорости поверхностной волны (м/с) в коже лба у 20 пациентов приведен в табл. 3.1.

Таблица 3.1. Простой статистический ряд

Простой статистический ряд - основной и самый полный способ записи результатов обследования. Он может содержать сотни элементов. Окинуть такую совокупность одним взглядом весьма затруднительно. Поэтому большие выборки обычно подвергают разбиению на группы. Для этого область изменения признака разбивают на несколько (N) интервалов равной ширины и подсчитывают относительные частоты (n/n) попадания признака в эти интервалы. Ширина каждого интервала равна:

Границы интервалов имеют следующие значения:

Если какой-то элемент выборки является границей между двумя соседними интервалами, то его относят к левому интервалу. Сгруппированные таким образом данные называют интервальным статистическим рядом.

- это таблица, в которой приведены интервалы значений признака и относительные частоты попадания признака в эти интервалы.

В нашем случае можно образовать, например, такой интервальный статистический ряд (N = 5, d = 4), табл. 3.2.

Таблица 3.2. Интервальный статистический ряд

Здесь к интервалу 28-32 отнесены два значения равные 28 (табл. 3.1), а к интервалу 32-36 - значения 32, 33, 34 и 35.

Интервальный статистический ряд можно изобразить графически. Для этого по оси абсцисс откладывают интервалы значений признака и на каждом из них, как на основании, строят прямоугольник с высотой, равной относительной частоте. Полученная столбцовая диаграмма называется гистограммой.

Рис. 3.1. Гистограмма

На гистограмме статистические закономерности распределения признака просматриваются достаточно отчетливо.

При большом объеме выборки (несколько тысяч) и малой ширине столбцов форма гистограммы близка к форме графика плотности распределения признака.

Число столбцов гистограммы можно выбрать по следующей формуле:

Построение гистограммы вручную - процесс долгий. Поэтому разработаны компьютерные программы для их автоматического построения.

3.2. ЧИСЛОВЫЕ ХАРАКТЕРИСТИКИ СТАТИСТИЧЕСКОГО РЯДА

Многие статистические процедуры используют выборочные оценки для математического ожидания и дисперсии (или СКО) генеральной совокупности.

Выборочное среднее (Х) - это среднее арифметическое всех элементов простого статистического ряда:

Для нашего примера Х = 37,05 (м/с).

Выборочное среднее - это наилучшая оценка генерального среднего М.

Выборочная дисперсия s 2 равна сумме квадратов отклонений элементов от выборочного среднего, поделенной на n - 1:

В нашем примере s 2 = 25,2 (м/с) 2 .

Обратите внимание, что при вычислении выборочной дисперсии в знаменателе формулы стоит не объем выборки n, а n-1. Это связано с тем, что при вычислении отклонений в формуле (3.3) вместо неизвестного математического ожидания используется его оценка - выборочное среднее.

Выборочная дисперсия - это наилучшая оценка генеральной дисперсии (σ 2).

Выборочное среднеквадратическое отклонение (s) - это квадратный корень из выборочной дисперсии:

Для нашего примера s = 5,02 (м/с).

Выборочное среднеквадратическое отклонение - это наилучшая оценка генерального СКО (σ).

При неограниченном увеличении объема выборки все выборочные характеристики стремятся к соответствующим характеристикам генеральной совокупности.

Для вычисления выборочных характеристик используют компьютерные формулы. В приложении Excel эти вычисления выполняют статистические функции СРЗНАЧ, ДИСП. СТАНДОТКЛОН.

3.3. ИНТЕРВАЛЬНАЯ ОЦЕНКА

Все выборочные характеристики являются случайными величинами. Это означает, что для другой выборки того же объема значения выборочных характеристик получатся другими. Таким образом, выборочные

характеристики являются лишь оценками соответствующих характеристик генеральной совокупности.

Недостатки выборочного оценивания компенсирует интервальная оценка, представляющая числовой интервал, внутри которого с заданной вероятностью Р д находится истинное значение оцениваемого параметра.

Пусть U r - некоторый параметр генеральной совокупности (генеральное среднее, генеральная дисперсия и т.д.).

Интервальной оценкой параметра U r называется интервал (U 1 , U 2), удовлетворяющий условию:

P(U < Ur < U2) = Рд. (3.5)

Вероятность Р д называется доверительной вероятностью.

Доверительная вероятность Р д - вероятность того, что истинное значение оцениваемой величины находится внутри указанного интервала.

При этом интервал (U 1 , U 2) называется доверительным интервалом для оцениваемого параметра.

Часто вместо доверительной вероятности используют связанную с ней величину α = 1 - Р д, которая называется уровнем значимости.

Уровень значимости - это вероятность того, что истинное значение оцениваемого параметра находится за пределами доверительного интервала.

Иногда α и Р д выражают в процентах, например, 5% вместо 0,05 и 95% вместо 0,95.

При интервальном оценивании сначала выбирают соответствующую доверительную вероятность (обычно 0,95 или 0,99), а затем находят соответствующий интервал значений оцениваемого параметра.

Отметим некоторые общие свойства интервальных оценок.

1. Чем ниже уровень значимости (чем больше Р д), тем шире интервальная оценка. Так, если при уровне значимости 0,05 интервальная оценка генерального среднего есть 34,7 < М < 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < М < 40,25.

2. Чем больше объем выборки n, тем уже интервальная оценка с выбранным уровнем значимости. Пусть, например, 5 - процентная оценка генеральной средней (β=0,05), полученная по выборке из 20 элементов, тогда 34,7 < М < 39,4.

Увеличив объем выборки до 80, мы при том же уровне значимости получим более точную оценку: 35,5 < М < 38,6.

В общем случае построение надежных доверительных оценок требует знания закона, по которому оцениваемый случайный признак распределен в генеральной совокупности. Рассмотрим, как строится интервальная оценка генерального среднего признака, который распределен в генеральной совокупности по нормальному закону.

3.4. ИНТЕРВАЛЬНАЯ ОЦЕНКА ГЕНЕРАЛЬНОГО СРЕДНЕГО ДЛЯ НОРМАЛЬНОГО ЗАКОНА РАСПРЕДЕЛЕНИЯ

Построение интервальной оценки генерального среднего М для генеральной совокупности с нормальным законом распределения основано на следующем свойстве. Для выборки объема n отношение

подчиняется распределению Стьюдента с числом степеней свободы ν = n - 1.

Здесь Х - выборочное среднее, а s - выборочное СКО.

Используя таблицы распределения Стьюдента или их компьютерный аналог, можно найти такое граничное значение что c заданной доверительной вероятностью выполняется неравенство:

Этому неравенству соответствует неравенство для М:

где ε - полуширина доверительного интервала.

Таким образом, построение доверительного интервала для М проводится в следующей последовательности.

1. Выбирают доверительную вероятность Р д (обычно 0,95 или 0,99) и для нее по таблице распределения Стьюдента находят параметр t

2. Рассчитывают полуширину доверительного интервала ε:

3. Получают интервальную оценку генерального среднего с выбранной доверительной вероятностью:

Кратко это записывается так:

Для нахождения интервальных оценок разработаны компьютерные процедуры.

Поясним, как пользоваться таблицей распределения Стьюдента. Эта таблица имеет два «входа»: левый столбец, называемый числом степеней свободы ν = n - 1, и верхняя строка - уровень значимости α. На пересечении соответствующей строки и столбца находят коэффициент Стьюдента t.

Применим этот метод к нашей выборке. Фрагмент таблицы распределения Стьюдента представлен ниже.

Таблица 3.3. Фрагмент таблицы распределения Стьюдента

Простой статистический ряд для выборки из 20 человек (n = 20, ν =19) представлен в табл. 3.1. Для этого ряда расчеты по формулам (3.1-3.3) дают: Х = 37,05; s = 5,02.

Выберем α = 0,05 (Р д = 0,95). На пересечении строки «19» и столбца «0,05» найдем t = 2,09.

Вычислим точность оценки по формуле (3.6): ε = 2,09?5,02/λ /20 = 2,34.

Построим интервальную оценку: с вероятностью 95% неизвестное генеральное среднее удовлетворяет неравенству:

37,05 - 2,34 < М < 37,05 + 2,34, или М = 37,05 ± 2,34 (м/с), Р д = 0,95.

3.5. МЕТОДЫ ПРОВЕРКИ СТАТИСТИЧЕСКИХ ГИПОТЕЗ

Статистические гипотезы

Прежде чем сформулировать, что такое статистическая гипотеза, рассмотрим следующий пример.

Для сравнения двух методик лечения некоторого заболевания были отобраны две группы пациентов по 20 человек, лечение которых проводилось по этим методикам. Для каждого пациента фиксировалось количество процедур, после которого достигался положительный эффект. По этим данным для каждой группы находились выборочные средние (Х), выборочные дисперсии (s 2) и выборочные СКО (s).

Результаты представлены в табл. 3.4.

Таблица 3.4

Количество процедур, необходимое для получения положительного эффекта, - случайная величина, вся информация о которой на данный момент содержится в приведенной выборке.

Из табл. 3.4 видно, что выборочное среднее в первой группе меньше, чем во второй. Означает ли это, что и для генеральных средних имеет место такое же соотношение: М 1 < М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает статистическая проверка гипотез.

Статистическая гипотеза - это предположение относительно свойств генеральных совокупностей.

Мы будем рассматривать гипотезы о свойствах двух генеральных совокупностей.

Если генеральные совокупности имеют известные, одинаковые распределения оцениваемой величины, а предположения касаются величин некоторого параметра этого распределения, то гипотезы называются параметрическими. Например, выборки извлечены из генеральных совокупностей с нормальным законом распределения и одинаковой дисперсией. Требуется выяснить, одинаковы ли генеральные средние этих совокупностей.

Если о законах распределения генеральных совокупностей ничего не известно, то гипотезы об их свойствах называют непараметрическими. Например, одинаковы ли законы распределения генеральных совокупностей, из которых извлечены выборки.

Нулевая и альтернативная гипотезы.

Задача проверки гипотез. Уровень значимости

Познакомимся с терминологией, применяемой при проверке гипотез.

Н 0 - нулевая гипотеза (гипотеза скептика) - это гипотеза об отсутствии различий между сравниваемыми выборками. Скептик считает, что различия между выборочными оценками, полученными по результатам исследований, - случайны;

Н 1 - альтернативная гипотеза (гипотеза оптимиста) - это гипотеза о наличии различий между сравниваемыми выборками. Оптимист считает, что различия между выборочными оценками вызваны объективными причинами и соответствуют различиям генеральных совокупностей.

Проверка статистических гипотез осуществима только тогда, когда из элементов сравниваемых выборок можно составить некоторую величину (критерий), закон распределения которой в случае справедливости Н 0 известен. Тогда для этой величины можно указать доверительный интервал, в который с заданной вероятностью Р д попадает ее значение. Этот интервал называют критической областью. Если значение критерия попадает в критическую область, то принимается гипотеза Н 0 . В противном случае принимается гипотеза Н 1 .

В медицинских исследованиях используют Р д = 0,95 или Р д = 0,99. Этим значениям соответствуют уровни значимости α = 0,05 или α = 0,01.

При проверке статистических гипотез уровнем значимости (α) называется вероятность отклонения нулевой гипотезы, когда она верна.

Обратите внимание на то, что по своей сути процедура проверки гипотез направлена на обнаружение различий, а не на подтверждение их отсутствия. При выходе значения критерия за пределы критической области мы можем с чистым сердцем сказать «скептику» - ну что, Вы еще хотите?! Если бы различия отсутствовали, то с вероятностью 95% (или 99%) расчетное значение было бы в указанных пределах. Так ведь нет!..

Ну а если значение критерия попадает в критическую область, то нет никаких оснований считать что гипотеза Н 0 верна. Это, скорее всего, указывает на одну из двух возможных причин.

1. Объемы выборок недостаточно велики, чтобы обнаружить имеющиеся различия. Вполне вероятно, что продолжение экспериментов принесет успех.

2. Различия есть. Но они настолько малы, что не имеют практического значения. В этом случае продолжение экспериментов не имеет смысла.

Перейдем к рассмотрению некоторых статистических гипотез, используемых в медицинских исследованиях.

3.6. ПРОВЕРКА ГИПОТЕЗ О РАВЕНСТВЕ ДИСПЕРСИЙ, F-КРИТЕРИЙ ФИШЕРА

В некоторых клинических исследованиях о положительном эффекте свидетельствует не столько величина исследуемого параметра, сколько его стабилизация, уменьшение его колебаний. В этом случае возникает вопрос о сравнении двух генеральных дисперсий по результатам выборочного обследования. Эта задача может быть решена с помощью критерия Фишера.

Постановка задачи

нормальным законом распределения. Объемы выборок -

n 1 и n 2 , а выборочные дисперсии равны s 1 и s 2 2 генеральные дисперсии.

Проверяемые гипотезы:

Н 0 - генеральные дисперсии одинаковы;

Н 1 - генеральные дисперсии различны.

Показано, если выборки извлечены из генеральных совокупностей с нормальным законом распределения, то при справедливости гипотезы Н 0 отношение выборочных дисперсий подчиняется распределению Фишера. Поэтому в качестве критерия для проверки справедливости Н 0 берется величина F, вычисляемая по формуле:

где s 1 и s 2 - выборочные дисперсии.

Это отношение подчиняется распределению Фишера с числом степеней свободы числителя ν 1 = n 1 - 1 и числом степеней свободы знаменателя ν 2 = n 2 - 1. Границы критической области находятся по таблицам распределения Фишера или с помощью компьютерной функции БРАСПОБР.

Для примера, представленного в табл. 3.4, получим: ν 1 = ν 2 = 20 - 1 = 19; F = 2,16/4,05 = 0,53. При α = 0,05 границы критической области равны соответственно: = 0,40, = 2,53.

Значение критерия попало в критическую область, поэтому принимается гипотеза Н 0: генеральные дисперсии выборок одинаковы.

3.7. ПРОВЕРКА ГИПОТЕЗ ОТНОСИТЕЛЬНО РАВЕНСТВА СРЕДНИХ, t-КРИТЕРИЙ СТЬЮДЕНТА

Задача сравнения средних двух генеральных совокупностей возникает, когда практическое значение имеет именно величина исследуемого признака. Например, когда сравниваются сроки лечения двумя различными методами или количества осложнений, возникающих при их применении. В этом случае можно использовать t-критерий Стьюдента.

Постановка задачи

Получены две выборки {Х 1 } и {Х 2 }, извлеченные из генеральных совокупностей с нормальным законом распределения и одинаковыми дисперсиями. Объемы выборок - n 1 и n 2 , выборочные средние равны Х 1 и Х 2, а выборочные дисперсии - s 1 2 и s 2 2 соответственно. Требуется сравнить между собой генеральные средние.

Проверяемые гипотезы:

Н 0 - генеральные средние одинаковы;

Н 1 - генеральные средние различны.

Показано, что в случае справедливости гипотезы Н 0 величина t, вычисляемая по формуле:

распределена по закону Стьюдента с числом степеней свободы ν = ν 1 + + ν2 - 2.

Здесь где ν 1 = n 1 - 1 - число степеней свободы для первой выборки; ν 2 = n 2 - 1 - число степеней свободы для второй выборки.

Границы критической области находят по таблицам t-распределения или с помощью компьютерной функции СТЬЮДРАСПОБР. Распределение Стьюдента симметрично относительно нуля, поэтому левая и правая границы критической области одинаковы по модулю и противоположны по знаку: -и

Для примера, представленного в табл. 3.4, получим:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t = -2,51. При α = 0,05 = 2,02.

Значения критерия выходит за левую границу критической области, поэтому принимаем гипотезу Н 1: генеральные средние различны. При этом среднее генеральной совокупности первой выборки МЕНЬШЕ.

Применимость t-критерия Стьюдента

Критерий Стьюдента применим только к выборкам из нормальных совокупностей с одинаковыми генеральными дисперсиями. Если хотя бы одно из условий нарушено, то применимость критерия сомнительна. Требование нормальности генеральной совокупности обычно игнорируют, ссылаясь на центральную предельную теорему. Действительно, разность выборочных средних, стоящая в числителе (3.10), может считаться нормально распределенной при ν > 30. Но вопрос о равенстве дисперсий проверке не подлежит, и ссылки на то, что критерий Фишера не обнаружил различий, принимать во внимание нельзя. Тем не менее t-критерий достаточно широко применяется для обнаружения различий в средних значениях генеральных совокупностей, хотя и без достаточных оснований.

Ниже рассматривается непараметрический критерий, который с успехом используют для этих же целей и который не требует ни нормальности, ни равенства дисперсий.

3.8. НЕПАРАМЕТРИЧЕСКОЕ СРАВНЕНИЕ ДВУХ ВЫБОРОК: КРИТЕРИЙ МАННА-УИТНИ

Непараметрические критерии предназначены для обнаружения различий в законах распределения двух генеральных совокупностей. Критерии, которые чувствительны к различиям генеральных средних, называют критериями сдвига. Критерии, которые чувствительны к различиям генеральных дисперсий, называют критериями масштаба. Критерий Манна-Уитни относится к критериям сдвига и используется для обнаружения различий в средних значениях двух генеральных совокупностей, выборки из которых представлены в ранговой шкале. Измеренные признаки распологаются на этой шкале в порядке возрастания, а затем нумеруются целыми числами 1, 2... Эти числа и называются рангами. Равным величинам присваивают одинаковые ранги. Значение имеет не сама величина признака, а лишь порядковое место, который она занимает среди других величин.

В табл. 3.5. первая группа из таблицы 3.4 представлена в развернутом виде (строка 1), подвергнута ранжированию (стока 2), а затем ранги одинаковых величин заменены среднеарифметическими значениями. Например, элементы 4 и 4, стоящие в первой строке, получили ранги 2 и 3, которые затем заменены на одинаковые значения 2,5.

Таблица 3.5

Постановка задачи

Независимые выборки {Х 1 } и {Х 2 } извлечены из генеральных совокупностей с неизвестными законами распределения. Объемы выборок n 1 и n 2 соответственно. Значения элементов выборок представлены в ранговой шкале. Требуется проверить, различаются ли эти генеральные совокупности между собой?

Проверяемые гипотезы:

Н 0 - выборки принадлежат к одной генеральной совокупности; Н 1 - выборки принадлежат к различным генеральным совокупностям.

Для проверки таких гипотез применяется {/-критерий Манна-Уитни.

Сначала из двух выборок составляется объединенная выборка {X}, элементы которой ранжируются. Затем находится сумма рангов, соответствующих элементам первой выборки. Эта сумма и является критерием для проверки гипотез.

U = Сумме рангов первой выборки. (3.11)

Для независимых выборок, объемы которых больше 20, величина U подчиняется нормальному распределению, математическое ожидание и СКО которого равны:

Поэтому границы критической области находятся по таблицам нормального распределения.

Для примера, представленного в табл. 3.4, получим: ν 1 = ν 2 = 20 - 1 = 19, U = 339, μ = 410, σ = 37. Для α = 0,05 получим: и лев = 338, и прав = 482.

Значение критерия выходит за левую границу критической области, поэтому принимается гипотеза Н 1: генеральные совокупности имеют различные законы распределения. При этом среднее генеральной совокупности первой выборки МЕНЬШЕ.

Теория статистики: конспект лекций Бурханова Инесса Викторовна

1. Статистические ряды распределения

В результате обработки и систематизации первичных данных статистического наблюдения получают группировки, называемые рядами распределения.

Статистические ряды распределения представляют собой упорядоченное расположение единиц изучаемой совокупности на группы по группировочному признаку.

Различают атрибутивные и вариационные ряды распределения.

Атрибутивный – это ряд распределения, построенный по качественным признакам. Он характеризует состав совокупности по различным существенным признакам.

По количественному признаку строится вариационный ряд распределения. Он состоит из частоты (численности) отдельных вариантов или каждой группы вариационного ряда. Данные числа показывают, насколько часто встречаются различные варианты (значения признака) в ряду распределения. Сумма всех частот определяет численность всей совокупности.

Численности групп выражаются в абсолютных и относительных величинах. В абсолютных величинах выражается числом единиц совокупности в каждой выделенной группе, а в относительных величинах – в виде долей, удельных весов, представленных в процентах к итогу.

В зависимости от характера вариации признака различают дискретные и интервальные вариационные ряды распределения. В дискретном вариационном ряде распределения группы составлены по признаку, изменяющемуся дискретно и принимающему только целые значения.

В интервальном вариационном ряде распределения группиро–вочный признак, составляющий основание группировки, может принимать в определенном интервале любые значения.

Вариационные ряды состоят из двух элементов: частоты и варианты.

Вариантой называют отдельное значение варьируемого признака, которое он принимает в ряду распределения.

Частота – это численность отдельных вариант или каждой группы вариационного ряда. Если частоты выражены в долях единицы или в процентах к итогу, то их называют частостями.

Правила и принципы построения интервальных рядов распределения строятся по аналогичным правилам и принципам построения статистических группировок. Если интервальный вариационный ряд распределения построен с равными интервалами, частоты позволяют судить о степени заполнения интервала единицами совокупности. Для проведения сравнительного анализа заполненности интервалов определяют показатель, который будет характеризовать плотность распределения.

Плотность распределения – это отношение числа единиц совокупности к ширине интервала.

Из книги Купить ресторан. Продать ресторан: от создания к продаже автора Горелкина Елена

Статистические методы Подсчет в толпе. Метод, честно говоря, наивный, но очень популярный. Организатор ресторанного бизнеса берет блокнот и карандаш, становится у двери похожего заведения в равноценном районе и считает, сколько человек проходит мимо в единицу времени.

Из книги Столетие войны. (Англо-американская нефтяная политика и Новый Мировой Порядок) автора Энгдаль Уильям Фредерик

Глава 6 АНГЛО-АМЕРИКАНЦЫ СМЫКАЮТ РЯДЫ Генуэзская конференция16 апреля 1922 года на генуэзской вилле «Альберта» немецкая делегация, присутствовавшая на послевоенной международной конференции по экономике, взорвала бомбу, ударная волна от которой докатилась до другого

Из книги Теория статистики: конспект лекций автора

1. Статистические ряды распределения В результате обработки и систематизации первичных данных статистического наблюдения получают группировки, называемые рядами распределения.Статистические ряды распределения представляют собой упорядоченное расположение единиц

Из книги Общая теория статистики: конспект лекции автора Коник Нина Владимировна

3. Статистические таблицы В виде статистических таблиц оформляются результаты сводки и группировки материалов наблюдения.Статистическая таблица – это особый способ краткой и наглядной записи сведений об изучаемых общественных явлениях. Статистическая таблица

Из книги Теория статистики автора Бурханова Инесса Викторовна

ЛЕКЦИЯ № 10. Ряды динамики и их изучение в коммерческой деятельности 1. Основные понятия о рядах динамики Все процессы и явления, протекающие в общественной жизни человека, являются предметом изучения статистической науки они находятся в постоянном движении и

Из книги Финансовая статистика автора Шерстнева Галина Сергеевна

3. Статистические таблицы После того как данные статистического наблюдения собраны и даже сгруппированы, их трудно воспринимать и анализировать без определенной, наглядной систематизации. Результаты статистических сводок и группировок получают оформление в виде

Из книги Общая теория статистики автора Щербина Лидия Владимировна

4. Ряды агрегатных индексов с постоянными и переменными весами При изучении динамики экономических явлений строятся и исчисляются индексы за ряд последовательных периодов. Они образуют ряды либо базисных, либо цепных индексов. В ряду базисных индексов сравнение

Из книги Бизнес-план на 100%. Стратегия и тактика эффективного бизнеса автора Абрамс Ронда

18. Статистические ряды распределения и их графическое изображение Статистические ряды распределения представляют собой упорядоченное расположение единиц изучаемой совокупности на группы по группировочному признаку.Различают атрибутивные и вариационные ряды

Из книги автора

19. Статистические таблицы В виде статистических таблиц оформляются результаты сводки и группировки материалов наблюдения.Статистическая таблица – это особый способ краткой и наглядной записи сведений об изучаемых общественных явлениях. Статистическая таблица

Из книги автора

6. Статистические термины Статистическая информация, получаемая в результате наблюдения, необходима для предоставления органам государственного управления, для обеспечения информацией руководителей предприятий, компаний и т. д., для информирования общественности об

Из книги автора

44. Статистические методы Особенно широко используются статистические методы при изучении финансовых инвестиций. В основе изучения финансовых инвестиций лежит построение уравнения эквивалентности, так называемого баланса финансовой операции. Содержание данного

Из книги автора

45. Статистические модели Для эффективной работы на фондовом рынке необходимо знать, как доходность конкретного наименования акций (или портфеля акций конкретного инвестора) связана со средней рыночной доходностью всей совокупности акций, т. е. с рыночным индексом. Для

Из книги автора

15. Статистические таблицы Статистическая таблица – таблица, которая дает количественную характеристику статистической совокупности и представляет собой форму наглядного изложения полученных в результате статистической сводки и группировки числовых (цифровых)

Из книги автора

19. Статистические карты Статистические карты представляют собой вид графических изображений статистических данных на схематичной географической карте, характеризую–щих уровень или степень распространения того или иного явления на определенной территории.

Из книги автора

38. Ряды агрегатных индексов с постоянными и переменными весами При изучении динамики экономических явл* ний строятся и исчисляются индексы за ряд последов тельных периодов. Они образуют ряды либо бази ных, либо цепных индексов. В ряду базисных индексе сравнение

Из книги автора

Международные статистические данные Интернет существенно упростил сбор данных в мировом масштабе. В большинстве развитых и многих развивающихся странах обеспечен интернет-доступ к статистической информации. В свободном доступе размещают свои данные и международные

Ряды распределения

Статистические ряды распределения представляют собой упорядоченное распределение единиц совокупности по группам и группировкам. Ряды распределения изучают структуру совокупности, позволяют изучить ее однородность, размах и границы. Ряды распределения, образованные по качественным признакам, называют атрибутивными . При группировке по количественному признаку выделяются вариационные ряды. Вариационные ряды – ряды распределения единиц совокупности по признакам, имеющим количественное выражение, т. е. образованы численными значениями.

Вариационные ряды по строению делятся на:

  1. Дискретные (прерывные) – основаны на прерывных вариациях признака. Это такие ряды, где значения вариант имеют значения целых чисел (т. е. не могут принимать дробные значения). Дискретные признаки отличаются друг от друга на некоторую конкретную величину.
  2. Интервальные (непрерывные) – имеют любые, в том числе и дробные количественные выражения и представлены в виде интервалов. Непрерывные признаки могут отличаться один от другого на сколь угодно малую величину.

Вариационные ряды имеют два элемента:

  1. варианта (x)
  2. частота (f)

Варианта – отдельное значение варьируемого признака, которое он принимает в ряду распределения.

Частота – численность отдельных вариант или каждой группы вариационного ряда. В некоторых случаях применяется частость . Частоты, выраженные в % или долях процента, называются частостями и рссчитываются как отношение локальной частоты варианты к сумме накопленных частот.

В свою очередь, частота бывает:

  • локальной
  • накопленной (кумулятивная — нарастающим итогом)

Если вариационный ряд имеет неравные интервалы, то частоты в отдельных интервалах не сопоставимы, т. к. зависят от ширины интервала. В этих случаях рассчитывают плотность распределения, которая дает правильное представление о характере распределения вариант (единиц совокупности). Плотность распределения, в свою очередь, бывает:

  • абсолютная плотность распределения – отношение частоты к величине (ширине) интервала
  • относительная плотность распределения — отношение частости к ширине интервала

Интервалы

Локальная частота (f)

Накопленная частота (Σf)

Частость (ω)

Плотность распределения (φ)

20-30

0,03

30-40

0,05

40-50

0,01

50-60

0,01

Для характеристики рядов распределения применяются следующие показатели:

  • средняя степенная
  • мода
  • медиана

Пример:

Условие

Известно распределение 20 однотипных торговых точек по величине ежедневной прибыли (тыс. руб.):

11,3; 10,2; 13,9; 10,7; 11,8; 8,2; 12,4; 9,6; 13,1; 10,6; 6,3; 11,3; 10,2; 15,1; 10,5; 11,0; 15,1; 11,6; 10,4; 11,7.

  1. Составить интервальный ряд распределения.
  2. Построить гистограмму распределения плотности относительных частот.

Решение

Запишем исходные данные в виде ранжированного ряда:

6,3; 8,2; 9,6; 10,2; 10,2; 10,4; 10,5; 10,6; 10,7; 11,0; 11,3; 11,3; 11,6; 11,7; 11,8; 12,4; 13,1; 13,9; 15,1; 15,1.

Диапазон изменения вариант в выборке составляет 6–16. Этот диапазон разобьем на несколько интервалов. Ширину (шаг) интервала рассчитаем по формуле:

Следует иметь в виду, что чем меньше интервал, тем точнее результаты. В нашем случае принимаем размер интервала равным 2 единицам, то есть h=2. Зависимость между количеством групп (n) и численностью единиц совокупности (N) выражается формулой Стерджесса при условии, что данное распределение подчиняется закону нормального распределения (ЗНР) и применяются равные интервалы:

В практической работе можно использовать данные таблицы:

N 15-24 25-44 45-89 90-179 180-359 360-719 720-1439
n 5 6 7 8 9 10 11

Получаем пять интервалов: первый 6–8, второй 8–10, третий 10–12, четвертый 12–14, пятый 14–16.

Определим частоту попадания вариант выборки в каждый интервал.

В первый интервал попадает одно значение ряда: 6,3, поэтому f 1 =1. Во второй интервал попадают два значения: 8,2 и 9,6, поэтому f 2 =2. Аналогично находим f 3 =12, f 4 =3, f 5 =2. Определим относительные частоты попадания вариант выборки в каждый интервал:

в 1 интервал

во 2 интервал

в 3 интервал

в 4 интервал

в 5 интервал

Сумма относительных частот

Следовательно, вычисления выполнены верно.

Определим плотность относительных частот вариант как отношение относительной частоты (ω i) к ширине интервала (h):

для первого интервала

для второго интервала

для третьего интервала

для четвертого интервала

для пятого интервала

Результаты выполненных расчетов сводим в таблицу.

Интервальный ряд распределения прибыли предприятий

Интервал значений прибыли (h) 6 — 8 8 – 10 10 — 12 12 — 14 14 — 16
Частоты вариант (f i) 1 2 12 3 2
Относительные частоты (ω i) 0,05 0,10 0,60 0,15 0,10
Плотность относительных частот (φ i) 0,025 0,050 0,300 0,075 0,050

Гистограмма распределения

Построим гистограмму, показывающую зависимость плотности относительных частот от значения вариант. По горизонтальной оси наносим шкалу возможных значений вариант, по вертикальной оси – плотность относительных частот; величину относительной плотности считаем постоянной внутри соответствующего интервала. Получаем столбчатую диаграмму, называемую гистограммой распределения плотности относительных частот.

Смотри также