Коэффициент вариации определяется по формуле. Относительные показатели вариации

По данным выборочного обследования произведена группировка вкладчиков по размеру вклада в Сбербанке города:

Определите:

1) размах вариации;

2) средний размер вклада;

3) среднее линейное отклонение;

4) дисперсию;

5) среднее квадратическое отклонение;

6) коэффициент вариации вкладов.

Решение:

Данный ряд распределения содержит открытые интервалы. В таких рядах условно принимается величина интервала первой группы равна величине интервала последующей, а величина интервала последней группы равна величине интервала предыдущей.

Величина интервала второй группы равна 200, следовательно, и величина первой группы также равна 200. Величина интервала предпоследней группы равна 200, значит и последний интервал будет иметь величину, равную 200.

1) Определим размах вариации как разность между наибольшим и наименьшим значением признака:

Размах вариации размера вклада равен 1000 рублей.

2) Средний размер вклада определим по формуле средней арифметической взвешенной.

Предварительно определим дискретную величину признака в каждом интервале. Для этого по формуле средней арифметической простой найдём середины интервалов.

Среднее значение первого интервала будет равно:

второго - 500 и т. д.

Занесём результаты вычислений в таблицу:

Размер вклада, руб. Число вкладчиков, f Середина интервала, х xf
200-400 32 300 9600
400-600 56 500 28000
600-800 120 700 84000
800-1000 104 900 93600
1000-1200 88 1100 96800
Итого 400 - 312000

Средний размер вклада в Сбербанке города будет равен 780 рублей:

3) Среднее линейное отклонение есть средняя арифметическая из абсолютных отклонений отдельных значений признака от общей средней:

Порядок расчёта среднего линейонго отклонения в интервальном ряду распределения следующий:

1. Вычисляется средняя арифметическая взвешенная, как показано в п. 2).

2. Определяются абсолютные отклонения вариант от средней:

3. Полученные отклонения умножаются на частоты:

4. Находится сумма взвешенных отклонений без учёта знака:

5. Сумма взвешенных отклонений делится на сумму частот:

Удобно пользоваться таблицей расчётных данных:

Размер вклада, руб. Число вкладчиков, f Середина интервала, х
200-400 32 300 -480 480 15360
400-600 56 500 -280 280 15680
600-800 120 700 -80 80 9600
800-1000 104 900 120 120 12480
1000-1200 88 1100 320 320 28160
Итого 400 - - - 81280

Среднее линейное отклонение размера вклада клиентов Сбербанка составляет 203,2 рубля.

4) Дисперсия - это средняя арифметическая квадратов отклонений каждого значения признака от средней арифметической.

Расчёт дисперсии в интервальных рядах распределения производится по формуле:

Порядок расчёта дисперсии в этом случае следующий:

1. Определяют среднюю арифметическую взвешенную, как показано в п. 2).

2. Находят отклонения вариант от средней:

3. Возводят в квадрат отклонения каждой варианты от средней:

4. Умножают квадраты отклонений на веса (частоты):

5. Суммируют полученные произведения:

6. Полученная сумма делится на сумму весов (частот):

Расчёты оформим в таблицу:

Размер вклада, руб. Число вкладчиков, f Середина интервала, х
200-400 32 300 -480 230400 7372800
400-600 56 500 -280 78400 4390400
600-800 120 700 -80 6400 768000
800-1000 104 900 120 14400 1497600
1000-1200 88 1100 320 102400 9011200
Итого 400 - - - 23040000

Полученные из опыта величины неизбежно содержат погрешности, обусловленные самыми разнообразными причинами. Среди них следует различать погрешности систематические и случайные. Систематические ошибки обусловливаются причинами, действующими вполне определенным образом, и могут быть всегда устранены или достаточно точно учтены. Случайные ошибки вызываются весьма большим числом отдельных причин, не поддающихся точному учету и действующих в каждом отдельном измерении различным образом. Эти ошибки невозможно совершенно исключить; учесть же их можно только в среднем, для чего необходимо знать законы, которым подчиняются случайные ошибки.

Будем обозначать измеряемую величину через А, а случайную ошибку при измерении х. Так как ошибка х может принимать любые значения, то она является непрерывной случайной величиной, которая вполне характеризуется своим законом распределения.

Наиболее простым и достаточно точно отображающим действительность (в подавляющем большинстве случаев) является так называемый нормальный закон распределения ошибок :

Этот закон распределения может быть получен из различных теоретических предпосылок, в частности, из требования, чтобы наиболее вероятным значением неизвестной величины, для которой непосредственным измерением получен ряд значений с одинаковой степенью точности, являлось среднее арифметическое этих значений. Величина 2 называется дисперсией данного нормального закона.

Среднее арифметическое

Определение дисперсии по опытным данным. Если для какой-либо величины А непосредственным измерением получено n значений a i с одинаковой степенью точности и если ошибки величины А подчинены нормальному закону распределения, то наиболее вероятным значением А будет среднее арифметическое :

a - среднее арифметическое,

a i - измеренное значение на i-м шаге.

Отклонение наблюдаемого значения (для каждого наблюдения) a i величины А от среднего арифметического : a i - a.

Для определения дисперсии нормального закона распределения ошибок в этом случае пользуются формулой:

2 - дисперсия,
a - среднее арифметическое,
n - число измерений параметра,

Среднеквадратическое отклонение

Среднеквадратическое отклонение показывает абсолютное отклонение измеренных значений от среднеарифметического . В соответствии с формулой для меры точности линейной комбинации средняя квадратическая ошибка среднего арифметического определяется по формуле:

, где


a - среднее арифметическое,
n - число измерений параметра,
a i - измеренное значение на i-м шаге.

Коэффициент вариации

Коэффициент вариации характеризует относительную меру отклонения измеренных значений от среднеарифметического :

, где

V - коэффициент вариации,
- среднеквадратическое отклонение,
a - среднее арифметическое.

Чем больше значение коэффициента вариации , тем относительно больший разброс и меньшая выравненность исследуемых значений. Если коэффициент вариации меньше 10%, то изменчивость вариационного ряда принято считать незначительной, от 10% до 20% относится к средней, больше 20% и меньше 33% к значительной и если коэффициент вариации превышает 33%, то это говорит о неоднородности информации и необходимости исключения самых больших и самых маленьких значений.

Среднее линейное отклонение

Один из показателей размаха и интенсивности вариации - среднее линейное отклонение (средний модуль отклонения) от среднего арифметического. Среднее линейное отклонение рассчитывается по формуле:

, где

_
a - среднее линейное отклонение,
a - среднее арифметическое,
n - число измерений параметра,
a i - измеренное значение на i-м шаге.

Для проверки соответствия исследуемых значений закону нормального распределения применяют отношение показателя асимметрии к его ошибке и отношение показателя эксцесса к его ошибке.

Показатель асимметрии

Показатель асимметрии (A) и его ошибка (m a) рассчитывается по следующим формулам:

, где

А - показатель асимметрии,
- среднеквадратическое отклонение,
a - среднее арифметическое,
n - число измерений параметра,
a i - измеренное значение на i-м шаге.

Показатель эксцесса

Показатель эксцесса (E) и его ошибка (m e) рассчитывается по следующим формулам:

, где

Показатели вариации

Понятие вариации

Вариация - это наличие различий у отдельных единиц сово­купности по какому-либо признаку.

Эта категория занимает особое место в статистической науке, ибо именно наличие вариации единиц совокупности предопределяет необходимость статистики. Если бы отдельные единицы сово­купности имели они и те же значения признаков (например, рост, возраст у всех живущих людей был бы одинаковый), то для изу­чения данной совокупности по этим признакам достаточно было бы изучить только одну единицу совокупности. Однако зачастую значения признаков колеблются, изменяются при переходе от од­ной единицы к другой. Как правило, вариация является порожде­нием следующих причин:

Своеобразие условий, в которых происходит развитие от­дельных единиц совокупности;

Неравномерность развития отдельных единиц.

Например, причиной вариации роста у отдельно взятых людей является генетическая особен­ность каждого организма (основная причина), особенности питания, экологическая обстановка и т.д.; вариация урожайности может быть вызвана климатическими, почвенными особенностями зоны про­израстания, режима и возможности полива, качеством посадочного материала и т.д.

Вариация существует во времени и в пространстве.

Под вариаци­ей в пространстве понимается колеблемость значений признака по отдельным территориям (урожайность пшеницы в разных ре­гионах).

Под вариацией во времени подразумевается объективное измене­ние значений признака в разные периоды (или моменты). Напри­мер, со временем изменяется средняя продолжительность пред­стоящей жизни, доходность предприятий отрасли, уровень по­требностей людей и т.д.

Изучение вариации имеет важное значение, так как вариация ха­рактеризует степень однородности совокупности. Однородность совокупности - необходимое условие при расчете большинства статистических показателей, в частности средних величин.

Показатели вариации

Показатели вариации являются необходимым дополнением при расчете средних величин, так как определяют степень однород­ности совокупности.

Система показателей вариации включает следующее:

Размах вариации;

Среднее квадратическое отклонение;

Дисперсия;

Коэффициент вариации.

Значение показателей вариации:

Характеризуются размеры вариации признака;

Показатели вариации дополняют систему средних величин, в которой затушевываются индивидуальные различия;

Показатели вариации позволяют охарактеризовать уровень однородности совокупности;

С помощью показателей вариации, путем сравнения вариа­ции у отдельных признаков (разных), есть возможность измерить взаимосвязь между этими признаками.

Первый показатель, так называемый размах вариации, - наи­более простой из показателей, характеризует абсолютные разме­ры изменения признака и определяется как разница максимально­го и минимального значений признака:

Несмотря на простоту расчета, этот показатель имеет важный не­достаток - учитывает только два приграничных значения. В случае аномальности одного или двух приграничных значений, он может исказить действительную вариацию совокупности.

Для того чтобы избавиться от этого недостатка, рассчитывают отклонение каждой индивидуальной величины от средней по со­вокупности. Таким образом, учитывается значение каждой еди­ницы совокупности. Для того чтобы охарактеризовать это откло­нение одним числом, рассчитывают среднюю из этих значений. Данный показатель носит название среднее абсолютное (линей­ное) отклонение и определяется следующим образом:

Простой вид;

- взвешенный вид (для сгруппированных данных);

где d(L) - среднее абсолютное (линейное) отклонение;

х - индивидуальное значение признака (варианта);

Среднее из значений признака;

п - численность совокупности;

f - частота.

Среднее линейное отклонение характеризует средний размер отклонений индивидуальных значений признака от средней вели­чины. Таким образом, он характеризует абсолютные размеры ва­риации, имеет те же единицы измерения, что и признак, вариа­цию которого характеризует.

Недостаток: ввиду того, что применяется модуль, затруднено проведение математических операций. Поэтому он применяется редко.

Для того чтобы избавиться от недостатка предыдущего показате­ля, разницу между индивидуальным значением и средней возве­дем в квадрат и затем извлечем корень квадратный из полученно­го среднего значения. Полученный показатель будет называться среднее квадратическое отклонение:

- простая.

- взвешенная.

Играет ту же роль, что и среднее абсолютное отклонение, но, имеет перед ним одно преимущество, а именно, с ним проще проводить математические операции. Ввиду этого в 90 случаях из 100 используется этот показатель.

Еще более удобный для математических преобразований показа­тель вариации - дисперсия, который представляет собой сред­нее квадратическое отклонение в квадрате:

- простая,

- взвешенная.

С помощью дисперсии и среднего квадратического отклонения измеряются взаимосвязи между различными признаками. Кроме того, по этим показателям можно сравнивать совокупности в смысле их однородности по одинаковым признакам.

Вывод об однородности совокупности позволяет сделать коэффициент вариации , который может быть рассчитан несколькими способами в зависимости от исходной информации:

Характеризует средний процент отклонений индивидуальных значений признака от средней величины.

,

,

,

где V – коэффициент вариации;

σ – среднее квадратическое отклонение;

d (L) – среднее линейное отклонение;

Х МО – мода (структурная средняя);

Х МЕ – медиана(структурная средняя).

Коэффициент вариации имеет большое значение. Он позволяет сравнивать уровень вариации по различным признакам и используется для характеристики однородности совокупности. Если коэффициент вариации меньше 33%, то совокупность однородна.

Пример расчета показателей вариации.

Распределение студентов вуза по возрасту характеризуются следующими данными (табл. 1):

Таблица 1

Рассчитайте показатели, характеризующие вариацию возраста студентов для каждой формы



обучения. Сравните полученные результаты.

Рассчитаем показатели вариации, характеризующие совокупность студентов очно-заочной формы

обучения.

1. Размах вариации:

R = x max – x min = 31 - 18,5 = 12,5 (лет)

2. Средняя арифметическая:

3. Среднее линейное отклонение:

Возраст отдельно взятого студента отклоняется от среднего по совокупности возраста - 27 лет - на 3 года. То есть можно утверждать, что возраст наибольшего числа студентов не будет выходить за границы интервала: от 24,3 до 30,4 лет.

27,36 - 3,07 < 27,36 < 27,36+ 3,07.

Среднее квадратическое отклонение:

Среднее квадратическое отклонение также характеризует абсолютную величину отклонения индиви­дуального значения от средней. Как правило, значение среднего квадратического отклонения больше среднего линейного отклонения.

Дисперсия:

=13,899

Характеризует квадрат отклонений индивидуального значения от средней величины. Коэффициент вариации:

Средний процент отклонений индивидуальных значений от средней величины составляет 13,6%. Со­вокупность однородна. Сделаем аналогичные расчеты по совокупности студентов дневного отделения. Получаем следующие результаты:

d(L) = 3,40

V = 21,9%

На основании приведенных расчетов можно сделать вывод о том, что совокупность студентов очно-заочного отделения более однородная.

Расчет показателей вариации - достаточно трудоемкий процесс. В некоторых случаях, когда имеется ряд показателей с равноот­стоящими моментами времени или равноинтервальный ряд рас­пределения, расчет может быть упрощен. Сокращенные способы расчета дисперсии базируются на знании свойств дисперсии. Свойства дисперсии:

Если от всех значений варианты х отнять (прибавить) по­стоянное число А, то дисперсия не изменится;

Если каждое значение варианты разделить (умножить) на постоянную величину к, то дисперсия уменьшится (увеличится) в к 2 раз.

Сокращенные способы расчета дисперсии:

2. Способ моментов – применяется только в случае равенства интервалов.

ВВЕДЕНИЕ

Методические указания по выполнению практических и лабораторных работ по статистике содержат требования по их выполнению, порядок расчетов вручную и с использованием MS Excel, ППП Statistica.

Часть II методических указаний характеризует расчет показателей вариации: размаха вариации, квартилей и квартильного отклонения, среднего линейного отклонения, дисперсии и среднего квадратического отклонения, коэффициентов осцилляции, вариации, асимметрии, эксцесса и других.

Расчет показателей вариации наряду с построением интервальных и дискретных вариационных рядов и расчетом средних величин, представленными в части I методических указаний, имеет большое значение для анализа рядов распределения.

РАСЧЕТ ПОКАЗАТЕЛЕЙ ВАРИАЦИИ

Цель работы: получение практических навыков в расчете различных показателей (меры) вариации в зависимости от поставленных исследованием задач.

Порядок выполнения работы:

Определить вид и форму (простая или взвешенная) показателей вариации.

Сформулировать выводы.

Пример расчета показателей вариации

Определение вида и формы показателей вариации.

Показатели вариации делятся на две группы: абсолютные и относительные. К абсолютным относятся: размах вариации, квартильное отклонение, среднее линейное отклонение, дисперсия и среднее квадратическое отклонение. Относительными показателями являются коэффициенты осцилляции, вариации, относительное линейное отклонение и т. д.

Размах вариации (R) является наиболее простым измерителем вариации признака и определяется по следующей формуле:

где - наибольшее значение варьирующего признака;

Наименьшее значение варьирующего признака.

Квартильное отклонение (Q) - применяется для характеристики вариации признака в совокупности. Может использоваться вместо размаха вариации во избежание недостатков, связанных с использованием крайних значений.

Квартили - это значения признака в ранжированном ряду распределения, выбранные таким образом, что 25% единиц совокупности будут меньше по величине; 25% единиц будут заключены между и; 25% единиц будут заключены между и, и остальные 25% превосходят.

где - нижняя граница интервала, в котором находится первая квартиль;

Сумма накопленных частот интервалов, предшествующих интервалу, в котором находится первая квартиль;

Частота интервала, в котором находится первая квартиль.

где Ме - медиана ряда;

условные обозначения те же, что и для величины.

В симметричных или умеренно асимметричных распределениях Q2/3. Так как на квартильное отклонение не влияют отклонения всех значений признака, то его использование следует ограничить случаями, когда определение среднего квадратического отклонения затруднительно или невозможно.

Среднее линейное отклонение () представляет собой среднюю величину из абсолютных отклонений вариантов признака от их средней. Его можно рассчитать по формуле средней арифметической, как невзвешенной, так и взвешенной, в зависимости от отсутствия или наличия частот в ряду распределения.

(6) - невзвешенное среднее линейное отклонение,

(7) - взвешенное среднее линейное отклонение.

Дисперсия () - средний квадрат отклонений индивидуальных значений признака от их средней величины. Дисперсия вычисляется по формулам простой невзвешенной и взвешенной.

(8) - невзвешенная,

(9) - взвешенная.

Среднее квадратическое отклонение () - наиболее распространенный показатель вариации, представляет собой квадратный корень из значения дисперсии.

Размах вариации, квартильное отклонение, среднее линейное и квадратическое отклонения - величины именованные, имеют размерность осредняемого признака.

Для целей сравнения колеблемости различных признаков в одной и той же совокупности или же при сравнении колеблемости одного и того же признака в нескольких совокупностях вычисляются относительные показатели вариации. Базой для сравнения служит средняя арифметическая. Чаще всего относительные показатели выражаются в процентах и характеризуют не только сравнительную оценку вариации, но и дают характеристику однородности совокупности.

Коэффициент осцилляции рассчитывается по формуле:

Относительное линейное отклонение (линейный коэффициент вариации):

(13) или (14)

Коэффициент вариации:

Наиболее часто применяемый в статистике показатель относительной колеблемости - коэффициент вариации. Его используют не только для сравнительной оценки вариации, но и как характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33% (Ефимова М.Р., Рябцев В.М. Общая теория статистики: Учебник М.: Финансы и статистика, 1991 г., стр. 105).

Для получения приблизительного представления о форме распределения строят графики распределения (полигон и гистограмму).

В практике статистического исследования приходится встречаться с самыми различными распределениями. При изучении однородных совокупностей имеем дело, как правило, с одновершинными распределениями. Многовершинность свидетельствует о неоднородности изучаемой совокупности, появление двух и более вершин говорит о необходимости перегруппировки данных с целью выделения более однородных групп. Выяснение общего характера распределения предполагает оценку степени его однородности, а также вычисление показателей асимметрии и эксцесса. Симметричным является распределение, в котором частоты любых двух вариантов, равноотстоящих в обе стороны от центра распределения, равны между собой. Для симметричных распределений средняя арифметическая, мода и медиана равны между собой. В связи с этим простейший показатель асимметрии основан на соотношении показателей центра распределения: чем больше разница между средними, тем больше асимметрия ряда.

Для сравнительного анализа степени асимметрии нескольких распределений рассчитывают относительный показатель As:

Величина показателя As может быть положительной и отрицательной. Положительная величина показателя указывает на наличие правосторонней асимметрии (правая ветвь относительно максимальной ординаты вытянута больше, чем левая). При правосторонней асимметрии между показателями центра распределения существует соотношение: . Отрицательный знак показателя асимметрии свидетельствует о наличии левосторонней асимметрии (Рисунок 1). Между показателями центра распределения в этом случае имеется такое соотношение: .

Рисунок 1. Распределение: 1 - с правосторонней асимметрией; 2 - с левосторонней асимметрией.

Другой показатель, предложенный шведским математиком Линдбергом, рассчитывают по формуле:

где П - процент тех значений признака, которые превосходят по величине среднюю арифметическую.

Наиболее точным и распространенным является показатель, основанный на определении центрального момента третьего порядка (в симметричном распределении его величина равна нулю):

где - центральный момент третьего порядка:

(19) - для несгруппированных данных;

(20) - для сгруппированных данных.

у - среднеквадратическое отклонение.

Применение этого показателя дает возможность не только определить величину асимметрии, но и ответить на вопрос о наличии или отсутствии асимметрии в распределении признака в генеральной совокупности. Оценка степени существенности этого показателя дается с помощью средней квадратической ошибки, которая зависит от объема наблюдений n и рассчитывается по формуле:

Если отношение, асимметрия существенна, и распределение признака в генеральной совокупности не является симметричным. Если отношение, асимметрия несущественна, ее наличие может быть объяснено влиянием различных случайных обстоятельств.

Для симметричных распределений рассчитывается показатель эксцесса (островершинности). Линдбергом предложен следующий показатель для оценки эксцесса:

где П - доля (%) количества вариантов, лежащих в интервале, равном половине среднего квадратического отклонения в ту или другую сторону от средней арифметической.

Наиболее точным является показатель, использующий центральный момент четвертого порядка:

где - центральный момент четвертого момента;

(24) - для несгруппированных данных;

(25) - для сгруппированных данных.

На рисунке 2 представлены два распределения: одно - островершинное (величина эксцесса положительная), второе - плосковершинное (величина эксцесса отрицательная). Эксцесс представляет собой выпад вершины эмпирического распределения вверх или вниз от вершины кривой нормального распределения. В нормальном распределении отношение.

Рисунок 2. Распределение: 1,4 - нормальное; 2 - островершинное; 3 - плосковершинное

Средняя квадратическая ошибка эксцесса рассчитывается по формуле:

где n - число наблюдений.

Если, то эксцесс существенен, если, то несущественен.

Оценка существенности показателей асимметрии и эксцесса позволяет сделать вывод о том, можно ли отнести данное эмпирическое исследование к типу кривых нормального распределения.

Рассмотрим методику исчисления показателей вариации.

Таблица 1. Данные об объеме продаж валюты нескольких отделений Центробанка.

Определить средний объем продаж валюты по совокупности отделений, рассчитать абсолютные и относительные показатели вариации.

Рассчитаем размах вариации:

R = = 24,3 - 10,2 = 14,1 млн. руб.

вариация дисперсия осцилляция вариация асимметрия эксцесс

Для определения отклонений значений признака от средней и их квадратов строим вспомогательную таблицу:

Таблица 2. Расчетная таблица

Среднее значение находим по формуле средней арифметической простой:

Среднее линейное отклонение:

Дисперсия:

Коэффициент осцилляции:

Коэффициент вариации:

Для расчета показателей формы распределения строим вспомогательную таблицу:

Таблица 3. Расчетная таблица


Таблица 4. Данные о товарообороте предприятий одной из отраслей промышленности.

Определить средний объем товарооборота, структурные средние, абсолютные и относительные показатели вариации и насколько фактическое распределение согласуется с нормальным (по показателям формы распределения).

Для расчета показателей построим вспомогательную таблицу.

Таблица 5. Расчетная таблица

Размах вариации:

Среднее значение находим по формуле средней арифметической взвешенной:

В интервальных рядах распределения мода определяется по формуле:

В нашем случае мода будет равна:

В интервальном вариационном ряду медиана определяется по формуле:

В нашем случае медиана будет равна:

Квартильное отклонение:

где и - соответственно первая и третья квартили распределения.

Квартили определяются по формулам:

Среднее линейное отклонение:

Дисперсия:

Среднее квадратическое отклонение:

Рассчитаем относительные показатели вариации.

Коэффициент осцилляции:

Относительное линейное отклонение:

Относительный показатель квартильной вариации:

Коэффициент вариации:

Определим показатели формы распределения:

Формулировка выводов.

Сформулируем выводы по рассчитанным показателям вариации примера 2, в котором представлен интервальный ряд распределения предприятий по объему товарооборота, млн. руб.

Размах вариации свидетельствует о том, что разница между максимальным и минимальным значением составляет 40 млн. руб. Средний объем товарооборота - 30 млн. руб. Чаще всего встречающееся значение объема товарооборота в рассматриваемой совокупности предприятий - 31,4 млн. руб., причем 50% (40 предприятий) имеют объем товарооборота менее 30,5 млн. руб., а 50% свыше.

Квартильное отклонение, равное 5, свидетельствует об умеренной асимметрии распределения, так как в симметричных или умеренно асимметричных распределениях (в рассматриваемом примере).

Среднее линейное и среднее квадратическое отклонения показывают, на сколько в среднем колеблется величина признака у единиц исследуемой совокупности. Так, средняя величина колеблемости объема товарооборота предприятий отраслей промышленности составляет: по среднему линейному отклонению - 6,5 млн. руб. (абсолютное отклонение); по среднему квадратическому отклонению - 8,1 млн. руб. Квадрат отклонений индивидуальных значений признака от их средней величины равен 65.

Разница между крайними значениями признака на 33,3% превышает среднее значение (= 133,3%).

Относительное линейное отклонение (= 21,7%) и относительный показатель квартильной вариации (= 16,4%) характеризуют однородность исследуемой совокупности, что подтверждает рассчитанный коэффициент вариации, равный 27% (V =27% меньше 33%).

По рассчитанным показателям асимметрии и эксцесса можно сделать вывод, что распределение плосковершинно (Ex < 0) и наблюдается левосторонняя асимметрия (As < 0). Асимметрия и эксцесс являются несущественными.

Как доказать, что закономерность, полученная при изучении экспериментальных данных, не является результатом совпадения или ошибки экспериментатора, что она достоверна? С таким вопросом сталкиваются начинающие исследователи.Описательная статистика предоставляет инструменты для решения этих задач. Она имеет два больших раздела – описание данных и их сопоставление в группах или в ряду между собой.

Показатели описательной статистики

Существует несколько показателей, которые использует описательная статистика.

Итак, представим, что перед нами стоит задача описать рост всех студентов в группе из десяти человек. Вооружившись линейкой и проведя измерения, мы получаем маленький ряд из десяти чисел (рост в сантиметрах):

168, 171, 175, 177, 179, 187, 174, 176, 179, 169.

Если внимательно посмотреть на этот линейный ряд, то можно обнаружить несколько закономерностей:

  • Ширина интервала, куда попадает рост всех студентов, – 18 см.
  • В распределении рост наиболее близок к середине этого интервала.
  • Встречаются и исключения, которые наиболее близко расположены к верхней или нижней границе интервала.

Совершенно очевидно, что для выполнения задачи по описанию роста студентов в группе нет необходимости приводить все значения, которые будут измеряться. Для этой цели достаточно привести всего два, которые в статистике называются параметрами распределения. Это среднеарифметическое и стандартное отклонение от среднего арифметического. Если обратиться к росту студентов, то формула будет выглядеть следующим образом:

Среднеарифметическое значение роста студентов = (Сумма всех значений роста студентов) / (Число студентов, участвовавших в измерении)

Если свести все к строгим математическим терминам, то определение среднего арифметического (обозначается греческой буквой – μ («мю»)) будет звучать так:

Среднее арифметическое – это отношение суммы всех значений одного признака для всех членов совокупности (X) к числу всех членов совокупности (N).

Если применить эту формулу к нашим измерениям, то получаем, что μ для роста студентов в группе 175,5 см.

Если присмотреться к росту студентов, который мы измерили в предыдущем примере, то понятно, что рост каждого на сколько-то отличается от вычисленного среднего (175,5 см). Для полноты описания нужно понять, какой является разница между средним ростом каждого студента и средним значением.

На первом этапе вычислим параметр дисперсии. Дисперсия в статистике (обозначается σ 2 (сигма в квадрате)) – это отношение суммы квадратов разности среднего арифметического (μ) и значения члена ряда (Х) к числу всех членов совокупности (N). В виде формулы это рассчитывается понятнее:

Значения, которые мы получим в результате вычислений по этой формуле, мы будем представлять в виде квадрата величины (в нашем случае – квадратные сантиметры). Характеризовать рост в сантиметрах квадратными сантиметрами, согласитесь, нелепо. Поэтому мы можем исправить, точнее, упростить это выражение и получим среднеквадратичное отклонение формулу и расчёт, пример:

Таким образом, мы получили величину стандартного отклонения (или среднего квадратичного отклонения) – квадратный корень из дисперсии. С единицами измерения тоже теперь все в порядке, можем посчитать стандартное отклонение для группы:

Получается, что наша группа студентов исчисляется по росту таким образом: 175,50±5,25 см.

Среднее квадратичное отклонение хорошо работает с рядами, в которых разброс значений не очень велик (это хорошо прослеживалось на примере роста, где интервал был всего 18 см). Если бы ряд наших измерений был значительнее, а варьирование роста было сильнее, то стандартное отклонение стало непоказательным и нам потребовался бы критерий, который может отразить разброс в относительных единицах (т. е. в процентах, относительно средней величины).

Для этих целей предусмотрены абсолютные и относительные показатели вариации в статистике, характеризующие вариационные масштабы:

  • Размах вариации.

Квадратический коэффициент вариации (обозначается как Vσ) – это отношение среднеквадратичного отклонения к среднеарифметическому значению, выраженное в процентах.

Для нашего примера со студентами, определить Vσ несложно - он будет равен 3,18%. Основная закономерность – чем больше будет изменяться значение коэффициента, тем больше разброс вокруг среднего значения и тем менее однородна выборка.

Преимущество коэффициента вариации в том, что он показывает однородность значений (асимметрия) в ряду наших измерений, кроме того, на него не оказывают влияния масштаб и единицы измерения. Эти факторы делают коэффициент вариации особенно популярным в биомедицинских исследованиях. Будет считаться , что эксцесс значения Vσ =33% отделяет однородные выборки от неоднородных.

Если найти в ряду значений роста (первый пример) максимальное и минимальное значения, то получим размах вариации (обозначается как R, иногда ещё называется колеблемостью). В нашем примере – это значение будет равно 18 см. Эта характеристика используется для расчёта коэффициента осцилляции:

Коэффициент осцилляции – показывает как размах вариации будет относиться к среднему арифметическому ряда в процентном отношении.

Расчёты в Microsoft Ecxel 2016

* — в таблице указан диапазон A1:A10 для примера, при расчётах нужно указать требуемый диапазон.

Итак, обобщим информацию :

  1. Среднее арифметическое – это значение, позволяющее найти среднее значение показателя в ряду данных.
  2. Дисперсия – это среднее значение отклонений возведенное в квадрат.
  3. Стандартное отклонение (среднеквадратичное отклонение) – это корень квадратный из дисперсии, для приведения единиц измерения к одинаковым со среднеарифметическим.
  4. Коэффициент вариации – значение отклонений от среднего, выраженное в относительных величинах (%).

Отдельно следует отметить, что все приведённые в статье показатели, как правило, не имеют собственного смысла и используются для того, чтобы составлять более сложную схему анализа данных. Исключение из этого правила — коэффициент вариации, который является мерой однородности данных.

Статьи по теме