Найдем параметры уравнения линейной регрессии и дадим экономическую интерпретацию коэффициента регрессии. Линейная регрессия

Как уже было сказано выше, в случае линейной зависимости уравнение регрессии является уравнением прямой линии.

Различают

У = а у/х + b у/х Х

Х = а х/у + b х/у Y

Здесь а и b – коэффициенты, или параметры, которые определяются по формулам. Значение коэффициента b вычисляется

Из формул видно, что коэффициенты регрессии b у/х и b х/у имеют тот же знак, что и коэффициент корреляции, размерность, равную отношению размерностей изучаемых показателей Х и У , и связаны соотношением:

Для вычисления коэффициента а достаточно подставить в уравнения регрессии средние значения коррелируемых переменных



График теоретических линий регрессии (рис. 17) имеет вид:

Рис 17. Теоретические линии регрессии

Из приведённых выше формул легко доказать, что угловые коэффициенты прямых регрессии равны соответственно


Так как
, то
. Это означает, что прямая регрессииY на Х имеет меньший наклон к оси абсцисс, чем прямая регрессии Х на Y .

Чем ближе к единице, тем меньше угол между прямыми регрессии. Эти прямые сливаются только тогда, когда
.

При
прямые регрессии описываются уравнениями
,
.

Таким образом, уравнения регрессии позволяют:

    определить, насколько изменяется одна величина относительно другой;

    прогнозировать результаты.

2. Методика выполнения расчётно-графической работы №2

Расчётно-графическая работа содержит 4 раздела.

В первом разделе:

    Формулируется тема;

    Формулируется цель работы.

Во втором разделе:

    Формулируется условие задачи;

    Заполняется таблица исходных данных выборки.

В третьем разделе:

    Результаты измерений представляются в виде вариационного ряда;

    Даётся графическое представление вариационного ряда.

    Формулируется вывод.

В четвёртом разделе:

    Рассчитываются основные статистические характеристики ряда измерений;

    По итогам расчётов формулируется вывод.

Оформление работы:

    Работа выполняется в отдельной тетради или на форматных листах.

    Титульный лист заполняется по образцу.

Российский Государственный Университет

физической культуры, спорта, молодёжи и туризма

Кафедра естественнонаучных дисциплин

Корреляционный и регрессионный анализы

Расчётно-графическая работа №2

по курсу математики

Выполнил: студент 1 к. 1 пот. 1гр.

Иванов С.М.

Преподаватель:

доц. кафедры ЕНД и ИТ

Москва – 2012

(Пример оформления титульного листа)

Пример выполнения расчётно-графической работы №2.

Тема работы: Корреляционный и регрессионный анализы.

Цель работы: Определить взаимосвязь показателей двух выборок.

Ход выполнения работы:

    Придумать две выборки из своего вида спорта с одинаковым объемом n.

    Нарисовать корреляционное поле, сделать предварительный вывод.

    Определить достоверность коэффициента корреляции и сделать окончательный вывод.

    Построить теоретические линии регрессии на корреляционном поле и показать точку их пересечения.

1. Условие задачи: У группы спортсменов определяли результаты в беге на 100 м с барьерами X i (с) и прыжках в длину Y i (м) (табл.). Проверить, существует ли корреляционная связь между исследуемыми признаками и определить достоверность коэффициента корреляции.

Таблица исходных данных выборки: Результаты приведены в таблице исходных данных.

Таблица 6

Результаты бега и прыжка

п/п

X i , с

Y i , м

п/п

X i , с

Y i , м

Решение:

2 . Построим корреляционное поле (диаграмму рассеяния) и сделаем предварительный вывод относительно связи между исследуемыми признаками.

Рис 18. Корреляционное поле

Предварительный вывод:

Связь между показателями результатов в беге на 100 м с барьерами X i (с) и прыжками в длину Y i (см):

    линейная;

    отрицательная;

3 . Рассчитаем парный линейный коэффициент корреляции Бравэ – Пирсона, предварительно рассчитав основные статистические показатели двух выборок. Для их расчёта составим таблицу, в которой предпоследний и последний столбцы необходимы для расчёта стандартных отклонений, если они неизвестны. Для нашего примера эти значения рассчитаны в первой расчётно-графической работе, но для наглядности покажем расчёт дополнительно.

Таблица 7

Вспомогательная таблица для расчета коэффициента

корреляции Бравэ – Пирсона

X i , с

Y i , см

13,59

x =
,

y =
,

.

Полученное значение коэффициента корреляции позволяет подтвердить предварительный вывод и сделать окончательное заключение – связь между исследуемыми признаками:

    линейная;

    отрицательная;

4 . Определим достоверность коэффициента корреляции.

Предположим, что связь между результатом в беге на 100 м и прыжком в длину отсутствует (Н о : r = 0).

Вывод: существует сильная, отрицательная статистически достоверная (р =0,95) связь между бегом с препятствиями на дистанцию 100 м и прыжком в длину. Это означает, что с улучшением результата в прыжке в длину уменьшается время пробега дистанции 100 м.

5 . Вычислим коэффициент детерминации:

Следовательно, только 96% взаимосвязи результатов в беге на 100 м с барьерами и в прыжке в длину объясняется их взаимовлиянием, а остальная часть, т. е. 4% объясняется влиянием других неучтённых факторов.

6. Рассчитаем коэффициенты прямого и обратного уравнений регрессии, воспользовавшись формулами, подставим значения рассчитанных коэффициентов в соответствующую формулу и запишем прямое и обратное уравнения регрессии:

Y = а 1 + b 1 Х - прямое уравнение регрессии;

Х = а 2 + b 2 Y - обратное уравнение регрессии.

Воспользуемся результатами расчёта, приведёнными выше:

x =
; y =
;
;
13,59;
6,4,

Рассчитаем коэффициент b 1 , воспользовавшись формулой:

Для расчета коэффициента а 1 b 1 Х и Y

а 1 и b 1

Y = 22 - 1,15Х

Рассчитаем коэффициент b 2 , воспользовавшись формулой:

Для расчета коэффициента а 2 подставим в прямое уравнение регрессии вместо b 2 рассчитанное значение, а вместо Х и Y средние арифметические значения двух выборок из таблицы:

Подставим полученные значения коэффициентов а 1 и b 1 в прямое уравнение регрессии и запишем уравнение прямой линии:

Х = 18,92 - 0,83Y

Таким образом, мы получили прямое и обратное уравнения регрессии:

Y = 22 - 1,15Х - прямое уравнение регрессии;

Х = 18,92 - 0,83Y - обратное уравнение регрессии.

Для проверки правильности расчётов достаточно подставить в прямое уравнение среднее значение и определить значениеY . Полученное значение Y должно быть близким или равным среднему значению .

Y = 22 - 1,15 = 22 - 1,1513,59 = 6,4 =.

При подстановке в обратное уравнение регрессии среднего значения , полученное значение Х должно быть близким или равным среднему значению .

Х = 18,92 - 0,83= 18,92 - 0,83 6,4 = 13,6 = .

7. Построим линии регрессии на корреляционном поле.

Для графического построения теоретических линий регрессии, как и для построения любой прямой, необходимо иметь две точки из диапазона значений Х и Y .

Причём, в прямом уравнении регрессии независимая переменная Х , а зависимая Y , а в обратном – независимая переменная Y , а зависимая Х.

Y = 22 - 1,15Х

X

Y

Х = 18,92 - 0,83Y

Y

X

Координатами точки пересечения линий прямого и обратного уравнений регрессии являются значения средних арифметических двух выборок (с учётом погрешностей округлений при приближённых расчётах).

Вывод: зная результат бега с препятствиями на дистанцию 100 м, по прямому уравнению регрессии, можно теоретически определить результат прыжка в длину; и наоборот, зная результат прыжка в длину по обратному уравнению регрессии, можно определить результат бега с препятствиями.

Задача.

По предприятиям легкой промышленности региона получена информация, характеризующая зависимость объема выпуска продукции (Y, млн. руб.) от объема капиталовложений (Y, млн. руб.).

Таблица 1.

Зависимость объема выпуска продукции от объема капиталовложений.

X
Y

Требуется :

1. Найти параметры уравнения линейной регрессии , дать экономическую интерпретацию коэффициента регрессии.

2. Вычислить остатки; найти остаточную сумму квадратов; оценить дисперсию остатков ; построить график остатков.

3. Проверить выполнение предпосылок МНК.

4. Осуществить проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента (α = 0,05).

5. Вычислить коэффициент детерминации, проверить значимость уравнения регрессии с помощью F - критерия Фишера (α = 0,05), найти среднюю относительную ошибку аппроксимации . Сделать вывод о качестве модели.

6. Осуществить прогнозирование среднего значения показателя Y при уровне значимости α = 0,1, если прогнозное значения фактора Х составит 80% от его максимального значения.

7. Представить графически фактические и модельные значения Y точки прогноза.

8. Составить уравнения нелинейной регрессии и построить их графики:

Гиперболической;

Степенной;

Показательной.

9. Для указанных моделей найти коэффициенты детерминации и средние относительные ошибки аппроксимации. Сравнить модели по этим характеристикам и сделать вывод.

Найдем параметры уравнения линейной регрессии и дадим экономическую интерпретацию коэффициента регрессии.

Уравнение линейной регрессии имеет вид: ,

Вычисления для нахождения параметров a и b приведены в таблице 2.

Таблица 2.

Расчет значений для нахождения параметров уравнения линейной регрессии.

Уравнение регрессии имеет вид: y = 13,8951 + 2,4016*x.

С увеличением объема капиталовложений (X) на 1 млн. руб. объем выпускаемой продукции (Y) увеличится в среднем на 2,4016 млн. руб. Таким образом, наблюдается положительная корреляция признаков, что свидетельствует об эффективности работы предприятий и выгодности капиталовложений в их деятельность.

2. Вычислим остатки; найдем остаточную сумму квадратов; оценим дисперсию остатков и построим график остатков.

Остатки вычисляются по формуле: e i = y i - y прогн.

Остаточная сумма квадратов отклонений: = 207,74.

Дисперсия остатков: 25.97.

Расчеты приведены в таблице 3.

Таблица 3.

Y X Y=a+b*x i e i = y i - y прогн. e i 2
100,35 3,65 13,306
81,14 -4,14 17,131
117,16 -0,16 0,0269
138,78 -1,78 3,1649
136,38 6,62 43,859
143,58 0,42 0,1744
73,93 8,07 65,061
102,75 -1,75 3,0765
136,38 -4,38 19,161
83,54 -6,54 42,78
Сумма 0,00 207,74
Среднее 111,4 40,6

График остатков имеет вид:


Рис.1. График остатков

3. Проверим выполнение предпосылок МНК, который включает элементы:

- проверка равенства математического ожидания случайной составляющей нулю;

- случайный характер остатков;

- проверка независимости;

- соответствие ряда остатков нормальному закону распределения.

Проверка равенства математического ожидания уровней ряда остатков нулю.

Осуществляется в ходе проверки соответствующей нулевой гипотезы H 0: . С этой целью строится t-статистика , где .

, таким образом, гипотеза принимается.

Случайный характер остатков.

Проверим случайность уровней ряда остатков с помощью критерия поворотных точек:

Количество поворотных точек определяем по таблице остатков:

e i = y i - y прогн. Точки поворота e i 2 (e i - e i -1) 2
3,65 13,31
-4,14 * 17,13 60,63
-0,16 * 0,03 15,80
-1,78 * 3,16 2,61
6,62 * 43,86 70,59
0,42 * 0,17 38,50
8,07 * 65,06 58,50
-1,75 * 3,08 96,43
-4,38 19,16 6,88
-6,54 42,78 4,68
Сумма 0,00 207,74 354,62
Среднее

= 6 > , следовательно, свойство случайности остатков выполняется.

Независимость остатков проверяется с помощью критерия Дарбина - Уотсона :

=4 - 1,707 = 2,293.

Так как попало в интервал от d 2 до 2, то по данному критерию можно сделать вывод о выполнении свойства независимости. Это означает, что в ряде динамики не имеется автокорреляции, следовательно, модель по этому критерию адекватна.

Соответствие ряда остатков нормальному закону распределения определяется с помощью R/S-критерия с критическими уровнями (2,7-3,7);

Рассчитаем значение RS:

RS = (e max - e min)/ S,

где e max - максимальное значение уровней ряда остатков E(t) = 8,07;

e min - минимальное значение уровней ряда остатков E(t) = -6,54.

S - среднеквадратическое отклонение, = 4,8044.

RS = (e max - e min)/ S= (8,07 + 6,54)/4,8044 = 3,04.

Так как 2,7 < 3,04 < 3,7, и полученное значение RS попало в за-данный интервал, значит, выполняется свойство нормальности распределения.

Таким образом, рассмотрев различные критерии выполнения предпосылок МНК, приходим к выводу, что предпосылки МНК выполняются.

4. Осуществим проверку значимости параметров уравнения регрессии с помощью t-критерия Стьюдента α = 0,05.

Проверка значимости отдельных коэффициентов регрессии связана с определением расчетных значений t-критерия (t-статистики) для соответствующих коэффициентов регрессии:

Затем расчетные значения сравниваются с табличными t табл = 2,3060. Табличное значение критерия определяется при (n- 2) степенях свободы (n - число наблюдений) и соответствующем уровне значимости a (0,05)

Если расчетное значение t-критерия с (n- 2) степенями сво-боды превосходит его табличное значение при заданном уровне зна-чимости, коэффициент регрессии считается значимым.

В нашем случае коэффициенты регрессии a 0 - незначимый, а 1 - значимый коэффициенты.

х - называется предиктором - независимой или объясняющей переменной.

Для данной величины х, Y — значение переменной у (называемой зависимой, выходной переменной, или переменной отклика), которое расположено на линии оценки. Это есть значение, которое мы ожидаем для у (в среднем), если мы знаем величину х, и называется она «предсказанное значение у» (рис. 5).

а - свободный член (пересечение) линии оценки; это значение Y, когда х = 0.

b - угловой коэффициент или градиент оценённой линии; он представляет собой величину, на которую Y увеличивается в среднем, если мы увеличиваем х на одну единицу (рис. 5). Коэффициент b называют коэффициентом регрессии.

Например: при увеличении температуры тела человека на 1 о С, частота пульса увеличивается в среднем на 10 ударов в минуту.

Рисунок 5. Линия линейной регрессии, показывающая коэффициент а и угловой коэффициент b (величину возрастания Y при увеличении х на одну единицу)

Математически решение уравнения линейной регрессии сводится к вычислению параметров а и b таким образом, чтобы точки исходных данных корреляционного поля как можно ближе лежали к прямой регрессии .

Статистическое использование слова «регрессия» исходит из явления, известного как регрессия к среднему, приписываемого Френсису Гальтону (1889). Он показал, что, хотя высокие отцы имеют тенденцию иметь высоких сыновей, средний рост сыновей меньше, чем у их высоких отцов. Средний рост сыновей «регрессировал» или «двигался вспять» к среднему росту всех отцов в популяции. Таким образом, в среднем высокие отцы имеют более низких (но всё-таки высоких) сыновей, а низкие отцы имеют сыновей более высоких (но всё-таки довольно низких).

Мы наблюдаем регрессию к среднему при скрининге и клинических исследованиях, когда подгруппа пациентов может быть выбрана для лечения потому, что их уровни определённой переменной, скажем, холестерина, крайне высоки (или низки). Если это измерение через некоторое время повторяется, средняя величина второго считывания для подгруппы обычно меньше, чем при первом считывании, имея тенденцию (т.е. регрессируя) к среднему, подобранному по возрасту и полу в популяции, независимо от лечения, которое они могут получить. Пациенты, набранные в клиническое исследование на основе высокого уровня холестерина при их первом осмотре, таким образом, вероятно, покажут в среднем падение уровня холестерина при втором осмотре, даже если в этот период они не лечились.

Часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.


Насколько хорошо линия регрессии согласуется с данными, можно судить, рассчитав коэффициент R (обычно выраженный в процентах и называемый коэффициентом детерминации), который равняется квадрату коэффициента корреляции (r 2). Он представляет собой долю или процент дисперсии у, который можно объяснить связью с х, т.е. долю вариации признака-результата, сложившуюся под влиянием независимого признака. Может принимать значения в диапазоне от 0 до 1, или соответственно от 0 до 100%. Разность (100% - R) представляет собой процент дисперсии у, который нельзя объяснить этим взаимодействием.

Пример

Соотношение между ростом (измеренным в см) и систолическим артериальным давлением (САД, измеренным в мм рт. ст.) у детей. Мы провели анализ парной линейной регрессии зависимости САД от роста (рис. 6). Имеется существенное линейное соотношение между ростом и САД.

Рисунок 6. Двумерный график, показывающий соотношение между систолическим артериальным давлением и ростом. Изображена оценённая линия регрессии, систолическое артериальное давление.

Уравнение линии оценённой регрессии имеет следующий вид:

САД = 46,28 + 0,48 х рост.

В этом примере свободный член не представляет интереса (рост, равный нулю, явно вне диапазона величин, наблюдаемых в исследовании). Однако мы можем интерпретировать угловой коэффициент; предсказано, что у этих детей САД увеличивается в среднем на 0,48 мм рт.ст. при увеличении роста на один сантиметр

Мы можем применить уравнение регрессии для предсказания САД, которое мы ожидаем у ребёнка при данном росте. Например, ребёнок ростом 115 см имеет предсказанное САД, равное 46,28 + (0,48 х 115) = 101,48 мм рт. ст., ребёнок ростом 130 имеет предсказанное САД, 46,28 + (0,48 х 130) = 108,68 мм рт. ст.

При расчете коэффициента корреляции, установлено, что он равен 0,55, что указывает на прямую корреляционную связь средней силы. В этом случае коэффициент детерминации r 2 = 0,55 2 = 0,3 . Таким образом, можно сказать, что доля влияния роста на уровень артериального давления у детей не превышает 30%, соответственно на долю других факторов приходится 70% влияния.

Линейная (простая) регрессия ограничивается рассмотрением связи между зависимой переменной и только одной независимой переменной. Если в связи присутствует более одной независимой переменной, тогда нам необходимо обратиться к множественной регрессии. Уравнение для такой регрессии выглядит так:

y = a + bx 1 +b 2 x 2 +.... + b n х n

Можно интересоваться результатом влияния нескольких независимых переменных х 1 , х 2 , .., х n на переменную отклика у. Если мы полагаем, что эти х могут быть взаимозависимы, то не должны смотреть по отдельности на эффект изменения значения одного х на у, но должны одновременно принимать во внимание величины всех других х.

Пример

Поскольку между ростом и массой тела ребёнка существует сильная зависимость, можно поинтересоваться, изменяется ли также соотно-шение между ростом и систолическим артериальным давлением, если принять во внимание также и массу тела ребёнка и его пол. Множественная линейная регрессия позволяет изучить совместный эффект этих нескольких независимых переменных на у.

Уравнение множественной регрессии в этом случае может иметь такой вид:

САД = 79,44 - (0,03 х рост) + (1,18 х вес) + (4,23 х пол)*

* - (для признака пол используют значения 0 - мальчик, 1 - девочка)

Согласно этому уравнению, девочка, рост которой 115 см и масса тела 37 кг, будет иметь прогнозируемое САД:

САД = 79,44 - (0,03 х 115) + (1,18 х 37) + (4,23 х 1) = 123,88 мм.рт.ст.

Логистическая регрессия очень похожа на линейную; её применяют, когда есть интересующий нас бинарный исход (т.е. наличие/отсутствие симптома или субъекта, который имеет/не имеет заболевания) и ряд предикторов. Из уравнения логистической регрессии можно определить, какие предикторы влияют на исход, и, используя значения предикторов пациента, оценить вероятность того, что он/она будет иметь определённый исход. Например: возникнут или нет осложнения, будет лечение эффективным или не будет.

Начинают создания бинарной переменной, чтобы представить эти два исхода (например, «имеет болезнь» = 1, «не имеет болезни» = 0). Однако мы не можем применить эти два значения как зависимую переменную в анализе линейной регрессии, поскольку предположение нормальности нарушено, и мы не можем интерпретировать предсказанные величины, которые не равны нулю или единице.

Фактически, вместо этого мы берём вероятность того, что субъект классифицируется в ближайшую категорию (т.е. «имеет болезнь») зависимой переменной, и чтобы преодолеть математические трудности, применяют логистическое, преобразование, в уравнении регрессии — натуральный логарифм отношения вероятности «болезни» (p) к вероятности «нет болезни» (1-p).

Интегративный процесс, называемый методом максимального правдоподобия, а не обычная регрессия (так как мы не можем применить процедуру линейной регрессии) создаёт из данных выборки оценку уравнения логистической регрессии

logit (p) = a + bx 1 +b 2 x 2 +.... + b n х n

logit (р) — оценка значения истинной вероятности того, что пациент с индивидуальным набором значений для х 1 ... х n имеет заболевание;

а — оценка константы (свободный член, пересечение);

b 1 , b 2 ,... ,b n — оценки коэффициентов логистической регрессии.

1. Вопросы по теме занятия:

1. Дайте определение функциональной и корреляционной связи.

2. Приведите примеры прямой и обратной корреляционной связи.

3. Укажите размеры коэффициентов корреляции при слабой, средней и сильной связи между признаками.

4. В каких случаях применяется ранговый метод вычисления коэффициента корреляции?

5. В каких случаях применяется расчет коэффициента корреляции Пирсона?

6. Каковы основные этапы вычисления коэффициента корреляции ранговым методом?

7. Дайте определение «регрессии». В чем сущность метода регрессии?

8. Охарактеризуйте формулу уравнения простой линейной регрессии.

9. Дайте определение коэффициента регрессии.

10. Какой можно сделать вывод, если коэффициент регрессии веса по росту равен 0,26кг/см?

11. Для чего используется формула уравнения регрессии?

12. Что такое коэффициент детерминации?

13. В каких случаях используется уравнение множественной регрессии.

14. Для чего применяется метод логистической регрессии?

При наличии корреляционной связи между факторными и результативными признаками врачам нередко приходится устанавливать, на какую величину может измениться значение одного признака при изменении другого на общепринятую или установленную самим исследователем единицу измерения.

Например, как изменится масса тела школьников 1-го класса (девочек или мальчиков), если рост их увеличится на 1 см. В этих целях применяется метод регрессионного анализа.

Наиболее часто метод регрессионного анализа применяется для разработки нормативных шкал и стандартов физического развития.

  1. Определение регрессии . Регрессия - функция, позволяющая по средней величине одного признака определить среднюю величину другого признака, корреляционно связанного с первым.

    С этой целью применяется коэффициент регрессии и целый ряд других параметров. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.

  2. Определение коэффициента регрессии . Коэффициент регрессии - абсолютная величина, на которую в среднем изменяется величина одного признака при изменении другого связанного с ним признака на установленную единицу измерения.
  3. Формула коэффициента регрессии . R у/х = r ху x (σ у / σ x)
    где R у/х - коэффициент регрессии;
    r ху - коэффициент корреляции между признаками х и у;
    (σ у и σ x) - среднеквадратические отклонения признаков x и у.

    В нашем примере ;
    σ х = 4,6 (среднеквадратическое отклонение температуры воздуха в осенне-зимний период;
    σ у = 8,65 (среднеквадратическое отклонение числа инфекционно-простудных заболеваний).
    Таким образом, R у/х - коэффициент регрессии.
    R у/х = -0,96 х (4,6 / 8,65) = 1,8, т.е. при снижении среднемесячной температуры воздуха (x) на 1 градус среднее число инфекционно-простудных заболеваний (у) в осенне-зимний период будет изменяться на 1,8 случаев.

  4. Уравнение регрессии . у = М у + R y/x (х - М x)
    где у - средняя величина признака, которую следует определять при изменении средней величины другого признака (х);
    х - известная средняя величина другого признака;
    R y/x - коэффициент регрессии;
    М х, М у - известные средние величины признаков x и у.

    Например, среднее число инфекционно-простудных заболеваний (у) можно определить без специальных измерений при любом среднем значении среднемесячной температуры воздуха (х). Так, если х = - 9°, R у/х = 1,8 заболеваний, М х = -7°, М у = 20 заболеваний, то у = 20 + 1,8 х (9-7) = 20 + 3,6 = 23,6 заболеваний.
    Данное уравнение применяется в случае прямолинейной связи между двумя признаками (х и у).

  5. Назначение уравнения регрессии . Уравнение регрессии используется для построения линии регрессии. Последняя позволяет без специальных измерений определить любую среднюю величину (у) одного признака, если меняется величина (х) другого признака. По этим данным строится график - линия регрессии , по которой можно определить среднее число простудных заболеваний при любом значении среднемесячной температуры в пределах между расчетными значениями числа простудных заболеваний.
  6. Сигма регрессии (формула) .
    где σ Rу/х - сигма (среднеквадратическое отклонение) регрессии;
    σ у - среднеквадратическое отклонение признака у;
    r ху - коэффициент корреляции между признаками х и у.

    Так, если σ у - среднеквадратическое отклонение числа простудных заболеваний = 8,65; r ху - коэффициент корреляции между числом простудных заболеваний (у) и среднемесячной температурой воздуха в осенне-зимний период (х) равен - 0,96, то

  7. Назначение сигмы регрессии . Дает характеристику меры разнообразия результативного признака (у).

    Например, характеризует разнообразие числа простудных заболеваний при определенном значении среднемесячной температуры воздуха в осеннне-зимний период. Так, среднее число простудных заболеваний при температуре воздуха х 1 = -6° может колебаться в пределах от 15,78 заболеваний до 20,62 заболеваний.
    При х 2 = -9° среднее число простудных заболеваний может колебаться в пределах от 21,18 заболеваний до 26,02 заболеваний и т.д.

    Сигма регрессии используется при построении шкалы регрессии, которая отражает отклонение величин результативного признака от среднего его значения, отложенного на линии регрессии.

  8. Данные, необходимые для расчета и графического изображения шкалы регрессии
    • коэффициент регрессии - R у/х;
    • уравнение регрессии - у = М у + R у/х (х-М x);
    • сигма регрессии - σ Rx/y
  9. Последовательность расчетов и графического изображения шкалы регрессии .
    • определить коэффициент регрессии по формуле (см. п. 3). Например, следует определить, насколько в среднем будет меняться масса тела (в определенном возрасте в зависимости от пола), если средний рост изменится на 1 см.
    • по формуле уравнения регрессии (см п. 4) определить, какой будет в среднем, например, масса тела (у, у 2 , у 3 ...)* для определеного значения роста (х, х 2 , х 3 ...).
      ________________
      * Величину "у" следует рассчитывать не менее чем для трех известных значений "х".

      При этом средние значения массы тела и роста (М х, и М у) для определенного возраста и пола известны

    • вычислить сигму регрессии, зная соответствующие величины σ у и r ху и подставляя их значения в формулу (см. п. 6).
    • на основании известных значений х 1 , х 2 , х 3 и соответствующих им средних значений у 1 , у 2 у 3 , а также наименьших (у - σ rу/х)и наибольших (у + σ rу/х) значений (у) построить шкалу регрессии.

      Для графического изображения шкалы регрессии на графике сначала отмечаются значения х, х 2 , х 3 (ось ординат), т.е. строится линия регрессии, например зависимости массы тела (у) от роста (х).

      Затем в соответствующих точках у 1 , y 2 , y 3 отмечаются числовые значения сигмы регрессии, т.е. на графике находят наименьшее и наибольшее значения у 1 , y 2 , y 3 .

  10. Практическое использование шкалы регрессии . Разрабатываются нормативные шкалы и стандарты, в частности по физическому развитию. По стандартной шкале можно дать индивидуальную оценку развития детей. При этом физическое развитие оценивается как гармоничное, если, например, при определенном росте масса тела ребенка находится в пределах одной сигмы регрессии к средней расчетной единице массы тела - (у) для данного роста (x) (у ± 1 σ Ry/x).

    Физическое развитие считается дисгармоничным по массе тела, если масса тела ребенка для определенного роста находится в пределах второй сигмы регрессии: (у ± 2 σ Ry/x)

    Физическое развитие будет резко дисгармоничным как за счет избыточной, так и за счет недостаточной массы тела, если масса тела для определенного роста находится в пределах третьей сигмы регрессии (у ± 3 σ Ry/x).

По результатам статистического исследования физического развития мальчиков 5 лет известно, что их средний рост (х) равен 109 см, а средняя масса тела (у) равна 19 кг. Коэффициент корреляции между ростом и массой тела составляет +0,9, средние квадратические отклонения представлены в таблице.

Требуется:

  • рассчитать коэффициент регрессии;
  • по уравнению регрессии определить, какой будет ожидаемая масса тела мальчиков 5 лет при росте, равном х1 = 100 см, х2 = 110 см, х3= 120 см;
  • рассчитать сигму регрессии, построить шкалу регрессии, результаты ее решения представить графически;
  • сделать соответствующие выводы.

Условие задачи и результаты ее решения представлены в сводной таблице.

Таблица 1

Условия задачи Pезультаты решения задачи
уравнение регрессии сигма регрессии шкала регрессии (ожидаемая масса тела (в кг))
М σ r ху R у/x х У σ R x/y y - σ Rу/х y + σ Rу/х
1 2 3 4 5 6 7 8 9 10
Рост (х) 109 см ± 4,4см +0,9 0,16 100см 17,56 кг ± 0,35 кг 17,21 кг 17,91 кг
Масса тела (y) 19 кг ± 0,8 кг 110 см 19,16 кг 18,81 кг 19,51 кг
120 см 20,76 кг 20,41 кг 21,11 кг

Решение .

Вывод. Таким образом, шкала регрессии в пределах расчетных величин массы тела позволяет определить ее при любом другом значении роста или оценить индивидуальное развитие ребенка. Для этого следует восстановить перпендикуляр к линии регрессии.

  1. Власов В.В. Эпидемиология. - М.: ГЭОТАР-МЕД, 2004. - 464 с.
  2. Лисицын Ю.П. Общественное здоровье и здравоохранение. Учебник для вузов. - М.: ГЭОТАР-МЕД, 2007. - 512 с.
  3. Медик В.А., Юрьев В.К. Курс лекций по общественному здоровью и здравоохранению: Часть 1. Общественное здоровье. - М.: Медицина, 2003. - 368 с.
  4. Миняев В.А., Вишняков Н.И. и др. Социальная медицина и организация здравоохранения (Руководство в 2 томах). - СПб, 1998. -528 с.
  5. Кучеренко В.З., Агарков Н.М. и др.Социальная гигиена и организация здравоохранения (Учебное пособие) - Москва, 2000. - 432 с.
  6. С. Гланц. Медико-биологическая статистика. Пер с англ. - М., Практика, 1998. - 459 с.

Тема: Элементы теории корреляции

Объекты ряда генеральных совокупностей обладают несколькими подлежащими изучению признаками Х, У, ..., которые можно интерпретировать как систему взаимосвязанных величин. Примерами могут служить: масса животного и количество гемоглабина в крови, рост мужчины и объем грудной клетки, увеличение рабочих мест в помещении и уровень заболеваемости вирусными инфекциями, количество вводимого препарата и концентрация его в крови и т.д.

Очевидно, что между этими величинами существует связь, но она не может быть строгой фукциональной зависимостью, так как на изменение одной из величин влияет не только изменение второй величины, но и другие факторы. В таких случаях говорят, что две величины связаны стохастической (т.е. случайной) зависимостью. Мы будем изучать частный случай стохастической зависимости – корреляционную зависимость .

ОПРЕДЕЛЕНИЕ: стохастической , если на изменение одной из них влияет не только изменение второй величины, но и другие факторы.

ОПРЕДЕЛЕНИЕ: Зависимость случайных величин называют статистической, если изменения одной из них приводит к изменению закона распределения другой.

ОПРЕДЕЛЕНИЕ: Если изменение одной из случайных величин влечет изменение среднего другой случайной величины, то статистическую зависимость называют корреляционной.

Примерами корреляционной зависимости являются связи между:

Массой тела и ростом;

    дозой ионизирующего излучения и числом мутаций;

    пигментом волос человека и цветом глаз;

    показателями уровня жизни населения и процентом смертности;

    количеством пропущенных студентами лекций и оценкой на экзамене и т.д.

Именно корреляционные зависимости наиболее часто встречаются в природе в силу взаимовлияния и тесного переплетения огромного множества самых различных факторов, определяющих значения изучаемых показателей.

Результаты наблюдения, проведенные над тем или иным биологическим объктом по корреляционно связанным признакам У и Х можно изобразить точками на плоскости, построив систему прямоугольных координат. В результате получается некая диаграмма рассеяния, позволяющая судить о форме и тесноте связи между варьирующими признаками.

Если эту связь можно будет апроксимировать некоторой кривой, то можно будет прогнозировать изменение одного из параметров при целенаправленном изменении другого параметра.

Корреляционную зависимость от
можно описать с помощью уравнения вида

(1)

г
де
условное среднее величины , соответствующее значениювеличины
, а
некоторая функция. Уравнение (1) называется на
.

Рис.1. Линейная регрессия значима. Модель
.

Функцию
называютвыборочной регрессией на
, а ее график –выборочной линией регрессии на
.

Совершенно аналогично выборочным уравнением регрессии
на является уравнение
.

В зависимости от вида уравнения регрессии и формы соответствующей линии регрессии определяют форму корреляционной зависимости между рассматриваемыми величинами – линейной, квадратической, показательной, экспоненциальной.

Важнейшим является вопрос выбора вида функции регрессии
[или
], например линейная или нелинейная (показательная, логарифмическая и т.д.)

На практике вид функции регрессии можно определить построив на координатной плоскости множество точек, соответствующих всем имеющимся парам наблюдений (
).

Рис. 2. Линейная регрессия незначима. Модель
.

Р
ис. 3. Нелинейная модель
.

Например, на рис.1. видна тенденция роста значений с ростом
, при этом средние значениярасполагается визуально на прямой. Имеет смысл использовать линейную модель (вид зависимостиот
принято называть моделью) зависимостиот
.

На рис.2. средние значения не зависят от, следовательно линейная регрессия незначима (функция регрессии постоянна и равна).

На рис. 3. прослеживается тенденция нелинейности модели.

Примеры прямолинейной зависимости:

    увеличение количество потребляемого йода и снижение показателя заболеваемости зобом,

    увеличение стажа рабочего и повышение производительности.

Примеры криволинейной зависимости:

    с увеличением осадков – увеличивается урожай, но это происходит до определенного предела осадков. После критической точки осадки уже оказываются излишними, почва заболачивается и урожай снижается,

    связь между дозой хлора, примененной для обеззараживания воды и количеством бактерий в 1 мл. воды. С увеличением дозы хлора количество бактерий в воде снижается, но по достижению критической точки количество бактерий будет оставаться постоянным (или совсем отсутствовать), как бы мы не увеличивали дозу хлора.

Линейная регрессия

Выбрав вид функции регрессии, т.е. вид рассматриваемой модели зависимости от Х (или Х от У), например, линейную модель
, необходимо определить конкретные значения коэффициентов модели.

При различных значениях а и
можно построить бесконечное число зависимостей вида
т.е на координатной плоскости имеется бесконечное количество прямых, нам же необходима такая зависимость, которая соответствует наблюдаемым значениям наилучшим образом. Таким образом, задача сводится к подбору наилучших коэффициентов.

Метод наименьших квадратов (мнк)

Линейную функцию
ищем, исходя лишь из некоторого количества имеющихся наблюдений. Для нахождения функции с наилучшим соответствием наблюдаемым значениям используемметод наименьших квадратов.

Рис.4. Пояснение к оценке коэффициентов методом наименьших квадратов

Обозначим: - значение, вычисленное по уравнению

- измеренное значение,

- разность между измеренными и вычисленными по уравнению значениям,

.

В методе наименьших квадратов требуется, чтобы , разность между измеренными и вычисленными по уравнению значениям , была минимальной. Следовательно, находимо подобрать коэффициентыа и так, чтобы сумма квадратов отклонений наблюдаемых значений от значений на прямой линии регрессии оказалась наименьшей:

Это условие достигается если параметры а и будут вычислены по формулам:

называют коэффициентом регрессии ; называютсвободным членом уравнения регрессии.

Полученная прямая является оценкой для теоретической линии регрессии. Имеем

Итак,
являетсяуравнением линейной регрессии.

Регрессия может быть прямой
и обратной
.

ОПРЕДЕЛЕНИЕ: Обратная регрессия означает, что при росте одного параметра, значения другого параметра уменьшаются.

Статьи по теме