Двумерное нормальное распределение. Регресионный анализ

Введение

Теория вероятностей является одним из классических разделов математики. Она имеет длительную историю. Основы этого раздела науки были заложены великими математиками. Назову, например, Ферма, Бернулли, Паскаля. Позднее развитие теории вероятностей определились в работах многих ученых. Большой вклад в теорию вероятностей внесли ученые нашей страны: П.Л.Чебышев, А.М.Ляпунов, А.А.Марков, А.Н.Колмогоров. Вероятностные и статистические методы в настоящее время глубоко проникли в приложения. Они используются в физике, технике, экономке, биологии и медицине. Особенно возросла их роль в связи с развитием вычислительной техники.

Например, для изучения физических явлений производят наблюдения или опыты. Их результаты обычно регистрируют в виде значений некоторых наблюдаемых величин. При повторении опытов мы обнаруживаем разброс их результатов. Например, повторяя измерения одной и той же величины одним и тем же прибором при сохранении определенных условий (температура, влажность и т.п.), мы получаем результаты, которые хоть немного, но все же отличаются друг от друга. Даже многократные измерения не дают возможности точно предсказать результат следующего измерения. В этом смысле говорят, что результат измерения есть величина случайная. Еще более наглядным примером случайной величины может служить номер выигрышного билета в лотерее. Можно привести много других примеров случайных величин. Все же и в мире случайностей обнаруживаются определенные закономерности. Математический аппарат для изучения таких закономерностей и дает теория вероятностей. Таким образом, теория вероятностей занимается математическим анализом случайных событий и связанных с ними случайных величин.

1. Случайные величины

Понятие случайной величины является основным в теории вероятностей и ее приложениях. Случайными величинами, например, являются число выпавших очков при однократном бросании игральной кости, число распавшихся атомов радия за данный промежуток времени, число вызовов на телефонной станции за некоторый промежуток времени, отклонение от номинала некоторого размера детали при правильно налаженном технологическом процессе и т. д.

Таким образом, случайной величиной называется величина, которая в результате опыта может принимать то или иное значение, причем заранее известно какое именно.

Случайные величины можно разделить на две категории.

Дискретной случайной величиной называется такая величина, которая в результате опыта может принимать определенные значения с определенной вероятностью, образующие счетное множество (множество, элементы которого могут быть занумерованы).

Это множество может быть как конечным, так и бесконечным.

Например, количество выстрелов до первого попадания в цель является дискретной случайной величиной, т.к. эта величина может принимать и бесконечное, хотя и счетное количество значений.

Непрерывной случайной величиной называется такая величина, которая может принимать любые значения из некоторого конечного или бесконечного промежутка.

Очевидно, что число возможных значений непрерывной случайной величины бесконечно.

Для задания случайной величины недостаточно просто указать ее значение, необходимо также указать вероятность этого значения.

2. Равномерное распределение

Пусть сегмент оси Ox есть шкала некоторого прибора. Допустим, что вероятность попадания указателя в некоторый отрезок шкалы пропорциональна длине этого отрезка и не зависит от места отрезка на шкале. Отметка указателя прибора есть случайная величина

могущая принять любое значение из сегмента . Поэтому и (<) - две любые отметки на шкале, то согласно условию имеем - коэффициент пропорциональности, не зависящий от и, а разность, - длина сегмента . Так как при =a и =b имеем, то , откуда .

Таким образом

(1)

Теперь легко найти функцию F(x) распределения вероятностей случайной величины

. Если , то не принимает значений, меньших a. Пусть теперь . По аксиоме сложения вероятностей. Согласно формуле (1), в которой принимаем , имеем , то при получаем

Наконец, если

, то , так как значения лежит на сегментеи, следовательно, не превосходят b . Итак, приходим к следующей функции распределения:

График функции

представлен на рис. 1.

Плотность распределения вероятностей найдем по формуле. Если

или , то . Если , то

Нормальный закон распределения вероятностей

Без преувеличения его можно назвать философским законом. Наблюдая за различными объектами и процессами окружающего мира, мы часто сталкиваемся с тем, что чего-то бывает мало, и что бывает норма:


Перед вами принципиальный вид функции плотности нормального распределения вероятностей, и я приветствую вас на этом интереснейшем уроке.

Какие можно привести примеры? Их просто тьма. Это, например, рост, вес людей (и не только), их физическая сила, умственные способности и т.д. Существует «основная масса» (по тому или иному признаку) и существуют отклонения в обе стороны.

Это различные характеристики неодушевленных объектов (те же размеры, вес). Это случайная продолжительность процессов…, снова пришёл на ум грустный пример, и поэтому скажу время «жизни» лампочек:) Из физики вспомнились молекулы воздуха: среди них есть медленные, есть быстрые, но большинство двигаются со «стандартными» скоростями.

Далее отклоняемся от центра ещё на одно стандартное отклонение и рассчитываем высоту:

Отмечаем точки на чертеже (зелёный цвет) и видим, что этого вполне достаточно.

На завершающем этапе аккуратно чертим график, и особо аккуратно отражаем его выпуклость / вогнутость ! Ну и, наверное, вы давно поняли, что ось абсцисс – это горизонтальная асимптота , и «залезать» за неё категорически нельзя!

При электронном оформлении решения график легко построить в Экселе, и неожиданно для самого себя я даже записал короткий видеоролик на эту тему. Но сначала поговорим о том, как меняется форма нормальной кривой в зависимости от значений и .

При увеличении или уменьшении «а» (при неизменном «сигма») график сохраняет свою форму и перемещается вправо / влево соответственно. Так, например, при функция принимает вид и наш график «переезжает» на 3 единицы влево – ровнехонько в начало координат:


Нормально распределённая величина с нулевым математическим ожиданием получила вполне естественное название – центрированная ; её функция плотности чётная , и график симметричен относительно оси ординат.

В случае изменения «сигмы» (при постоянном «а») , график «остаётся на месте», но меняет форму. При увеличении он становится более низким и вытянутым, словно осьминог, растягивающий щупальца. И, наоборот, при уменьшении график становится более узким и высоким – получается «удивлённый осьминог». Так, при уменьшении «сигмы» в два раза: предыдущий график сужается и вытягивается вверх в два раза:

Всё в полном соответствии с геометрическими преобразованиями графиков .

Нормальное распределёние с единичным значением «сигма» называется нормированным , а если оно ещё и центрировано (наш случай), то такое распределение называют стандартным . Оно имеет ещё более простую функцию плотности, которая уже встречалась в локальной теореме Лапласа : . Стандартное распределение нашло широкое применение на практике, и очень скоро мы окончательно поймём его предназначение.

Ну а теперь смотрим кино:

Да, совершенно верно – как-то незаслуженно у нас осталась в тени функция распределения вероятностей . Вспоминаем её определение :
– вероятность того, что случайная величина примет значение, МЕНЬШЕЕ, чем переменная , которая «пробегает» все действительные значения до «плюс» бесконечности.

Внутри интеграла обычно используют другую букву, чтобы не возникало «накладок» с обозначениями, ибо здесь каждому значению ставится в соответствие несобственный интеграл , который равен некоторому числу из интервала .

Почти все значения не поддаются точному расчету, но как мы только что видели, с современными вычислительными мощностями с этим нет никаких трудностей. Так, для функции стандартного распределения соответствующая экселевская функция вообще содержит один аргумент:

=НОРМСТРАСП(z)

Раз, два – и готово:

На чертеже хорошо видно выполнение всех свойств функции распределения , и из технических нюансов здесь следует обратить внимание на горизонтальные асимптоты и точку перегиба .

Теперь вспомним одну из ключевых задач темы, а именно выясним, как найти –вероятность того, что нормальная случайная величина примет значение из интервала . Геометрически эта вероятность равна площади между нормальной кривой и осью абсцисс на соответствующем участке:

но каждый раз вымучивать приближенное значение неразумно, и поэтому здесь рациональнее использовать «лёгкую» формулу :
.

! Вспоминает также , что

Тут можно снова задействовать Эксель, но есть пара весомых «но»: во-первых, он не всегда под рукой, а во-вторых, «готовые» значения , скорее всего, вызовут вопросы у преподавателя. Почему?

Об этом я неоднократно рассказывал ранее: в своё время (и ещё не очень давно) роскошью был обычный калькулятор, и в учебной литературе до сих пор сохранился «ручной» способ решения рассматриваемой задачи. Его суть состоит в том, чтобы стандартизировать значения «альфа» и «бета», то есть свести решение к стандартному распределению:

Примечание : функцию легко получить из общего случая с помощью линейной замены . Тогда и:

и из проведённой замены как раз следует формула перехода от значений произвольного распределения – к соответствующим значениям стандартного распределения.

Зачем это нужно? Дело в том, что значения скрупулезно подсчитаны нашими предками и сведены в специальную таблицу, которая есть во многих книгах по терверу. Но ещё чаще встречается таблица значений , с которой мы уже имели дело в интегральной теореме Лапласа :

Если же в нашем распоряжении есть таблица значений функции Лапласа , то решаем через неё:

Дробные значения традиционно округляем до 4 знаков после запятой, как это сделано в типовой таблице. И для контроля есть Пункт 5 макета .

Напоминаю, что , и во избежание путаницы всегда контролируйте , таблица КАКОЙ функции перед вашими глазами.

Ответ требуется дать в процентах, поэтому рассчитанную вероятность нужно умножить на 100 и снабдить результат содержательным комментарием:

– с перелётом от 5 до 70 м упадёт примерно 15,87% снарядов

Тренируемся самостоятельно:

Пример 3

Диаметр подшипников, изготовленных на заводе, представляет собой случайную величину, распределенную нормально с математическим ожиданием 1,5 см и средним квадратическим отклонением 0,04 см. Найти вероятность того, что размер наугад взятого подшипника колеблется от 1,4 до 1,6 см.

В образце решения и далее я буду использовать функцию Лапласа, как самый распространённый вариант. Кстати, обратите внимание, что согласно формулировке, здесь можно включить концы интервала в рассмотрение. Впрочем, это не критично.

И уже в этом примере нам встретился особый случай – когда интервал симметричен относительно математического ожидания. В такой ситуации его можно записать в виде и, пользуясь нечётностью функции Лапласа, упростить рабочую формулу:


Параметр «дельта» называют отклонением от математического ожидания, и двойное неравенство можно «упаковывать» с помощью модуля :

– вероятность того, что значение случайной величины отклонится от математического ожидания менее чем на .

Хорошо то решение, которое умещается в одну строчку:)
– вероятность того, что диаметр наугад взятого подшипника отличается от 1,5 см не более чем на 0,1 см.

Результат этой задачи получился близким к единице, но хотелось бы ещё бОльшей надежности – а именно, узнать границы, в которых находится диаметр почти всех подшипников. Существует ли какой-нибудь критерий на этот счёт? Существует! На поставленный вопрос отвечает так называемое

правило «трех сигм»

Его суть состоит в том, что практически достоверным является тот факт, что нормально распределённая случайная величина примет значение из промежутка .

И в самом деле, вероятность отклонения от матожидания менее чем на составляет:
или 99,73%

В «пересчёте на подшипники» – это 9973 штуки с диаметром от 1,38 до 1,62 см и всего лишь 27 «некондиционных» экземпляров.

В практических исследованиях правило «трёх сигм» обычно применяют в обратном направлении: если статистически установлено, что почти все значения исследуемой случайной величины укладываются в интервал длиной 6 стандартных отклонений, то появляются веские основания полагать, что эта величина распределена по нормальному закону. Проверка осуществляется с помощью теории статистических гипотез , до которых я надеюсь рано или поздно добраться:)

Ну а пока продолжаем решать суровые советские задачи:

Пример 4

Случайная величина ошибки взвешивания распределена по нормальному закону с нулевым математическим ожиданием и стандартным отклонением 3 грамма. Найти вероятность того, что очередное взвешивание будет проведено с ошибкой, не превышающей по модулю 5 грамм.

Решение очень простое. По условию, и сразу заметим, что при очередном взвешивании (чего-то или кого-то) мы почти 100% получим результат с точностью до 9 грамм. Но в задаче фигурирует более узкое отклонение и по формуле :

– вероятность того, что очередное взвешивание будет проведено с ошибкой, не превышающей 5 грамм.

Ответ :

Прорешанная задача принципиально отличается от вроде бы похожего Примера 3 урока о равномерном распределении . Там была погрешность округления результатов измерений, здесь же речь идёт о случайной погрешности самих измерений. Такие погрешности возникают в связи с техническими характеристиками самого прибора (диапазон допустимых ошибок, как правило, указывают в его паспорте) , а также по вине экспериментатора – когда мы, например, «на глазок» снимаем показания со стрелки тех же весов.

Помимо прочих, существуют ещё так называемые систематические ошибки измерения. Это уже неслучайные ошибки, которые возникают по причине некорректной настройки или эксплуатации прибора. Так, например, неотрегулированные напольные весы могут стабильно «прибавлять» килограмм, а продавец систематически обвешивать покупателей. Или не систематически ведь можно обсчитать. Однако, в любом случае, случайной такая ошибка не будет, и её матожидание отлично от нуля.

…срочно разрабатываю курс по подготовке продавцов =)

Самостоятельно решаем обратную задачу:

Пример 5

Диаметр валика – случайная нормально распределенная случайная величина, среднее квадратическое отклонение ее равно мм. Найти длину интервала, симметричного относительно математического ожидания, в который с вероятностью попадет длина диаметра валика.

Пункт 5* расчётного макета в помощь. Обратите внимание, что здесь не известно математическое ожидание, но это нисколько не мешает решить поставленную задачу.

И экзаменационное задание, которое я настоятельно рекомендую для закрепления материала:

Пример 6

Нормально распределенная случайная величина задана своими параметрами (математическое ожидание) и (среднее квадратическое отклонение). Требуется:

а) записать плотность вероятности и схематически изобразить ее график;
б) найти вероятность того, что примет значение из интервала ;
в) найти вероятность того, что отклонится по модулю от не более чем на ;
г) применяя правило «трех сигм», найти значения случайной величины .

Такие задачи предлагаются повсеместно, и за годы практики мне их довелось решить сотни и сотни штук. Обязательно попрактикуйтесь в ручном построении чертежа и использовании бумажных таблиц;)

Ну а я разберу пример повышенной сложности:

Пример 7

Плотность распределения вероятностей случайной величины имеет вид . Найти , математическое ожидание , дисперсию , функцию распределения , построить графики плотности и функции распределения, найти .

Решение : прежде всего, обратим внимание, что в условии ничего не сказано о характере случайной величины. Само по себе присутствие экспоненты ещё ничего не значит: это может оказаться, например, показательное или вообще произвольное непрерывное распределение . И поэтому «нормальность» распределения ещё нужно обосновать:

Так как функция определена при любом действительном значении , и её можно привести к виду , то случайная величина распределена по нормальному закону.

Приводим. Для этого выделяем полный квадрат и организуем трёхэтажную дробь :


Обязательно выполняем проверку, возвращая показатель в исходный вид:

, что мы и хотели увидеть.

Таким образом:
– по правилу действий со степенями «отщипываем» . И здесь можно сразу записать очевидные числовые характеристики:

Теперь найдём значение параметра . Поскольку множитель нормального распределения имеет вид и , то:
, откуда выражаем и подставляем в нашу функцию:
, после чего ещё раз пробежимся по записи глазами и убедимся, что полученная функция имеет вид .

Построим график плотности:

и график функции распределения :

Если под рукой нет Экселя и даже обычного калькулятора, то последний график легко строится вручную! В точке функция распределения принимает значение и здесь находится

В том случае, когда для исследования случайных явлений приходиться использовать две случайные величины X и Y совместно, говорят, что имеет место система {X, Y } двух случайных величин. Возможные значения системы {X, Y } представляют собой случайные точки (x , y ) в области возможных значений системы.

Различают дискретные и непрерывные системы в зависимости от типа входящих в них случайных величин.

Закон распределения дискретной системы задается в виде таблицы или функции распределения.


Лекция 6. Законы распределения системы двух случайных величин

Таблица распределения системы {X, Y } содержит совокупность величин xi , yj и P (xi,yj ), где P (xi,yj )=P (X=xi,Y=yj ), n, m – числа возможных значений случайной величины X, Y, соответственно.

Функция распределения системы {X, Y } задается в виде:



Лекция 6. Законы распределения системы двух случайных величин

Закон распределения непрерывной системы {X, Y } может быть представлен функцией распределения F (x, y ) или плотностью распределения φ (x, y ):

Лекция 6. Законы распределения системы двух случайных величин

Частные распределения системы {X, Y } – это законы распределения каждой из случайных величин X и Y .

Если X и Y – дискретные случайные величины, то вероятности P (xi ) и P (yj ), необходимые для нахождения их законов распределения, находятся из таблицы распределения по формулам:

Для непрерывных систем {X, Y } частные плотности распределения имеют вид:


Лекция 6. Законы распределения системы двух случайных величин

Условные распределения определяются:

условными вероятностями P (xi/yj ), P (yj/xi ) для дискретных систем {X, Y } и условными плотностями распределения (x/y ), (y/x ) для непрерывных систем {X, Y }:

Лекция 6. Законы распределения системы двух случайных величин

Условия независимости случайных величин X и Y:

– для дискретных систем (8)

– для непрерывных систем (9)

При выполнении этих соотношений, следует:

(10) (11)

Вероятность попадания возможных значений непрерывной системы {X, Y } в область (D ) определяется по формуле:

(12)

Лекция 6. Законы распределения системы двух случайных величин

Пример 3.1

Закон распределения системы {X, Y} задан таблицей:

Требуется:

а) найти частные распределения X и Y;

б) условный закон распределения Y при X= -1;

в) определить, зависимы ли величины X и Y?

Лекция 6. Законы распределения системы двух случайных величин

Решение:

а) Найти частные распределения X и Y

б) Условный закон распределения Y при X= -1. При Х= -1 случайная величина Y имеет следующий закон распределения:

в) Определить, зависимы ли величины X и Y?

Так как в безусловном и условном законах распределения вероятности P(yj) и P(yj / X = -1) различны, то, следовательно, случайные величины X и Y зависимы.




Лекция 6. Законы распределения системы двух случайных величин

Пример 3.2

Дана система {X, Y}, равномерно распределенная в квадрате |x|+|y| 1 (см. рис. 22).

Определить: а) частные законы распределения X и Y; б) зависимы ли эти случайные величины?



Лекция 6. Законы распределения системы двух случайных величин

Решение:

Закон распределения {X, Y} имеет вид:

Плотность при |x|≤1 определяется по формуле:

Лекция 6. Законы распределения системы двух случайных величин

Тогда (см. рис. 23):

Аналогично для (y) получим:

Так как условие независимости не выполняется:

то случайные величины X и Y зависимы.

К числовым характеристикам системы {X, Y } относятся:

  • числовые характеристики случайных величин X и Y :

mx , my , Dx , Dy , σx , σy ;
  • числовые характеристики условных распределений :

mx/y , my/x , Dx/y , Dy/x , σx/y , σy/x ;
  • числовые характеристики связи случайных величин :

Kxy и rxy

Лекция 7. Числовые характеристики системы двух случайных величин

Числовые характеристики первой группы определяются по ранее приведенным формулам.

Числовые характеристики второй группы применительно к непрерывной системе {X, Y } определяются по формулам:

Для дискретных систем {X, Y } эти формулы очевидны.

Лекция 7. Числовые характеристики системы двух случайных величин

Величины Kxy и rxy являются характеристиками линейной корреляционной зависимости между X и Y ; они определяются зависимостями:

где Kxy – корреляционный момент или момент связи между X и Y ;

– коэффициент корреляции между X и Y , -1  rx  1. (16)

Коэффициент корреляции характеризует степень линейной корреляционной зависимости между X и Y .


Лекция 7. Числовые характеристики системы двух случайных величин

Под корреляционной зависимостью понимается такая зависимость, когда с изменением одной случайной величины, например X , у другой – Y изменяется ее математическое ожидание (my/x ).

При |rxy |=1 имеет место линейная функциональная связь между X и Y , при rxy =0 случайные величины X и Y некоррелированы.

Если X и Y независимы, то они и некоррелированы. Если rxy =0, то случайные величины X и Y могут быть зависимы.


Лекция 7. Числовые характеристики системы двух случайных величин

Пример 3.3

В условиях примера 3.1. определить: mx, my, Dx, Dy, Kxy, rxy.

Решение:



Лекция 7. Числовые характеристики системы двух случайных величин

Пример 3.4

В условиях примера 3.2. определить числовые характеристики системы {X, Y}.

Решение:

Лекция 7. Числовые характеристики системы двух случайных величин

– это плотность равномерного распределения в интервале

(-(1-|x|), (1-|x|))

Аналогично можно записать выражения для mx/y , Dx/y .



В общем случае, когда случайные величины, входящие в систему {X, Y }, зависимы, плотность нормального распределения имеет вид:

(17)

Частные распределения определяются по формулам:

(18)

(19)

Лекция 8. Нормальный закон распределения системы двух случайных величин

Условные плотности (x/y ) и (y/x ) имеют вид нормальных распределений:

(20) (21)

где

(22) (23)

(24) (25)

Лекция 8. Нормальный закон распределения системы двух случайных величин

Если случайные величины X и Y независимы, то и плотность принимает вид:

Вероятность попадания нормально распределенной системы {X,Y} (в случае независимых случайных величин X и Y ) в прямоугольник со сторонами, параллельными осям координат, определятся с помощью функции Лапласа по формуле:

(27)


Лекция 8. Нормальный закон распределения системы двух случайных величин

Пример 3.5

Определить вероятность попадания снаряда в цель, имеющую форму прямоугольника с координатами центра: xц=10 м, yц =5 м. Стороны прямоугольника параллельны осям координат и равны: по оси ox: 2 =20 м, по оси oy: 2k = 40 м. Координаты точки прице-ливания: mx=5м, my =5 м. Характеристики рассеивания снарядов по осям ox и oy, соответственно, равны: σx=20 м, σy =10 м.

Решение: Обозначим площадь прямоугольника через D.

Тогда:




Тема 4. Функции случайных величин



Лекция 9. Закон распределения функции одного случайного аргумента

Порядок нахождения закона распределения функции Y=y (X ), где X – дискретная случайная величина, представлен в примере 4.1.

Если возможные значения случайных величин X и Y связаны функциональной зависимостью y=y (x ), где y (x ) – непрерывна и дифференцируема, и известен закон распределения случайной величины X- , то закон распределения случайной величины Y- для случая, когда y (x ) монотонно возрастает или убывает в диапазоне своих возможных значений, выражается формулой (1):

В формуле (1) x (y ) есть обратная функция.

В том случае, когда функция y (x ) имеет n участков убывания и возрастания, то эта формула записывается в виде (2).


Лекция 9. Закон распределения функции одного случайного аргумента

Пример 4.1

Случайная величина X имеет закон распределения:

Найти закон распределения случайной величины

Решение: Находим возможные значения функции

при =0, 1, 2, 3.

Они, соответственно, равны: 1, 2, 1, 0. Следовательно, возможными значениями являются: 0, 1, 2.

Лекция 9. Закон распределения функции одного случайного аргумента

Находим вероятности этих возможных значений:

Закон распределения Y:



Лекция 9. Закон распределения функции одного случайного аргумента

Пример 4.2

Найти плотность распределения случайной величины и построить ее график, если случайная величина X распределена равномерно на интервале

Решение: График функции

представлен на рис. 24.



Лекция 9. Закон распределения функции одного случайного аргумента

Случайная величина X имеет следующую плотность распределения:

Находим обратную функ­­цию x (y ) и ее производную:



Лекция 9. Закон распределения функции одного случайного аргумента

Окончательно получим следующее выражение для плотности

График этой плотности

представлен на рис. 25.



Лекция 10. Числовые характеристики функции случайных величин

Основные формулы:



Лекция 10. Числовые характеристики функции случайных величин



Лекция 10. Числовые характеристики функции случайных величин

где Xi – независимые случайные величины,

Лекция 10. Числовые характеристики функции случайных величин



Лекция 10. Числовые характеристики функции случайных величин

Для n случайных величин числовые характеристики задаются совокупностью и корреляционной матрицей:

Запись в виде треугольной матрицы справедлива, т.к.

Лекция 10. Числовые характеристики функции случайных величин

Корреляционная матрица может быть представлена в нормированном виде, т.е. матрицей коэффициентов корреляции:

Лекция 10. Числовые характеристики функции случайных величин

Пример 4.3

Определить числовые характеристики случайной величины

если и

Решение:

Случайная величина U есть линейная функция случайных аргументов X, Y и Z. Поэтому с использованием формул (11) и (17) данного раздела получим:

Числовые характеристики системы случайных величин

Закон распределения полностью характеризует систему случайных величин, но использовать его на практике не всегда удобно в силу сложности. Зачастую бывает достаточно знать числовые характеристики составляющих систему случайных величин, к которым относятся: математические ожидания M[X], M[Y], дисперсии D[X], D[Y] и среднеквадратические отклонения. Они вычисляются по следующим формулам.

Дисперсии составляющих можно вычислять и по укороченным формулам

Важную роль в теории двумерных случайных величин играет корреляционный момент (ковариация) , характеризующий линейную связь между составляющими системы

Корреляционный момент вычисляется по следующим формулам.

Для дискретных систем случайных величин

Для непрерывных систем случайных величин

Наряду с корреляционным моментом используется безразмерная характеристика корреляционной связи - коэффициент корреляции

Для любых систем случайных величин

Случайные величины Х и Y называются некоррелированными, если

Независимые величины всегда некоррелированы.

Условным законом распределения случайной величины, входящей в систему, называется закон ее распределения, вычисленный при условии, что другая случайная величина приняла определенное значение. Для систем непрерывных случайных величин условные законы выражаются условными плотностями распределения составляющих

При этом, (6.9)

При этом

Законы равномерного и нормального распределения систем случайных величин

Равномерный закон. Если все значения случайных величин входящих в систему расположены внутри области D, и плотность вероятности системы имеет следующий вид

то (Х,У) подчинена равномерному закону распределения.

Нормальный закон. Если плотность распределения системы (Х,У) имеет вид

где - математические ожидания; - среднеквадратичные отклонения, а - коэффициент корреляции, то система подчинена нормальному закону распределения.

Для некоррелированных случайных величин нормальная плотность распределения

Пример 6.2. Планируется деятельность 3-х предприятий на очередной год. Система (X,Y)

где - номер предприятия

Размеры вложений (в тыс. усл. ден. ед.),

Задана таблицей

Закон распределения составляющей Х означает, что независимо от объема вложений первое предприятие будет иметь вложения с вероятностью 0,3, второе - с вероятностью 0,2 и третье - с вероятностью 0,5. Составляющей Y соответствует закон распределения

и это значит, что независимо от номера предприятия объем вложений может быть равен 3 тыс. усл. ден. ед. с вероятностью 0,5 или 4 тыс. усл.ден.ед. с вероятностью 0,5.

Для определения числовых характеристик составляющих воспользуемся найденными законами распределения Х и У и формулами для определения числовых характеристик дискретных систем

Средний объем вложений;

Отклонение от среднего объема вложений

Связь между номером предприятия и объемом вложений

Пример 6.3. На производстве за определенный период использовалось два вида сырья. Случайные величины X и Y - соответственно объемы сырья, выраженные в условных единицах. Плотность распределения вероятностей системы имеет вид

6 страниц (Word-файл)

Посмотреть все страницы

Необходимость. Дано: X и Y – независимы, т.е. закон распределения одной из них, скажем X, не зависит от значения Y , но закон распределения определяется плотностью, следовательно, плотность X не зависит от значения Y

- f 1 (x / y )= f 1 (x ) , но тогда в соответствии с формулой (4.6)

или f (x , y )= f 1 (x ) f 2 (y ).

Достаточность. Дано f (x , y )= f 1 (x ) f 2 (y ). В соответствии с формулой (4.6)

f 1 (x / y )= f 1 (x ), т.е. закон распределения X, определяемый плотностью, не зависит от значения величины Y, следовательно, X и Y независимы.

Упражнение1. Доказать, что составляющие системы случайных величин, распределенных равномерно в круге (см. пример 2) некоррелированы, но зависимы.

2. Двухмерный нормальный закон распределения.

Система случайных величин (X,Y) подчиняется двухмерному нормальному закону распределения, если она определена на всей координатной плоскости xOy и плотность системы определяется формулой

где a X , a Y - математические ожидания случайных величин X, Y ;

- дисперсии этих величин;

r – их коэффициент корреляции, причем -1< r <1.

Отметим, что здесь, как и в случае одной случайной величины, плотность нормального закона обозначается не буквой f, а буквой .

3-е свойство коэффициента корреляции или условие независимости нормальных случайных величин. Если случайные величины X и Y подчиняются нормальному закону и коэффициент корреляции равен нулю, то случайные величины независимы.

Действительно, пусть r=0 , тогда плотность (7.1) будет иметь вид

= где и – плотности величин X и Y соответственно.

Таким образом, выполняется условие независимости непрерывных случайных величин и, следовательно, X и Y независимы. Как мы видим, для случайных величин, имеющих нормальный закон распределения, необходимое условие независимости становится достаточным.

3. Условные плотности системы нормальных случайных величин.

Прямые регрессии.

Для удобства преобразований введем обозначения

(8.1)

Тогда плотность системы (7.1) можно записать так

а плотность нормальной случайной величины X

Условная плотность(4.5) будет равна

(u 2 -2 ru

Отметим, что функция y=exp(x) – это показательная функция y=e x , поэтому при делении аргумента этой функции (показатели степени) вычитаются. Преобразуем отдельно показатель степени

(u 2 -2 ru=

(u 2 -2 ru (

Учитывая формулы (87.1) и (8.2) , получим, что показатель степени равен


Таким образом, условная плотность равна

= -. (8.3)

Это плотность нормальной случайной величины

= -,

где a y / x – условное математическое ожидание, а - условная дисперсия случайной величины Y при условии, что X=x. Поэтому уравнение регрессии (4.9) для случайных величин, подчиненных нормальному закону, имеет вид

M(Y/x) = a Y + r ). (8.4)

Аналогично, в силу симметричности плотности получим и уравнение регрессии X и Y

M(X / y ) = a x + r . (8.5)

Условные дисперсии соответственно равны

D (Y / x )= ) ,

D (X / y )= ).

Функции (8.4) и (8.5) – линейные, следовательно, линии регрессии – прямые, причем обе они проходят через центр распределения системы, т.е. через точку с координатами (a x , a Y )

Известная формула нахождения «нормального веса» человека по его росту V=L-100, где V – вес, кг; а L – рост, см, есть не что иное, как уравнение регрессии и V – это средний вес для роста L.

Условные коэффициенты прямых регрессии равны

k x / Y = r k Y / x = r (8.6)

и знаки угловых коэффициентов совпадают со знаком коэффициента корреляции, поэтому, если r >0, то прямые регрессии (8.4) и (8.5) обе возрастающие, а если r <0, то обе прямые – убывающие. Это позволяет сформулировать еще два свойства коэффициента корреляции:

Если система случайных величин подчиняется нормальному закону и коэффициент корреляции удовлетворяет неравенству -1

4-е свойство коэффициента корреляции. Если система случайных величин подчиняется нормальному закону и коэффициент корреляции удовлетворяет неравенству 0

На рис. 2 приведены условные плотности X для некоторых значений Y и прямая регрессии для r>0.

9. Средняя квадратическая регрессия.

Рассмотрим систему случайных величин (X,Y). Подберем такую функцию f(x), чтобы средний квадрат отклонения случайной величины Y от этой функции случайной величины X был минимальным, т.е. чтобы эта функция обеспечивала минимум математического ожидания квадрата отклонения Y от f(X). Иными словами, стоит задача из всех возможных функций выбрать такую, которая обеспечивает

(9.1)

Доказано, что этот минимум достигается, если f (x ) , определяемой уравнением регрессии Y на X (4.9). Однако, если уравнение регрессии неизвестно, то найти такую функцию из (9.1) невозможно. Поэтому решают задачу отыскания минимума выражения (9.1) для функций данного вида f(A,x), где A= (a 1 ,…. a ) – вектор коэффициента этой функции, т.е. ищется не сама функция обеспечивающая минимум среднего квадрата отклонения Y от f (X ) , а определяются коэффициенты заранее выбранной функции (например, линейной определяются коэффициенты заранее выбранной функции (например, линейной y= x + b , или квадратичной y = ax 2 + bx + c , или функции какого-нибудь другого вида) так, чтобы из всех функций выбранного вида, функция с этими коэффициентами обеспечивала минимум среднего квадрата отклонения Y от f (A , X ). Иными словами, нужно найти такой вектор коэффициента А, чтобы функция переменных

S=(A)=S() = M((Y-f(A,X)) 2) (9.2)

д остигала минимума .

Пусть A * =(a ,……, a ) обеспечивает этот минимум, т.е. является точкой минимума функции S(A). Тогда уравнение y= f (A * , x ) называется уравнением средней квадратической регрессии, а случайная величина Y * = f (A * , X ) приближением случайной величины Y функций данного вида случайной величины X , найденной по методу наименьших квадратов (МНК). Коэффициенты этой функции А * =(a ,……, a ) называется коэффициентами регрессии.