Расстояние (метрика). Метрическое пространство

Во взаимодействии человека с окружающей средой восприятие пространства играет большую роль, являясь условием ориентировки. Представляет оно собой отражение объективно существующего пространства и включает в себя:

  • Восприятие отдаления;
  • Восприятие расстояния между объектами;
  • Восприятие направления;
  • Восприятие величины объектов;
  • Восприятие формы объектов.

Тело человека тоже взаимодействует со средой и имеет свою систему координат, а сам человек имеет определенное место в пространстве. Среди всего, что воспринимает человек, восприятие пространства занимает особое место. В пространстве находятся все объекты материального мира и свершаются различные природные и социальные явления.

К пространственным свойствам одного объекта относятся величина и форма, а если этот же объект рассматривается в связи с другими объектами, то добавляется положение в пространстве, направление, расстояние. В пространственной ориентировке особую роль выполняет двигательный анализатор. С его помощью устанавливается взаимодействие между различными анализаторами. Бинокулярное зрение, бинауральный слух, бимануальное осязание, дириническое обоняние относят к специальным механизмам пространственной ориентировки.

Восприятие пространства в психологии рассматривается как отражение пространственных характеристик объектов внешней среды.

Зрительные восприятия одновременно базируются и на зрительных, и на двигательных ощущениях. Слуховые и обонятельные восприятия играют вспомогательную роль, а двигательные и осязательные – на близких расстояниях.

Зрение человека имеет способность различать удаленность предметов на расстоянии до 2,5 км. Предметы, расположенные дальше этого предела, воспринимаются человеком как размещенные на одной плоскости, звезды, например, представляются «размещенными» на внутренней поверхности сферы на одинаковом расстоянии от точки наблюдения, т.е. от глаз человека.

Визуальное восприятие удаленности обеспечивается бинокулярным зрением, т.е. видение двумя глазами. Ощущение удаленности появляется, потому что возникают зрительные различия в зрительных ощущениях от каждого глаза. Данные эффекты имеют физиологическую основу:

  • Раздраженные одновременно точки на сетчатках левого и правого глаза не совпадают;
  • Мускульные ощущения глазных мышц.

Чтобы определить расстояние до нескольких известных объектов чаще всего используют результат их взаимного соотнесения, если, например, футбольный мяч меньше теннисного, то совершенно понятно, что он расположен значительно дальше.

Определять расстояния до предметов человек может не только с помощью зрения, но еще с помощью слуха и обоняния, хотя вероятность становится меньше. Точность отражения в данном случае будет зависеть от индивидуальных особенностей человека. Двигательное восприятие тоже может дать определенную информацию о расстоянии, но только в пределах досягаемости руки или ноги. В качестве примера можно назвать перемещение человека в темной комнате – во избежание столкновения обычно вперед вытягивается рука или обшаривается пол ногой.

Восприятие величины

Величина предмета, которую воспринимает человек, зависит от их угловой величины и расстояния, с которого этот предмет наблюдается. Если знать величину предмета, то по его угловой величине можно определить расстояние до него. И, наоборот, зная, на каком расстоянии находится предмет, по его угловым размерам, определяется величина предмета.

Например, если смотреть в бинокль, зная величину предметов, человек видит их приблизившимися, но не увеличенными, а если на печатный шрифт смотреть в лупу, то буквы будут увеличенными, но не приблизившимися. Таким образом, в результате опыта развивается способность глаза сравнивать пространственные величины, направления и удаленность объекта от наблюдателя. Эта способность получила название глазомера.

Глазомер человека трехмерный, что значит, имеет способность сравнивать пространственные формы, расположенные в трех измерениях, включая плоскостный и глубинный. Сравнение это может относиться к линиям, поверхностям и объемам.

Плоскостный глазомер дает возможность сравнивать формы на плоскости, которая расположена в направлении, перпендикулярной зрительной оси.

Глубинный глазомер способен сравнивать пространственные формы в глубину.

Восприятие формы

Плоскостная форма предмета и её восприятие предполагает отчетливое различение его очертаний и границ, зависит это от четкости изображения, получающегося на сетчатке глаза.

На основании проведенных исследований константность формы объясняется действием периферических и центральных факторов. Восприятие трехмерных предметов насыщенно глубинными ощущениями и предметы, расположенные близко, кажутся несколько меньше. Действие фактора компенсирует действие перспективных сокращений.

С другой стороны, в константности восприятия формы, существенную роль играют представления, прошлый опыт. В экспериментах с псевдоскопом роль прошлого опыта выявлялась очень наглядно. Восприятие псевдоскоп ставит в условия обратной перспективы – ближние точки пространства переходят в дальние, а дальние в ближние. Следовательно, все вогнутые предметы должны восприниматься как выпуклые, а выпуклые, наоборот, как вогнутые. В результате получилось, что формы экспонатов, не закрепленных опытом, действительно так и воспринимаются.

Явление константности не срабатывает при восприятии объектов, которые находятся на очень большом удалении, у воспринимаемого объекта сглаживаются острые углы. Исчезают некоторые мелкие детали. Интересно, что лицо человека никогда не воспринимается в обратной перспективе.

Действие центральных факторов корригируют данные периферических раздражений и фактическое восприятие предметов обусловлено не только наличными периферическими раздражениями, но и прошлым опытом.

Восприятие направления

Данное восприятие является одним из важных моментов пространственного различения. Направление, в котором человек видит объект, определяется местом его изображения на сетчатке глаза и положением тела относительно окружающих предметов. Относительно горизонтальной плоскости Земли, тело человека занимает вертикальное положение. Данное положение и будет являться исходным для определения направления. В восприятии направления, кроме зрительных ощущений, большую роль играют кинестезические ощущения движений глаз, рук и статические ощущения – ощущения равновесия и положения тела.

Направление видимого предмета при бинокулярном зрении определяется законом тождественного направления, по которому раздражители, падающие на сетчатку, видятся в одном и том же направлении. Это направление дается линией, идущей как бы от одного «циклопического глаза», расположенного посередине лба.

Предметы, на которые смотрит человек, на сетчатке глаза перевернуты. Перемещение наблюдаемого объекта вызывает перемещение сетчаточного изображения в обратном направлении. Но, человек воспринимает предметы, как движущиеся, так и неподвижные вовсе не в искаженном виде, а такими, какими оптическая система глаз передает их на сетчатку. Происходит это благодаря сочетанию зрительных ощущений с тактильными, кинестезическими и другими сигналами.

При бинауральном слушании осуществляется восприятие направления звука. В основе дифференцировки направлений звука лежит разность во времени поступления сигналов в кору головного мозга от обоих ушей. Звуки могут локализоваться в разном направлении – по вертикали и горизонтали. В первом случае, как показали эксперименты, для восприятия пространственного расположения звука необходимы движения головы. Механизм локализации звука, таким образом, учитывает не только слуховые сигналы, но и данные других анализаторных систем.

Подобно героям фильма «Человек с бульвара Капуцинов» можно смело утверждать: «Далека дорога твоя». Но одна и та же дорога может быть разной. Когда-то расстояния наносились на карту в днях пути, и путь туда мог не равняться пути обратно. Ведь есть существенная разница, плетешься ли ты в гору или весело переставляешь ноги, спускаясь с горы.

При принятии решений расстояния между объектами также можно мерить по-разному, в зависимости от того, какая перед нами стоит задача и с какими данными мы имеем дело. В этой статье мы рассмотрим несколько методов определения расстояния между объектами и путей применения их на практике.

При принятии решений нам часто необходимо сравнивать объекты между собой. Среди прочего можно использовать представление этих объектов как точек в некотором многомерном пространстве. Допустим нам необходимо выбрать офис для филиала компании.

Для начала определимся с критериями, по которым мы будем оценивать имеющиеся предложения. Пусть это будут расстояние от складов, стоимость аренды, размер помещений и то, насколько нам нравится данный офис (вложим сюда субъективную оценку инфраструктуры). Каждое предложение, таким образом, может быть представлено в виде точки в четырехмерном пространстве.

В обычной жизни мы привыкли к расстоянию, измеренному с помощью формулы Евклида, – корень из суммы квадратов расстояний по каждому измерению. То есть, если нам нужно померить расстояние между диагонально расположенными углами коробки, размеры которой нам известны, нам не обязательно искать линейку. Если под рукой есть калькулятор, достаточно сложить квадраты ширины, высоты и длины и вычислить из них корень. Обратите внимание, формула работает как на плоскости, так и на объеме. Более того, формула верна и для большего числа измерений. Но не во всякой ситуации.

Обратимся за примером к карте Манхеттена (Нью-Йорк). Его география чрезвычайно проста и сводится к формуле: с севера на юг идут авеню, с запада на восток – стрит (см. рис. 1). Если вам надо попасть от южного конца первого авеню к пересечению Мэдисон-авеню и 96-й стрит, вы вольны выбрать любой маршрут. Если при этом вы всегда будете двигаться в сторону конечной точки, последовательно увеличивая номера стрит и авеню, которые вы прошли, расстояние, которое вы пройдете, не будет зависеть от конкретного выбранного маршрута. Оно будет равно сумме расстояния, пройденного по стрит, и расстояния, пройденного по авеню. Или иными словами – сумме расстояний между точками по каждому из параметров.

Рисунок 1. Манхеттенское расстояние не зависит от выбранного маршрута (maps.google.ru) D = ∑|x 1,i - x 2,i |, где x 1,i и x 2,i – i-я координата первого и второго объекта соответственно

Складывать напрямую выбранные параметры мы не можем. В связи с этим попытаемся оценить полезность офиса по каждому из параметрове .

Так как у нас имеется фиксированное множество предложений, мы можем найти минимальное и максимальное значение каждого из параметров. Теперь можно считать, что минимальное значение параметра соответствует нулевому значению полезности (или, в нашем случае, выигрыша в полезности), максимальное значение – единице, а все остальные значения находятся между нулем и единицей. За счет этого нехитрого трюка мы свели все параметры к одной безразмерной шкале, причем значения всех параметров измеряются от нуля до единицы. Теперь мы можем сравнивать тысячи рублей с единицами километров, и это не нарушит физический смысл задачи.

Но как нам сравнить офисы между собой? Очень просто, давайте сложим все значения полезностей для каждого из параметров. Количество параметров фиксировано, минимальное значение полезности равно нулю, максимальное – четырем. Отранжируем полученные значения и выберем тот офис, значение полезности у которого оказалось максимальным.

Поздравляю вас, вы использовали манхеттенское расстояние! В самом деле для того, чтобы определить разницу между офисами, мы используем разницу их полезности, определяемой как сумма разниц по каждому из параметров, то есть манхеттенское расстояние (еще известное как расстояние городских кварталов).

Но в отличие от Манхеттена Москва строилась не сразу, да и строилась по совсем другим принципам.

Допустим, что мы выбираем не офис, а квартиру. Для того чтобы оценить расстояние до работы мы будем использовать не километры, рассчитанные по формуле Евклида, а время, потраченное на дорогу. При этом? если у нас есть несколько вариантов маршрута, использующих различные виды транспорта, мы можем захотеть оценить это время по самому плохому варианту (надо же как-то объяснить риелтору, почему он должен дать нам скидку). В этом случае мы выберем максимум времени для путей на машине, трамвае и метро.

Такая оценка называется расстоянием Чебышева. В данном случае берется расстояние лишь по одному параметру, принимающему максимальное значение.

Мы могли бы использовать данную оценку и для выбора офиса. В этом случае будем смотреть не на сумму разницы полезностей по всем параметрам, а на максимум разницы между офисами.

Например, для двух офисов сумма полезностей примерно равна, но при этом инфраструктура первого офиса намного хуже инфраструктуры второго. Получается, что они не слишком отличаются по расстоянию, цене и площади, но очень отличаются по инфраструктуре. И захочется ли вам работать при прочих равных в плохих условиях? Нет, и в такой ситуации инфраструктура автоматически начинает иметь большее значение.

Теперь представим себе другую ситуацию. Пусть рассматриваемая система может иметь склонность к масштабированию. Например, если один город потребляет больше нашего товара, чем другой город, то это может попросту значить, что во втором городе больше жителей.

Впрочем, зависимость не всегда является столь очевидной. Для того чтобы бороться с подобной неоднозначностью, можно перейти к несколько иной логике измерения сходства между рассматриваемыми объектами. Перед этим мы считали каждый объект точкой в многомерном пространстве. Давайте представим теперь эту точку как один из концов вектора, причем все векторы будут стартовать в начале системы координат. Теперь вместо взаимного расположения точек и расстояний между ними мы можем использовать направление на объекты.

Представим себе, что перед нами экран радара, показывающего перемещения наших и чужих объектов: наши – с одной стороны, чужие – с другой. И те, и другие стараются перемещаться группами. В такой ситуации направление на объект становится более важным, чем расстояние до объекта.

Примерно так же направление становится более важным в пространстве с большим количеством признаков. Объекты, относящиеся к разным классам, обладают различными наборами признаков. Как следствие, для нас становится более важным, с какой стороны появились эти объекты, чем расстояние до них. Если количество параметров становится большим, само наличие или отсутствие значения по данному параметру может стать шумом.

В такой ситуации переходят к косинусной мере сходства. Не вдаваясь в подробности, определим ее как косинус угла между векторами, построенными на основе соответствующих объектов (см. рис. 2). Значения косинусной меры меняются от нуля до единицы.

Если два объекта находятся на одной прямой, проходящей между началом координат, эти объекты считаются одинаковыми (расстояние равно нулю). Подобная ситуация соответствует уже описанному потреблению в городах: если потребление продуктов в первом городе во столько же раз больше, чем во втором, во сколько население первого превосходит население второго, то их векторы будут направлены по одной прямой.

На практике соотношение вряд ли будет выполняться очень точно, однако все объекты будут указывать в одну и ту же сторону. Если два объекта максимально непохожи друг на друга (их векторы перпендикулярны), расстояние между ними будет равно единице.

Пытливый читатель может возразить, что опытный исследователь быстро придет к тому, что вместо построения векторов в двумерном пространстве (потребление, размер населения) можно перейти к одному измерению (потребление на душу населения). Но что делать, если у нас имеются десятки тысяч параметров, а в числителе и знаменателе стоят не отдельные параметры, а их комбинации? Применение косинусной меры позволяет нам в такой ситуации положиться на то, что векторы сами укажут на подобное соотношение. Даже если на практике оно не имеет формально описываемого смысла.

Но приведенные рассуждения наталкивают нас на еще одну мысль. А что если вместо привычной декартовой системы координат (привычной карты, см. рис. 3А) нам перейти к полярной (экран радара, показывающий угол на цель и дистанцию до нее, см. рис. 3В)? Особенно удобна такая ситуация в случаях, когда свои находятся близко, а чужие далеко. Тогда вместо того, чтобы пытаться описать несколько областей на плоскости, мы можем сказать, что вне зависимости от угла все, кто расположен на расстоянии меньше заданного, – свои, а все остальные – чужие (причем чужих можно различать в зависимости от угла на них).

Хлопотная и сложная задача становится простой после некоторого трюка – преобразования системы координат. Подобные преобразования могут проводиться по-разному, но общий смысл их примерно одинаков – мы пытаемся посмотреть на пространство по-другому и поменять систему координат. Правда, не все преобразования так же очевидны, как полярная система координат, поэтому мы не будем их сейчас рассматривать, а перейдем к следующей мере, определяющей сходство объектов.

Одним из вариантов преобразования пространства является сокращение его размерности с помощью таких методов, как метод главных компонент, эластичные карты или t-SNE.

Данные методы позволяют выделить комбинацию из нескольких главных параметров (в случае метода главных компонент) и представить точки в этом новом пространстве. Или попытаться натянуть на точки гибкий коврик и посмотреть, как они там расположатся (в случае метода эластичных карт). Или попытаться «вжать» точки в плоскость (как поступает метод t-SNE). В этом новом пространстве расположение точек может оказаться более удобным, чем в исходном многомерном.

Иногда нам гораздо важнее, что координаты объектов ведут себя сходным образом. Часть параметров принимает относительно небольшие значения, часть, наоборот, стремится вверх. Подобное поведение описывается с помощью корреляции, вычисляемой на двух последовательностях чисел.

Корреляция принимает значения от –1 до +1. Значение +1 говорит о том, что одна последовательность полностью повторяет поведение другой. Так, например, стоимость офисов в одном районе обычно коррелирует с их площадью, то есть увеличение площади влечет за собой рост цены и наоборот.

Корреляция, равная –1, означает противоположное поведение (рост загрязненности воздуха приводит к падению цены). Корреляция, равная нулю, означает полную независимость параметров (светимость Алголя от фаз Луны).

Примеры различных функций и их корреляций приведены на рис. 4. На практике корреляция ниже 0,8 означают очень невысокую зависимость параметров. Существует несколько вариантов вычисления корреляции, но обычно используется формула Пирсона.

Рисунок 4. Значение корреляции для различных функций (изображение взято с сайта ru.wikipedia.org)

Если вернуться к нашему примеру с арендой офиса, то с помощью корреляции можно будет, например, выделить три группы офисов.

В первой расстояние до складов будет невысоким и цена офиса также будет невысока, то есть офисы будут расположены недалеко от складов на окраине города. В нее же войдут офисы, расположенные далеко от складов, и дорогие, то есть расположенные ближе к центру. Эти две группы объединятся, так как и там, и там цены и расстояние находятся на одном уровне полезности.

Вторую группу составят недорогие офисы, расположенные далеко от складов, то есть на другом конце города или еще дальше от центра, чем склады.

Наконец, в третью группу попадут склады, расположенные недалеко от офиса, но дорогие (арендаторы зачем-то решили поднять цены?). И если первая группа имеет для нас какую-то ценность, то зачем смотреть на последние две?

На практике все может пойти не так. Использование различных мер сходства подобно расстановке запятых в фразе «Садись в ногах правды нет». Запятые после первого и третьего слов имеют очень разный смысл и приводят к различным результатам. Но как говорится: «Любой бой, который мы выиграли, является честным». Нам ведь нужно принять правильное решение и обосновать его. Здесь любая мера определения расстояния может быть одинаково ценна, особенно если заранее неизвестно, какая из них правильная.

Перед нами есть карта, и мы меряем расстояния по ней. Но фактически надо смотреть на подписи к карте, говорящие, что путь туда не равен пути оттуда. Если бы у нас был тоннель, мы могли бы смело аппроксимировать ситуацию по формуле Евклида. Но на самом деле придется идти через горы и овраги, поэтому больше подойдет манхеттенское расстояние или расстояние Чебышева (потому что 100 метров вверх – это много больше, чем 100 метров вперед).

В данной статье мы не рассмотрели более экзотические, но от этого не менее полезные расстояния Махаланобиса, Хэмминга, Дайса и французских железных дорог. Но ведь нашей задачей не было вот так сразу раскрыть все секреты, правда? Нам нужно было узнать, что расстояния могут измеряться по-разному, в зависимости от того, какая нам попалась задача. бит

Вконтакте

1.1.5. Данные и расстояния в пространствах произвольной природы

Как показано выше, исходные статистические данные могут иметь разнообразную математическую природу, являться элементами разнообразных пространств – конечномерных, функциональных, бинарных отношений, множеств, нечетких множеств и т.д. Следовательно, центральной частью прикладной статистики является статистика в пространствах произвольной природы. Эта область прикладной статистики сама по себе не используется при анализе конкретных данных. Это очевидно, поскольку конкретные данные всегда имеют вполне определенную природу. Однако общие подходы, методы, результаты статистики в пространствах произвольной природы представляют собой научный инструментарий, готовый для использования в каждой конкретной области.

Статистика в пространствах произвольной природы. Много ли общего у статистических методов анализа данных различной природы? На этот естественный вопрос можно сразу же однозначно ответить – да, очень много. Такой ответ будет постоянно подтверждаться и конкретизироваться на протяжении всего учебника. Несколько примеров приведем сразу же.

Прежде всего отметим, что понятия случайного события, вероятности, независимости событий и случайных величин являются общими для любых конечных вероятностных пространств и любых конечных областей значений случайных величин (см. главы 1.2 и 2.1). Поскольку все реальные явления и процессы описываются с помощью математических объектов из конечных множеств, сказанное выше означает, что конечных вероятностных пространств и дискретных случайных величин (точнее, величин, принимающих значения в конечном множестве) достаточно для всех практических применений. Переход к непрерывным моделям реальных явлений и процессов оправдан только тогда, когда этот переход облегчает проведение рассуждений и выкладок. Например, находить определенные интегралы зачастую проще, чем вычислять значения сумм. Не могу не отметить, что приведенные соображения о взаимосоотнесении дискретных и непрерывных математических моделей автор услышал более 30 лет назад от академика А.Н.Колмогорова (ясно, что за конкретную формулировку несет ответственность автор настоящего учебника).

Основные проблемы прикладной статистики – описание данных, оценивание, проверка гипотез – также в своей существенной части могут быть рассмотрены в рамках статистики в пространствах произвольной природы. Например, для описания данных могут быть использованы эмпирические и теоретические средние, плотности вероятностей и их непараметрические оценки, регрессионные зависимости. Правда, для этого пространства произвольной природы должны быть снабжены соответствующим математическим инструментарием – расстояниями (показателями близости, мерами различия) между элементами рассматриваемых пространств.

Популярный в настоящее время метод оценивания параметров распределений – метод максимального правдоподобия – не накладывает каких-либо ограничений на конкретный вид элементов выборки. Они могут лежать в пространстве произвольной природы. Математические условия касаются только свойств плотностей вероятности и их производных по параметрам. Аналогично положение с методом одношаговых оценок, идущим на смену методу максимального правдоподобия (см. главу 2.2). Асимптотику решений экстремальных статистических задач достаточно изучить для пространств произвольной природы, а затем применять в каждом конкретном случае , когда задачу прикладной статистики удается представить в оптимизационном виде. Общая теория проверки статистических гипотез также не требует конкретизации математической природы рассматриваемых элементов выборок. Это относится, например, к лемме Неймана-Пирсона или теории статистических решений. Более того, естественная область построения теории статистик интегрального типа – это пространства произвольной природы (см. главу 2.3).

Совершенно ясно, что в конкретных областях прикладной статистики накоплено большое число результатов, относящимся именно к этим областям. Особенно это касается областей, исследования в которых ведутся сотни лет, в частности, статистики случайных величин (одномерной статистики). Однако принципиально важно указать на «ядро» прикладной статистики – статистику в пространствах произвольной природы. Если постоянно «держать в уме» это ядро, то становится ясно, что, например, многие методы непараметрической оценки плотности вероятности или кластер-анализа, использующие только расстояния между объектами и элементами выборки, относятся именно к статистике объектов произвольной природы, а не к статистике случайных величин или многомерному статистическому анализу. Следовательно, и применяться они могут во всех областях прикладной статистики, а не только в тех, в которых «родились».

Расстояния (метрики). В пространствах произвольной природы нет операции сложения, поэтому статистические процедуры не могут быть основаны на использовании сумм. Поэтому используется другой математический инструментарий, использующий понятия типа расстояния.

Как известно, расстоянием в пространстве Х называется числовая функция двух переменных d (x , y ), x є X , y є X , определенная на этом пространстве, т.е. в стандартных обозначениях d : X 2 → R 1 , где R 1 – прямая, т.е. множество всех действительных чисел. Эта функция должна удовлетворять трем условиям (иногда их называют аксиомами):

1) неотрицательности: d (x ,y ) > 0, причем d (x ,x ) = 0, для любых значений x є X , y є X ;

2) симметричности: d (x ,y ) = d (y ,x ) для любых x є X , y є X ;

3) неравенства треугольника: d (x ,y ) + d (y,z ) > d (x ,z ) для любых значений x є X , y є X , z є X.

Для термина «расстояние» часто используется синоним – «метрика».

Пример 1. Если d (x ,x ) = 0 и d (x ,y ) = 1 при x y для любых значений x є X , y є X , то, как легко проверить, функция d (x ,y ) – расстояние (метрика). Такое расстояние естественно использовать в пространстве Х значений номинального признака: если два значения (например, названные двумя экспертами) совпадают, то расстояние равно 0, а если различны – то 1.

Пример 2. Расстояние, используемое в геометрии, очевидно, удовлетворяет трем приведенным выше аксиомам. Если Х – это плоскость, а х (1) и х (2) – координаты точки x є X в некоторой прямоугольной системе координат, то эту точку естественно отождествить с двумерным вектором (х (1), х (2)). Тогда расстояние между точками х = (х (1), х (2)) и у = (у (1), у (2)) согласно известной формуле аналитической геометрии равно

Пример 3 . Евклидовым расстоянием в пространстве R k векторов вида x = (x (1), x (2), …, x (k)) и y = (y (1), y (2), …, y (k )) размерности k называется

В примере 2 рассмотрен частный случай примера 3 с k = 2.

Пример 4. В пространстве R k векторов размерности k используют также так называемое «блочное расстояние», имеющее вид

Блочное расстояние соответствует передвижению по городу, разбитому на кварталы горизонтальными и вертикальными улицами. В результате можно передвигаться только параллельно одной из осей координат.

Пример 5. В пространстве функций, элементами которого являются функции х = x (t ), у = y (t ), 0< t < 1, часто используют расстояние Колмогорова

Пример 6. Пространство функций, элементами которого являются функции х = x (t ), у = y (t ), 0< t < 1, превращают в метрическое пространство (т.е. в пространство с метрикой), вводя расстояние

Это пространство обычно обозначают L p , где параметр p > 1 (при p < 1 не выполняются аксиомы метрического пространства, в частности, аксиома треугольника).

Пример 7. Рассмотрим пространство квадратных матриц порядка k . Как ввести расстояние между матрицами А = ||a (i ,j )|| и B = ||b (i ,j )||? Можно сложить расстояния между соответствующими элементами матриц:

Пример 8. Предыдущий пример наводит на мысль о следующем полезном свойстве расстояний. Если на некотором пространстве определены два или больше расстояний, то их сумма – также расстояние.

Пример 9 . Пусть А и В – множества. Расстояние между множествами можно определить формулой

Здесь μ – мера на рассматриваемом пространстве множеств, Δ – символ симметрической разности множеств,

Если мера – так называемая считающая, т.е. приписывающая единичный вес каждому элементу множества, то введенное расстояние есть число несовпадающих элементов в множествах А и В .

Пример 10. Между множествами можно ввести и другое расстояние:

В ряде задач прикладной статистики используются функции двух переменных, для которых выполнены не все три аксиомы расстояния, а только некоторые. Их обычно называют показателями различия, поскольку чем больше различаются объекты, тем больше значение функции. Иногда в том же смысле используют термин «мера близости». Он менее удачен, поскольку большее значение функции соответствует меньшей близости.

Чаще всего отказываются от аксиомы, требующей выполнения неравенства треугольника, поскольку это требование не всегда находит обоснование в конкретной прикладной ситуации.

Пример 11. В конечномерном векторном пространстве показателем различия является

(сравните с примером 3).

Показателями различия, но не расстояниями являются такие популярные в прикладной статистике показатели, как дисперсия или средний квадрат ошибки при оценивании.

Иногда отказываются также и от аксиомы симметричности.

Пример 12. Показателем различия чисел х и у является

Такой показатель различия используют в ряде процедур экспертного оценивания.

Что же касается первой аксиомы расстояния, то в различных постановках прикладной статистики ее обычно принимают. Вполне естественно, что наименьший показатель различия должен достигаться, причем именно на совпадающих объектах. Имеет ли смысл это наименьшее значение делать отличным от 0? Вряд ли, поскольку всегда можно добавить одну и ту же константу ко всем значениям показателя различия и тем самым добиться выполнения первой аксиомы.

В прикладной статистике используются самые разные расстояния и показатели различия, о них пойдет речь в соответствующих разделах учебника.

Предыдущая

Основные меры расстояний для переменных, измеренных на метрических шкалах.

1. Евклидово расстояние.

Многомерное евклидово расстояние (1ц между двумя объектами i и ∕ определяется по формуле

где i = 1,2, ..., гг, k – число переменных.

Все переменные стандартизованы, не имеют размерности. Это обеспечивает возможность суммирования расстояний по разным переменным.

Другими словами, дц – это геометрическое расстояние между двумя объектами в многомерном пространстве. Многомерным пространством называют пространство, имеющее число измерений более трех. В нашем случае в формуле (10.5) имеем ^-мерное пространство.

Вычисление многомерного евклидова расстояния по формуле (10.5) чаще называют простым евклидовым расстоянием.

Взвешенное евклидово расстояние применяется в том случае, если переменные ранжированы между собой по степени важности, т.е. им присвоены веса. Вес показателя показывает, насколько важно учесть при классификации данный признак, т.е. при расчете меры сходства учитывается важность показателя, оцененная путем дополнительных исследований, например, экспертным путем.

Взвешенное евклидово расстояние рассчитывается следующим образом:

(10.6)

где Wj – вес у-го показателя,

Сумма всех весов должна равняться 1.

Если трудно определиться с важностью показателя и все веса равнозначны, то рекомендуется использовать простое евклидово расстояние.

2. Квадрат евклидова расстояния:

где– номер объекта,– объем выборки.

Квадрат евклидова расстояния находится как расстояние между двумя элементами г и ∕ через сумму квадратов разности значений всех переменных. Квадрат евклидова расстояния используется для придания больших весов наиболее удаленным друг от друга объектам. Особенно это важно использовать для стандартизованных переменных.

3. Расстояние Чебышева:

(10.8)

Расстояние Чебышева равно максимальному расстоянию между соответствующими координатами объектов. Расстояние Чебышева используют тогда, когда требуется определить различие двух объектов г и ∕ по какой-либо одной координате. Расстояние Чебышева является грубой мерой различия, так как значительная часть имеющейся информации игнорируется.

4. Расстояние Хэмминга (расстояние городских кварталов или манхэттенское расстояние):

Расстояние Хэмминга вычисляется как сумма абсолютных значений координатных расстояний. В большинстве случаев эта мера расстояний приводит к таким же результатам, как и простое евклидово расстояние.

5. Расстояние Минковского:

(10.10)

При р = 2 формула расстояния Минковского принимает вид евклидова расстояния; при р = 1 получаем расстояние Хэмминга.

Расстояния между объектами, рассчитанные по какой-либо из перечисленных выше формул, представляют в виде матрицы расстояний:

(10.11)

Как видим, матрица расстояний представляет собой квадратную матрицу типа "объект – объект" (порядка п ), где в качестве элементов выступают расстояния между объектами в метрическом пространстве. Диагональные элементы такой матрицы равны нулю.

АНО ВПО «КАЗАНСКИЙ ИНСТИТУТ ФИНАНСОВ, ЭКОНОМИКИ И ИНФОРМАТИКИ»

ФАКУЛЬТЕТ ЭКОНОМИКИ И УПРАВЛЕНИЯ

Курсовая работа

по дисциплине: Многомерные статистические методы

Кластерный анализ. Расстояние между объектами.
Расстояние между кластерами.

Студент 3 курса Адыгамова Н.К.

Научный руководитель

КАЗАНЬ 2010

Введение……..……………………………………….……..3

ГЛАВА 1. Многомерные статистические методы….…….4

1.1 Введение в кластерный анализ..……………..….…….4

1.2 Задача кластерного анализа…………...……….……...7

1.3 Методы кластерного анализа………………………...11

ГЛАВА 2. Расстояние между объектами. Расстояние между кластерами………………………………………………...13

2.1 Расстояние между объектами (клстерами) и мера близости…………………………………………………..13

2.2 Расстояние между кластерами……………………….18

ГЛАВА 3. Применение кластерного анализа………………..21

Заключение……………………………………………..28

Список использованной литературы…………………29

Введение

При анализе и прогнозировании социально-экономических явлений исследователь довольно часто сталкивается с многомерностью их описания. Это происходит при решении задачи сегментирования рынка, построении типологии стран по достаточно большому числу показателей, прогнозирования конъюнктуры рынка отдельных товаров, изучении и прогнозировании экономической депрессии и многих других проблем.

Методы многомерного анализа - наиболее действенный количественный инструмент исследования социально-экономических процессов, описываемых большим числом характеристик. К ним относятся и кластерный анализ.

Цель данной работы является изучение теоретических аспектов кластерного анализа, ознакомление с практическим применением кластерного анализа и исследование расстояния между объектами и кластерами.

Курсовая работа включает в себя теоретическую часть, в которой рассматриваются задачи курса многомерных статистических методов и производится излагание основной части работы - описание класстерного анализа, а также практичская часть работы.

Таким образом, кластерный анализ – объект изучения в данной курсовой работе.

1. Многомерные статистические методы.

Многомерные статистические методы изучает основные теоритические положения наиболее часто встречаемых в практике экономического анализа, исследование зависимости (корреляционный и регриссионный анализы), снижение размерностей (компонентный анализ) и классификации (кластерный анализ).

Классификация методов статистического исследования по конечной цели исследования:

1. Установление самого факта наличия (или отсутствия) статистически значимой связи между исследуемыми переменными

2. Прогноз (восстановление) неизвестных значений интересующих нас индивидуальных или средних исследуемых результирующих показателей по данным значениям объясняющих переменных.

3. Выявление причинных связей между объясняющими переменными и результирующими показателями, частичное управление значениями зависимой переменной путем регулирования величин объясняющих переменных.

1.1 Введение в кластерный анализ

Кластерный анализ наиболее ярко отражает черты многомерного анализа в классификации, факторный анализ – в исследовании связи.

Иногда подход кластерного анализа называют в литературе численной таксономией, численной классификацией, распознаванием с самообучением и т.д.

Первое применение кластерный анализ нашел в социологии. Название кластерный анализ происходит от английского слова cluster – гроздь, скопление. Впервые в 1939 был определен предмет кластерного анализа и сделано его описание исследователем Трионом. Главное назначение кластерного анализа – разбиение множества исследуемых объектов и признаков на однородные в соответствующем понимании группы или кластеры. Это означает, что решается задача классификации данных и выявления соответствующей структуры в ней. Методы кластерного анализа можно применять в самых различных случаях, даже в тех случаях, когда речь идет о простой группировке, в которой все сводится к образованию групп по количественному сходству.

Большое достоинство кластерного анализа в том, что он позволяет производить разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ в отличие от большинства математико-статистических методов не накладывает никаких ограничений на вид рассматриваемых объектов, и позволяет рассматривать множество исходных данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры, когда показатели имеют разнообразный вид, затрудняющий применение традиционных эконометрических подходов.

Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы социально-экономической информации, делать их компактными и наглядными.

Кластерный анализ позволяет сокращать размерность данных, делать ее наглядной.

Кластерный анализ может применяться к совокупностям временных рядов, здесь могут выделяться периоды схожести некоторых показателей и определяться группы временных рядов со схожей динамикой.

Кластерный анализ параллельно развивался в нескольких направлениях, таких как биология, психология, др., поэтому у большинства методов существует по два и более названий. Это существенно затрудняет работу при использовании кластерного анализа

Важное значение кластерный анализ имеет применительно к совокупностям временных рядов, характеризующих экономическое развитие (например, общехозяйственной и товарной конъюнктуры). Здесь можно выделять периоды, когда значения соответствующих показателей были достаточно близкими, а также определять группы временных рядов, динамика которых наиболее схожа.

Кластерный анализ можно использовать циклически. В этом случае исследование производится до тех пор, пока не будут достигнуты необходимые результаты. При этом каждый цикл здесь может давать информацию, которая способна сильно изменить направленность и подходы дальнейшего применения кластерного анализа. Этот процесс можно представить системой с обратной связью.

В задачах социально-экономического прогнозирования весьма перспективно сочетание кластерного анализа с другими количественными методами (например, с регрессионным анализом).

Как и любой другой метод, кластерный анализ имеет определенные недостатки и ограничения: В частности, состав и количество кластеров зависит от выбираемых критериев разбиения. При сведении исходного массива данных к более компактному виду могут возникать определенные искажения, а также могут теряться индивидуальные черты отдельных объектов за счет замены их характеристиками обобщенных значений параметров кластера. При проведении классификации объектов игнорируется очень часто возможность отсутствия в рассматриваемой совокупности каких-либо значений кластеров.

В кластерном анализе считается, что:

а) выбранные характеристики допускают в принципе желательное разбиение на кластеры;

б) единицы измерения (масштаб) выбраны правильно.

Выбор масштаба играет большую роль. Как правило, данные нормализуют вычитанием среднего и делением на стандартное отклоненение, так что дисперсия оказывается равной единице.

1.2. Задача кластерного анализа.

Задачи кластерного анализа можно объединить в следующие группы:

    Разработка типологии или классификации.

    Исследование полезных концептуальных схем группирования объектов.

    Представление гипотез на основе исследования данных.

    Проверка гипотез или исследований для определения, действительно ли типы (группы), выделенные тем или иным способом, присутствуют в имеющихся данных.

Как правило, при практическом использовании кластерного анализа одновременно решается несколько из указанных задач. Рассмотрим пример процедуры кластерного анализа. Допустим, мы имеем набор данных А, сос-тоящий из 14-ти примеров, у которых имеется по два признака X и Y. Данные по ним приведены в таблице 1 .

Таблица 1. Набор данных А

№ примера

признак X

признак Y

Данные в табличной форме не носят информативный характер. Представим переменные X и Y в виде диаграммы рассеивания, изображенной на рис. 1 .

Рис. 1. Диаграмма рассеивания переменных X и Y

На рисунке мы видим несколько групп "похожих" примеров. Примеры (объекты), которые по значениям X и Y "похожи" друг на друга, принадлежат к одной группе (кластеру); объекты из разных кластеров не похожи друг на друга.

Задача кластерного анализа заключается в том, чтобы на основании данных, содержащихся во множестве Х, разбить множество объектов G на m (m – целое) кластеров (подмножеств) Q1, Q2, …, Qm, так, чтобы каждый объект Gj принадлежал одному и только одному подмножеству разбиения и чтобы объекты, принадлежащие одному и тому же кластеру, были сходными, в то время, как объекты, принадлежащие разным кластерам были разнородными.

Например, пусть G включает n стран, любая из которых характеризуется ВНП на душу населения (F1), числом М автомашин на 1 тысячу человек (F2), душевым потреблением электроэнергии (F3), душевым потреблением стали (F4) и т.д. Тогда Х1 (вектор измерений) представляет собой набор указанных характеристик для первой страны, Х2 - для второй, Х3 для третьей, и т.д. Задача заключается в том, чтобы разбить страны по уровню развития.

Решением задачи кластерного анализа являются разбиения, удовлетворяющие некоторому критерию оптимальности. Этот критерий может представлять собой некоторый функционал, выражающий уровни желательности различных разбиений и группировок, который называют целевой функцией. Например, в качестве целевой функции может быть взята внутригрупповая сумма квадратов отклонения:

где xj - представляет собой измерения j-го объекта.

Для решения задачи кластерного анализа необходимо определить понятие сходства и разнородности.

Понятно то, что объекты -ый и j-ый попадали бы в один кластер, когда расстояние (отдаленность) между точками Х и Хj было бы достаточно маленьким и попадали бы в разные кластеры, когда это расстояние было бы достаточно большим. Таким образом, попадание в один или разные кластеры объектов определяется понятием расстояния между Х и Хj из Ер, где Ер - р-мерное евклидово пространство. Неотрицательная функция d(Х , Хj) называется функцией расстояния (метрикой), если:

а) d(Хi , Хj)  0, для всех Х и Хj из Ер

б) d(Хi, Хj) = 0, тогда и только тогда, когда Х = Хj

в) d(Хi, Хj) = d(Хj, Х)

г) d(Хi, Хj)  d(Хi, Хk) + d(Хk, Хj), где Хj; Хi и Хk - любые три вектора из Ер.

Значение d(Хi, Хj) для Хi и Хj называется расстоянием между Хi и Хj и эквивалентно расстоянию между Gi и Gj соответственно выбранным характеристикам (F1, F2, F3, ..., Fр).

Наиболее часто употребляются следующие функции расстояний:

1. Евклидово расстояние d2(Хi , Хj) =

2. l1 - норма d1(Хi , Хj) =

3. Сюпремум - норма d (Хi , Хj) = sup

k = 1, 2, ..., р

4. lp - норма dр(Хi , Хj) =

Евклидова метрика является наиболее популярной. Метрика l1 наиболее легкая для вычислений. Сюпремум-норма легко считается и включает в себя процедуру упорядочения, а lp - норма охватывает функции расстояний 1, 2, 3,.

Пусть n измерений Х1, Х2,..., Хn представлены в виде матрицы данных размером p  n:

Тогда расстояние между парами векторов d(Х , Хj) могут быть представлены в виде симметричной матрицы расстояний:

Понятием, противоположным расстоянию, является понятие сходства между объектами G. и Gj. Неотрицательная вещественная функция S(Х ; Хj) = Sj называется мерой сходства, если:

1) 0 S(Хi , Хj)1 для Х  Хj

2) S(Хi , Хi) = 1

3) S(Хi , Хj) = S(Хj , Х)

Пары значений мер сходства можно объединить в матрицу сходства:

Величину Sij называют коэффициентом сходства.

1.3. Методы кластерного анализа.

Сегодня существует достаточно много методов кластерного анализа. Остановимся на некоторых из них (ниже приводимые методы принято называть методами минимальной дисперсии).

Пусть Х - матрица наблюдений: Х = (Х1, Х2,..., Хu) и квадрат евклидова расстояния между Х и Хj определяется по формуле:

1) Метод полных связей.

Суть данного метода в том, что два объекта, принадлежащих одной и той же группе (кластеру), имеют коэффициент сходства, который меньше некоторого порогового значения S. В терминах евклидова расстояния d это означает, что расстояние между двумя точками (объектами) кластера не должно превышать некоторого порогового значения h. Таким образом, h определяет максимально допустимый диаметр подмножества, образующего кластер.

2) Метод максимального локального расстояния.

Каждый объект рассматривается как одноточечный кластер. Объекты группируются по следующему правилу: два кластера объединяются, если максимальное расстояние между точками одного кластера и точками другого минимально. Процедура состоит из n - 1 шагов и результатом являются разбиения, которые совпадают со всевозможными разбиениями в предыдущем методе для любых пороговых значений.

3) Метод Ворда.

В этом методе в качестве целевой функции применяют внутригрупповую сумму квадратов отклонений, которая есть ни что иное, как сумма квадратов расстояний между каждой точкой (объектом) и средней по кластеру, содержащему этот объект. На каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов. Этот метод направлен на объединение близко расположенных кластеров.

4) Центроидный метод.

Расстояние между двумя кластерами определяется как евклидово расстояние между центрами (средними) этих кластеров:

d2 ij = (X –Y)Т(X –Y) Кластеризация идет поэтапно на каждом из n–1 шагов объединяют два кластера G и , имеющие минимальное значение d2ij Если n1 много больше n2, то центры объединения двух кластеров близки друг к другу и характеристики второго кластера при объединении кластеров практически игнорируются. Иногда этот метод иногда называют еще методом взвешенных групп.

2. Расстояние между объектами. Расстояние между кластерами.

2.1. Расстояние между объектами (кластерами) и мера близости

Наиболее трудным и наименее формализованным в задаче классификации является определение понятия однородности объектов. В общем случае понятие однородности объектов задается либо введение правила вычисления расстояний ρ(x i ,x j) между любой парой исследуемых объектов (х 1 , х 2 , ... , х n), либо заданием некоторой функции r(x i ,x j), характеризующей степень близости i-го и j-го объектов. Если задана функция ρ(x i ,x j), то близкие с точки зрения этой метрики объекты считаются однородными, принадлежащими к одному классу. Очевидно, что необходимо при этом сопоставлять ρ(х i ,x j) с некоторыми пороговыми значениями, определяемыми в каждом конкретном случае по-своему.

Аналогично используется и мера близости r(x i ,x j), при задании которой мы должны помнить о необходимости выполнения следующих условий: симметрии r(x i ,x j)= r(x j ,x i); максимального сходства объекта с самим собой r(x i ,x i)= r(x i ,x j), при 1≤ i,j≤n, и монотонного убывания r(x i ,x j) по мере увеличения ρ(x i ,x j), т.е. из ρ(x k ,x l)≥ρ (x i ,x j) должно следовать неравенство r(x k ,x l)≤r(x i ,x j).

Выбор метрики или меры близости является узловым моментом иссле-дования, от которого в основном зависит окончательный вариант разбиения объектов на классы при данном алгоритме разбиения. В каждом конкретном случае этот выбор должен производиться по-своему в зависимости от целей исследования, физической и статистической природы вектора наблюдений Х, априорных сведений о характере вероятностного распределения Х.

Рассмотрим наиболее широко используемые в задачах кластерного анализа расстояния и меры близости.

Обычное Евклидово расстояние

(1.1)

где х ie, x je - величина е-ой компоненты у i-го (j-го) объекта (е=1,2,...,к, i,j=1,2,...,n)

Использование этого расстояния оправдано в следующих случаях:

а) наблюдения берутся из генеральной совокупности, имеющей многомерное нормальное распределение с ковариационной матрицей вида σ 2 Е к, т.е. компоненты Х взаимно независимы и имеют одну и ту же дисперсию, где Е к - единичная матрица;

б) компоненты вектора наблюдений Х однородны по физическому смыслу и одинаково важны для классификации;

в) признаковое пространство совпадает с геометрическим пространством.

Естественное с геометрической точки зрения евклидово пространство может оказаться бессмысленным (с точки зрения содержательной интерпретации), если признаки измерены в разных единицах. Чтобы исправить положение, прибегают к нормированию каждого признака путем деления центрированной величины на среднее квадратическое отклонение и переходят от матрицы Х к нормированной матрице с элементами

где - значение e-го признака у i-го объекта

Среднее значение e-го признака;

Среднее квадратическое отклонение е-го признака.

Однако эта операция может привести к нежелательным последствиям. Если кластеры хорошо разделены по одному признаку и не разделены по другому, то после нормирования дискриминирующие возможности первого признака будут уменьшены в связи с увеличением “шумового” эффекта второго.

“Взвешенное” Евклидово пространство

(1.2)

применяется в тех случаях, когда каждой компоненте x l вектора наблюдений X удается приписать некоторый “вес” ω l , пропорционально степени важности признака в задаче классификации. Обычно принимают 0≤ω e ≤1, где e=1,2,...k.

Определение “весов”, как правило, связано с дополнительными исследованиями, например, организацией опроса экспертов и обработкой их мнений. Определение весов ω l только по данным выборки может привести к ложным выводам.

Хеммингово расстояние

Используется как мера различия объектов, задаваемых дихотомическими признаками. Это расстояние определяется по формуле

(1.3)

и равно числу несовпадений значений соответствующих признаков в рассматриваемых i-м и j-м объектах.

В некоторых задачах классификации объектов в качестве меры близости объектов можно использовать некоторые физические содержательные параметры, так или иначе характеризующие взаимоотношения между объектами. Например, задачу классификации отраслей народного хозяйства с целью агрегирования решают на основе матрицы межотраслевого баланса .

В данной задаче объектом классификации является отрасль народного хозяйства, а матрица межотраслевого баланса представлена элементами s ij , характеризующими сумму годовых поставок i-ой отрасли в j-ю в денежном выражении. В качестве меры близости {r ij } принимают симметризованную нормированную матрицу межотраслевого баланса. С целью нормирования денежное выражение поставок i-ой отрасли в j-ю заменяют долей этих поставок по отношению ко всем поставкам i-ой отрасли. Симметризацию же нормированной матрицы межотраслевого баланса можно проводить, выразив близость между i-й и j-й отраслями через среднее значение из взаимных поставок, так что в этом случае r ij =r ji .

Как правило, решение задач классификации многомерных данных предусматривает в качестве предварительного этапа исследования реализацию методов, позволяющих выбрать из компонент х 1 , х 2 , ..., х к наблюдаемых векторов Х сравнительно небольшое число наиболее существенно информативных, т.е. уменьшить размерность наблюдаемого пространства.

В ряде процедур классификации (кластер-процедур) используют понятия расстояния между группами объектов и меры близости двух групп объектов.

Пусть s i - i-я группа (класс, кластер), состоящая из n i объектов;

Їx i - среднее арифметическое векторных наблюдений s i группы, т.е. "центр тяжести" i-й группы; ρ(s l ,s m) - расстояние между группами s l и s m .

Наиболее употребительными расстояниями и мерами близости между классами объектов являются:

Расстояние, измеряемое по принципу “ближайшего соседа”

Расстояние, измеряемого по принципу “дальнего соседа”

Расстояние, измеряемое по “центрам тяжести” групп

Расстояние, измеряемое по принципу “средней связи”, определяется как среднее арифметическое всех попарных расстояний между представителями рассматриваемых групп

(1.7)

Академиком А.Н.Колмогоровым было предложено “обобщенное расстояние” между классами, которое включает в себя в качестве частных случаев все рассмотренные выше виды расстояний.

Расстояния между группами элементов особенно важно в так называемых агломеративных иерархических кластер-процедурах, так как принцип работы таких алгоритмов состоит в последовательном объединении элементов, а затем и целых групп, сначала самых близких, а затем все более и более отдаленных друг от друга.

При этом расстояние между классами s l и s (m,q) , являющиеся объединением двух других классов s m и s q , можно определить по формуле

Расстояния между классами s l , s m и s q ;

- α, β, δ и γ - числовые коэффициенты, значения которых определяют специфику процедуры, ее алгоритм.

Например, при α= β=-δ=1/2и γ=0 приходим к расстоянию, построенному по принципу “ближайшего соседа”. При α= β=δ=1/2 и γ=0 - расстояние между классами определяется по принципу “дальнего соседа”, то есть как расстояние между двумя самыми дальними элементами этих классов.

И, наконец, при

γ=δ=0

соотношение (1.8) приводит к расстоянию ρ ср между классами, вычисленному как среднее из расстояний между всеми парами элементов, один из которых берется из одного класса, а другой из другого.

Для вычисления расстояния между объектами используются различные меры сходства (меры подобия), называемые также метриками или функциями расстояний. В начале лекции мы рассмотрели евклидово расстояние, это наиболее популярная мера сходства.

Квадрат евклидова расстояния.

Для придания больших весов более отдаленным друг от друга объектам можем воспользоваться квадратом евклидова расстояния путем возведения в квадрат стандартного евклидова расстояния.

Манхэттенское расстояние (расстояние городских кварталов), также называемое "хэмминговым" или "сити-блок" расстоянием.

Это расстояние рассчитывается как среднее разностей по координатам. В большинстве случаев эта мера расстояния приводит к результатам, подобным расчетам расстояния евклида. Однако, для этой меры влияние отдельных выбросов меньше, чем при использовании евклидова расстояния, поскольку здесь координаты не возводятся в квадрат.

Расстояние Чебышева. Это расстояние стоит использовать, когда необходимо определить два объекта как "различные", если они отличаются по какому-то одному измерению.

Процент несогласия. Это расстояние вычисляется, если данные являются категориальными.

2.2. Расстояние между кластерами

Когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Возникает следующий вопрос - как определить расстояния между кластерами?

Существуют различные правила, называемые методами объединения или связи для двух кластеров.

Метод ближнего соседа или одиночная связь. Здесь расстояние между двумя кластерами определяется расстоянием между двумя наиболее близкими объектами (ближайшими соседями) в различных кластерах. Этот метод позволяет выделять кластеры сколь угодно сложной формы при условии, что различные части таких кластеров соединены цепочками близких друг к другу элементов. В результате работы этого метода кластеры представляются длинными "цепочками" или "волокнистыми" кластерами, "сцепленными вместе" только отдельными элементами, которые случайно оказались ближе остальных друг к другу.

Метод наиболее удаленных соседей или полная связь. Здесь расстояния между кластерами определяются наибольшим расстоянием между любыми двумя объектами в различных кластерах (т.е. "наиболее удаленными соседями"). Метод хорошо использовать, когда объекты действительно происходят из различных "рощ". Если же кластеры имеют в некотором роде удлиненную форму или их естественный тип является "цепочечным", то этот метод не следует использовать.

Метод Варда (Ward"s method). В качестве расстояния между кластерами берется прирост суммы квадратов расстояний объектов до центров кластеров, получаемый в результате их объединения (Ward, 1963). В отличие от других методов кластерного анализа для оценки расстояний между кластерами, здесь используются методы дисперсионного анализа. На каждом шаге алгоритма объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, т.е. внутригрупповой суммы квадратов. Этот метод направлен на объединение близко расположенных кластеров и "стремится" создавать кластеры малого размера.

Метод невзвешенного попарного среднего (метод невзвешенного попарного арифметического среднего - unweighted pair-group method using arithmetic averages, UPGMA (Sneath, Sokal, 1973)).

В качестве расстояния между двумя кластерами берется среднее расстояние между всеми парами объектов в них. Этот метод следует использовать, если объекты действительно происходят из различных "рощ", в случаях присутствия кластеров "цепочного" типа, при предположении неравных размеров кластеров.

Метод взвешенного попарного среднего (метод взвешенного попарного арифметического среднего - weighted pair-group method using arithmetic averages, WPGM A (Sneath, Sokal, 1973)). Этот метод похож на метод невзвешенного попарного среднего, разница состоит лишь в том, что здесь в качестве весового коэффициента используется размер кластера (число объектов, содержащихся в кластере).

Невзвешенный центроидный метод (метод невзвешенного попарного центроидного усреднения - unweighted pair-group method using the centroid average (Sneath and Sokal, 1973)).

В качестве расстояния между двумя кластерами в этом методе берется расстояние между их центрами тяжести.

Взвешенный центроидный метод (метод взвешенного попарного центроидного усреднения - weighted pair-group method using the centroid average, WPGMC (Sneath, Sokal 1973)). Этот метод похож на предыдущий, разница состоит в том, что для учета разницы между размерами кластеров (числе объектов в них), используются веса. Этот метод предпочтительно использовать в случаях, если имеются предположения относительно существенных отличий в размерах кластеров.

3. Применение кластерного анализа.

Рассмотрим некоторые приложения кластерного анализа.

Деление стран на группы по уровню развития.

Изучались 65 стран по 31 показателю (национальный доход на душу населения, доля населения занятого в промышленности в %, накопления на душу населения, доля населения, занятого в сельском хозяйстве в %, средняя продолжительность жизни, число автомашин на 1 тыс. жителей, численность вооруженных сил на 1 млн. жителей, доля ВВП промышленности в %, доля ВВП сельского хозяйства в %, и т.д.)

Каждая из стран выступает в данном рассмотрении как объект, характеризуемый определенными значениями 31 показателя. Соответственно они могут быть представлены в качестве точек в 31-мерном пространстве. Такое пространство обычно называется пространством свойств изучаемых объектов. Сравнение расстояния между этими точками будет отражать степень близости рассматриваемых стран, их сходство друг с другом. Социально-экономический смысл подобного понимания сходства означает, что страны считаются тем более похожими, чем меньше различия между одноименными показателями, с помощью которых они описываются.

Первый шаг подобного анализа заключается в выявлении пары народных хозяйств, учтенных в матрице сходства, расстояние между которыми является наименьшим. Это, очевидно, будут наиболее сходные, похожие экономики. В последующем рассмотрении обе эти страны считаются единой группой, единым кластером. Соответственно исходная матрица преобразуется так, что ее элементами становятся расстояния между всеми возможными парами уже не 65, а 64 объектами – 63 экономики и вновь преобразованного кластера – условного объединения двух наиболее похожих стран. Из исходной матрицы сходства выбрасываются строки и столбцы, соответствующие расстояниям от пары стран, вошедших в объедение, до всех остальных, но зато добавляются строка и столбец, содержащие расстояние между кластером, полученным при объединении и прочими странами.

Расстояние между вновь полученным кластером и странами полагается равным среднему из расстояний между последними и двумя странами, которые составляют новый кластер. Иными словами, объединенная группа стран рассматривается как целое с характеристиками, примерно равными средним из характеристик входящих в него стран.

Второй шаг анализа заключается в рассмотрении преобразованной таким путем матрицы с 64 строками и столбцами. Снова выявляется пара экономик, расстояние между которыми имеет наименьшее значение, и они, так же как в первом случае, сводятся воедино. При этом наименьшее расстояние может оказаться как между парой стран, так и между какой-либо страной и объединением стран, полученным на предыдущем этапе.

Дальнейшие процедуры аналогичны описанным выше: на каждом этапе матрица преобразуется так, что из нее исключаются два столбца и две строки, содержащие расстояние до объектов (пар стран или объединений – кластеров), сведенных воедино на предыдущей стадии; исключенные строки и столбцы заменяются столбцом и строкой, содержащими расстояния от новых объединений до остальных объектов; далее в измененной матрице выявляется пара наиболее близких объектов. Анализ продолжается до полного исчерпания матрицы (т. е. до тех пор, пока все страны не окажутся сведенными в одно целое). Обобщенные результаты анализа матрицы можно представить в виде дерева сходства (дендограммы), подобного описанному выше, с той лишь разницей, что дерево сходства, отражающее относительную близость всех рассматриваемых нами 65 стран, много сложнее схемы, в которой фигурирует только пять народных хозяйств. Это дерево в соответствии с числом сопоставляемых объектов включает 65 уровней. Первый (нижний) уровень содержит точки, соответствующие каждых стране в отдельности. Соединение двух этих точек на втором уровне показывает пару стран, наиболее близких по общему типу народных хозяйств. На третьем уровне отмечается следующее по сходству парное соотношение стран (как уже упоминалось, в таком соотношении может находиться либо новая пара стран, либо новая страна и уже выявленная пара сходных стран). И так далее до последнего уровня, на котором все изучаемые страны выступают как единая совокупность.

В результате применения кластерного анализа были получены следующие пять групп стран:

афро-азиатская группа;

латино-азиатская группа;

латино-среднеземнаморская группа;

группа развитых капиталистических стран (без США)

Введение новых индикаторов сверх используемого здесь 31 показателя или замена их другими, естественно, приводят к изменению результатов классификации стран.

2. Деление стран по критерию близости культуры.

Как известно маркетинг должен учитывать культуру стран (обычаи, традиции, и т.д.).

Посредством кластеризации были получены следующие группы стран:

арабские;

ближневосточные;

скандинавские;

германоязычные;

англоязычные;

романские европейские;

латиноамериканские;

дальневосточные.

3. Разработка прогноза конъюнктуры рынка цинка.

Кластерный анализ играет важную роль на этапе редукции экономико-математической модели товарной конъюнктуры, способствуя облегчению и упрощению вычислительных процедур, обеспечению большей компактности получаемых результатов при одновременном сохранении необходимой точности. Применение кластерного анализа дает возможность разбить всю исходную совокупность показателей конъюнктуры на группы (кластеры) по соответствующим критериям, облегчая тем самым выбор наиболее репрезентативных показателей.

Кластерный анализ широко используется для моделирования рыночной конъюнктуры. Практически основное большинство задач прогнозирования опирается на использование кластерного анализа.

Например, задача разработки прогноза конъюнктуры рынка цинка.

Первоначально было отобрано 30 основных показателей мирового рынка цинка:

Х1 - время

Показатели производства:

Х2 - в мире

Х4 - Европе

Х5 - Канаде

Х6 - Японии

Х7 - Австралии

Показатели потребления:

Х8 - в мире

Х10 - Европе

Х11 - Канаде

Х12 - Японии

Х13 - Австралии

Запасы цинка у производителей:

Х14 - в мире

Х16 - Европе

Х17 - других странах

Запасы цинка у потребителей:

Х18 - в США

Х19 - в Англии

Х10 - в Японии

Импорт цинковых руд и концентратов (тыс. тонн)

Х21 - в США

Х22 - в Японии

Х23 - в ФРГ

Экспорт цинковых руд и концентратов (тыс. тонн)

Х24 - из Канады

Х25 - из Австралии

Импорт цинка (тыс. тонн)

Х26 - в США

Х27 - в Англию

Х28 - в ФРГ

Экспорт цинка (тыс. Тонн)

Х29 - из Канады

Х30 - из Австралии

Для определения конкретных зависимостей был использован аппарат корреляционно-регрессионного анализа. Анализ связей производился на основе матрицы парных коэффициентов корреляции. Здесь принималась гипотеза о нормальном распределении анализируемых показателей конъюнктуры. Ясно, что rij являются не единственно возможным показателем связи используемых показателей. Необходимость использования кластерного анализа связано в этой задаче с тем, что число показателей влияющих на цену цинка очень велико. Возникает необходимость их сократить по целому ряду следующих причин:

а) отсутствие полных статистических данных по всем переменным;

б) резкое усложнение вычислительных процедур при введении в модель большого числа переменных;

в) оптимальное использование методов регрессионного анализа требует превышения числа наблюдаемых значений над числом переменных не менее, чем в 6-8 раз;

г) стремление к использованию в модели статистически независимых переменных и пр.

Проводить такой анализ непосредственно на сравнительно громоздкой матрице коэффициентов корреляции весьма затруднительно. С помощью кластерного анализа всю совокупность конъюнктурных переменных можно разбить на группы таким образом, чтобы элементы каждого кластера сильно коррелировали между собой, а представители разных групп характеризовались слабой коррелированностью.

Для решения этой задачи был применен один из агломеративных иерархических алгоритмов кластерного анализа. На каждом шаге число кластеров уменьшается на один за счет оптимального, в определенном смысле, объединения двух групп. Критерием объединения является изменение соответствующей функции. В качестве функции такой были использованы значения сумм квадратов отклонений вычисляемые по следующим формулам:

(j = 1, 2, …, m),

где j - номер кластера, n - число элементов в кластере.

rij - коэффициент парной корреляции.

Таким образом, процессу группировки должно соответствовать последовательное минимальное возрастание значения критерия E.

На первом этапе первоначальный массив данных представляется в виде множества, состоящего из кластеров, включающих в себя по одному элементу. Процесс группировки начинается с объединения такой пары кластеров, которое приводит к минимальному возрастанию суммы квадратов отклонений. Это требует оценки значений суммы квадратов отклонений для каждого из возможных
объединений кластеров. На следующем этапе рассматриваются значения сумм квадратов отклонений уже для
кластеров и т.д. Этот процесс будет остановлен на некотором шаге. Для этого нужно следить за величиной суммы квадратов отклонений. Рассматривая последовательность возрастающих величин, можно уловить скачок (один или несколько) в ее динамике, который можно интерпретировать как характеристику числа групп «объективно» существующих в исследуемой совокупности. В приведенном примере скачки имели место при числе кластеров равном 7 и 5. Далее снижать число групп не следует, т.к. это приводит к снижению качества модели. После получения кластеров происходит выбор переменных наиболее важных в экономическом смысле и наиболее тесно связанных с выбранным критерием конъюнктуры - в данном случае с котировками Лондонской биржи металлов на цинк. Этот подход позволяет сохранить значительную часть информации, содержащейся в первоначальном наборе исходных показателей конъюнктуры.

ЗАКЛЮЧЕНИЕ

Таким образом, кластерный анализ – один из методов многомерного анализа, предназначенный для группировки (кластеризации) совокупности элементов, которые характеризуются многими факторами, и получения однородных групп (кластеров). Разбиение на кластеры происходит с помощью некоторой метрики, например, евклидова расстояния. Задача кластерного анализа состоит в представлении исходной информации об элементах в сжатом виде без ее существенной потери.

В результате изучения кластерного анализа были изучены его задачи, достоинства и недостатки, сферы их применения и опыт использования анализа. В ходе выполнения работы ознакомились с ходом проведения кластерного анализа при классификации стран по признакам. Итогом работы стала группировка стран по кластерам, критерием которой стала сравнение значений показателей между объектами.

Список литературы

    Многомерные статистические методы, Алехин Е.И., 2007 г.

2. Многомерные статистические методы. Часть IV. Кластерный анализ: Учебно-методическое пособие/ Составители: Н.И.Гришакина, В.С.Дмитриева, Н.В.Манова, С.В.Мельникова, О.Д.Притула, Е.А.Антонова, А.В.Кякинен; НовГУ им. Ярослава Мудрого. – Великий Новгород, 2005. – 54 с.

3.. Многомерные статистические методы. Часть V. Дискриминантный анализ: Учебно-методическое пособие/ Составители: Н.И.Гришакина, В.С.Дмитриева, Н.В.Манова, С.В.Мельникова; НовГУ им. Ярослава Мудрого. – Великий Новгород, 2005. – 56 с.

4. Дубров А.М., Мхитарян В.С., Трошин Л.И. Многомерные статистические методы. Учебник. – М.- Финансы и статистика, 2008г.

5. Многомерный статистический анализ в экономике: Учеб. Пособие для ВУЗов/ под ред. Проф. В.Н. Тамашевича., 2009.

6. Многомерный статистический анализ, Дронов С.В., 2005г, 213с.

7. Эконометрика, В.С.Мхиторян, М.Ю.Архипова, В.П.Сиротин, 2008г, 144с

Между ...

  • Особенности метода кластерный анализ при большом количестве наблюдений кластерный анализ метод

    Реферат >> Государство и право

    ... объектов , и затем упорядочивающая объекты в сравнительно однородные группы (кластеры )(Q-кластеризация, или Q-техника, собственно кластерный анализ ). Кластер ... предполагают сравнение объектов между собой на... используется евклидово расстояние , вычисляемое по...

  • Многомерный статистический анализ

    Реферат >>

    Диагностических классов используют разнообразные методы кластерного анализа и группировки объектов . Наименее известен второй член... объединения отбрасывается. Таким образом, хотя расстояния между объектами в кластерах зависимы, но эта зависимость слаба...

  • Многомерный статистический анализ в системе SPSS

    Курсовая работа >> Экономико-математическое моделирование

    ... кластерным анализом и обратиться к таблице «Шаги агломерации» к столбцу «Коэффициенты». Эти коэффициенты подразумевают расстояние между двумя кластерами ...