Статья 'Методы классификации и снижения размерности при визуализации метрик производительности' - журнал 'Кибернетика и программирование' - NotaBene.ru
по
Меню журнала
> Архив номеров > Рубрики > О журнале > Авторы > О журнале > Требования к статьям > Редакция и редакционный совет > Порядок рецензирования статей > Политика издания > Ретракция статей > Этические принципы > Политика открытого доступа > Оплата за публикации в открытом доступе > Online First Pre-Publication > Политика авторских прав и лицензий > Политика цифрового хранения публикации > Политика идентификации статей > Политика проверки на плагиат
Журналы индексируются
Реквизиты журнала

ГЛАВНАЯ > Вернуться к содержанию
Кибернетика и программирование
Правильная ссылка на статью:

Методы классификации и снижения размерности при визуализации метрик производительности

Бородин Андрей Викторович

кандидат экономических наук

профессор, кафедра информатики и системного программирования, ФГБОУ ВПО «Поволжский государственный технологический университет»

424000, Россия, Республика Марий Эл, г. Йошкар-Ола, пл. Ленина, 3

Borodin Andrey Viktorovich

PhD in Economics

Professor, Department of Computer Science and System Programming, Volga State University of Technology

424000, Russia, respublika Marii El, g. Ioshkar-Ola, pl. Lenina, 3

bor@mari-el.com
Другие публикации этого автора
 

 
Азарова Анна Николаевна

студент, кафедра Информатики и системного программирования, Поволжский государственный технологический университет

424000, Россия, республика Марий Эл, г. Йошкар-Ола, пл. Ленина, 3

Azarova Anna Nikolaevna

student, Volga State University of Technology

424000, Russia, Marii El, g. Ioshkar-Ola, pl. Lenina, 3

azzarik@mail.ru

DOI:

10.7256/2306-4196.2015.4.15271

Дата направления статьи в редакцию:

13-05-2015


Дата публикации:

25-09-2015


Аннотация: Предметом исследования является методология оценки технологической эффективности сетевых инфраструктурных решений. В частности объектом исследования выступают методы визуализации метрик производительности на основе сравнения оцениваемого образца с множеством альтернативных решений в условиях стохастического характера поведения внешней среды. Предложенный в работе метод визуализации временных характеристик доступа к ресурсам сети Internet разработан специально для демонстрации преимуществ, которые могут быть получены при использовании концепции «когнитивного интернета». В отличие от числовых характеристик эффективности предложенный метод визуализации позволяет «одним взглядом» охватить состояние всех каналов доступа в сравнении с оптимальным каналом на заданном временном интервале интегрирования. В то же время метод не исключает возможности совместного использования согласованных числовых характеристик эффективности. С другой стороны важно отметить, что сфера применения метода не ограничена указанными приложениями. В основу разработки алгоритмов визуализации временных характеристик доступа к ресурсам сети Internet положены методы многомерного статистического анализа, в частности методы дискриминантного анализа и метод главных компонент. Основным результатом проведенного исследования является разработка алгоритмов и программного обеспечения визуализации метрик производительности инфраструктурных решений в области обеспечения доступа к ресурсам сети Internet. Новизна данного исследования определяется не только новизной предметной области (технологии когнитивного интернета), но и формой представления результатов (проекция годографа временных характеристик доступа на максимально информативную плоскость).


Ключевые слова:

технологическая эффективность, метрика производительности, снижение размерности, метод главных компонент, кластерный анализ, визуализация, собственный вектор, собственное значение, когнитивный интернет, дискриминантный анализ

УДК:

004.051:519.237

Abstract: The paper deals with the methodology of an assessment of technical efficiency of network infrastructure. Much attention is given to research of methods of visualization of performance metrics on the basis of comparing of the evaluated sample with a set of alternative decisions in the conditions of stochastic nature of behavior of an external environment. The method of visualization of time response characteristics of access to resources of the Internet offered in operation is developed especially for demonstration of advantages which can be received when using the concept of "cognitive Internet". Unlike numerical efficiency characteristics the offered method of visualization allows to envelop "one look" a status of all channels of access in comparison with the optimum channel on the given time slot of integration. At the same time the method doesn't exclude possibility of sharing of the coordinated numerical efficiency characteristics. On the other hand it is important to mark that scope of a method isn't restricted to the specified applications.Methods of multivariate statistic analysis (methods of discriminant function analysis and principal component analysis) are the basis for algorithm elaboration of visualization of time response characteristics of access to resources of the Internet. The main result of the conducted research is algorithm elaboration and the software of visualization of metrics of productivity of infrastructure decisions in the field of ensuring access to Internet resources. Novelty of this research is defined not only novelty of data domain (technology of the cognitive Internet), but also the form of representation of results (a projection of the hodograph of time response characteristics of access to the most informative plane).


Keywords:

technical efficiency, performance metric, dimensionality reduction, principal component analysis, cluster analysis, visualization, characteristic vector, characteristic value, cognitive internet, discriminant function analysis

Введение

История развития вычислительных сетей (ВС) – это, во многом, история гонки за производительностью. В разных ситуациях использования ВС на первый план характеризации производительности могут выходить различные показатели: скорость передачи информации, время отклика на запрос, задержка, джиттер [1] и т. п. В связи с этим именно эти показатели используются телекоммуникационной отраслью в качестве метрик производительности ВС. Под метрикой производительности здесь понимается любая величина, которая характеризует некоторый процесс (в данном случае передачу данных) и способная выступать критерием, по которому могут быть сравнены различные системы, реализующие этот процесс [2]. Например, при WEB-серфинге важнейшим критерием оказывается время отклика, при загрузке файлов с использованием протокола FTP – скорость передачи, в VoIP-приложениях и системах с архитектурой «клиент-сервер» - джиттер и время задержки, и т. д. Часто эти критерии комбинируются в различные составные конструкции.

Традиционное использование названных критериев предполагает выбор системы, обеспечивающей лучшее (оптимальное в каком-либо смысле) значение критерия или набора значений составного критерия. Возможность такого выбора предполагает определенную стабильность отношения предпочтения [3] на множестве альтернатив. Мы предполагаем, что отношение предпочтения задано некоторым критерием, или, иначе, функцией-индикатором этого отношения.

Однако, на практике, при фиксированном критерии, отношение предпочтения может оказаться нестабильным и меняться во времени самым разным и не предсказуемым образом. Как в этом случае сравнивать системы передачи данных? Можно ли стабилизировать отношение предпочтения в этом случае? Что может служить функцией-индикатором стабилизированного отношения предпочтения? Если предложенная функция-индикатор будет иметь сложную конструкцию, то можно ли эту конструкцию сделать наглядной? Ответам на эти вопросы, по крайней мере для некоторых вариантов организации ВС, посвящена данная статья.

В качестве примера рассмотрим реализацию механизма доступа к ресурсам сети Internet на основе концепции «когнитивного интернета».

Система «когнитивного интернета» как пример неклассической задачи выбора

В последние годы весьма четко была сформулирована концепция когнитивного радио. В частности в отчете МСЭ-Р SM.2152 «Definitions of Software Defined Radio (SDR) and Cognitive Radio System (CRS)» [4] было дано следующее определение. Система когнитивного радио (CRS) – это радиосистема, использующая технологию, позволяющую этой системе получать знания о своей среде эксплуатации и географической среде, об установившихся правилах и о своем внутреннем состоянии, а также позволяющая динамически и автономно корректировать свои эксплуатационные параметры и протоколы, согласно полученным знаниям, для достижения заранее поставленных целей.

Эту идею очевидным образом можно развить в направлении повышения качества механизмов доступа к сети Internet. Действительно, сегодня у пользователя сети Internet огромное количество возможностей доступа. Это постоянные подключения (xDSL и Ethernet до клиента), мобильные технологии четвертого поколения 4G (LTE-A и WiMAX 2) [5], третьего – 3G (UMTS и CDMA2000) [6], второго – 2G (CSD, GPRS и EDGE) [7], хот-споты Wi-Fi [8], функционирующие на базе семейства стандартов IEEE 802.11, и т. п. В разных ситуациях разные технологии обеспечивают лучший доступ к сети Internet в том или ином смысле. Если организовать постоянный мониторинг присутствия подключений к сети Internet, а также обеспечить накопление информации о закономерностях поведения этих подключений и приложений, их использующих, то опираясь на совокупность этих знаний наряду с одновременной утилизацией всех возможных подключений можно достичь заметного прироста производительности Internet-приложений. Особенно эта идея актуальна для систем подвижной цифровой связи. По аналогии с когнитивным радио описанную идею можно назвать концепцией «когнитивного интернета» [9].

В частности в работе [9] сформулированы основные принципы, закладываемые в концепцию когнитивного интернета.

  1. Неоднородность периметра. Этот принцип означает возможность использования для подключения к сети Internet любых доступных технологий.
  2. Векторный характер периметра. Этот принцип означает, что в каждый момент времени активны все доступные подключения к сети Internet, вне зависимости от их использования пользовательскими приложениями. Для подключений, не используемых в данный момент времени пользовательскими приложениями, как минимум происходит сбор статистики служебными приложениями.
  3. Геопозиционирование периметра. Обеспечивается постоянное указание местоположения антенного оборудования периметра на Земле.
  4. Сканирование сред передачи данных за периметром. Этот принцип подразумевает реализацию непрерывного сканирования сред передачи данных для всех доступных технологий. При этом, по крайней мере для некоторых технологий, сканирование осуществляется с учетом местоположения антенного оборудования периметра на Земле. Если подключение для какой-либо не используемой в данный момент времени среды становится возможным, то такое подключение осуществляется и помещается в пул активных подключений.
  5. Коллекционирование аккаунтов. Система поддержки технологии когнитивного интернета в ручном, полуавтоматическом и полностью автоматическом режимах обеспечивает сбор учетных записей для доступа к сети Internet, как платных, так и бесплатных, в том числе, где это необходимо, с учетом местоположения антенного оборудования периметра на Земле.
  6. Активное целеполагание. Этот принцип означает, что каждое пользовательское приложение может сформулировать для системы поддержки технологии когнитивного интернета цель: какие параметры канала передачи данных наиболее важны для данного приложения. Стоимость трафика также может выступать в качестве целевой функцией канала.
  7. Лексикографическое упорядочивание целей. Важность различных параметров канала передачи данных для разных пользовательских приложений различна. Система поддержки технологии когнитивного интернета должна обеспечивать возможность выбора точки подключения на основе различных лексикографических порядков на множестве активных точек подключения (в зависимости от важности параметров канала для запрашивающего приложения).
  8. Адаптивная маршрутизация. Доступ того или иного клиента к тому или иному подключению обеспечивается за счет перестройки таблиц маршрутизации (по требованию) в соответствии с параметрами оптимального доступа к Internet-ресурсам для приложений каждого из клиентов. Таблица маршрутизации может перестраиваться как на рабочей станции клиента, так и на маршрутизаторе доступа, в зависимости от архитектуры системы и ее сложности.
  9. Масштабируемость периметра. Появление новых технологий подключения, увеличение количества доступных каналов передачи данных в рамках некоторой технологии не должно приводить к изменениям архитектуры системы поддержки технологии когнитивного интернета, расширение системы должно происходить посредством простого (линейного) подключения дополнительных устройств.
  10. Клиентская масштабируемость. Система поддержки технологии когнитивного интернета должна обеспечивать возможность простого (линейного) подключения новых клиентов Internet-сервисов. При этом клиент получает возможность использовать то подключение, которое максимально соответствует его потребностям, определяемым либо явно, по запросу, либо в ходе мониторинга его сетевой активности.

В качестве примера системы когнитивного интернета (СКИ) можно привести лабораторный стенд (см. рис. 1), построенный для соответствующих исследований [9].

coi_stend002

Рис.1. Структурная схема лабораторного стенда

В состав лабораторного стенда вошли:

  • два интегрированных сервисных маршрутизатора Cisco 881G, включающих в себя интегрированный 3G-модем, поддерживающий технологии вплоть до 3.7G HSPA+, и Wi-Fi-подсистему, поддерживающую стандарты 802.11 a/b/g/n;
  • два интегрированных сервисных маршрутизатора Cisco 871W, со встроенным Wi-Fi-интерфейсом стандарта 802.11 b/g;
  • два компактных неттопа MSI WindBox II Plus с пассивным охлаждением, построенных на базе процессоров Intel Atom D2550 и содержащих по два интегрированных сетевых интерфейса Gigabit Ethernet и по одному встроенному Wi-Fi-адаптеру, поддерживающему стандарт 802.11 b/g;
  • два GPS-приемника GlobalSat BU-353s4 с интерфейсом USB, поддерживающих протокол NMEA, построенных на новейших чипах SiRF Star IV и обеспечивающих быстрое позиционирование коммерческой точности при неидеальных условиях видимости спутников;
  • два неуправляемых коммутатора NETGEAR JGS524Ev2, содержащих по 24 порта Gigabit Ethernet;
  • Автомобиль ГАЗ 322133-1344-56-484-66, оборудованный инвертором 12В/220В марки Mean Well A301-1K0-F3 мощностью 1000 Вт (для мобильных экспериментов).

На базе маршрутизаторов Cisco 881G построены две точки подключения к сетям 3G и две точки подключения к Wi-Fi-сетям 802.11 a/b/g/n, еще две точки подключения к Wi-Fi-сетям обеспечивают маршрутизаторы Cisco 871W, они поддерживают лишь стандарт 802.11 b/g. Данные об устройствах, их IP-адресах и поддерживаемых ими стандартах содержатся в конфигурационном файле системы. Wi-Fi-интерфейсы неттопов используются лишь для сканирования соответствующих сред. При обнаружении Wi-Fi-сети возможны несколько сценариев. Во-первых, если сеть открытая, то производится попытка подключится к ней, в случае успеха, информация о сети, включая геоданные, вносится в реестр. Во-вторых, если сеть защищенная, то производится поиск учетных данных для этой сети с данной геопозицией в реестре. Если учетные данные не найдены, то в зависимости от режима (автоматический режим, обучение) происходит, либо игнорирование сети, либо диалог с пользователем на предмет добавления сети. И, наконец, в-третьих, если Wi-Fi-сеть функционирует в режиме без анонса SSID, то производятся попытки подключения с теми учетными данными из реестра, которые соответствуют режиму скрытого SSID с геоданными, соответствующими месту дислокации периметра. При отсутствии успешных попыток подключения к какой-либо из скрытых сетей в режиме обучения инициируется соответствующий диалог с пользователем. Конфигурирование интерфейсов маршрутизаторов осуществляется с использованием протокола SNTP.

Неттоп MSI WindBox II Plus является основой «интеллекта» системы поддержки концепции когнитивного интернета. В рамках описываемого лабораторного стенда на неттопе используется операционная система (ОС) Windows 7 Professional x86. Под этой ОС функционирует несколько специализированных служб: служба синхронизации, служба сканирования сред, служба подключений 2G/3G/4G, служба Wi-Fi-подключений, служба сбора статистики, служба управления таблицами маршрутизации.

Служба синхронизации обеспечивает репликацию таблиц доступных сред и активных подключений между управляющими компьютерами, а также планирует распределение работ между этими компьютерами по сбору статистики по каждому активному подключению. Кроме того, данная служба фактически координирует работу основных служб, обеспечивая, таким образом, возможность масштабирования системы по управлению. Соответственно, еще одной важной функцией службы синхронизации является контроль работоспособности соседних управляющих компьютеров.

Служба сканирования сред ориентирована исключительно на работу с Wi-Fi. Эта служба для выявления доступных сетей использует два механизма: данные, получаемые по протоколу SNTP от маршрутизатора, в случае, если его Wi-Fi-модуль поддерживает обнаружение сетей, и инструментарий управления Windows WMI.

Назначение служб подключений 2G/3G/4G и Wi-Fi тривиально и соответствует названию. Однако, у службы Wi-Fi-подключений имеется одна особенность: выборка учетных данных для подключения из реестра осуществляется с учетом геоданных места. Геопозиционирование осуществляется на основе данных, поступающих по протоколу NMEA из одного или нескольких GPS-приемников, присутствующих в системе. Одновременно с этим, данные, поступающие от GPS-приемников, используются для первичной синхронизации времени в системе [10].

Служба сбора статистики осуществляет непрерывный сбор данных о функционировании активных подключений. Статистика включает в себя поминутный, почасовой и посессионный трафик, пиковую пропускную способность, среднюю задержку, стандартное отклонение задержки за 1, 5, 10 и 15 минут. Для оценки объема трафика и пиковой пропускной способности используется протокол NetFlow, а для остальных параметров – технология утилиты ping. Сбор статистики по используемым активным точкам подключения осуществляется при условии не превышения полезным трафиком порога в 10% от пропускной способности, измеренной сразу после подключения. Вся статистика маркируется метками времени и геоданными.

Служба управления таблицами маршрутизации является распределенной. На каждой клиентской рабочей станции функционирует агент. При старте ОС рабочей станции агент регистрируется на серверной части. В случае явного запроса политики для некоторого Internet-ресурса агент передает запрос серверу на реализацию этой политики. При изменении состояния системы в определенных случаях агент получает адреса шлюзов для доступа к различным Internet-ресурсам и на основе этой информации перестраивает таблицу маршрутизации рабочей станции.

В качестве политик доступа к сети Internet на текущем этапе исследований стенд реализует следующие: «WEB-серфинг», «Длительная загрузка», «Быстрая загрузка», «Клиент-сервер», «Skype», «VPN».

Для каждой политики определен порядок важности критериев, используемый для лексикографического упорядочивания активных подключений:

1) WEB-серфинг: «Задержка» -> min, «Скорость загрузки по протоколу http» -> max;

2) Длительная загрузка: «Длительность физической сессии» -> max, «Скорость загрузки по протоколу ftp» -> max;

3) Быстрая загрузка: «Скорость загрузки по протоколу ftp» -> max;

4) Клиент-сервер: «Стандартное отклонение задержки» -> min;

5) Skype: «Задержка» -> min, «Стандартное отклонение задержки» -> min;

6) VPN: «Задержка на пакетах длиной 1400 байт» -> min, «Стандартное отклонение задержки» -> min.

Столь подробное описание СКИ приведено не зря. Для дальнейшего изложения важно понимать, как работает СКИ, и, соответственно, почему для СКИ возникают сложности с применением традиционных метрик производительности.

Для оценки технологической эффективности описанного лабораторного стенда как инструмента доступа к ресурсам сети Internet, необходимо сконструировать легко интерпретируемую метрику производительности, использование которой способно количественно продемонстрировать превосходство новой технологии. Сложность здесь заключается в том, что использование традиционных метрик, например, критериев, в терминах которых формулируются выше приведенные политики доступа, при сравнении стенда с традиционными решениями в разных ситуациях могут приводить к диаметрально противоположным результатам. Действительно, если сравнивать результативность стенда с отдельной технологией, не лучшей по используемому критерию, то результат выбора один – очевидный. В то же время, если базовая (сравниваемая) технология является лучшей по указанному критерию, то результат может оказаться противоположным, поскольку в отдельные моменты времени, особенно в начале сессии, могут возникать дополнительные издержки, ухудшающие результат по использованному критерию.

Таким образом, вопрос выбора метрик производительности СКИ остается открытым.

Логическая конструкция метрик производительности

При конструировании метрик производительности для рассмотренного в предыдущем разделе неоднозначного случая можно воспользоваться общими принципами измерения, изложенными в работе [11]. Попробуем ответить на шесть вопросов, сформулированных в рамках реализации этих общих принципов измерения и приведенных в указанной работе на странице 39, см. таблицу 1.

Таблица 1

№ п/п Вопрос Ответ
1 Что вы пытаетесь измерить? Что на самом деле представляет собой этот якобы неизмеримый объект? Мы пытаемся измерить степень качества предоставления доступа к заданному ресурсу сети Internet. Это означает, что значения критерия (или критериев) из политики доступа должны каким-то образом учитываться в конструируемой метрике производительности. При этом сложности с измерением связаны со случайным характером поведения критерия (или критериев).
2 Почему вы хотите его измерить? Какое решение будет принято по результатам измерения, и каким должно быть «пороговое значение» определяемого показателя? Цель измерения – формирование заключения о целесообразности использования «концепции когнитивного интернета» при создании высокопроизводительных отказоустойчивых систем доступа к ресурсам сети Internet. Пороговое значение определяется принципом оптимальности.
3 Что вам известно сейчас - какие интервалы или вероятности представляют нынешнюю неопределенность? Для всех критериев известны интервалы допустимых значений. Распределения для критериев, рассматриваемых как случайные величины, априори не известны.
4 Какую ценность имеет данная информация? К каким последствиям приведет ошибка, какова ее вероятность и какие усилия, связанные с измерением, будут оправданы с экономической точки зрения? Ценность данной информации незначительная, так ее получение – побочный продукт использования традиционных технологий доступа к сети Internet. Неверные предположения о распределениях случайных величин могут принести ущерб в размере стоимости НИОКР и упущенной выгоды, при ошибке первого рода (эффективность технологии ошибочно не подтверждена), и в размере неоправданных затрат на тиражирование при ошибке второго рода (эффективность для данного класса задач ошибочно подтверждена).
5 Какие наблюдения, затраты на которые будут оправданы ценностью требуемой информации, позволят подтвердить или исключить различные возможности? Что именно мы должны увидеть сразу, если сбудется тот или иной сценарий? Конструкция метрик производительности должна быть легко интерпретируемой, относительно простой в реализации, контролируемо нетребовательной к вычислительным ресурсам и проверяемой с использованием контрольных примеров. Иными словами, мы должны обеспечить адекватность метрик.
6 Как учесть такие ошибки при измерении, которых можно избежать (опять при условии, что затраты оправдаются ценностью информации)? Учесть ошибки можно, например, методом отсеивания аномальных измерений.

Учитывая необходимость исследования производительности СКИ на фоне множества традиционных технологий доступа (множества базовых вариантов для сравнения), а также принимая во внимание случайный характер сравниваемых величин, см. третью колонку таблицы 1, для решения поставленной задачи в качестве методологической базы может быть рассмотрена система методов многомерного статистического анализа. В частности, можно, используя дискриминантный анализ [12] исключить из рассмотрения на первом этапе аномальные измерения, и, далее, понизить размерность задачи интерпретации множества наблюдений, используя метод главных компонент [13]. Важно отметить, что такая конструкция метрик производительности полностью соответствует требованиям, сформулированным в рамках ответа на первый вопрос, см. таблицу 1, а это важно с точки зрения интерпретируемости и преемственности результатов. Также отметим, что использование метода главных компонент оказывается максимально естественным и плодотворным в ситуациях, в которых все координаты признакового пространства имеют общую физическую природу и, соответственно, измерены в одних и тех же единицах [13], именно так обстоит дело в нашем случае.

Математические конструкции метрик производительности и концепция визуализации

Для определенности предположим, что мы оцениваем эффективность СКИ для решения задач WEB-серфинга. При этом в качестве реализации СКИ мы будем рассматривать описанный выше стенд. В качестве исходных данных будем использовать время загрузки WEB-страниц из заданного множества статических элементов Internet-контента при отключенном хешировании страниц с использованием как СКИ, так и всех базовых технологий, доступных на стенде, по отдельности. Выбор времени загрузки в качестве локального критерия для оценки эффективности в данном случае представляется вполне естественным.

Введем ряд обозначений. Пусть `t_(mn)` – время открытия страницы при использовании технологии доступа `m` в рамках испытания `n` . Мы предполагаем, что в рамках фиксированного испытания осуществляются попытки открытия заданной страницы с использованием всех доступных технологий. Пусть, далее, `t_(0n)` – время открытия страницы при использовании концепции «когнитивного интернета» в рамках испытания `n` . Наконец, пусть `M` – упорядоченное некоторым образом множество базовых технологий доступа, при этом `0 !inM` .

Рассмотрим конечную последовательность разностей `Gamma_n = (t_(mn) - t_(0n))_(m in M)` , порядок элементов которой определяется порядком на `M` . Последовательность `Gamma_n` можно рассматривать как точку в признаковом пространстве размерности `| M |` , соответствующую испытанию `n` . Пусть, теперь, `N` – множество всех испытаний. Используя введенные обозначения можно ввести понятие множества результатов всех испытаний `{ Gamma_n}_(n in N)` . Очевидно, что множество `{ Gamma_n}_(n in N)` следует рассматривать как выборочную совокупность для оценки эффективности СКИ.

Опишем процедуру предварительной фильтрации (дискриминации) выборочной совокупности.

Стратифицируем выборку [14]. Выделим из множества всех испытаний `N` подмножество испытаний `N_k subeN` , соответствующих использованию в момент осуществления испытания технологии `k` для доступа к ресурсам сети Internet, `k in M` . Выделение этого подмножества возможно благодаря использованию соответствующего системного вызова API СКИ. Таким образом, в дальнейшем мы будем рассматривать одну из страт семейства

`{ Gamma_n}_(n in N_k)` , `k in M` .

Из страты `{ Gamma_n}_(n in N_k)` , выделим подмножество результатов `{ Gamma_n }_(n in N'_k)` тех испытаний, в которых тестовая страница была успешно открыта СКИ при использовании технологии `k` :

`N'_k = { n in N_k : quad t_(0n) < T }`.

Здесь `T` – время максимального ожидания открытия страницы (таймаут).

Возможна ситуация, когда `N'_k =O/` и, таким образом, `{ Gamma_n }_(n in N'_k) =O/` . Эта ситуация соответствует случаю неработоспособности СКИ и мы ее не рассматриваем, так как в этом случае нельзя говорить о какой-либо эффективности.

Далее, из множества `{ Gamma_n }_(n in N'_k)` выделим подмножество результатов `{ Gamma_n }_(n in N''_k(M'))` тех испытаний, в которых тестовая страница при использовании технологии `k` была успешно открыта в рамках базовых технологий доступа из множества `M'` :

`N''_k(M') = {n in N'_k : quad AA m (m in M') [t_(mn) < T]}` .

Очевидно, возможна ситуация, когда `N''_k(M) =O/` и, таким образом, `{ Gamma_n }_(n in N''_k(M)) =O/` . В таких случаях множество `M` можно сузить до такого множества `M^xx_k` , которое можно описать следующей оптимизационной задачей:

`M^xx_k = "arg"max_((M' sube M), (quad N''_k(M')!=O/)) quad ( |M'|, quad |N''_k(M')| ) ` ,

здесь пары неотрицательных целых чисел `( *, quad *)` под знаком `"arg max"` упорядочены лексикографически по возрастанию.

Если `|M^xx_k| = 1` , иначе говоря, только одна технология обеспечивает доступ, то в этом случае невозможно говорить об эффективности СКИ, и этот случай мы также исключаем из рассмотрения.

Введем в рассмотрение подпоследовательность последовательности `Gamma_n` вида

`Gamma^( (k) )_n = (t_(mn) - t_(0n))_(m in M^xx_k)` ,

порядок элементов которой определяется также порядком на `M` . Также пусть

`N^xx_k = N''_k(M^xx_k)` .

Используя введенные обозначения, результат описанной процедуры дискриминации можно представить в виде множества точек в пространстве размерности `| M^xx_k |` :

`{ Gamma^((k))_n}_(n in N^xx_k)` .

Это множество представляет из себя выборку, отражающую связь временных характеристик доступа с использованием каждой из активных технологий СКИ между собой во время таких испытаний, при которых на основе заданной политики в качестве лучшей была выбрана технология доступа `k` , `k in M` .

На первом этапе оценки эффективности вычислим компоненты вектора средних разностей времен загрузки страниц (средних выигрышей):

`mu^((k))_i = (sum_(n in N^xx_k) (t_(i~n) - t_(0n)))/(|N^xx_k|)` , `i in M^xx_k` .

Вполне естественным решением является использование в качестве количественной меры эффективности (метрики производительности) интервальной величины

`hat mu^((k)) = [ min_(i in M^xx_k {k}) quad mu^((k))_i, quad max_(i in M^xx_k {k}) quad mu^((k))_i ]` , (1)

описывающей разброс средних выигрышей при использовании каждой из технологий, кроме базовой. В качестве скалярных характеристик эффективности можно использовать средний выигрыш по всем технологиям доступа, также кроме базовой,

`bar mu^((k)) = ( sum_(i in M^xx_k {k}) quad mu^((k))_i) / ( |M^xx_k| - 1 )` (2)

и/или критерий Гурвица [15]

`bar mu^((k))_gamma =gamma quad min_(i in M^xx_k {k}) quad mu^((k))_i quad + quad (1-gamma) quad max_(i in M^xx_k {k}) quad mu^((k))_i` , (3)

где `gamma` – коэффициент пессимизма, `0<=gamma<=1` .

Вместо метрик (1), (2), (3) на практике удобно использовать безразмерные величины:

`hat epsi^((k)) = (hat mu^((k))) / (mu_0)` , (4)

`barepsi^((k)) = (bar mu^((k))) / (mu_0)` , (5)

и

`bar epsi^((k))_gamma = (bar mu^((k))_gamma) / (mu_0)` , (6)

где `mu_0 = max_(k in M) quad max quad ( | "inf" quad hat mu^((k))|, quad | "sup" quad hat mu^((k)) |)` .

Использование метрик (4), (5), (6) особенно удобно при визуализации, так как `hat epsi^((k)) sube ["-1, 1"]` , `barepsi^((k)) in ["-1, 1"]` , `barepsi^((k))_gamma in ["-1, 1"]` , `k in M` , что позволяет эффективно вписать соответствующую диаграмму в фиксированный размер области построения.

При выборе метода визуализации метрик (4), (5), (6) следует сделать акцент на гносеологический аспект феномена, а именно на видение мира в новых формах, на преобразование трудно воспринимаемых сочетаний предметов и их свойств в более привычные для человека образы и представления [16, 17]. Учитывая структуру метрик, здесь особенно подходит такая разновидность диаграмм, как «радиальная (или сетчатая) диаграмма» [18]. Пример визуализации метрик (4), (5), (6) приведен на рис. 2.

ld0002time0002

Рис. 2. Диаграмма эффективности СКИ по временам задержки

На рис. 2: красная правильная многоугольная линия – граница эффективности; светло-зеленая область – зона задержек, соответствующих ситуации эффективности технологии; розовая область – зона задержек, соответствующих ситуации неэффективности технологии; треугольные метки, соединенные темно-зеленой линией, соответствуют значениям `bar epsi^((k))`; ромбовидные метки, соединенные фиолетовой линией, соответствуют значениям `bar epsi^((k))_gamma` в ситуации, когда коэффициент пессимизма `gamma=0.5`; числа внутри окружностей, определяющие в том числе площадь соответствующих кругов, – суть значения `N^xx_k`; `k in M`; число внутри центральной окружности – суть значение `N`.

Времена задержки не исчерпывают перечень характеристик эффективности и качества доступа к сетевым ресурсам. Большую роль играют характеристики разброса задержек. Рассмотрим подход к формированию метрик и визуализации разброса.

Проведем мысленный эксперимент. Пусть СКИ эффективна. Пусть, также, все точки доступа (в широком смысле, т. е. в смысле любой технологии) используют один канал доступа к ресурсам сети Internet, который при этом является идеальным источником трафика (без задержек и с ни чем не ограниченным быстродействием). Тогда, в условиях отсутствия конкуренции за точки доступа, идеальным пределом для графика обсуждаемой связи временных характеристик является прямая линия, лежащая в гиперплоскости размерности `| M^xx_k| - 1` , ортогональной координатной прямой, соответствующей технологии `k` . С другой стороны, если все технологии по временным характеристикам одинаковы, то, в условиях отсутствия отказов элементов всей системы телекоммуникаций, любое выборочное множество `{ Gamma^((k))_n}_(n in N^xx_k)` будет представлять шар рассеяния размерности `| M^xx_k |` . Рассмотрение этого мысленного эксперимента демонстрирует идеальное соответствие идей метода главных компонент нашей задаче формирования метрик производительности СКИ.

Вычислительная часть основной процедуры метода включают в себя формирование матрицы ковариации `Sigma^((k)) = [sigma_(ij)^((k))]_(i in M^xx_k, quad j in M^xx_k)` , где элементы матрицы вычисляются следующим образом:

`sigma_(ij)^((k)) = ( sum_(n in N^xx_k) quad (t_(i~n)-t_(0n)-mu^((k))_i) (t_(jn)-t_(0n)-mu^((k))_j)) / ( | N^xx_k | - 1)` , `i in M^xx_k` , `j in M^xx_k` .

Далее осуществляется нахождение собственных векторов `vec e^((k)(r)) = ( e^((k)(r))_i )_(i in M^xx_k)` и собственных чисел `lambda^((k)(r))` матрицы ковариации `Sigma^((k))` , `r=1, quad 2, quad ... quad, quad |M^xx_k|` .

Заметим, что матрица ковариации симметрична и, в общем случае, неотрицательно определена [19]. Если эта матрица вырождена, то выбирают произвольный ортонормированный базис собственных векторов. Он существует всегда, а собственные числа ковариационной матрицы всегда вещественны и неотрицательны. В нашем случае матрица ковариации практически всегда положительно определена. Соответственно собственные числа матрицы `Sigma^((k))` положительны. В этих условиях для нахождения собственных чисел и векторов матрицы удобно использовать метод Якоби [20]. Устойчивость и точность данного метода очень высоки. Кратные собственные значения получаются столь же точно, как и простые, а собственные векторы практически ортогональны друг другу.

Найденные собственные числа и векторы матрицы `Sigma^((k))` могут быть упорядочены таким образом, что `lambda^((k)(1)) >=lambda^((k)(2)) >= quad ... quadlambda^((k)(#M^xx_k)) >=0` . Здесь, с целью облегчения восприятия формул, использовано альтернативное обозначение для мощности множества: `#M=|M|` . В дальнейшем будет использоваться именно этот порядок собственных чисел и векторов.

Обратившись к рассмотренному ранее мысленному эксперименту легко сформулировать качественный критерий эффективности СКИ. Действительно, сосредоточенность рассеяния точек множества `{Gamma^((k))_n}_(n in N^xx_k)` вблизи гиперплоскости, ортогональной к оси, соответствующей технологии `k` , означает, что среди модулей скалярного произведения собственного вектора матрицы `Sigma^((k))` , соответствующего минимальному собственному числу, на координатные орты максимален модуль, соответствующий технологии `k` . Таким образом, этот критерий можно сформулировать следующим образом:

`"arg" max_(i in M^xx_k) quad | e^((k)(#M^xx_k))_i | = k` , `k in M^xx_k` . (7)

При этом важно, чтобы последнее собственное число было значимо меньше предпоследнего. В противном случае в подпространстве, порождаемом последними главными направлениями, возникает произвол с их выбором (выбором главных направлений или, иначе, собственных векторов). Эту ситуацию рассмотрим позже.

Принимая во внимание, что собственные числа ковариационной матрицы представляют собой дисперсии совокупности наблюдений вдоль главных направлений [13], то для проверки гипотезы `lambda^((k)(#M^xx_k-1)) quad > quad lambda^((k)(#M^xx_k))` можно использовать критерий Фишера [21]:

`(lambda^((k)(#M^xx_k-1))) / (lambda^((k)(#M^xx_k))) quad > quad F(alpha, quad |N^xx_k|-1, quad |N^xx_k|-1)` , (8)

где `F(alpha, quad n_1, quad n_2)``alpha` -квантиль распределения Фишера со степенями свободы `n_1` и `n_2` .

Критерий Фишера здесь применим, так как дисперсии по разным направлениям формируются разными технологиями доступа и могут рассматриваться как дисперсии независимых выборок. Это допущение тем правдоподобнее, чем сложнее технологии доступа и чем выше эффективность СКИ.

Рассмотрим теперь случай, когда несколько последних собственных чисел матрицы `Sigma^((k))` очень близки (незначимо, с вероятностью не более `alpha` , отличаются друг от друга):

`(lambda^((k)(#M^xx_k-l+1))) / (lambda^((k)(#M^xx_k))) quad <= quad F(alpha, quad |N^xx_k|-1, quad |N^xx_k|-1)` , `l=2, quad 3, quad ... quad, quad s_k` . (9)

Если `s_k=|M^xx_k|` , то ни о какой эффективности СКИ по разбросу временных характеристик говорить не приходится. Если `s_k quad < quad |M^xx_k|` , то аналогом критерия (7) может стать условие близости `s_k` последних собственных векторов матрицы и `k` -го координатного орта к линейной зависимости:

`G[vec e^((k)(#M^xx_k-s_k+1)), quad vec e^((k)(#M^xx_k-s_k+2)), quad ... quad, quad vec e^((k)(#M^xx_k)), quad (delta_(ik))_(i in M^xx_k)] quad < quadxi^2` , (10)

где `G` – определитель Грама [22], `delta_(ik) ={(1 if i=k),(0 if i!=k):}` – символ Кронекера, `xi` – пороговое значение, `0<=xi<1` . Геометрически соотношение (10) показывает ограниченность `(s_k+1)` -объема параллелепипеда, натянутого на вектора `vec e^((k)(#M^xx_k-s_k+1))` , `vec e^((k)(#M^xx_k-s_k+2))` , . . . , `vec e^((k)(#M^xx_k))` , `(delta_(ik))_(i in M^xx_k)` величиной `xi` .

Попробуем сформировать единый критерий, объединяющий критерии (7) и (10). Заметим, что целевая функция в соотношении (7) может принимать значения лишь из единичного отрезка:

`| e^((k)(#M^xx_k))_k | in ["0, 1"]` , `k in M^xx_k` ,

так как под знаком модуля стоит компонент единичного вектора. При этом ситуация с эффективностью СКИ тем лучше, чем ближе значение `| e^((k)(#M^xx_k))_k |` к единице. С другой стороны, левая часть соотношения (10) также принимает значения из единичного отрезка, так как соответствующий параллелограмм построен на ортогональных единичных векторах и еще на одном единичном векторе, ориентация которого определяет эффективность СКИ. При этом ситуация с эффективностью СКИ тем лучше чем ближе значение определителя Грама к нулю. То есть, здесь мы имеем обратную ситуацию. Для согласования этих двух критериев можно провести классическую аналогию между квадратом смешанного произведения векторов и определителем Грама, причем можно считать, что именно последний единичный вектор домножается скалярно на единичный вектор, ортогональный подпространству шара рассеяния. Иными словами, в двух рассмотренных случаях речь идет о скалярном произведении единичного вектора на два ортогональных орта на одной плоскости. Выберем шкалу: 0 – ситуация максимально благоприятствующая возможной эффективности, 1 – эффективность по рассеянию отсутствует. В этих условиях критерий возможной эффективности можно сформулировать следующим образом:

`eta_k ={(1 quad if s_k=|M^xx_k|),(sqrt(G[vec e^((k)(#M^xx_k-s_k+1)), quad vec e^((k)(#M^xx_k-s_k+2)), quad ... quad, quad vec e^((k)(#M^xx_k)), quad (delta_(ik))_(i in M^xx_k)]) quad if 1<s_k<|M^xx_k|),(sqrt(1-|e^((k)(#M^xx_k))_k|^2) quad if s_k=1.):}` (11)

Относительно показателя `eta_k` отметим, что сам он не определяет степень эффективности СКИ по разбросу, а лишь показывает степень доверия к показателям вида

`(hat zeta^((k)))^2 = [x_k, quad y_k]` , (12)

где

`x_k = ( min_(i in M^xx_k {#M^xx_k-s_k+1, quad #M^xx_k-s_k+2, quad ... quad, quad #M^xx_k}) quad lambda^((k)(i))) / (lambda^((k)(#M^xx_k))),`

`y_k=(max_(i in M^xx_k {#M^xx_k-s_k+1, quad #M^xx_k-s_k+2, quad, quad ... quad, quad #M^xx_k} ) quad lambda^((k)(i))) / (lambda^((k)(#M^xx_k)))`,

с центром

`(zeta^((k)))^2 = (sum_(i in M^xx_k {#M^xx_k-s_k+1, quad #M^xx_k-s_k+2, quad ... quad, quad #M^xx_k}) quad lambda^((k)(i))) / ((#M^xx_k-s_k) quad lambda^((k)(#M^xx_k)))` . (13)

Здесь также может быть использован критерий Гурвица:

`zeta^((k))_gamma=gammasqrt(x_k) + (1-gamma) sqrt(y_k)` , (14)

где `gamma` – коэффициент пессимизма.

Чем больше единицы критерии (12), (13), (14) в условиях близости показателя `eta_k` к нулю, тем выше эффективность СКИ по разбросу временных характеристик. Пример визуализации метрик (12), (13), (14) приведен на рис. 3.

ld0003var0001

Рис. 3. Диаграмма эффективности СКИ по разбросу временных характеристик

На рис. 3: круглые метки, соединенные фиолетовой линией, соответствуют значениям `eta_k` , внутренняя область соответствующего многоугольника залита светло-фиолетовым цветом; красная правильная многоугольная линия – граница эффективности; светло-зеленая область – зона разбросов, соответствующих ситуации эффективности технологии; розовая область – зона разбросов, соответствующих ситуации неэффективности технологии; треугольные метки, соединенные темно-зеленой линией, соответствуют значениям `zeta^((k))` ; ромбовидные метки, соединенные синей линией, соответствуют значениям `zeta^((k))_gamma` в ситуации, когда коэффициент пессимизма `gamma=0.5` , `k in M` . Остальные элементы диаграммы на рис. 3 совпадают с соответствующими элементами диаграммы с рис. 2.

В работе [9] в качестве иллюстрации эффективности СКИ использована проекция точек `{Gamma^((k))_n}_(n in N^xx_k)` на два главных направления. Однако, в свете данного исследования, представляется, что гораздо более информативными являются инструменты визуализации, представленные на рис. 2 и 3, а с точки зрения визуализации самого признакового пространства больший интерес представляют проекции на пары главных направления, такие, как последнее и с первого по главное направление с номером `#M^xx_k-s_k` , см рис. 4.

ld0004cl0001

Рис. 4. Визуализация признакового пространства

На рис. 4 на каждом фрагменте изображения: синие точки – наблюдения; красная точка – это проекция начала координат признакового пространства на выбранную плоскость; красная стрелка – проекция орта, соответствующего используемой технологии, на эту же плоскость.

Заключение

В данной работе был предложен ряд метрик производительности систем доступа к ресурсам сети Internet в условиях множества альтернативных базовых технологий доступа. Были предложены соответствующие вычислительные технологии, а также предложен инструментарий визуализации, как исходных данных, так и разработанных метрик производительности.

Дальнейшие исследования метрик производительности систем доступа к ресурсам сети Internet в условиях множества альтернативных базовых технологий предполагается продолжить в следующих направлениях:

1) исследование возможности использования предложенных метрик производительности для оценки качества WEB-приложений [23];

2) исследование возможности и целесообразности привязки диаграмм производительности к различным инструментам геоинформационных систем [24];

3) модификация разработанных инструментов визуализации для обеспечения режима не только статического, но и корректного динамического отображения результатов в условиях произвольных изменений изображения диаграмм (как прогресса, так и регресса показателей качества функционирования) на основе механизмов сегментации [25];

4) использование предложенной методики визуализации для сравнительной оценки эффективности эксплуатации произвольных метасистем [26] с одинаковыми или близкими целями функционирования в условиях вероятностной неопределенности состояний внешней среды;

5) исследование возможностей использования систем когнитивного интернета как составной части систем дистрибуции точного времени с первичными часами, расположенными в сети Internet, в рамках решения задач оптимального структурного синтеза сетей [27].

Библиография
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
References
1.
2.
3.
4.
5.
6.
7.
8.
9.
10.
11.
12.
13.
14.
15.
16.
17.
18.
19.
20.
21.
22.
23.
24.
25.
26.
27.
Ссылка на эту статью

Просто выделите и скопируйте ссылку на эту статью в буфер обмена. Вы можете также попробовать найти похожие статьи


Другие сайты издательства:
Официальный сайт издательства NotaBene / Aurora Group s.r.o.